(0:57) 今日も体調悪いまま出勤した。
しんどい。
今は急ぎのタスクがないので、高次 CRF による品詞タグづけをやっている。
KyTea では区切り→単語ラベル付けの二段階だけど、高次 CRF を使う場合は区切り→品詞タグ付け→単語ラベル付けの三段階がいいんじゃないかと思っている。
というのは、ラベル同士の関連性を生かそうと思うと、(単語の語彙素のように)あまりラベル数が多すぎるとうまくいかないから。
三段階目の単語ラベル付けは、普通に最大エントロピーモデルでいけるんじゃないだろうか。
けっこう小さいデータセットでもある程度いい感じになった。
後は、既知語についてはデコード時に辞書のラベルに限定するという処理を入れたいところ。
(最初は訓練時に限定しようとしていたけど、それをやると計算が破綻するようだ)
体調、ほんとに回復しない。
寒気がする。