03/27

(0:57) 今日も体調悪いまま出勤した。

しんどい。

 

今は急ぎのタスクがないので、高次 CRF による品詞タグづけをやっている。

KyTea では区切り→単語ラベル付けの二段階だけど、高次 CRF を使う場合は区切り→品詞タグ付け→単語ラベル付けの三段階がいいんじゃないかと思っている。

というのは、ラベル同士の関連性を生かそうと思うと、(単語の語彙素のように)あまりラベル数が多すぎるとうまくいかないから。

三段階目の単語ラベル付けは、普通に最大エントロピーモデルでいけるんじゃないだろうか。

 

けっこう小さいデータセットでもある程度いい感じになった。

後は、既知語についてはデコード時に辞書のラベルに限定するという処理を入れたいところ。

(最初は訓練時に限定しようとしていたけど、それをやると計算が破綻するようだ)

 

体調、ほんとに回復しない。

寒気がする。