(0:52) 今日は(わずかに)早めに日記を書き始めた。
1:30までには寝るという堅い意思。
今日も仕事は退屈な作業だったけど、とりあえずひと段落した。
また形態素解析とかについて考え始めよう。
まあ、ルートとしてはやっぱりKyTeaと同じく二段階かな。
でも、どちらの段階でも高次CRFを使ってみたいところ。
(区切りに関しては、特にあまり高次の素性は効かないのかもしれないけど)
でも、KyTeaと違って辞書形を復元する方向でやってみたい。
「私の名前は中野です」なら、一段階目で「私 の 名前 は 中野 です」と切った後に、例えば「中野」に対して「人名」のエントリを持ってくるか「地名」のエントリを持ってくるか判別することになる。
(そうそう、高次 CRF はスパースなラティスを組むから「中野」専用ラベルみたいなことがやりやすい)
(もっとも、それは普通の1次CRFでもやり方によってはできるはず)
で、辞書形を復元するとなると比較対象は MeCab だ。
(手法は KyTea に近いけど)
(二段階に分けるという意味で)
(CRF という点では MeCab と共通だけど、MeCab の CRF はこれまで書いてきたようにあまりにも独特だ)
(もっとも、KyTea でもやり方によっては辞書形を復元するようにできるはず)
(しかし、自分のものでない KyTea でそこまで工夫をする倫理的義務を感じない)
(KyTea で辞書形を復元するほうが高次 CRF よりも総合的によいということはありうるけれど、それは KyTea の関係者に任せるところだろう)
というわけで、MeCab を BCCWJ のコアデータで訓練した精度と比較できるようにしたい。
で、ここで問題になるのが、コアデータをどうやって訓練とテストに分けるかというところ。
すごく些細なところだけど、決めないといけないので面倒だ。
何か確立した決め方はあるかなとつぶやいたら、森先生が昔使ったのがあると言ってくれた。
ありがたい。
まあ、MeCab 越えが簡単にできるとは思わないけれど、MeCab はあまりにも速度重視で未知語処理がうまくいかないところがある(特に長いカタカナに弱い)(というか、それが今回 MeCab をそのまま使わない動機)ので、富豪的にやれば(機械翻訳などでは形態素解析は富豪的にやっても問題ない)その点で上回る望みはあるはず。
それにしても、どうもぼくは考えがとっちらかってしまってよくない。
文字にすると多少マシになるけど。
(この日記もその目的)
職場でも、もうちょっとノートとかを活用していきたい。
子供がちょっと熱を出した。
といっても、それほど高くはないのでしばらく様子見をすることになった。
E が病院に連れて行くという場合を考えて、明日はぼくは原付通勤にしようかな。
子供はだいぶぼくに近づいてくるようになったけど、目的はだいたい iPad かノートPCだ。
(最近、MacBook Pro という意味ではあまり「地球」と言っていない)
(20万円という地球一個分ぐらいの価値のあるものだという意識が薄れている)
(日常的に使うからそんなものだろうか)
今日は E が夜 8 時からフィリピン英語レッスンを受けていたけど、子供はしばらく E がいないと寂しがって泣き出す。
そうなると iPad も PC も何も役に立たない。
ぼくが抱いても泣くだけだし。
(うちの子供はアスペっぽいので、寂しがる心があるという意味ではいいことだ)
(もっとも、アスペにも一般的に寂しがる心というのはあるものなんじゃないだろうか)
(ぼくにもある)
テーマ別日記、今日はまた「親愛なる……」。
自分の人生に欠かせない、大切な存在を思い浮かべる——自分の伴侶、親友、家族など。(中略)相手に短い手紙を書き、どれほど愛しているか、自分の人生にどれほど力をあたえられたかを伝える。
いや、もうネタ切れなんですけど…。
伴侶は E しかいないし(当たり前)、家族といっても(E 以外は)子供しかいないし(「家族」というキーワードで子供時代に家にいた生物学的家族のことが頭をよぎったけれど、少なくとも大切ではない)、親友というのも…。
まあ、やっぱり前に日記に書いた R ちゃんかなぁ。
今は音信不通だけど。
「R ちゃん、変人だった(今でもだけど)ぼくに対して優しく接してくれてありがとう。
今でも感謝しています。
また会いたいな。」
R ちゃんとは大学卒業後連絡が途絶えていたけど、だいぶ後になって御堂筋線の中でばったり出会って、それからまた連絡を取るようになって、2年前ぐらいまで会ったりしていたのに、何の前触れもなしに急にまた連絡が取れなくなってしまった。
どうしてるんだろうなぁ。