08/27

(11:58) 今日は予定通り、N-gram 漢字カナ変換のデバッグをしようとした。

しかし、見るとこれは @gologo13 さんの言語モデル配布ページ から取ってきた BCCWJ の言語モデルを基に作ったやつだ(忘れてた)。

 

最初はこのデータを使って N-gram 漢字カナ・カナ漢字変換を作ったんだけど、動詞活用を考えた変換をさせたいということで 21万出して BCCWJ を自分で買って、それでカナ漢字変換(漢字カナはなし)を作ったんだった。

漢字カナも動詞の活用を考慮してやるべきか。

直感的には、漢字カナは活用なしでやったほうがよさそうに思える。

 

漢字カナのほうも BCCWJ の元データから作り直そうかな。

そのほうがいろいろ自由が利く。

やっぱり活用はなしで。

また、@gologo13 さんのやつは超短単位だけど、作り直すとしたら普通に BCCWJ の単位でやろう。

ただ、BCCWJ は独特な作りだから、データから元表記とカナ表記のペアを作るのがちょっと面倒なんだよな。

特に活用語の場合。

「発音形出現形」はあるけれど、「カナ出現形」がない。

たとえば「多い」の活用形「多く」の場合、原文文字列の「多く」と発音形出現形の「オーク」はあるけれど、「オオク」がない。

用途にもよるけれど、たとえば振り仮名などに使うのは「オオク」のほうでないとまずい。

カナ漢字変換で使うのも「オオク」のほうだ。

まあ、発音形出現形を基に、語幹は語彙素読みと、語尾は原文文字列と照らし合わせたらほとんどの場合はうまくいくと思うけど。

それでうまくいかない場合もあるだろうか。


(1:38) 寝る。