8/24

(23:57) また遅くなった。

いったんプレースホルダとしてテキストを入れておく。

(ばかげた習慣だ、日付が変わってからでも前日の日付の日記が書けるかどうか調べたほうがいいんじゃないか)

 

(0:32) A社(やっぱりぼかす)を受けようかということで、ほこりをかぶっていた N-gram かな漢字・漢字かな変換(C++版) を引っ張り出して、以前翻訳した「変身」を漢字かな変換してみた。

(結局あれは支払い最低金額に行くこともなく埋没してしまったが、著作権を気にせず使える現代日本語テキストが手に入ったという意味はあった)

 

MeCab の結果

N-gram 漢字かな変換の結果

比較結果(diff+目で見てユニークなものを数え上げ)

 

MeCab のほうがいい箇所:63箇所

N-gram 漢字かな変換のほうがいい箇所:52箇所

どちらも良い or どちらもダメ:23箇所

 

うーん、MeCab よりずっと大規模なコーパス(BCCWJ)を使っているにしては残念な結果だ。

傾向として見ると、N-gram 漢字かな変換には次のような問題がある。

  • なぜか発音表記(つずく、いーきかせる)になっているところがある(全部ではない)
  • 連濁ができていない箇所(うわさはなし、はなしこえ等)が多い。

MeCab の問題点は次の通り。

  • 数字の絡むものに弱い(ひとり→いちにん、ふつか→ににち、いっぽん→いちほん等)

気になったのは、N-gram 漢字かな変換のほうで変なミスが出ていること。「背もたれ」→「そむもたれ」とか。「背ける」の読みからだろうけど、コーパス自体には「背もたれ」は多く出てきているのに。

何かがおかしい。

N-gram 漢字かな変換では、コーパスに出てくるものは愚直に再現されるのが長所でもあり短所でもあるのに。

そのうちデバッグしてみよう。

 

履歴書は明日書く予定。