(1:12) 今日は有給を取った。
最後の一日。
E が体調が悪そうだったのと、ぼく自身睡眠不足だったというのもあって。
(睡眠不足は自分のせいだけど)
(また簡繁変換をやっていた)
簡繁変換はようやく目処が立った。
ルールを作って、ルール同士を戦わせてレートをつけて、そのレートに従って訓練データのタグ付けをして有用でなかったルールを排除して、という流れで(意味不明)(あまり他人が読んでわかるように書いてない)、それなりにコンパクトなデータで99.8%の変換ができるようになった。
しかし、データが汚いので、それによる間違いがけっこうある。
データをクリーンアップしたら99.9%ぐらいまではいけるはず。
というわけで、95%で訓練して5%のタグ付けをしてチェックするということを繰り返して、訓練データ全体をきれいにする予定。
だいぶ目で見る必要があるけど…。
終わったら繁簡のほうもやらないといけないし(だいぶ簡単なはずだけど)、その後は変換プログラムをJavaScript等で書かないといけないし(現状はPerl)、まだまだ任重道遠だ。
(中国語に触れているので中国語の成語が出てくる)
(昔は日本語でも任重くして道遠しというように使っていたとか)
マチクさんのブログを購読した。
いろいろ試行錯誤中なんだと思うけど、いい感じになってくれたらいいな。