03/29

(1:12) 今日は有給を取った。

最後の一日。

E が体調が悪そうだったのと、ぼく自身睡眠不足だったというのもあって。

(睡眠不足は自分のせいだけど)

(また簡繁変換をやっていた)

 

簡繁変換はようやく目処が立った。

ルールを作って、ルール同士を戦わせてレートをつけて、そのレートに従って訓練データのタグ付けをして有用でなかったルールを排除して、という流れで(意味不明)(あまり他人が読んでわかるように書いてない)、それなりにコンパクトなデータで99.8%の変換ができるようになった。

しかし、データが汚いので、それによる間違いがけっこうある。

データをクリーンアップしたら99.9%ぐらいまではいけるはず。

というわけで、95%で訓練して5%のタグ付けをしてチェックするということを繰り返して、訓練データ全体をきれいにする予定。

だいぶ目で見る必要があるけど…。

終わったら繁簡のほうもやらないといけないし(だいぶ簡単なはずだけど)、その後は変換プログラムをJavaScript等で書かないといけないし(現状はPerl)、まだまだ任重道遠だ。

(中国語に触れているので中国語の成語が出てくる)

(昔は日本語でも任重くして道遠しというように使っていたとか)

 

マチクさんのブログを購読した。

いろいろ試行錯誤中なんだと思うけど、いい感じになってくれたらいいな。