09/09 - takeda25の日記

(1:15) まだちょっと寒気がする。

今日はプールには行かないで、スポーツクラブの風呂とサウナだけ入ってきた。

今日はまたアラビア語の母音記号付与をやってみた。

トレーニングデータの中に母音記号のついていないところがあったりして面倒だった。

今回の件で実感したのは、どのエディタでもRTL文字の対応というのはまともにできていないということ。

EmEditor も Atom も、どちらもそれぞれ問題が多い。

カーソルで範囲指定して文字を選択するということすら難しい。

まあ、RTL 文字圏、中でもアラビア語圏はいろいろと独特なところがあるからなぁ。

母音記号付与は文字 9-gram を使ってやってみたが、どうも思うように精度が出ない。

単語単位で見ると 83% ぐらいの正解率しかない。

言語的直観が働かないので、これ以上はどうしようもない。

N-gram というモデルがうまくフィットしないのか（アラビア語の形態的変化は複雑だと聞いている）、それともトレーニングデータとテストデータでドメイン違いがあるのか（これのデータを使ったのだが、訓練データは主に古典イスラム文学から取られているという。徒然草の日本語で訓練して現代日本語の読み仮名を振るようなことをしているのかもしれない）（元論文では NEMLAR Written Corpus という形態素解析済み均衡コーパスも使っている）（自分で買っちゃおうかなぁ）（個人で買うなら Commercial-Research の 250ドルでいけるだろうか）（そういえばぼくは 21万円出して BCCWJ を買ったけど後悔はしていない）。

アラビア語の母音記号付与に N-gram は向いていないとすると、どういうタスクがいいだろうか。

振り出しに戻ってしまった。

日本語のかな漢字変換にはけっこういいというのがわかっているが、かな漢字変換はインタラクティブにやるので文節とかそのへんをちゃんとやらないといけない。

昔、動詞の活用語尾とかを考えてやろうとしたのだが、途中でやめてしまった。

「なにがしたいの」が「某隊の」のようになってしまった記憶がある。

それでは使い物にならない。

動詞の活用のあたりで確率がおかしくなったか…。

まあ、とりあえずはちゃんと中韓の処理をやろう。

ちょっと遊びすぎた。

今日の夜は疲れていたので数学とプログラミングの勉強をサボって進撃の巨人13巻（韓国語版）を読んだ。

複数の外国語を同時進行でやるのはよくないと思うんだけど。

アラビア語は身につくんだろうか…。