08/26

(1:35) 今日も遅くなった。

 

毎日スペイン語と韓国語の勉強をしているからよくないのかもしれない。

役に立たないのに。

 

そういえば、外国語というのは人間に奇妙なコンプレックスを引き起こすものだということを思い出した。

国語学習は、母国語を学ぶのと違って適性によって大きな差があるとはいえ、誰にでもできる。

それなのに、人間は「外国語ができる」ということを非常に高く評価しているようだ。

特に、権威のある言語について(日本で言えばドイツ語やフランス語など)。

 

ぼくが外国語をやっているのは、半分は趣味で、半分は保険のようなものだ。

保険というのは、就職などに関しての。

ぼくはプログラマとしては中途半端だけど、それと外国語を組み合わせることによって希少度が上がるんじゃないかと。

生存戦略〜。

 

でも時々、予想していなかった効果として、外国語が「自分が虚栄心カードで勝てない人間に対する切り札」として働くということに最近気がついた。

というのは、ちょっとした機会で人生勝ち組の人間と話す機会があったからだ。

もう数か月前のことだけど。

 

そのころぼくは、ライン工としてみじめな生活を送っていた。

そこに、ある人が「仕事のことで相談したい」みたいなことを言ってきて、それで会うことになった。

 

結果としてその人の仕事のことでは助けになれなかったけれど、そのときの雑談などから漂ってくる勝ち組臭がすごかった。

一流大学から一流企業に入って、いいところに住んで、幸せな家庭を営んでいるというアピール。

人脈などもすごくて、その一流大学から一流の場所に行った友達の話などを聞かされた。

 

まあ、ぼくは根っからの負け組だからそれはいいんだけど、途中で面白いことに気がついた。

流れで外国語の話になると、あからさまにその話題を避けるのだ。

ぼくが外国語ができるという話になると、その人の優越感を満足させる儀式の進行に差し障りがあるからのように感じた。

 

こういう感覚を利用すると、いくら自分が負け組になっても、勝ち組の劣等感を引き起こす切り札を一枚持っていることになる。

これはいいかもしれない。

(でも、よく考えると相手の劣等感を引き起こしてもいいことは何もない)

 

しかし、そういう用途で考えると、日本で圧倒的に使えるのは、上で書いたようにフランス語とドイツ語だ。

この二つは一応やったことはあるけど、どちらも長い間放置している。

(イタリア旅行のついでにジュネーブに行ったとき、フランス語で話しかけたら英語で返されるということがよくあった)

でも、その目的で外国語をやるのは不純すぎるな…。

 

そういえば、いまスペイン語をやっているのは、ライン工時代にイタリア語をやっていて、そのときライン工である自分の人生に危機感を覚えて、もうちょっと就職市場で有利に働きそうな言語にフォーカスしたほうがいいと思って変えたからだった。

しかし、それを言うなら、中国語をもっと磨いたほうがいいに決まってるな…。

(今はやっていない)

 

話は変わって。

今日はまた、韓国語の区切りを N-gram 変換でやった。

 

最終的にうまくいって、精度はほぼ99%になった。

しかし、N-gram 変換では、大きなモデルにするとだいぶ時間がかかってしまう。

2000文に 12秒もかかる。

これはあまり実用的ではないなぁ…。

 

漢字変換に使ったときは、人間の反応速度を考えて、1文1秒近くかかってもいいという感じでやっていたけど、大量に処理するとなるともうちょっと速くなってほしい。

でも、モデルを小さくすると精度も落ちるし。

 

CRFSuite のほうでもやってみたところ、精度は 98.5% だった。

こっちのほうが圧倒的に速い。

精度も、実用的にはこれで十分かもしれない。

 

だいたい、文区切りは CRF のような判別モデルでできるので、生成モデルの N-gram がそれほど活躍できない。

応用としては、OCR音声認識といった、言語モデルが生かせそうなところだけど、どちらもぼくは素人だ。

OCR はやる話があったけど、そもそもレイアウト解析とかそういったところを考えると気が遠くなるしな…。

言語モデルのところだけできたらいいんだけど。