02/19 - takeda25の日記

(23:52) 流動性案件の内容に変化が見られた。

ひょっとすると泥沼関連のほうに行ける（？）かもしれない。

機械翻訳の嫌なところは、何をどうやっても本質から遠すぎるというところだ。

人間が言語を処理するのと同じように処理するわけじゃないから、根本的なところで機械には言語がまったく理解できていない。

アナロジーで、よく「空を飛ぶ機械を作るとき、鳥と同じように羽ばたかせる必要はない」というようなことを言ったりする。

しかし、言語処理に関してはこれはあまり適切なたとえではないように思える。

というのは、「空を飛ぶ」というタスクに対して鳥と飛行機は同等な立場だが、「言語を処理する」というタスクに対して人間とコンピュータは同等ではないからだ。

言語は、人間同士のコミュニケーションの手段として発達したものだ。

コンピュータで言語を処理するにしても、「人間の役に立つようにする」という最終目標が常にある。

飛行機にとっては鳥の真似をする必要がないが、言語処理をするコンピュータにとっては人間の脳の真似ができたらそれ以上のことはない。

しかし、コンピュータに人間の脳の真似をさせるというアプローチは現状では技術的制約から望みが薄い。

そのため、機械翻訳を暗号の復号のようにみなしてモデルを作ったりしているのだが、それは根本的なところで人間が翻訳を行うときのプロセスと違いすぎる。

人間は、意味（それが何であれ）を理解したうえで翻訳をするのに対して、コンピュータはそれができないので、どれだけシステムを作り込んでも、ある程度の確率でひどい翻訳を出してきたりする（Google 翻訳でもそうだ）。

その限界の中で少しでもいい結果にしようと頑張っている人はすごいと思うけれど…。

ぼくは言語そのものに関わりたいという気持ちが強いので、それが邪魔になる。

もっとも、機械翻訳の中でも、形態素解析・構文解析といった低レベルな部分ならぼくも興味を持てる。

というのは、人間もファーストパスでは機械と似たような形態素解析・構文解析をしていると思える（その証拠に、紛らわしい文では意味の通らない空目をしたりする）からだ。

単純な N-gram の形態素解析でも、それが言語処理の本質からそれほど離れているとは思わない。

しかし、暗号を復号するように翻訳をするというのは、それとはまったく違う話だ。

それで、たとえば8割はうまくいくのかもしれない。

もっと頑張ったら、たとえば 85%ぐらいまでうまくいくようになるかもしれない。

でも、どうしても壁にぶち当たる。

その営みに、どれだけの意味があるんだろう？