読者です 読者をやめる 読者になる 読者になる

11/08

(1:22) いつものように書くことのない一日。

生活のどこを探してもコンテンツ性のかけらもない気がする…。

 

最近、ドイツ語の複合語問題をけっこう長いことやっている。

(複合語とはという問題があるけど)

 

ドイツ語は、ほかの言語では複数単語で表されるようなものが一単語になることが多い。

Bevölkerungsentwicklung(Bevölkerungs-Entwicklung、人口増加)とか。

こういうのは全部辞書に登録するわけにはいかない。

「人口増加」みたいな、それでもよく出てくるやつならいいけど、「ペンギンの卵」みたいなやつも何でも一単語になってしまう。

 

それで、こういうのをサブ単語? に分割しようとすると、切りたくない単語まで切れてしまう。

駅(Bahn-Hof)、病院(Kranken-Haus)、冷蔵庫(Kühl-Schrank)とか。

こういうのを切ってもうれしくない…。

しかし、切りたくないやつと切りたいやつの間に明確な境界は存在せず、程度問題でしかない…。

 

この問題を解決するのに、切ったやつを切る前のやつをニューラル的なやつに放り込んでよしなにやってもらうというのがうまくいくとかなんとかそんな話は聞いたけど。

まあ、ぼくのタスクは切ることなので、そのあたりはしょうがない…。

 

ぼくがやっているのはサブタスクなので、どういう切り方がいいか、そもそもなぜ切るのか、あたりははっきりしていない。

(まあ、未知語が出ないように切るというのは確かなのだが)

(Bahnhof を Bahn-Hof に切ることがどれだけ「悪い」のかは不明)

 

考えがまとまらない…。