(1:08) 今日は N-gram 変換を触っていた。
韓国語の分割のため。
元から切れているところはその情報を生かすようにしようと思うと手直しが必要なので、それをやっていた。
試行錯誤していたので時間がかかった。
それにしても、仕事? をしていてどうも不安がある。
いまやっている韓国語の分割は、韓国語を形態素的に深く分析するための前処理として考えているんだけど、そのことの意義とか、それが本当に必要なのかとか、そういうことについてあまり対話がない。
まあ、好きにできるという意味ではいいんだけど、「営利企業的な目的指向性」の欠如(修飾範囲を明確にするためのカギ括弧)がどうも落ち着かない。
まあ、そのおかげで N-gram 変換という怪しげなことができているからいいんだけど。
この N-gram 変換というのは、動的計画法的に N-gram のノードを残して、最低コストのパスを選ぶというもの。
性能は出るんだけど、どうもこのアルゴリズムは素性(すじょう)(NLP では素性は普通「そせい」だけど、ここでは「すじょう」)が不明なところがある。
自明な動的計画法っぽいんだけど、どこかの論文に書いてあるのかどうかとか。
ぼくの立場としては、これは修士のころに考えたアイデアで、無職時代に実装したんだけど、普段論文を読まないので新規性があるかどうかがわからない。
K電社にいたころ、いいアイデアだと思って使っていたものが、後からそれがブルームフィルタといういにしえの時代に発見されていたものだと知ったことがあるので、慎重になっている。
しかし、すでにあるならあるで、その論文をちゃんと読んでおかないといけないところだ。
ブルームフィルタのときも、自分のアイデア(フィルタを別々に持つ)よりも洗練されていた(フィルタをひとつのまとめる)。
…なんて書いているうちに、結局 1時半を回ってしまった(1:38)。
早く寝ないと。
今日はスペイン語のレッスンを受けた。
妻との喧嘩についても話した。
まあ、ごくダイジェストだけど。
さて、このぐらいで寝る。