07/27

(23:46) 今日は予定通り引っ越しの手伝いの人に来てもらって、粛々と準備が進んだ。

今では家の中は段ボールだらけ。

明日は、午後 1〜3時あたりに引っ越し屋さんが来てくれるそうだ。

それまでに車止めの鍵をもらいにいかないと。

(今日もらいに行ったら休みだった)

 

今日の午後はブログ記事を書いた。

「はく」の表記について。

 

国会図書館に行っていたのはこの件。

旧版の辞書を主に見ていた。

 

用例については全部ネットで。

まず Google Books で OCR 結果を検索し、それから対応する写本を近代デジタルライブラリーや大学のサイトで確認するという感じ。

明治時代に出版された本で「穿く」となっていても、江戸時代の写本を見ると「着(は)く」になっているということもあって、油断ができない。

こういうのを研究する人は大変だなぁと思う。

 

しかし、長期的にはすべての資料がデジタル化・テキスト化されてほしいところ。

今回、テキストと画像を対照させた今昔物語集のデータがあってだいぶ助かった。

資料は有限なので、いつかは全部テキスト化が完了すると思うんだけど。

 

ところで、本もそのうち印刷されることはなくなって、全部電子書籍になったりするんだろうか。

そうなると、現代語書籍の完全テキスト化も、いつかは終わる作業ということになる。

しかし、こちらはどう考えても気が遠くなるな…。

 

今のところ、フリーの OCR にはろくなものがない。

Google が持っている OCR エンジンを公開してくれたら、だいぶ世界の役に立ちそうなところだけど。

最近、PDF レンダラーはオープンソース化したところだし。

しかし、Google はいいことをしようという気持ちはあるものの、どういうタイミングで何をするかというのはわからない。

 

そういえば、OCR エンジンの話は前にもらったことがあった。

オープンソースの糞エンジンを改良して一年で商用並みのレベルに持っていくとかいうお花畑な話だったから、結局そのまま流れたけど。

そういうことは、もうちょっと真面目に長期計画としてやったほうがいいんじゃないだろうか。

機械翻訳より、よっぽど役に立つと思うのだが…。

 

記事のほうは、勢いはないけれどじわじわブクマが増えている。

頑張って書いたかいがあった。

(といっても、アフィリエイトは雀の涙なので、ほぼ純粋な自己満足だ)

 

さて、寝よう。

今日は自室のエアコンが取り外されたため、リビングで寝ることになる。

ほかのメンバーは隣の部屋(エアコンの空気が届く)で寝ている。

明日は荷物の積み込みをして、夜は京都のホテルに泊まる。

あさっては新居の荷物の運び込み。

忙しくなるな。