言語工学研究所の国分社長のブログは読みごたえがあります。 結構ヘビーな自然言語処理の技術話を、ちょっとずつ分かりやすく紹介されています。
...
アルファベット言語圏で研究開発が進んだサーチエンジンは、「文書は単語の集まりだ」って考えるものが多かったのです。英語は空白・記号で単語の切れ目がはっきりしているから、あまり苦労なく単語に分解できるからですね。
一方日本語を単語に分解しようとすると、辞書が必要になります。新語とか、異表記の同義語が沢山あるので、辞書はメンテナンスが大変です。で、最近は文字単位でマッチングを取る検索システムもオープンソースで登場しています。
文字単位のマッチングだと、「京都」で検索すると「東京都」がhitするとかいう問題があるので、辞書をきっちりメンテして単語で扱うことを求められるユースケースもありますからね。言語工学研究所の「デジタル類語辞典」は定期的に更新されているので凄いです。
研究でよく使われている茶筅(ChaSen)のIPADICは2003年くらいで更新が止まってますが、
無償で利用できる新しい辞書はもう出てこないんでしょうかね。
Trackback URL (right click and copy shortcut/link location)