Charlie's volatile short

日常をとりまくあれこれ

2007/06/14

20:04:33, 著者: Charlie

自然言語処理をやさしく紹介するブログ

言語工学研究所の国分社長のブログは読みごたえがあります。結構ヘビーな自然言語処理の技術話を、ちょっとずつ分かりやすく紹介されています。

...

アルファベット言語圏で研究開発が進んだサーチエンジンは、「文書は単語の集まりだ」って考えるものが多かったのです。英語は空白・記号で単語の切れ目がはっきりしているから、あまり苦労なく単語に分解できるからですね。

一方日本語を単語に分解しようとすると、辞書が必要になります。新語とか、異表記の同義語が沢山あるので、辞書はメンテナンスが大変です。で、最近は文字単位でマッチングを取る検索システムもオープンソースで登場しています。

文字単位のマッチングだと、「京都」で検索すると「東京都」がhitするとかいう問題があるので、辞書をきっちりメンテして単語で扱うことを求められるユースケースもありますからね。言語工学研究所の「デジタル類語辞典」は定期的に更新されているので凄いです。
研究でよく使われている茶筅(ChaSen)のIPADICは2003年くらいで更新が止まってますが、無償で利用できる新しい辞書はもう出てこないんでしょうかね。

カテゴリ: ぶくま殿, 業界動向

パーマリンク