2007/06/14

パーマリンク 20:04:33, 著者: Charlie

自然言語処理をやさしく紹介するブログ

言語工学研究所国分社長のブログは読みごたえがあります。 結構ヘビーな自然言語処理の技術話を、ちょっとずつ分かりやすく紹介されています。

...

アルファベット言語圏で研究開発が進んだサーチエンジンは、「文書は単語の集まりだ」って考えるものが多かったのです。英語は空白・記号で単語の切れ目がはっきりしているから、あまり苦労なく単語に分解できるからですね。

一方日本語を単語に分解しようとすると、辞書が必要になります。新語とか、異表記の同義語が沢山あるので、辞書はメンテナンスが大変です。で、最近は文字単位でマッチングを取る検索システムもオープンソースで登場しています。

文字単位のマッチングだと、「京都」で検索すると「東京都」がhitするとかいう問題があるので、辞書をきっちりメンテして単語で扱うことを求められるユースケースもありますからね。言語工学研究所の「デジタル類語辞典」は定期的に更新されているので凄いです。
研究でよく使われている茶筅(ChaSen)のIPADICは2003年くらいで更新が止まってますが、 無償で利用できる新しい辞書はもう出てこないんでしょうかね。

この記事へのトラックバック アドレス

Trackback URL (right click and copy shortcut/link location)

フィードバックはまだありません...

コメントを残す


Your email address will not be revealed on this site.
(改行が自動で <br /> になります)
(For my next comment on this site)
(Allow users to contact me through a message form -- Your email will not be revealed!)
8月 2020
 << <   > >>
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          

リンク

最近の記事

アーカイブ

検索

XMLフィード

powered by open-source CMS software