言語工学研究所の国分社長のブログは読みごたえがあります。 結構ヘビーな自然言語処理の技術話を、ちょっとずつ分かりやすく紹介されています。
アルファベット言語圏で研究開発が進んだサーチエンジンは、「文書は単語の集まりだ」って考えるものが多かったのです。英語は空白・記号で単語の切れ目がはっきりしているから、あまり苦労なく単語に分解できるからですね。
一方日本語を単語に分解しようとすると、辞書が必要になります。新語とか、異表記の同義語が沢山あるので、辞書はメンテナンスが大変です。で、最近は文字単位でマッチングを取る検索システムもオープンソースで登場しています。
文字単位のマッチングだと、「京都」で検索すると「東京都」がhitするとかいう問題があるので、辞書をきっちりメンテして単語で扱うことを求められるユースケースもありますからね。言語工学研究所の「デジタル類語辞典」は定期的に更新されているので凄いです。
研究でよく使われている茶筅(ChaSen)のIPADICは2003年くらいで更新が止まってますが、
無償で利用できる新しい辞書はもう出てこないんでしょうかね。
http://blog.mura.com/blogs/htsrv/trackback.php/109
この投稿への コメント/トラックバック/ピンバック はまだありません...
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
|---|---|---|---|---|---|---|
| << < | > >> | |||||
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | |||