自然言語処理をやさしく紹介するブログ

2007/06/14

パーマリンク 20:04:33, 著者: Charlie

自然言語処理をやさしく紹介するブログ

言語工学研究所国分社長のブログは読みごたえがあります。 結構ヘビーな自然言語処理の技術話を、ちょっとずつ分かりやすく紹介されています。

[◇◇◇]

アルファベット言語圏で研究開発が進んだサーチエンジンは、「文書は単語の集まりだ」って考えるものが多かったのです。英語は空白・記号で単語の切れ目がはっきりしているから、あまり苦労なく単語に分解できるからですね。

一方日本語を単語に分解しようとすると、辞書が必要になります。新語とか、異表記の同義語が沢山あるので、辞書はメンテナンスが大変です。で、最近は文字単位でマッチングを取る検索システムもオープンソースで登場しています。

文字単位のマッチングだと、「京都」で検索すると「東京都」がhitするとかいう問題があるので、辞書をきっちりメンテして単語で扱うことを求められるユースケースもありますからね。言語工学研究所の「デジタル類語辞典」は定期的に更新されているので凄いです。
研究でよく使われている茶筅(ChaSen)のIPADICは2003年くらいで更新が止まってますが、 無償で利用できる新しい辞書はもう出てこないんでしょうかね。

この記事へのトラックバック アドレス

http://blog.mura.com/blogs/htsrv/trackback.php/109

コメント, トラックバック, ピンバック:

この投稿への コメント/トラックバック/ピンバック はまだありません...

コメントを残す:

頂いたメールアドレスはこのサイト上には表示されません
頂いたURLは表示されます。

使用可能な XHTML タグ: <p, ul, ol, li, dl, dt, dd, address, blockquote, ins, del, span, bdo, br, em, strong, dfn, code, samp, kdb, var, cite, abbr, acronym, q, sub, sup, tt, i, b, big, small>
(改行が自動で <br /> になります)
(名前、メールアドレス、URLを記憶する Cookie を発行します)
(ユーザがメッセージ・フォームを通してあなたに連絡することを許可します (あなたのメール・アドレスは表示されません))

Charlie's volatile short

2月 2012
 << <   > >>
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      

リンク

  • ありくい - ブログが手軽に書けます。ボタン一つでコンテンツマッチ・アフィリエイトが挿入できるブログツール「どこでもありくい」も提供中。
  • glucose2 - ブログをたくさん読むならRSSリーダー
  • エンジニア募集中 [Perl, PHP, JavaScript][SOHO, アルバイト可]

  • ブログ之ネタ [ブロガー御用達ポータル]

  • rico [PV改善,サイト内SEO,ブログパーツ]

アーカイブ

検索

いろいろ

XMLフィード

RSSとは?

オンラインユーザ一覧

  • ゲスト ユーザ: 3

powered by
b2evolution