Baidu.jp 不自然言語処理コンテスト間違っていても読める、読みづらく書きづらいのに使われている、あるいは短くて書きやすいけど知らない人には伝わらない表現-このような不自然なことばは、検索エンジンを作るBaiduにとっては、ちょっと厄介な存在です。
そこで、最良の検索エンジンの提供を志すBaiduでは、このような言葉を「不自然言語」と名付け、これによりまっすぐ向き合うべく、「Baidu.jp 不自然言語処理コンテスト」を開催いたします。
検索避けで「//」を間に入れるとか、「ネ申」とか書いているのを、検索サービス側としては何とか検索できるようにしたい、と考えているわけですが、そのための知恵を公募しちゃおうというもののようです。
(2010-06-29追記)
コンテストのサイトで紹介されている「ァタシ」の例はWikipediaでギャル文字として紹介されているもので、「みさなん こんちには!」は/.-Jで
にんんげ は もじ を にしんき する とき その さしいょ と さいご の
もさじえ あいてっれば じばんゅん は めくちちゃゃ でも ちんゃと
よめる という けゅきんう に もづいとて
わざと もじの じんばゅん を いかれえて あまりす。
と紹介されているもののようです。Charlieが勉強した頃には情報検索というとまだ図書館の蔵書検索のようなものがメインだったので、「検索対象の情報は誤字脱字が少ない」という前提の処理ばかりでした。当時からあったのは、送り仮名の揺れとか平仮名を「ひらがな」と書いたりといった表記の揺れを吸収する研究とか、OCR(スキャナなんかで画像にした文書からテキスト・データに変換)処理したときに認識誤り(ゼロとオーとか、漢字の「くち」とカタカナの「ろ」とか)があっても検索できるようにする研究とかですね。後者を発展させれば「ネ申」とかギャル文字を検索できるようになってるはずなんですが、今はまだそこまでたどり着けていないようですね。
http://blog.mura.com/blogs/htsrv/trackback.php/1430
この投稿への コメント/トラックバック/ピンバック はまだありません...
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
|---|---|---|---|---|---|---|
| << < | > >> | |||||
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | |||