Charlie's volatile short

「(オン・メモリを前提とするアーキテクチャのDBで)実メモリを超えたデータをどうやって扱うのか？」という問題に『1GBの物理メモリで10GBのデータを扱う』という意味で「1:10問題」と命名している。だけど、これって「ワン・テン」が語呂がいいからという理由かしらん? 意図としては1:2でも1:1000でも1:256でもよいはずで。

メモリを増やして対処するというアプローチの実例として、64GBだか96GBのメモリを積んだサーバでsuffix arrayを処理しているというのを聞いたことがある。だいぶ大容量かつ安価になってきたSSDを使った構成とで、速度やコストの比較を知りたいなぁ。

カテゴリ: コンピュータ, 検索と情報アクセス, Web屋さん向け

パーマリンクコメントを残す » • トラックバック送信 »

2010/06/23

10:13:00, 著者: Charlie

「不」自然言語処理コンテスト。グランプリは賞金10万円。

Baidu.jp 不自然言語処理コンテスト
間違っていても読める、読みづらく書きづらいのに使われている、あるいは短くて書きやすいけど知らない人には伝わらない表現－このような不自然なことばは、検索エンジンを作るBaiduにとっては、ちょっと厄介な存在です。
そこで、最良の検索エンジンの提供を志すBaiduでは、このような言葉を「不自然言語」と名付け、これによりまっすぐ向き合うべく、「Baidu.jp 不自然言語処理コンテスト」を開催いたします。

検索避けで「//」を間に入れるとか、「ネ申」とか書いているのを、検索サービス側としては何とか検索できるようにしたい、と考えているわけですが、そのための知恵を公募しちゃおうというもののようです。
(2010-06-29追記)
コンテストのサイトで紹介されている「ｧﾀｼ」の例はWikipediaでギャル文字として紹介されているもので、「みさなんこんちには！」は/.-Jで

にんんげはもじをにしんきするときそのさしいょとさいごの
もさじえあいてっればじばんゅんはめくちちゃゃでもちんゃと
よめるというけゅきんうにもづいとて
わざともじのじんばゅんをいかれえてあまりす。

と紹介されているもののようです。Charlieが勉強した頃には情報検索というとまだ図書館の蔵書検索のようなものがメインだったので、「検索対象の情報は誤字脱字が少ない」という前提の処理ばかりでした。当時からあったのは、送り仮名の揺れとか平仮名を「ひらがな」と書いたりといった表記の揺れを吸収する研究とか、OCR(スキャナなんかで画像にした文書からテキスト・データに変換)処理したときに認識誤り(ゼロとオーとか、漢字の「くち」とカタカナの「ろ」とか)があっても検索できるようにする研究とかですね。後者を発展させれば「ネ申」とかギャル文字を検索できるようになってるはずなんですが、今はまだそこまでたどり着けていないようですね。

カテゴリ: ぶくま殿, 検索と情報アクセス

パーマリンクコメントを残す » • トラックバック送信 »

2009/06/04

00:31:42, 著者: Charlie

海外のサイトで、「zip code (必須)」の入力欄に7桁入力できなくて困ることない?

アイトラッキングから検証した、使いやすいフォームの10のポイント @ コリス
電話や郵便番号の入力は、ユーザーを悩ませます。(略)
あらゆるフォーマットの入力を受け付けるように設定してください。

「あらゆる入力を受け付ける」は難しいとしても、未だに「住所の番地は全角で入力してください」とかほざくシステムが多いのは以下のような打算がサービス提供者に働くからだと思う。

入力の許容度を上げるのは、エラーにしてしまうよりコストがかかる。
住所の入力等はサービスの主要機能ではない。たいてい住所や電話番号を入力するのは、買い物の精算中とか会員登録なんかの「ここまで来たのに今さらやめられるか」というタイミングなので、多少面倒でも続ける人がほとんど。
コストをかけても売上げに良い影響はない(だろう) → それなら別に凝らなくていいや。

表現の許容度が高いオープンソースの入力用ライブラリが定石として普及すればいいんでしょうが、日本語・日本の制度向けのは寡聞にして知らないですね。
「01/02/03」って日付の解釈はいろいろできるとか(平成元年のつもりかもしれない)いうのは情報処理・言語処理の分野で長年研究されているようですが(分野名としては情報抽出; Information Extraction)。形態素解析のライブラリはあるのにね。

関連記事

カテゴリ: .bash_history, プログラミング, 検索と情報アクセス

パーマリンクコメントを残す » • トラックバック送信 »