2008/01/09

パーマリンク 04:34:22, 著者: Charlie

ウィキアサーチの透明性でうれしいことって?

これぞGoogleキラー?Wikipedia創始者らの手による検索エンジン公開@日経BP ITproでは、

(1)透明性(2)コミュニティー(3)品質(4)プライバシー、という4つの原則を掲げている。このうち、Googleに代表される既存の検索エンジンと一線を画すのが(1)と(2)だ。(1)の透明性は、検索システムやアルゴリズムを公開することで、検索結果の妥当性や信頼性を高めようとするもの。そして(2)のコミュニティーは、さまざまな人がWikia Searchの開発に貢献できる仕組みを用意することを示す。

と説明しているが、とりあえず透明性については疑問。
アルゴリズムやシステム(って何を指す?)が公開されていれば何がどううれしいのかというところが。とりあえず3つ想像してみる。

  1. 似非SEOに対抗して、ユーザの望む情報が得られやすくなる。
  2. 検索サービスの提供者やそこに圧力を掛ける人々の経済的政治的理由による偏向を排除して、ユーザの望む情報が得られやすくなる。
  3. アルゴリズムの欠陥などによって、人間の直観とは異なる検索結果が生じた時に、原因を公開できる

以下、一つずつに疑問を投げてみる。

...

似非SEOに対抗するという意図だとしたら、「社内の限られた開発者で対策考えるより、世界中の人に考えてもらった方が良いアイディアが出る確率が高いよね」っていう話だと思う。でも、専門の研究をしている人を雇ってアイディアを出させるGoogle, Yahoo, Microsoftの方式に比べてどれだけ有利なのかなぁ。

あと、昨日の記事でも書いたように、似非SEOを検出するアルゴリズムを改良していっても、普通のサイトを誤検出したり、似非SEOをスルーする確率は0にはならない。 だから、間違いの率をできるだけ下げるようにパラメータを設定するのだけれど、 非公開のときはパラメータを探るために似非SEO屋が自爆(ブラックリストに記録される)覚悟でWeb上で行なっていた試行錯誤が、コードを読めば(あるいは自前のサーバでシミュレーションしてみれば)よくなってしまうので、似非SEO側に有利になっている気もする。コードは公開するけれども、運用時のパラメータは非公開、とかいう公開鍵暗号みたいな方式はありか。

今度はもう一つの可能性、いわゆる「Google八分」への対策と考えてみる。 コードを公開し、さらにWikipediaと同様に、削除やランキング操作のポリシーを公開して、削除にあたっては過程を記録するとする。
でも、全てのWebページを対象とするならば事典と違って検証可能性は確保しようがないので、ポリシーに沿った運用というのがすごく難しいと思う。
また、俗に言う「Google八分」は、例えばGoogle自体が自分のライバル会社であるYahooやMicrosoftのサイトをフィルタリングするとかいう無邪気な話ではなくて、国とか他の企業とか何かの組織・団体とかの要請でフィルタリングすることの危うさのことで、 それはポリシーを掲げるだけでは解決できない。
フィルタリングの要請は法律や訴訟の形でやって来ることもあるので、透明性は対策として機能しないと思う。アドバンテージがあるとすれば、「××国の法律に則ってフィルタリングします」「○○団体による名誉既存の訴えによりフィルタリングします」などの報告がしっかり行なわれるだろう、ということか。

さて最後に、原因不明のおかしな検索結果 () が生じた時に、原因究明を公開で行ない、陰謀説を防ぐことができて安心、という可能性。
残念ながら、アルゴリズムが公開されていても原因究明はできないことが多いだろうし、原因究明できても陰謀説を好む人達は信じない。
なぜなら、膨大な索引情報の中から問題の再現に必要な分だけデータを引っ張り出すなんてことは誰でも可能にはしないだろうし(そんなことしたらネットワークがパンクする)、自分で検証する力のない or 他人の検証報告を読んでも理解できない多くの利用者にとって、サービス提供者が「意図的な操作はしていません」と言うのと、 どこの誰だか知らない検証者が言うのとの間に大した違いはないから。

このように、3つの可能性の中では、検索結果の妥当性や信頼性が透明性によって確保できるというのが説明できないのですよ。もっと別の形の信頼性があるということですかね?

外部リンク

この記事へのトラックバック アドレス

Trackback URL (right click and copy shortcut/link location)

2 コメント

コメント from: 福澤@ウィキア [訪問者] メール
福澤@ウィキアウィキアサーチのにご興味持っていただいてありがとうございます。

「透明性」というのは、それこそデータも何もかも共有し、議論などを経て検索エンジンを「作っていく」ということです。Jimmy自身、「これは検索エンジンのプロジェクトじゃない、検索エンジンを"作る"プロジェクトだ」といっていますし。

そういう点では、今、検索結果の国際化などに付いてオープンに話にあっています。よろしかったら、ご参加ください。
2008/01/10 @ 11:30
コメント from: Charlie [メンバー] メール
Charlie

福澤さん、はじめまして。

> 「透明性」というのは、それこそデータも何もかも共有し、議論などを経て検索エンジンを「作っていく」ということです。

はい、検索エンジンをオープンなプロジェクトで開発することのメリットを、「検索結果の妥当性や信頼性」とだけ言ってしまっているITproの解説に満足できなかったということでして、透明性にメリットがないと言うつもりはなかったです。

勝手にメリットを考えてみますと、例えば 他のプロジェクトから多種多様な粒度で援用できる(かもしれない)点でしょうか。
GoogleやYahoo!が提供しているWeb APIでは、Web検索はできても任意の文書ストックを対象にした検索に使えるようにはならないし、形態素解析APIも、単語を追加できない。コードがオープンなWikia Searchなら、好きなデータを入れることができる。これはいろんな開発者にとって大きなメリットとなるでしょう。

> 検索結果の国際化

Googleはここ1,2年、日本語の言語処理にかなり力を入れてきましたね。 その昔は「佐々木」の「々」が単語区切り文字扱いとかいう状態で、gooが独自に表記揺れ対応技術をかぶせたりしていましたが、今はかな漢字の揺れまでGoogle自体で対応するようになってきました。
Wikia Searchが、Googleに比肩するような日本語処理の品質を短期間に獲得できたら、オープンなプロジェクトの有効性を実証できたことになるのではないかと期待しています。

2008/01/10 @ 15:26

コメントを残す


Your email address will not be revealed on this site.
(改行が自動で <br /> になります)
(For my next comment on this site)
(Allow users to contact me through a message form -- Your email will not be revealed!)
5月 2022
 << <   > >>
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

リンク

最近の記事

アーカイブ

検索

XMLフィード

powered by b2evolution free blog software