ネット上に書き込まれた「面白い」「嫌い」といったテレビドラマへの感想から次週の視聴率の上下を高い確度で予測することに(略)成功した。
(略)分析から得られた予測と実際の視聴率を比べると、最大70.7%の確率で視聴率の上下を当てることができた。
ドラマの視聴率、ブログで予測 NTT研究所など @ asahi.com
論文を読んでないので間違った解釈かもしれませんが、 「上がるか下がるかの2択の正解率70%」って、体感では思ったほど当たるように感じないかもしれません。
その昔、多湖 輝の頭の体操にもありましたが、2択の問いに対して20%しか予言が当たらない占い師と70%当てられる占い師のどちらがすごいかと言えば、20%の方なのです。なぜなら、彼が言ったことの反対になる確率が80%もあるからです。もし2択の選択肢が50/50の確率で起こるのなら、当てずっぽうに言っても半分は当たるので、50%当たる予言というのは実は何も意味がないのです。それでは「よく当たる」と感じる時の確率とはどのくらいなのでしょう。
...
身近な例として天気予報を調べてみました。 気象庁の予報(雨が降るかどうかの短期予報)の的中率は年間平均でおおむね80%近く、 2006年の東京の予報は84.4%だったそうです。 天気予報が「よく当たる」と感じられるかは人によって違うでしょうが、 目安になると思います。
情報学的な検証をすると、50/50の現象を70%の確率で言い当てるのは約0.49ビット分の情報になります。100%当てるとちょうど1ビットになりますから、その半分というところ。道半ばというところでしょうかね。
ぜひ頑張って改良をしていただいて、上下だけでなく数値で予想するような(天気で言ったら気温がそうですね)精度まで持っていくことを期待します。
ちなみに、スパムフィルタやサーチエンジンは、砂浜に落ちてる真珠を拾うようなケースなので話が違ってきます。スパムがちょこちょこと通り抜けるのは諦めるけれど、本当に読みたいメールがブロックされたら困るでしょ? サーチエンジンはWeb向けには適合率重視(GoogleのI'm Feeling Luckyに代表される、一つでいいから正解を確実に見つけるという方向性)だけれども、 デスクトップサーチや既存特許との競合調査には再現率重視(洩れがあっては困るというほう)という感じでチューニングがされています。
外部リンク
Trackback URL (right click and copy shortcut/link location)