Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出
固有表現 (Named Entity) の抽出かな? (非WebAPIのツールだとCaboChaとか) と思って
「ただの名詞より東京タワーのような固有名詞の方が点数が高見沢」
で試してみたら
固有名詞 100
高見沢 92
東京タワー 59
点数 53
だった。(TF・)IDF?
アイトラッキングから検証した、使いやすいフォームの10のポイント @ コリス電話や郵便番号の入力は、ユーザーを悩ませます。(略)
あらゆるフォーマットの入力を受け付けるように設定してください。
「あらゆる入力を受け付ける」は難しいとしても、未だに「住所の番地は全角で入力してください」とかほざくシステムが多いのは以下のような打算がサービス提供者に働くからだと思う。
表現の許容度が高いオープンソースの入力用ライブラリが定石として普及すればいいんでしょうが、日本語・日本の制度向けのは寡聞にして知らないですね。
「01/02/03」って日付の解釈はいろいろできるとか(平成元年のつもりかもしれない)いうのは情報処理・言語処理の分野で長年研究されているようですが(分野名としては情報抽出; Information Extraction)。形態素解析のライブラリはあるのにね。
関連記事