Adobeが提案しているAIRに含まれているHTMLLoaderは、Googleの高速ブラウザChromeでも使われているWebKitというエンジンを使っています。 また、JavaScriptのベンチマークもそこそこ速いという結果が出ており、プログラマの良い箱庭になりそうな期待を抱かせます。
ところが実際にこれで簡易ブラウザを作ってみると、なんだかもっさりとしているのです。特にLinuxで動かした時、ページのレンダリングがなかなか完了しません。 Firefox 2で10秒くらいかかるページは、AIRだと1分近くCPU負荷100%の状態が続きます。
一体何が足を引っ張っているのか……疑問に思ったので調べてみると、何とも冗長な処理が見付かりました。
自分の考えたアイデアを内緒にしたがるひと @ はてなポイント3万を使い切るまで死なない日記言い出しっぺの承認欲求が満たされないから、他人と協力して成功する(他人の手柄になる)よりも、独りで失敗する or アイディアを葬るという選択肢(自分のアイディアで他人が手柄をあげない)を選ぶのではないかと思う。
Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出
固有表現 (Named Entity) の抽出かな? (非WebAPIのツールだとCaboChaとか) と思って
「ただの名詞より東京タワーのような固有名詞の方が点数が高見沢」
で試してみたら
固有名詞 100
高見沢 92
東京タワー 59
点数 53
だった。(TF・)IDF?
アイトラッキングから検証した、使いやすいフォームの10のポイント @ コリス電話や郵便番号の入力は、ユーザーを悩ませます。(略)
あらゆるフォーマットの入力を受け付けるように設定してください。
「あらゆる入力を受け付ける」は難しいとしても、未だに「住所の番地は全角で入力してください」とかほざくシステムが多いのは以下のような打算がサービス提供者に働くからだと思う。
表現の許容度が高いオープンソースの入力用ライブラリが定石として普及すればいいんでしょうが、日本語・日本の制度向けのは寡聞にして知らないですね。
「01/02/03」って日付の解釈はいろいろできるとか(平成元年のつもりかもしれない)いうのは情報処理・言語処理の分野で長年研究されているようですが(分野名としては情報抽出; Information Extraction)。形態素解析のライブラリはあるのにね。
関連記事