「行儀の悪いクローラのアクセスを禁止する」で全信協のクローラにアク禁を出したのが一か月前。今度は別のが来ていたので、仕方なく拒否ルールを増やしました。
UserAgentは「Mozilla/5.0 Gecko Firefox」と、ブラウザを装っています。 HEAD要求を出して直後にGET要求を出す、というのを繰り返していて15秒の間に約30リクエストを投げてきました。URL換算だと1秒に1つですね。これを断続的に繰り返していました。
UserAgentが特徴的(バージョン無しのFirefoxなんて本当のブラウザならありえなさそう)なので、早速前回の記述の後ろに規則を追加します。
...
RewriteCond %{HTTP_USER_AGENT} "^Mozilla/5.0 Gecko Firefox$"
RewriteRule ^.*$ / [F,L]
これが良く分からないクローラで、トップページと、それに関係するcss&画像だけ漁ってまた同じことの繰り返し。サイトのサムネイル画像を作るためとか?
ちなみに、百度(baidu)のクローラーはお断りでも取り上げられている百度(Baiduspider+)は、うちの場合Yahoo! Slurpと同じくらいの頻度のようです。
Trackback URL (right click and copy shortcut/link location)