「全信協クローラ」というものだそうですが、今日は3分の間に84回もGET要求を送ってきました。ほぼ同時に3つもリクエストするわ、同じURLを繰返し要求するわ、robots.txtは見ないわで、クローラとしての仁義(^^;)をわきまえない困ったちゃんです。
#xxxxのついたままのURLでリクエストするのもおかしいですね。
排除されにくいように、非固定IPアドレスで運用しており、UserAgentは「Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)」を名乗っています。
void GraphicWizardsLair( void ); //の情報を参考にして、リファラが空でWindows 98を名乗った要求にはForbidden 403を返すようにしてみました。.htaccessなりhttpd.confに設定を追加してみます。
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^$
RewriteCond %{HTTP_USER_AGENT} "^Mozilla/4.0 \(compatible; MSIE 6.0; Windows 98\)$"
RewriteRule ^.*$ / [F,L]
ところで、このクローラはWebの情報を収集してメールアドレスを拾って歩いてスパムメールの宛先リストを作っているそうです。Webページの数は爆発的に増えているというのに、同じページを何度も取りにいくような効率の悪いクローラではなかなか集まらないんじゃないかと要らぬ心配をしてしまいました。
http://blog.mura.com/blogs/htsrv/trackback.php/110
この投稿への コメント/トラックバック/ピンバック はまだありません...
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
|---|---|---|---|---|---|---|
| << < | > >> | |||||
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 | |||