2007/06/15

パーマリンク 23:16:25, 著者: Charlie

行儀の悪いクローラのアクセスを禁止する

「全信協クローラ」というものだそうですが、今日は3分の間に84回もGET要求を送ってきました。ほぼ同時に3つもリクエストするわ、同じURLを繰返し要求するわ、robots.txtは見ないわで、クローラとしての仁義(^^;)をわきまえない困ったちゃんです。
#xxxxのついたままのURLでリクエストするのもおかしいですね。

排除されにくいように、非固定IPアドレスで運用しており、UserAgentは「Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)」を名乗っています。

void GraphicWizardsLair( void ); //の情報を参考にして、リファラが空でWindows 98を名乗った要求にはForbidden 403を返すようにしてみました。.htaccessなりhttpd.confに設定を追加してみます。

...

RewriteEngine on
RewriteCond %{HTTP_REFERER} ^$
RewriteCond %{HTTP_USER_AGENT} "^Mozilla/4.0 \(compatible; MSIE 6.0; Windows 98\)$"
RewriteRule ^.*$ / [F,L]

ところで、このクローラはWebの情報を収集してメールアドレスを拾って歩いてスパムメールの宛先リストを作っているそうです。Webページの数は爆発的に増えているというのに、同じページを何度も取りにいくような効率の悪いクローラではなかなか集まらないんじゃないかと要らぬ心配をしてしまいました。

この記事へのトラックバック アドレス

Trackback URL (right click and copy shortcut/link location)

フィードバックはまだありません...

コメントを残す


Your email address will not be revealed on this site.
(改行が自動で <br /> になります)
(For my next comment on this site)
(Allow users to contact me through a message form -- Your email will not be revealed!)
8月 2020
 << <   > >>
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          

リンク

最近の記事

アーカイブ

検索

XMLフィード

powered by open-source CMS software