行儀の悪いクローラのアクセスを禁止する

2007/06/15

パーマリンク 23:16:25, 著者: Charlie

行儀の悪いクローラのアクセスを禁止する

「全信協クローラ」というものだそうですが、今日は3分の間に84回もGET要求を送ってきました。ほぼ同時に3つもリクエストするわ、同じURLを繰返し要求するわ、robots.txtは見ないわで、クローラとしての仁義(^^;)をわきまえない困ったちゃんです。
#xxxxのついたままのURLでリクエストするのもおかしいですね。

排除されにくいように、非固定IPアドレスで運用しており、UserAgentは「Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)」を名乗っています。

void GraphicWizardsLair( void ); //の情報を参考にして、リファラが空でWindows 98を名乗った要求にはForbidden 403を返すようにしてみました。.htaccessなりhttpd.confに設定を追加してみます。

[◇◇◇]

RewriteEngine on
RewriteCond %{HTTP_REFERER} ^$
RewriteCond %{HTTP_USER_AGENT} "^Mozilla/4.0 \(compatible; MSIE 6.0; Windows 98\)$"
RewriteRule ^.*$ / [F,L]

ところで、このクローラはWebの情報を収集してメールアドレスを拾って歩いてスパムメールの宛先リストを作っているそうです。Webページの数は爆発的に増えているというのに、同じページを何度も取りにいくような効率の悪いクローラではなかなか集まらないんじゃないかと要らぬ心配をしてしまいました。

この記事へのトラックバック アドレス

http://blog.mura.com/blogs/htsrv/trackback.php/110

コメント, トラックバック, ピンバック:

この投稿への コメント/トラックバック/ピンバック はまだありません...

コメントを残す:

頂いたメールアドレスはこのサイト上には表示されません
頂いたURLは表示されます。

使用可能な XHTML タグ: <p, ul, ol, li, dl, dt, dd, address, blockquote, ins, del, span, bdo, br, em, strong, dfn, code, samp, kdb, var, cite, abbr, acronym, q, sub, sup, tt, i, b, big, small>
(改行が自動で <br /> になります)
(名前、メールアドレス、URLを記憶する Cookie を発行します)
(ユーザがメッセージ・フォームを通してあなたに連絡することを許可します (あなたのメール・アドレスは表示されません))

Charlie's volatile short

3月 2010
 << <   > >>
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

リンク

  • ありくい - ブログが手軽に書けます。ボタン一つでコンテンツマッチ・アフィリエイトが挿入できるブログツール「どこでもありくい」も提供中。
  • glucose2 - ブログをたくさん読むならRSSリーダー
  • エンジニア募集中 [Perl, PHP, JavaScript][SOHO, アルバイト可]

  • ブログ之ネタ [ブロガー御用達ポータル]

  • rico [PV改善,サイト内SEO,ブログパーツ]

アーカイブ

検索

いろいろ

XMLフィード

RSSとは?

オンラインユーザ一覧

  • ゲスト ユーザ: 2

powered by
b2evolution