2010
Mar
10

htaccessでお帰りいただこう

どうしてこう中華のクローラはお下品なんでしょうね。
先日もNokia3108/1.0 (03.01) Profile/MIDP-1.0 Configuration/CLDC-1.0という携帯電話(?)か何かのUserAgentを名乗る謎のクローラがrobot.txtを一度も読むことなく、そしてディレイ無しの短時間アクセスという頭の悪い暴れ方していきましたね。悪名高き「百度」のクローラも最近だいぶマシになったようですが…どのみちあちらの国からのアクセスは不要。

さて、こういうクローラには早々お帰りいただくためチョット危険ですがhtaccessでこんな設定をしてみました。

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} (Baidu|Yeti|yodao|Tasap|Qihoo|Sogou|Sosospider|YoudaoBot|Daumoa) [NC]
RewriteRule !robots\.txt$ http://%{REMOTE_ADDR} [R,L]

いわゆるオウム返しというやつで、robot.txt以外にアクセスしたらクローラ自身のIPアドレスにリダイレクトさせちゃいます。効果は・・・どうでしょうかね。
ちなみに百度の場合だと、百度のトップページにリダイレクトするようです。他は調べてない。

そして先日暴れたクローラ用には下記のオウム返しを追加して様子見。

RewriteCond %{HTTP_USER_AGENT} Nokia3108
RewriteCond %{REMOTE_ADDR} ^115\.238\.
RewriteRule . http://%{REMOTE_ADDR} [R,L]

Response

Trackback URI
Add your comment
 (必須)
 (必須) (非公開)

いくつかのスタイル指定用 HTMLタグが使用できます。

Gravatar