2010
Mar
16

robots.txtで勘違いしていたこと

検索エンジンを制御するrobots.txt。
これでDisallowに指定されたURLは検索エンジンのデータベースに登録されないものだと思ってました。
しかし実際にはそうではなく検索エンジンにクロールさせない、そして内容のキャッシュを作成させないだけ。つまりクローラに対して「進入禁止」と「持ち出し禁止」を指示するだけであって「その場所を登録するな」というものではない。

セキュリティ上インデックスされるのは良くないとされるページも、内容は登録されないがその場所のURLは登録される。
例えばWordPressのログインページ「wp-login.php」もデフォルトでnoindexが指定されているが、その場所のURL http://www.example.com/wp-login.php 等が検索すればズラりとでてくる。
私のサイトでもContactのページもrobots.txtで制御しているがURLは登録されてしまっているわけで、スパマーが「contact」をURL検索したならそこにメールフォームやメールアドレスが記載されている場所であることを知らせることになるかもしれない。

これらを削除するにはGoogleならウェブマスターツールの削除リクエストで90日間は削除されるそうです。Yahoo!のサイトエクスプローラーも削除機能があったはず。または何処からもそのページにリンクを張らないこと。あるいはクローラに対して存在しないかのように404ステータスを返すかhtaccessでアクセス禁止にすればいいと思う。どれも面倒ですけどね。
ページの存在が見つかれば検索エンジンはrobots.txtに従って進入はしないしキャッシュの作成もしないが、そこにページがあることは記録していくでしょう。
Google の検索結果に表示されないようにする - ウェブマスター ツール ヘルプ

URLだけ検索に載せて何かメリットあるのかな・・・。

Response

Trackback URI
Add your comment
 (必須)
 (必須) (非公開)

いくつかのスタイル指定用 HTMLタグが使用できます。

Gravatar