Googlebotが大量に来て高負荷になるってほんとか?

【この記事の所要時間 : 約 3 分

アクセス解析をしていると、Googleのクローラー(Googlebot)が大量に来ていることがわかる。
apachelogstatistics.gif
全アクセスの約50%がGoogleのクローラーで、約10%がYahooのクローラーという状況。
Googlebot がたくさんくる

CEEK.JP NEWS に Googlebot が大量に着てます。どれくらい着ているかというと、もうそれはすごい。昨日の search.cgi へのアクセス数は、全体で 12389 でした。うち、クローラーである Googlebot のアクセス数は、なんと 9475 もありました。つーことは、検索の 76% が Googlebot なわけですよ。

というようなサイトなどもある。
Perl、PHPでGooglebotを一定の確率ではじく

「動的生成ページへのGooglebot(Googleのクローラ)のアクセス数が多すぎてサーバに負荷がかかりすぎる問題」に悩まされています。robots.txt の Crawl-delay は効かないし[2007-03-21-1]、Googleウェブマスターツールでクロール率を低く設定してもある回数よりも下がらないしで困っていました。アクセス禁止にすれば完全解決なのですが、それにより検索されなくなるのはファインダビリティが下がって嫌なので、とりあえずランダムで 503 を返すことで対処しました。

というサイトもある。
それに対して、何してんだ!と指摘しているのが・・・某有名ブロガー。
404 Blog Not Found – クローラーのアクセスを「まとめる」

これ、503返す前にもう一度アクセスログを見た方がいいと思う。

404 Blog Not Found – 動的コンテンツのpermalink

静的コンテントのように動的コンテントのフォーマットを拡張子で示すというのもなかなかいいアイディアだと思う。これはTwitter APIが活用している。確かに
a. http://www.example.com/dynamic.cgi?keyword=foobar&format=baz
b. http://www.example.com/dynamic/foobar.baz

と並べて書くと、誰が見ても–そう、検索エンジンが見ても — b.の方が心地よい。今後の動的コンテント生成は、a.を受け入れつつ、なるべくb.に移行するというのがよいのではないか。

とのこと。
または、以下のように指摘する人もいる。
Junnama Online – 503を返すとか返さないとか言う前に。

負荷云々の前に、まずきちんとHTTP_HEADERで攻防をしてから。
負荷軽減のポイントは
* HEADリクエストへの対応
* ステータス304を適切に返す
の2点か。

ふむふむ。
動的コンテンツは、静的コンテンツに比べて、事前に考えておかなければならないことが多いなあ~。
以下、参考までに。
apacheにおいて同時接続数(MaxClients)をいくつに設定すべきか?

スポンサーリンク
レクタングル(大)広告
  • このエントリーをはてなブックマークに追加
スポンサーリンク
レクタングル(大)広告

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です