サーバに負荷をかける検索ロボット(クローラー)にアクセス制限をかけた!

【この記事の所要時間 : 約 3 分

Baiduspiderのアクセスを拒否する

ここ最近、サーバーの負荷が突然高くなることが何度かあり、おかしいと思ってログを調べてみたところ、「Baiduspider+(+http: //www.baidu.com/search/spider.htm)」というユーザーエージェントのアクセスが大量にあることが判明。
さっそくググってみたところ、このBaiduは中華系のサーチエンジンロボットだとか。中華系サーチエンジンロボットからの大量アクセスなんてリソースの無駄遣いにしかならないので、さっそくアクセス拒否しました。

これと似たような事例が発生したので、同じようにして、Baiduspiderのアクセス制限をかけました。
MSNとは別物のMSRBOTにもアクセス制限をかけました。
httpd.conf で以下のように設定。

SetEnvIf User-Agent "Baiduspider" ROBOT nolog
SetEnvIf User-Agent "MSRBOT" ROBOT nolog
<VirtualHost **********>
    ServerAdmin ********@***********
    DocumentRoot *****************
    ServerName ***************
    ServerAlias *************
    ErrorLog *****************
    CustomLog ********************
    <Directory /***********>
        Order allow,deny
        Allow from all
        Deny from env=ROBOT
    </Directory>
</VirtualHost>

以下、参考までに。
apacheにおいて同時接続数(MaxClients)をいくつに設定すべきか?

検索エンジンはなぜ見つけるのか
森大二郎
日経BP社
売り上げランキング: 173,898
スポンサーリンク
レクタングル(大)広告
  • このエントリーをはてなブックマークに追加
スポンサーリンク
レクタングル(大)広告

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です