ニュースサイトとウェブ魚拓のキャッシュ

【この記事の所要時間 : 約 2 分

先日、あるニュースサイトのウェブ魚拓を取ろうとしたところ以下のような画面になった。
gyotaku_cache.gif
「robots.txtによってキャッシュが禁止されており取得できません。」とのことで、調べてみると、

キャッシュの取得を禁止するにはどうすればいいですか?
以下の3つの方法のどれかを行うことでキャッシュの取得を禁止できます。
(1) 以下のMETAタグをHEADタグ内に書く
<meta name="robots" content="noindex,nofollow">
(2) ルートディレクトリにrobots.txtを設置して、”Megalodon”が取得不可能なパスを指定する
なお、robots.txtはキャッシュしておりますので、変更が反映されるまで長くて3日かかります。
(3) ウェブサイトオーナーとして削除依頼を行い、その際にキャッシュ禁止登録のチェックボックスをONにする

とのことみたい。
朝日、読売、産経、毎日のニュースサイトのrobots.txtを調べてみたところ読売だけ上記のような措置を取っているみたいだった。

スポンサーリンク
レクタングル(大)広告
  • このエントリーをはてなブックマークに追加
スポンサーリンク
レクタングル(大)広告

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください