ウェイバックマシン(Internet Archive)からアーカイブを消去する

ブログ

前書き

ネット上にあるサイトをアーカイブし、既に消されたサイトや、過去のサイトを閲覧することが出来るサービスであるWaybackmachine

一見便利そうなサービスですが、サイト運営者にとっては未完成のページや、既に消したブログ記事などを見られてしますのでそこそこ厄介なサービスです。少なくとも自分は厄介だと思ってます

調べてみたら自分のサイトも数回保存されていたので今回はWaybackmachineに保存されたアーカイブを消去していこうと思います。

消去の依頼をメールで送る

一番手っ取り早いのは直接運営者にメールで消せと送ることです

注意点としては

  • 英語で書かないと対応してくれない
  • 消去して欲しいサイトの管理者であることを証明する必要がある
    例えば消去して欲しいサイトのドメインと同じドメインのメールで送るなど
    (kumamoto5.comだったら○○@kumamoto5.comというメール)

宛先は

  • info@archive.org
  • wayback@archive.org
  • wayback2@archive.org

の3つに送れば確実に送れると思います。
(なんか届かないメールもあるらしいので)

自分はこんな感じで書きました。

Hello. Could you please erase the following sites from the web archive?
“https://kumamoto5.com”
This is the page with the contact information.
“https://kumamoto5.com/privacypolicy/”
Thank you.

とりあえず通じればOKなので機械翻訳で大丈夫です。

This is the page with the contact information.
“https://kumamoto5.com/privacypolicy/”

送信元のメールが、サイトに掲載されているお問い合わせ用メールと一致している事を証明する為、プライバシーポリシーのリンクものっけておきました。(多分載せなくても大丈夫です)

こんな感じで送ったら、15時間ほどですぐに返信が来ました。

ちゃんと除外したよーと送られてきたので確認してみます

はい!無事に除外されました。

robots.txtを設置してクロールさせないようにする

Wayback Machineはクローラーがサイトをクロールする事で保存されるので、robots.txtを設置すれば、クロール出来ないのでアーカイブされません。

また、robots.txtを設置することで、Wayback Machineがサイトを訪れた時にInternet Archive上に保存されていたそのサイトのデータを非表示にしてくれます。

だったらrobots.txt置くだけでいいやん!と思うかもしれませんが、あくまでrobots.txtによって非表示になっているだけで、rebots.txtが消えればまた復活します。

完全に消去したいならメールを送りましょう。

テキストエディター等で以下のように記述します

User-agent: ia_archiver 
Disallow: /

書いたらrobots.txtという名前でUTF-8形式で保存しましょう。

保存したら、サイトのルートディレクトリに設置してください。(example.com/robots.txt)

以上で作業は完了です。

(おまけ)Twitterのアーカイブも削除してみる

なんか思ったりあっさり終わったので、ついでにTwitterのアーカイブも消してみます。

自分の管理しているサイトなら独自ドメインメールで送信すればいいですが、果たしてTwitter等の管理者ではないサイトで削除依頼は通るのでしょうか…?

除外してもらうURLはこちらです

“https://twitter.com/screen_name”

自分のアカウントに関する情報は↑のURLから始まるので、プロフィールのURLを削除すればツイートやリプライ等の情報も除外されると思います。

(ツイートの場合https://twitter.com/screen_name/status/〜)

自分もよく分かってないのでこのURLだけ削除してもなんか不十分な気もしますが、まぁついででやってるのでとりあえずこのURLだけ除外してもらいます。

メールの送信先は変わらないです。内容は少し変更しました。

Can you please exclude my Twitter account from the Wayback machine?
Here is the URL
https://twitter.com/5otomamuk
https://mobile.twitter.com/5otomamuk
I have posted my email address in my Twitter profile section to provethat I am who I say I am.
My email address is here↓
info@kumamoto5.com
Thank you

注意した点は以下の2つです

  • 独自ドメインメールで送信した
  • 削除依頼をする送信元のメールアドレスと、削除してほしいTwitterのアカウントの管理者が同一人物であることを証明する為に、Twitterのプロフィール欄に送信元のメールアドレスを記載した(info@example.comというメールで削除依頼をしたなら、プロフィール欄にそのメールアドレスをお問い合わせ先等の形で記載する)

他の内容は先程削除依頼をした時と変わらないです。今回も機械翻訳を使いましたが、まぁ通じれば大丈夫でしょう。

送信したら、後は待つだけです。

送信した翌日に返信が来ました。果たしてちゃんと削除されたのでしょうか?

削除されたみたいですね!実際に確認してみます。

無事除外されたようです。一応Twitterの魚拓もウェイバックマシンに保存された分は削除出来る事が分かりました。

まとめ

今回はウェイバックマシンに保存されたアーカイブを削除しました。

分かった事は

  • 独自ドメインメールで送ればちゃんと削除してくれる
  • 英語じゃないと対応してくれない
  • 自分が管理していないサイト(SNS等)の魚拓も本人が削除依頼すれば消してくれる。

保存されたくないページの魚拓を取られて困っている方の参考になれば幸いです。

コメント

タイトルとURLをコピーしました