ネットに残った黒歴史!WayBack Machineからメール1通でデータを削除する手順書

ネットに残った黒歴史!ホームページのアーカイブをメール1通で削除する手順書

WayBack Machineから
データを削除する手順書

ネットに公開したホームページやブログ記事を削除すれば、あなたのサイトでは見ることができなくなります。

ところが、ネットから削除して消したはずのサイト・ページを見る方法が存在します。

おいおい。
消したんだから探すなよー。
見れなくしてくれよー。

という、ブログの黒歴史を消滅させたいアナタに復活させない禁忌の手順書をガイドします。

メール1通で過去の黒歴史を削除する

黒歴史が保存されているのはきっとインターネット・アーカイブ

知らない間に黒歴史が丸ごと保存されています。削除するにはWayback Machine(archive.org)にメールを送ると削除してもらえます。

が、しかし!

いきなり削除依頼のメールを送ると長文のテンプレが送られてきてやや面倒なことになります。

そこで、準備をしてから削除依頼をすることでメール1通でWayBack Machineから削除できました。

アーカイブ期間を調査
自分のサイト・ページと証明
削除依頼のメールを送信

削除依頼のメールをする前に自分のサイトだと証明しておくのがポイントです。

Waybackからデータを削除する手順

① アーカイブ期間を調査

Waybackに保存されている期間を確認します。

Waybackで削除したいサイトのURLを入力すると画面上にいつからいつまで保存しているか表示されます。

Save ** times between December 7,2019 and November 16, 2022

December 7, 2019が初めにアーカイブされた日付。
すべて消したいので December 7, 2019 をメモります。

Waybackの保存期間

② 自分のサイト・ページを証明

自分のサイト・ページを証明する削除依頼の記事を作成します。

ブログに削除依頼の記事を投稿して、その記事をメールで送ることで自分のホームページの証明にします。

記事を投稿するのは嫌なときは、テキストファイル(waybackverify.txt)に内容を記載してアップロードします。

可能なら記事をインデックスされないようにNOINDEXを設定しておきましょう。
削除依頼の記事テンプレ

記事には削除したいサイトURL・オーナー期間・削除する期間・メールアドレスは書き換えてください。

投稿日はブログトップに表示しないように過去の時間で投稿しましたが問題ありませんでした。投稿日はいつでもよさそうです。

タイトル
Exclude URLs from your site.記事内容
I am the owner of this site.I'd like you to delete the following data from your
archive:https://web.archive.org/web/*/削除したいサイトURL/*Time period of domain ownership: Deceber 7, 2019 to present
Time period to exclude: Deceber 7, 2019 to futurecontact address: メールアドレスARIGATO.

タイトル
あなたのサイトから除外するURL

記事内容
私はこのサイトのオーナーです。
あなたのアーカイブから以下のデータを除外してほしい。

オーナー期間:2019年12月7日から現在
削除する期間:2019年12月7日からこの先

メールアドレスは○○○○です。

ありがとう.

③ 削除依頼のメールを送信

ブログに投稿した削除依頼の文章をインターネットアーカイブ宛にメールします。

削除依頼の正式な宛先がないのでメールは2箇所に送ると確実です。

info@archive.org
wayback@archive.org

無料ブログなのでドメインのメールアドレスがない場合は Gmailで送っても大丈夫でした。

STEP1. は Internet Archiveのテンプレにあわせてあります。
削除したいサイトURL・オーナー期間・削除する期間・メールアドレスは書き換えるだけでOKです。

ブログに投稿した内容と一致させてください。

STEP2. で削除依頼の記事(②)を投稿したURLを記載します。

メールの文面テンプレ

OHAYO.

I'd like you to delete the following data from your archive.
STEP1. LIST EACH URL/URL PATH THAT YOU WISH TO EXCLUDE.
archive:https://web.archive.org/web/*/削除したいサイトURL/*
Time period of domain ownership: Deceber 7, 2019 to present
Time period to exclude: Deceber 7, 2019 to future

STEP2. Here is the link to the page that proves owership.
https://削除依頼の記事を作成したURL

contact address : 〇〇〇@gmail.com

ARIGATO.

STEP1. LIST EACH URL/URL PATH THAT YOU WISH TO EXCLUDE.
除外してほしいURLのリスト

STEP2. Here is the link to the page that proves owership.
オーナーである証明のページはココ

メールの返信

インターネットアーカイブ(Internet Archive)にメールを送っても音沙汰なし。受付完了メールのメールは無し。もう一回送ろうか…と思っていた3日後に削除完了の返事がきました。

Patron Services Purple (Internet Archive)

Hello,

The following has been submitted for exclusion from the Wayback Machine at web.archive.org:

削除したサイトURL

Please allow up to a day for the automated portions of the process to run their course and for the changes to take effect.

---
The Internet Archive Team

WayBack Machineで削除しライしたURLを確認すると除外されてて、保存データがばっさりと削除されていました。

Waybackから除外された結果

 

あとは削除依頼を掲載したページを消して作業完了。メール1通でWaybackからデータを削除することができました。

WayBack Machineに保存されたデータをカンタンに削除したいときはテンプレを参考にしてください。

インターネットアーカイブにデータを保存させない

インターネットアーカイブからデータを削除しました。

今後もアーカイブされないように念のためにアーカイブの除外設定をrobots.txtに追加しておきましょう。

クローラーを制御する robots.txt にサイトを保存するクローラーを許可しない(Disallow)する記述を追加するとデータをアーカイブ保存されなくなります。

アーカイブを除外させるrobots.txtの記述

有名なアーカイブサイトのWayback Machineウェブ魚拓のクローラーのアクセスを排除する記述例です。Waybackとウェブ魚拓のユーザーエージェントを許可しない設定します。

robots.txt にいきなり記述する前にサーチコンソールの robots.txt テスターでエラー数・警告数がないことを確認しましょう。

#魚拓
User-agent: Megalodon
Disallow: /
#Wayback Machine
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: special_archiver
Disallow: /

robots.txtの注意点

robots.txtはサーバ上に記述する前にコードチェックでエラーは無いか、意図した動作になっているかを確認してださい。1文字、1スペース間違えただけで想定した動作をしない恐れがあります。

特に、グーグルやヤフーなどアクセスしてほしいクローラーを拒否していないか慎重に設定しましょう。

サイトマップのプラグインを使っているときは?

サイトマップのプラグインを使っているとrobots.txt にサイトマップが記述してあります。

# XML Sitemap & Google News version 5.3.3
Sitemap: https://〇〇〇〇〇.com/sitemap.xml

robots.txtは上の行から解釈されます。
サイトマップが読み込まれないように許可しない(Disallow)する記述を先にしましょう。

User-agent: ia_archiver
Disallow: /

# XML Sitemap & Google News version 5.3.3
Sitemap: https://〇〇〇〇〇.com/sitemap.xml

// //