互联网时光机，我的互联网历史信息抓取神器

2018-02-12 本文已影响64人风巢

先看上面两张截图，图中文章发表时间分别为2008、2009年。十年前，两篇文章的作者都在怀念同一个网站，那个网站创建时间呢？1999年1月20日，距今19年0个月23天。

这是我最早接触且至今现存 的网站。随后由此网站因缘际会，读到那部从未对外发表过的小说《让青春继续》中对我影响至深的一句话，“价值观决定一切”。

和它同一批的那些网站都去哪儿了呢？服务器到期、域名到期、耐心到期、都在时间长河里消失掉了。

那些删掉的记忆还能找回吗？有可能哦，下面分享下几个我常使用的互联网时光穿梭机。

常见的搜索引擎均有快照功能，可看到你要搜索网页的数日至数周前的版本，下面我着重讲 Google、百度这两个：

1）谷歌快照

如图，点击搜索结果处那个绿色向下箭头 Cached（缓存）即进入谷歌快照，另一选项 Similar（相似）会进入同该网站内容相似网页列表。快照上方有版本时间，折算北京时间2018年2月9日 11:36:40。

2）百度快照

如图，不过这次不是点小箭头了，点小箭头会出现“收藏、分享、评价、举报”4个选项，具体使用方法大家自己尝试，这次是直接点击百度快照。快照上方有版本时间，2018年2月6日 00:28:39。

还有两项堪称时光机的网络服务，我逐个介绍：

1）Archive.is

如图，首页有两个文本框，上下分别输入你要保存和检索的网址。

此处以微软官网为例，从1998年12月5日 06:07，到2018年2月6日 05:41，共 79 个版本的网页快照，点击“77 more”会展开其他版本，我们点击1999年4月2日 22:18日那个版本的页面，仿佛穿越到了还在使用 Windows 2000 的时光。

你有哪些想要留存或追溯的记忆，不妨尝试下呗。

网址：http://archive.is/

2）Wayback Machine

Wayback Machine收录的网页远较archive.is 为多，而且是默默收录，无需提交。

以上为输入腾讯官网的效果，中间的年代条形图和下面的绿圈均表示采集强度。

如上图，是08年的腾讯网主页，和现在相比，差别大吗？那时的搜搜现今已被搜狗取代。人生短短几个秋，转瞬间十年就过去了。

网址：

http://archive.org/web/web.php

以上工具共分两组：

1）第1组搜索引擎快照适用于检索单个页面新近发生的更改，除了谷歌、百度，还有 Bing 及俄罗斯的 yandex，大家都可以尝试下，因为搜索引擎收录时间存在差异，里面其实还有蛮多花头可挖。

2）第 2 组时光机方便网站历史追溯比对，是进行互联网公司历史业务研究必不可少的利器。

看到这里，你有哪些念念不忘迫不及待想要立刻去尝试的网址，欢迎在评论区与大家共享。

【福利】

1、社群：写作打卡 & 爬虫交流，回复社群了解加入方式，一起切磋，互开脑洞。

2、精进：爬虫相关在线文档，欢迎关注。网址：

https://shimo.im/docs/qc5HJYODsNQJcL6k/