互联网时光机,我的互联网历史信息抓取神器
先看上面两张截图,图中文章发表时间分别为2008、2009年。十年前,两篇文章的作者都在怀念同一个网站,那个网站创建时间呢?1999年1月20日,距今19年0个月23天。
这是我最早接触且至今现存 的网站。随后由此网站因缘际会,读到那部从未对外发表过的小说《让青春继续》中对我影响至深的一句话,“价值观决定一切”。
和它同一批的那些网站都去哪儿了呢?服务器到期、域名到期、耐心到期、都在时间长河里消失掉了。
那些删掉的记忆还能找回吗?有可能哦,下面分享下几个我常使用的互联网时光穿梭机。
一、搜索快照
常见的搜索引擎均有快照功能,可看到你要搜索网页的数日至数周前的版本,下面我着重讲 Google、百度 这两个:
1)谷歌快照
如图,点击搜索结果处那个绿色向下箭头 Cached(缓存)即进入谷歌快照,另一选项 Similar(相似)会进入同该网站内容相似网页列表。快照上方有版本时间,折算北京时间2018年2月9日 11:36:40。
2)百度快照
如图,不过这次不是点小箭头了,点小箭头会出现“收藏、分享、评价、举报”4个选项,具体使用方法大家自己尝试,这次是直接点击百度快照。快照上方有版本时间,2018年2月6日 00:28:39。
二、时光机
还有两项堪称时光机的网络服务,我逐个介绍:
1)Archive.is
如图,首页有两个文本框,上下分别输入你要保存和检索的网址。
此处以微软官网为例,从1998年12月5日 06:07,到2018年2月6日 05:41,共 79 个版本的网页快照,点击“77 more”会展开其他版本,我们点击1999年4月2日 22:18日那个版本的页面,仿佛穿越到了还在使用 Windows 2000 的时光。
你有哪些想要留存或追溯的记忆,不妨尝试下呗。
网址:http://archive.is/
2)Wayback Machine
Wayback Machine收录的网页远较archive.is 为多,而且是默默收录,无需提交。
以上为输入腾讯官网的效果,中间的年代条形图和下面的绿圈均表示采集强度。
如上图,是08年的腾讯网主页,和现在相比,差别大吗?那时的搜搜现今已被搜狗取代。人生短短几个秋,转瞬间十年就过去了。
网址:
http://archive.org/web/web.php
三、总结
以上工具共分两组:
1)第1组搜索引擎快照适用于检索单个页面新近发生的更改,除了谷歌、百度,还有 Bing 及俄罗斯的 yandex,大家都可以尝试下,因为搜索引擎收录时间存在差异,里面其实还有蛮多花头可挖。
2)第 2 组时光机方便网站历史追溯比对,是进行互联网公司历史业务研究必不可少的利器。
看到这里,你有哪些念念不忘迫不及待想要立刻去尝试的网址,欢迎在评论区与大家共享。
【福利】
1、社群:写作打卡 & 爬虫交流,回复社群了解加入方式,一起切磋,互开脑洞。
2、精进:爬虫相关在线文档,欢迎关注。网址:
https://shimo.im/docs/qc5HJYODsNQJcL6k/