网络爬虫大数据 爬虫Python AI Sql互联网产品思考

互联网时光机,我的互联网历史信息抓取神器

2018-02-12  本文已影响64人  风巢

先看上面两张截图,图中文章发表时间分别为2008、2009年。十年前,两篇文章的作者都在怀念同一个网站,那个网站创建时间呢?1999年1月20日,距今19年0个月23天

这是我最早接触且至今现存 的网站。随后由此网站因缘际会,读到那部从未对外发表过的小说《让青春继续》中对我影响至深的一句话,“价值观决定一切”。

和它同一批的那些网站都去哪儿了呢?服务器到期、域名到期、耐心到期、都在时间长河里消失掉了。

那些删掉的记忆还能找回吗?有可能哦,下面分享下几个我常使用的互联网时光穿梭机。

一、搜索快照

常见的搜索引擎均有快照功能,可看到你要搜索网页的数日至数周前的版本,下面我着重讲 Google、百度 这两个:

1)谷歌快照

如图,点击搜索结果处那个绿色向下箭头 Cached(缓存)即进入谷歌快照,另一选项 Similar(相似)会进入同该网站内容相似网页列表。快照上方有版本时间,折算北京时间2018年2月9日 11:36:40。

2)百度快照

如图,不过这次不是点小箭头了,点小箭头会出现“收藏、分享、评价、举报”4个选项,具体使用方法大家自己尝试,这次是直接点击百度快照。快照上方有版本时间,2018年2月6日 00:28:39。

二、时光机

还有两项堪称时光机的网络服务,我逐个介绍:

1)Archive.is

如图,首页有两个文本框,上下分别输入你要保存和检索的网址。

此处以微软官网为例,从1998年12月5日 06:07,到2018年2月6日 05:41,共 79 个版本的网页快照,点击“77 more”会展开其他版本,我们点击1999年4月2日 22:18日那个版本的页面,仿佛穿越到了还在使用 Windows 2000 的时光。

你有哪些想要留存或追溯的记忆,不妨尝试下呗。

网址:http://archive.is/

2)Wayback Machine

Wayback Machine收录的网页远较archive.is 为多,而且是默默收录,无需提交

以上为输入腾讯官网的效果,中间的年代条形图和下面的绿圈均表示采集强度。

如上图,是08年的腾讯网主页,和现在相比,差别大吗?那时的搜搜现今已被搜狗取代。人生短短几个秋,转瞬间十年就过去了。

网址:

http://archive.org/web/web.php

三、总结

以上工具共分两组:

1)第1组搜索引擎快照适用于检索单个页面新近发生的更改,除了谷歌、百度,还有 Bing 及俄罗斯的 yandex,大家都可以尝试下,因为搜索引擎收录时间存在差异,里面其实还有蛮多花头可挖

2)第 2 组时光机方便网站历史追溯比对,是进行互联网公司历史业务研究必不可少的利器。

看到这里,你有哪些念念不忘迫不及待想要立刻去尝试的网址,欢迎在评论区与大家共享。

【福利】

1、社群写作打卡 & 爬虫交流回复社群了解加入方式,一起切磋,互开脑洞。

2、精进:爬虫相关在线文档,欢迎关注。网址:

https://shimo.im/docs/qc5HJYODsNQJcL6k/

上一篇下一篇

猜你喜欢

热点阅读