爬虫入门01-作业

2017-07-04  本文已影响26人  明说危险

最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最近涉及到数据处理,看到tiger的解密大数据社群就立马加进来了。以下是学完爬虫入门后的作业练习。

Q1要爬取的数据类型

为了了解交通运输行业(汽车,轮船,飞机,火车)的安全水平,需要监测最近的事故/事件信息,对这些信息加以分析,总结经验提高交通运输行业的安全水平。

监测的数据类型包括,

每天交通运输行业更新的信息,从网站上获得,

数据的类型有时间(年,月,日,具体时间点),交通工具名称,地点,死伤人数,事故原因,

目前限制的范围为近十年的数据。

Q2对应的数据源网站

为了调查这一块的数据,需要涉及到的网站包括国家政府的统计网站,一些行业的信息网站。都是国内的,不涉及到国外的网站。

Q3爬取数据的url

安全信息网

安全生产信息网

先以上面两个为例。

Q4数据筛选规则(选作)

待定,还没搞懂,后续实践中再补充完善。

上一篇下一篇

猜你喜欢

热点阅读