网络爬虫

2016-08-30 本文已影响0人 OwlofDark

项目简介

网络爬虫的方式来获取信息目前在工业领域是一个高效率从网络上获取信息的方式，作为一个项目的介绍，在这个项目中，我们使用Scrapy(一个用Python写的开源框架)。这个框架最初被设计用来做网络爬取，后来也可以被用来提取数据使用的APIs或者是一般意义上的网络爬虫。尽管Scrapy对网络爬虫来说是一个非常详细的基础应用架构，但是在实际的编程过程中仍然会遇到许多实际的困难。eg:工程JavaScript和IP被锁死。

项目描述

目标

第一个目标：建立一个Scrapy项目用来在XiaomiApp商店或者其它App的商店里爬取内容。
第二个目标：在MogoDB里储存爬取的项目，安装Python MogoDB驱动同时修改pipelines.py来使被爬取的数据插入MogoDB。
第三个目标：通过下一个页面链接来爬取更多的数据，目前为止你仅仅爬取了首页，如果下一个页面是用JavaScript来写的，我们需要使用Splash和ScrapyJSre-render网页来使动态的网页转换为静态的

工具需求

python2.7
scrapy 1.0+
splash
scrapyJS
MongoDB

基础知识

basic python

提交项目

把你的最终代码上传制你的Github
请制作一个包括以下内容的视频：你的代码组成、你是怎么有效的收集和存储数据的、你是怎样从非静态的数据源中收集数据的。视频时长压缩在五分钟之内。

参考网站

[1] https://www.bittiger.io/microproject/oYDSG6MSFihpiNJ66
[2] http://scrapy.org
[3]https://www.mongodb.org/
[4]https://github.com/scrapinghub/scrapy-splash
[5]https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/