pythonPythonpython爬虫升级之路

Python爬虫学习-爬取大规模数据(10w级)

2016-05-13  本文已影响9658人  掷骰子的求

编译环境:python v3.5.0, mac osx 10.11.4
<big>python爬虫基础知识: Python爬虫学习-基础爬取</big>

了解数据库 MongoDB

  1. 筛选数据库中的数据(基础筛选)
    sheet_tab.find({'words':{'$lt':5}} # 选择字典中关键字words对应值小于5的所有字典元素
    # $lt/$lte/$gt/$gte/$ne,依次等价于</<=/>/>=/!=。(l表示less g表示greater e表示equal n表示not )

基础实战(筛选房源)

筛选小猪短租网站前三页信息储存到MongoDB中,筛选出价格大于等于500元房源,并打印出来。房源信息具体要求如下:

爬取工作分析流程

<big>1. </big>观察页面特征,保证爬虫程序的通用性,即:发现边界条件和局限性。
例:爬取赶集网-北京二手市场的所有类目中属于<big>个人</big>的商品信息。

<big>2. </big>设计工作流程,保证输出效率和稳定性。

  1. 当中断后继续抓取时,url_list1-url_list2就是剩下带抓取的商品信息页面。
    db_urls = [item['url'] for item in url_list.find()] # 用列表解析式装入所有要爬取的链接
    index_urls = [item['url'] for item in item_info.find()] # 所引出详情信息数据库中所有的现存的 url 字段
    x = set(db_urls) # 转换成集合的数据结构
    y = set(index_urls)rest_of_urls = x-y # 剩下的url

爬取结果以及源码(按设计步骤展示)

**All source code **: JacobKam-GitHub

上一篇 下一篇

猜你喜欢

热点阅读