Python实战 - 第7节:多进程爬虫的数据抓取

2016-11-12  本文已影响0人  辉叔不太萌

笔记

作业

import pymongo

client = pymongo.MongoClient('localhost', 27017)
test1 = client['test1']
table1 = test1['table1']

# url入库的时候,增加一个是否已经爬取过的标识 flag=false
table1.insert_one({'url': 'urlxxxxxxxx', 'flag': 'false'})

# 处理时,仅筛选尚未爬取过的url
list = table1.find({'flag': 'false'})
for row in list:
    # 爬取处理
    # Something !
    print(row['_id'])

    # 爬取之后,更新是否爬取过的标记 flag=true
    table1.update({'_id': row['_id']}, {'$set': {'flag': 'true'}})

上一篇下一篇

猜你喜欢

热点阅读