Scrapy框架爬虫,爬取咪咕,利用回调函数

2017-04-06  本文已影响44人  c4a1d989518e

有必要总结几个经验

验证一个函数是否被执行,一个很好的方法就是print,只要是用到了相应的函数,放到函数里就应该能够执行,否则要检查相应函数是否定义正确。

譬如这里:

init左右有两个"_"

process并不是porcess

爬虫的文件不要忘记返回值。yield。

用xpath时,从左向右找就太长,从右向左找,又容易出错,一个好的办法是,从中间找一段,查看是否能摘出它的属性,如果能够摘出,那就依次向右走。直到最终的text()

在爬虫爬取的时候,经常遇到的一个情况就是,爬取列表页,有些内容在列表里,需要进入列表页相应类目的详情页爬取,这时一个比较好用的方法就是利用回调函数。

其中的callback就是调函数呢

上一篇 下一篇

猜你喜欢

热点阅读