2018-04-19 爬虫猫眼电影

2018-04-19  本文已影响0人  dataTONG

1、初级的爬虫:

网络基础:cookie,session,https,headers常用的字段,代理使用等等

python基础:这个网上搜到的面经都得会,加上异步,多进程,多线程等等

爬虫:xpath,requests如何处理https,常见的反爬措施,举例说一个最难的爬虫过程,scrapy使用中的细节,例如代理,cookie,传参等等。

数据库:数据库操作,并表之类的。

2、if __name__ == "__main__":这段代码的作用是保证在这个py文件被import的时候不会被运行,只有主动执行它的时候才会运行。

参考:

1、Requests+正则表达式抓取猫眼电影TOP100

2、爬取拉钩上海Python职位信息并存入MongoDB数据库

3、

上一篇 下一篇

猜你喜欢

热点阅读