Python爬虫笔记

2017-11-09  本文已影响0人  No_limit

讲道理,还是应该先把正则学一下的,不过因为任务简单,我就简单的尝试用了BeautifulSoup,还是很好用的。


任务1:获取康奈尔图书馆的论文的题目、日期、摘要信息。

图书馆地址:https://arxiv.org/

github代码:https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py

========================================

主要解决的问题,获取第一级页面中的N个href链接(论文),依次访问所有链接,进入二级页面(每篇论文的主页),爬取论文的具体信息。

主要的两个方法:

1)bs4.BeautifulSoup/bs4.element.Tag共有的

get_text()---->去掉标签,获取文本信息(返回str类型)

find_all()--->获得标签(返回bs4.element.ResultSet类型,每个元素都是一个bs4.element.Tag)

2)bs4.BeautifulSoup的select()方法,返回bs4.element.Tag类型。

例子:find_all('a')[0]['href']--->获取所有a标签集合中第一个a标签的href值,即链接

上一篇 下一篇

猜你喜欢

热点阅读