Python爬虫笔记

2017-11-09 本文已影响0人 No_limit

讲道理，还是应该先把正则学一下的，不过因为任务简单，我就简单的尝试用了BeautifulSoup，还是很好用的。

任务1：获取康奈尔图书馆的论文的题目、日期、摘要信息。

图书馆地址：https://arxiv.org/

========================================

主要解决的问题，获取第一级页面中的N个href链接（论文），依次访问所有链接，进入二级页面（每篇论文的主页），爬取论文的具体信息。

主要的两个方法：

1）bs4.BeautifulSoup/bs4.element.Tag共有的

get_text()---->去掉标签，获取文本信息（返回str类型）

find_all()--->获得标签（返回bs4.element.ResultSet类型，每个元素都是一个bs4.element.Tag）

2）bs4.BeautifulSoup的select（）方法，返回bs4.element.Tag类型。

例子：find_all('a')[0]['href']--->获取所有a标签集合中第一个a标签的href值,即链接