利用Python简单的爬取百度新闻
2019-03-25 本文已影响95人
9ba4bd5525b9
前言
要抓取新闻,首先得有新闻源,也就是抓取的目标网站。国内的新闻网站,从中央到地方,从综合到垂直行业,大大小小有几千家新闻网站。百度新闻收录的大约两千多家。那么我们先从百度新闻入手。
基本环境配置
版本:Python3
系统:Windows
相关模块:
import re
import time
import requests
import tldextract
流程比较简单:
完整代码
简单解释一下上面的代码:
1. 使用requests下载百度新闻首页;
2. 先用正则表达式提取a标签的href属性,也就是网页中的链接;然后找出新闻的链接,方法是:假定非百度的外链都是新闻链接;
3. 逐个下载找到的所有新闻链接并保存到数据库;保存到数据库的函数暂时用打印相关信息代替。
4. 每隔300秒重复1-3步,以抓取更新的新闻。
以上代码能工作,但也仅仅是能工作,槽点多得也不是一点半点。