Python GUI python_pycham

利用Python简单的爬取百度新闻

2019-03-25 本文已影响95人 9ba4bd5525b9

前言

要抓取新闻，首先得有新闻源，也就是抓取的目标网站。国内的新闻网站，从中央到地方，从综合到垂直行业，大大小小有几千家新闻网站。百度新闻收录的大约两千多家。那么我们先从百度新闻入手。

基本环境配置

版本：Python3

系统：Windows

相关模块：

import re

import time

import requests

import tldextract

流程比较简单：

完整代码

简单解释一下上面的代码：

1. 使用requests下载百度新闻首页；

2. 先用正则表达式提取a标签的href属性，也就是网页中的链接；然后找出新闻的链接，方法是：假定非百度的外链都是新闻链接；

3. 逐个下载找到的所有新闻链接并保存到数据库；保存到数据库的函数暂时用打印相关信息代替。

4. 每隔300秒重复1-3步，以抓取更新的新闻。

以上代码能工作，但也仅仅是能工作，槽点多得也不是一点半点。

上一篇下一篇

猜你喜欢

热点阅读