有些文章不一定是为了上首页投稿python爬虫简书面面观

爬虫基础系列正则表达式——爬取简书个人文章标题

2019-05-08  本文已影响1人  猛犸象和剑齿虎
timg.jpg

正则表达式简单介绍

爬虫写法

#正则表达式爬取文章内容
#目标网站https://www.jianshu.com/u/233daefdef97
#https://www.jianshu.com/u/233daefdef97?order_by=shared_at&page=2
import requests
import re
headers={'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

url="https://www.jianshu.com/u/233daefdef97?order_by=shared_at&page="
for i in range(1,6):
    urll=url+str(i)
    res=requests.get(urll,headers=headers).text

    #<a class="title" target="_blank" href="/p/18fd153d3f3a">爬虫基础系列urllib实战——post请求获取有道词典在线翻译(8)</a>
    pat1=r'<a class="title" target="_blank" href=".*?">(.*?)</a>'
    pattern=re.compile(pat1)
    data=pattern.findall(res)
    print(data)

返回结果:

['爬虫基础系列urllib实战——post请求获取有道词典在线翻译(8)', '爬虫基础系列urllib——get请求(7)', '爬虫基础系列urllib——代理IP(6)', '爬虫基础系列urllib——HTTP代理(5)', '爬虫基础系列urllib——构造随机请求头(4)', '爬虫基础系列urllib——构造请求头(3)', '爬虫基础系列urllib(2)', '爬虫基础系列urllib(1)', 'python在excel中画画']
['VBA字典技术整理', '《七信使》中的数学问题', 'pygame整理(思维导图)', 'python小球弹弹2', 'python小球弹弹', 'python pyautogui与openpyxl运用', '一张导图,爬虫入门', '两年前写的挺好玩——意识流', 'VBA多表汇总与正则处理名称规格']
['python正则笔记', 'VBA核对数据', 'Collatz 序列', 'python——外星人入侵', '关于维度的一点想法(二)', '关于维度的一点想法', 'VBA遍历函数、超链接与控件运用', '活力长城', 'VBA正则笔记']
['VBA窗体控件练习2', 'VBA窗体练习', 'VBA让你的字动起来', 'VBA三种查询方式整理', 'VBA小程序编写心得', 'VBA字典数组运用实例2(定额录入)', 'VBA动态列表框实例', 'VBA字典数组运用实例(工资核算)', '花了三个小时玩了三局现金流游戏']
['忘记带手机的一天', '读《六顶思考帽》有感', '二胡·凤凰山', '致秋天', '小鱼小虾的感悟', '看了第三遍的电影', '第三种天赋', '烟雾下的女人', '她到底要去哪儿']

一个页面用一个列表装,5张页面5个列表。

上一篇下一篇

猜你喜欢

热点阅读