python爬虫学习教程，用python爬取新浪微博数据

2019-08-06 本文已影响3人 dc260c55dcc9

爬取新浪微博信息，并写入csv/txt文件，文件名为目标用户id加".csv"和".txt"的形式，同时还会下载该微博原始图片(可选)。

运行环境

开发语言：python2/python3

系统： Windows/Linux/macOS

以爬取迪丽热巴的微博为例，她的微博昵称为"Dear-迪丽热巴"，id为1669879400(后面会讲如何获取用户id)。我们选择爬取她的原创微博。程序会自动生成一个weibo文件夹，我们以后爬取的所有微博都被存储在这里。然后程序在该文件夹下生成一个名为"Dear-迪丽热巴"的文件夹，迪丽热巴的所有微博爬取结果都在这里。"Dear-迪丽热巴"文件夹里包含一个csv文件、一个txt文件和一个img文件夹，img文件夹用来存储下载到的图片。

csv文件结果如下所示：

txt文件结果如下所示：

下载的图片如下所示：

img文件夹

本次下载了766张图片，大小一共1.15GB，包括她原创微博中的图片和转发微博转发理由中的图片。图片名为yyyymmdd+微博id的形式，若某条微博存在多张图片，则图片名中还会包括它在微博图片中的序号。本次下载有一张图片因为超时没有下载下来，该图片url被写到了not_downloaded_pictures.txt。

源码分享：

python爬取新浪微博数据源码

注意事项

1.user_id不能为爬虫微博的user_id。因为要爬微博信息，必须先登录到某个微博账号，此账号我们姑且称为爬虫微博。爬虫微博访问自己的页面和访问其他用户的页面，得到的网页格式不同，所以无法爬取自己的微博信息；

2.cookie有期限限制，超过有效期需重新更新cookie。

在学习过程中有什么不懂得可以加我的python学习交流扣扣qun，934109170，群里有不错的学习教程、开发工具与电子书籍。与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容。

python爬虫学习教程，用python爬取新浪微博数据

猜你喜欢

热点阅读