Python新浪博客爬虫:sina-blog-spider

2017-03-27  本文已影响511人  yehot

大学的时候用新浪写了4年的流水账 blog,某天突然翻到,感慨还是留了不少记忆在里边的,就想着要不迁移或者备份下。搜了一圈发现了 bfishadow/SBB 这个 Python 写的备份工具,试用了下还不错。刚好借着这个机会学习一下 Python 和爬虫。

在学习代码的过程中,自己也敲了一遍,发现了一些问题:不支持 Python3.x,代码可读性太差。代码敲完了发现,作者原来不是程序员啊我摔!被坑了(代码实在太烂了,差点摧毁我对 Python 的认知)。

所以特意花了一下午时间对代码进行了一个重写:

新特性:

功能简介

Usage:

# 排序开关是可选的,默认为按发表时间顺序排列(即 asc)
$ sina_blog_crawler.py http://blog.sina.com.cn/gongmin desc
$ sina_blog_crawler.py http://blog.sina.com.cn/u/1239657051

TODO:

DEMO:

万万没想到韩寒 17 年还有两篇博客,试爬了一下韩寒的 10 篇 blog,效果如图:

sinaa-demo
上一篇 下一篇

猜你喜欢

热点阅读