爬虫小记(一)--- 爬取简书专题
引
在简书中有很多主题频道,里面有大量优秀的文章,我想收集这些文章用于提取对我有用的东西;
无疑爬虫是一个好的选择,我选用了python的一个爬虫库scrapy,它的官方文档就是很好的教程:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
准备工作
scrapy安装
pip install Scrapy
我遇到的问题是,编译时候stdarg.h找不到;于是查看报问题的头文件目录,把stdarg.h拷贝进去就OK了,这个花了我好长时间。。。
因为scrapy依赖于twisted,所以有人安装scrapy可能会提示缺少twisted,介绍如下:
从https://pypi.python.org/pypi/Twisted/#downloads下载离线文件,然后执行一下安装。
tar jxvf Twisted-xxx.tar.bz2
cd Twisted-xxx
python setup.py install
mysql
抓取到的数据默认是用json存储,因为不同类型的数据混合存储,解析和查询过于繁琐,所以我选择数据库;至于没有用mongodb,是因为我机子上本来就装有mysql,而且自己学习研究用不到mongodb的一些优点。
mysql数据库是分服务器(server),客户端(workbench),python的接口链接器(mysql-connector);这些都可以从官方找到,参见 https://dev.mysql.com/downloads/
connector可以直接用pip安装,这里有个好处就是不用额外操心环境变量的事儿。
pip install mysql-connector
对于connector的使用,参见官方说明文档:
https://dev.mysql.com/doc/connector-python/en/
一个简单的框架
创建一个scrapy工程
scrapy startproject HelloScrapy
启动一个工程
scrapy crawl demo
还可以用shell启动,这个好处是你可以介入每一个执行命令
scrapy shell 'https://www.jianshu.com/u/4a4eb4feee62'
需要注意的是,网站一般会有反爬虫机制,抓取会返回403错误,所以记得把user-agent改了:
settings.py
USER_AGENT = 'HelloWoWo'
开启爬虫
你需要在spider目录下建立一个scrapy.Spider的子类,定义它的名称(name, 就是启动工程时指定的名称),允许的域名(allowed_domains),起始的爬取链接(start_urls);
然后定义parse函数,它的参数response就是响应内容,你可以从中解析要获取的内容和新的链接;解析的方式可以通过xpath和css,这里用xpath;然后可以通过yield,把解析到的对象推送到存储流程中,如果你想爬虫系统继续爬取新的链接,也可以通过yield来进入下一步爬取中。
from HelloScrapy.items import HelloscrapyItem
class DemoScrapy(scrapy.Spider):
name = 'demo'
allowed_domains = ['jianshu.com']
start_urls = [
'https://www.jianshu.com/u/4a4eb4feee62',
'https://www.jianshu.com/u/d2a08403ea7f',
]
def parse(self, response):
user_sel = response.xpath('//body/div/div/div/div/div/ul/li/div/p/text()')
item = HelloscrapyItem()
item['text_num'] = int(user_sel[0].extract())
item['favor_num'] = int(user_sel[1].extract())
yield item
Item
上面代码中的item就是用于描述抓取到的数据结构,它们每个属性都用scrapy.Field()表示。
import scrapy
class HelloscrapyItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
text_num = scrapy.Field()
favor_num = scrapy.Field()
Pipeline
它负责整个存储的过程,可以存储在json文件中,也可以通过数据库。
但是首先,你需要在settings.py中声明你的pipeline(默认有的,打开注释然后修改下):
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
'HelloScrapy.pipelines.MySqlPipeline': 300,
}
如果使用最简单的json方式,可以定义如下:
其中open_spider,close_spider如名字一样,分别会在启动spider和结束spider时调用,所以这里分别定义了文件的打开和关闭;
而process_item就是对每个item的存储处理,这里将item进行json化,保存在预定义的文件中。
import json
class HelloscrapyPipeline(object):
def open_spider(self, spider):
self.file = open('./items.txt', 'w')
def close_spider(self, spider):
self.file.close()
def process_item(self, item, spider):
line = json.dumps(dict(item))
self.file.write(line)
return item
我这边使用的是mysql,介绍如下。
mysql
首先定义一个mysql的封装类,支持打开和关闭一个数据库,创建一个表,插入一条数据。
import mysql.connector
from mysql.connector import errorcode
from settings import *
class MySqlDb(object):
def __init__(self, db_name):
self.db_name = db_name
self.cnx = None
self.cursor = None
pass
def open(self):
self.cnx = mysql.connector.connect(user=MYSQL_USER_NAME, password=MYSQL_PASS_WORD)
self.cursor = self.cnx.cursor()
self.__ensureDb(self.cnx, self.cursor, self.db_name)
pass
def close(self):
if self.cursor:
self.cursor.close()
if self.cnx:
self.cnx.close()
pass
def createTable(self, tbl_ddl):
if self.cnx and self.cursor:
self.__ensureDb(self.cnx, self.cursor, self.db_name)
self.__ensureTable(self.cursor, tbl_ddl)
pass
def insert(self, sql, values):
if self.cnx and self.cursor:
try:
self.cursor.execute(sql, values)
self.cnx.commit()
except:
pass
pass
def __ensureDb(self, cnx, cursor, db_name):
try:
cnx.database = db_name
except mysql.connector.Error as err:
if err.errno == errorcode.ER_BAD_DB_ERROR:
try:
cursor.execute("CREATE DATABASE {} DEFAULT CHARACTER SET 'utf8'".format(db_name))
except mysql.connector.Error as create_err:
print("Failed creating database: {}".format(create_err))
exit(1)
cnx.database = db_name
else:
print err
exit(1)
def __ensureTable(self, cursor, tbl_ddl):
try:
cursor.execute(tbl_ddl)
except mysql.connector.Error as err:
if err.errno == errorcode.ER_TABLE_EXISTS_ERROR:
pass
else:
print err.msg
else:
pass
然后抽象一个item的基类:
该类的insertToDb定义了插入的过程,由每个子类提供创建表和插入数据的sql语句。
import scrapy
class BaseItem(scrapy.Item):
def insertToDb(self, mysqldb):
table_sql = self.getTableSql()
insert_sql = self.getInsertSql()
if table_sql and insert_sql:
mysqldb.createTable(table_sql)
mysqldb.insert(insert_sql, dict(self))
else:
print 'Empty!!!!!!!!!!!!!!!!!!!!!!!'
pass
def getTableSql(self):
return None
def getInsertSql(self):
return None
它的一个子类示意:
import scrapy
from item_base import *
class ArticleItem(BaseItem):
item_type = scrapy.Field()
title = scrapy.Field()
author = scrapy.Field()
author_link = scrapy.Field()
content = scrapy.Field()
def getTableSql(self):
return "CREATE TABLE `article` (" \
" `title` varchar(256) NOT NULL," \
" `author` varchar(128) NOT NULL," \
" `author_link` varchar(1024) NOT NULL," \
" `content` TEXT(40960) NOT NULL," \
" PRIMARY KEY (`title`)" \
") ENGINE=InnoDB"
def getInsertSql(self):
return "INSERT INTO article " \
"(title, author, author_link, content) " \
"VALUES (%(title)s, %(author)s, %(author_link)s, %(content)s)"
这样,爬取到的内容记录在不同类型的item中,最后又通过item的insertToDb过程,插入到mysql中。
可以通过workbench直接查看:
爬取技巧
上面的基本元素都有了,我们继续看下爬取过程中的一些小问题。
首先是怎么使用xpath解析网页元素。
xpath返回的是selector,对应网页中的dom结构,比如我们用chrome调试器看下网页的结构:
当鼠标放置一个地方,真实网页中会显示对应的选中区域的,所以你可以对照左边一层层找到它所对应的html结构,比如"//body/div/div/div"。
获取属性方法使用@,如@href
xpath('div/div/span/@data-shared-at')
使用@class提取节点
response.xpath('//body/div[@class="note"]')
抓取html内容
content = article_sel.xpath("div[@class='show-content']/div[@class='show-content-free']/*").extract()
content = ''.join(content)
抓取文本
content = article_sel.xpath("div[@class='show-content']/div[@class='show-content-free']//text()").extract()
content = ''.join(content)
其次是怎么让爬虫延伸。
当你抓取到一个感兴趣的链接后,比如当前正在爬取的是某个人的简书主页,网页中有很多文章链接,你想继续爬取的话,就可以yield出去:
"""
url: 要继续爬取的链接
callback: 爬取后的响应处理
"""
yield scrapy.Request(url=link, callback=self.parse)
但是一般看到的链接是相对地址,所以你要先做一个处理:
from urlparse import urljoin
link = urljoin('http://www.jianshu.com', link)
我们也看到,上面的self.parse方法被用在很多网页请求中,但是这些网页的格式可能是不一样的,那么你需要做一个分类:
cur_url = response.url
if cur_url.startswith('https://www.jianshu.com/u'):
pass
elif cur_url.startswith('https://www.jianshu.com/p'):
pass
最后讲一下怎么去抓动态网页。
你可以分析下简书某个专题的网页格式,它的内容列表一般是10条,但是你往下滑动的时候它又会增多;当爬取这个专题网页的时候,你只能解析最开始的10条,怎么办呢?
打开调试器,选择network/XHR,当你在左边的网页中不停往上滑动的时候,就会不断出现右边新的链接,有没有发现什么?
这些网页都是有规律的,xxx?order_by=added_at&page=xx,其中order_by就是这个专题的Tab目录,added_at表示最新添加的,而page就是第几个页。
如果你遍历所有的page页,不就把这些动态网页抓取到了吗?不过有个坏消息,就是page页有上限,目前是200,不要告诉是我说的。。。
代码工程
代码我上传到了github上,其中HelloScrapy/db/settings.py中的变量是无效的,需要配置为有效的mysql用户名和密码。
严重声明:
本文涉及的方法和代码都只用于学习和研究,严禁转载和用于商业目的,否则后果自负!