数据提取方法

2019-05-19  本文已影响0人  Donald_32e5

本文内容:


一、爬虫中的数据分类

在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来有规律的提取和解析数据。

二、json的数据提取

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。

三、正则表达式

用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。

Python的re模块完美支持正则表达式,熟练使用正则的语法之后,基本可以完美提取想要的信息

四、xpath

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。
xpath文档传送门

五、beautifulsoup的使用

beautifulsoup不同于xpath只取部分xml结构树的节点,它会把所有的xml结构树都截取出来,因此在内存和时间上都要稍差于xpath,但是他的语法更简单
官方文档

六、xml结构的数据提取

总结:

就提取数据方法的速度而言, 最快的是正则表达式,想对的学习成本也是很高:


上一篇下一篇

猜你喜欢

热点阅读