不会编程?来用Excel抓取网络数据
2017-05-27 本文已影响421人
dalalaa
Excel到底有多强大?
能用来画画,Excel画高达
可以赛车游戏,怎么用Excel2000玩赛车游戏
今天我们来介绍用Excel这个人人都有的工具抓取网络数据。
一、抓取一般网页(以简书为例)
1. 导入数据


等待网页加载完毕之后,点击导入
导入之后删除没用的数据之后是这样的

2. 处理数据
这个是重点步骤,需要对Excel公式有一定了解。
将行数据批量复制到列
所有数据均在第A列,所以我们现在的工作是将每一篇文章信息放到同一行,这里我们是每隔6行(因为抓取的每篇文章信息占据了6行)提取一次。


这样除了最后一列,其他的都整理好了。
数值分列
接下来我们来处理最后一列:
(1)因为有些文章没有专题信息,为了精准分列,需在纯数字单元格前加空格。公式如下图所示:

(2)按分隔符分列(这里选择的分隔符是空格)
不能对含有公式的单元格进行分列,需将公式去掉(复制→选择性粘贴→值和数字格式),点击“数据”→“分列”

点击“分隔符号”→”下一步“→“空格”→“下一步”→“完成”

最后插入标题行,整理如下:

这样就可以开始做数据分析了~~~~~~~~~~~
二、抓取特殊网页(以房产信息网站为例)
现在的网页越来越华丽,导致Excel抓取网页数据的适用范围越来越窄,那么我们来介绍一下最适合用Excel抓取的网页长啥样呢?往下看

像网页中有这种表格形式的,导入到Excel之后就不需要做数据处理了,把格式稍微调整一下就可以了。
