不会编程?来用Excel抓取网络数据
2017-05-27 本文已影响421人
dalalaa
Excel到底有多强大?
能用来画画,Excel画高达
可以赛车游戏,怎么用Excel2000玩赛车游戏
今天我们来介绍用Excel这个人人都有的工具抓取网络数据。
一、抓取一般网页(以简书为例)
1. 导入数据
![](https://img.haomeiwen.com/i3099181/dd4670d4ab50b014.png)
![](https://img.haomeiwen.com/i3099181/2ed0c82b7749d089.png)
等待网页加载完毕之后,点击导入
导入之后删除没用的数据之后是这样的
![](https://img.haomeiwen.com/i3099181/248c37b04ed811f2.png)
2. 处理数据
这个是重点步骤,需要对Excel公式有一定了解。
将行数据批量复制到列
所有数据均在第A列,所以我们现在的工作是将每一篇文章信息放到同一行,这里我们是每隔6行(因为抓取的每篇文章信息占据了6行)提取一次。
![](https://img.haomeiwen.com/i3099181/eee8f03c060b496d.png)
![](https://img.haomeiwen.com/i3099181/ce79304c2164d372.png)
这样除了最后一列,其他的都整理好了。
数值分列
接下来我们来处理最后一列:
(1)因为有些文章没有专题信息,为了精准分列,需在纯数字单元格前加空格。公式如下图所示:
![](https://img.haomeiwen.com/i3099181/2591b3bedecca4e7.png)
(2)按分隔符分列(这里选择的分隔符是空格)
不能对含有公式的单元格进行分列,需将公式去掉(复制→选择性粘贴→值和数字格式),点击“数据”→“分列”
![](https://img.haomeiwen.com/i3099181/383db94d1830db34.png)
点击“分隔符号”→”下一步“→“空格”→“下一步”→“完成”
![](https://img.haomeiwen.com/i3099181/e5de2189d6430010.png)
最后插入标题行,整理如下:
![](https://img.haomeiwen.com/i3099181/7e6bc9187876af24.png)
这样就可以开始做数据分析了~~~~~~~~~~~
二、抓取特殊网页(以房产信息网站为例)
现在的网页越来越华丽,导致Excel抓取网页数据的适用范围越来越窄,那么我们来介绍一下最适合用Excel抓取的网页长啥样呢?往下看
![](https://img.haomeiwen.com/i3099181/2141a2cefc62b5c0.png)
像网页中有这种表格形式的,导入到Excel之后就不需要做数据处理了,把格式稍微调整一下就可以了。
![](https://img.haomeiwen.com/i3099181/9105c34424f8f77b.png)