PowerQuery数据分析

微软Excel和Python都能爬取网页信息,你该怎么选?

2019-04-03  本文已影响10人  PowerQuery

最近深度体验了一下Excel(PowerBI Desktop)爬取网页信息的能力,基于这些体验也写了几个帖子,比如在《领导给我一周时间让梳理昆明所有楼盘的信息,我半小时就完成了》中使用了Excel(PowerBI Desktop)来爬取安居客的信息,以及使用Excel(PowerBI Desktop)从民政局爬取信息(《教你如何在一分钟内获取最新最全的全国行政区划信息》)。这两次体验结果,对Excel(PowerBI Desktop)爬取网页的能力基本满意。

微软Excel和Python都能爬取网页信息,你该怎么选?

这两天我又折腾了用Excel(PowerBI Desktop)从搜狐焦点和房天下爬取昆明的楼盘信息,不得不说,体验比较糟糕——Excel(PowerBI Desktop)爬取这两个网站的楼盘信息速度慢得让我无法忍受。刷新一次结果至少要两三个小时乃至更多。

我终于失去耐心,还是重操python大业(太多东西又忘掉了……),爬取同样的信息,python五六分钟就爬取完毕,这个效率的差异可谓一个天上一个地下了。

微软Excel和Python都能爬取网页信息,你该怎么选?

所以,我的结论是:

1.简单爬取,页数不多情况下,用微软的Excel(PowerBI Desktop)不失为一个可行的选项。

2.大批量爬取,还是使用python这类工具吧(应该还有其他更高效的工具,但我只勉强会用python,所以只能提python)。

微软Excel和Python都能爬取网页信息,你该怎么选?
上一篇下一篇

猜你喜欢

热点阅读