电商微商玩转大数据大数据

如何抓取小红书瀑布流网页上的商品信息

2018-05-22  本文已影响23人  华天清

小红书是一个网络社区,也是一个跨境电商,还是一个共享平台,更是一个口碑库。最近有好多小伙伴都在讨论这个网站的商品信息抓取,讨论比较多的是瀑布流式网页怎么抓取下面的内容。在这里不想讨论技术方法,直接介绍一个快捷采集的软件,直接用,不用管技术细节。

下面就给大家分享下快速有效地将小红书的商品信息采集下来的步骤。

1,准备工具—集搜客网络爬虫

下载,安装,打开,登录账号,这里就不废话了,直接上干货

2,使用小红书商品列表数据DIY,快速采集

数据DIY是一个快捷采集工具,不用编程,直接用

1)进入数据DIY,从GooSeeker网站的顶部菜单进入路线是:资源——>数据DIY

2)在数据DIY网页上,依次选择 类别 — 网站 — 网页

小红书的具体类型是:

参考下图

3)对比样本页面,观察页面的结构,输入的网址一定要具有相同的页面结构,否则会采集失败。

小红书的样本页面是这个样子的

商品列表的网址是来自手机上的小红书APP,获取网址的方法是:打开手机小红书APP -> 点开商城里的商品目录(不要点更多)-> 再点分类精选/热门,就看到商品列表了,然后点击右上角的分享按钮,再用电脑上的社交软件接收就行了。

你可能看到的需要采集的页面是这样的,可以对比一下,他们是一样的。

可以看出两个页面几乎一样,只是商品不同而已

4)输入要采集的网址,选择采集全部就能一直滚屏往下采,点击获取数据,并启动采集

会看到一个提示,要求启动爬虫窗口。而且会启动2个窗口,一个用来采集数据,一个用来打包数据。运行期间不要关闭他们,也不要最小化。但是这些窗口上面可以覆盖其他窗口

5)等待采集完成,打包下载数据

注意:提示采集完成后不要立马关闭窗口哦,需等待打包按钮变成绿色,采集状态变成已采集,请看下图

6)打包数据

7)下载数据

8)到这里我们的数据就采集下来了,让我们来看下我们采集到的数据吧

上一篇 下一篇

猜你喜欢

热点阅读