webscraper 抓数据需求文档
2019-02-11 本文已影响254人
明白1
一、如何判断自己要抓的东西爬虫能完成?
如果你要抓一个东西
- 你必须提供一个 网址(也可以叫链接、或者 URL),有了这个网址,我才能开始抓数据。
- 你需要把第一步提供的网站,放到浏览器的地址栏里访问一下,看看你要抓取的信息,能不能用眼睛看到。
如果能看到,那就 99% 能抓,如果看不到,那就抓不了。
二、抓数据需要提供的信息
为了提高沟通效率,下面这些信息请您认真查看
1、要抓取的网址链接。为什么要提供这个,参看第一点。
2、要抓取的信息字段,为了不产生歧义,需要截图标注清楚
3、如果有多页,要说明抓多少页
举例——
需求概述:小明要抓取淘宝上关于酸奶的商品信息。
需要提供:
-
网站链接 —— 如何获取?进入淘宝 www.taobao.com,然后搜索“酸奶”,出现的这个链接,就是爬虫需要的链接,结果链接如下:
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
- 需要抓取这个页面的所有商品,每个商品需要抓取的信息:
- 产品名称
- 价格
- 购买人数
具体截图如下:
image.png- 搜索结果一共有 100页,只需要抓取前 5 页即可。
ps:上面是个例子,具体情况,可以根据需求改变。比如抓取的字段不同,或者抓取页数不一样等