人人都能学会的数据爬虫
1.准备:谷歌浏览器、Webscraper.
2.百度将Webscraper安装到谷歌浏览器上面。
3.打开需要爬虫的网页,开始爬虫。
人生中第一只爬虫,刨了偶像在知乎回答的问题标题。
总结一下我的做法:
第一课业
最开始,试着爬虫,然后不知道id写什么,因为前面没怎么听到是自由设置题目的,所以直接看了视频答疑,才发现,可以自由设置标题,也就是视频中的“title”,视频重复看了几遍,因为自己中间要么是漏掉mutiple,要么只抓到5条标题。错误很多啊,咋办呢?还不是只有挨着来看哪个环节出问题了,于是乎一步一步跟着视频来,欸!对了!然后,只爬出了55条。下图1
不对呀,好像是没有完整呀?咋整呢?原来呀,是时间设置太短,反应不过来(暂且我就这么通俗的理解吧),所以呢,更改了时间,为2000,然后就激动地等待………………
此处是漫长等待分割线(网速不给力)
……………………………………………………………………………………………………………………………………
cool!得到130条数据!如下图2。
所以
复盘整个爬虫顺利的流程是:
1.打开目标网址,右键选择【检查】,开始召唤得力大侠黑蜘蛛朋友【webscraper】;
2.开始建立一个任务,新建站点【Creat new sitemap】,自定义输入站点名称,输入当前网址;
3.新建一个选择器【Add new selector】,这相当于设定一个爬虫规则,让黑蜘蛛知道爬哪些元素;
4. 点击【select】去抓取目标元素,这里是偶像回答问题的标题;点击第一个标题,然后点击第二个标题,相当于就定位好了你想要选择的元素,鼠标拖动页面,查看,这时候这一同类型的元素应该都选择好了。显示为红色。(未选择的为绿色),然后点击【Done selecting!】
5. 输入ID名称,勾选【Multiple】.这里的ID我最开始还不懂,其实就是你当前要爬的内容,定一个名称,比如这里是标题,视频教程里就输入的是“title”,然后点击【Element preview】,核对是否选中所有要爬的内容,也可进行后几页内容的查看。
6. 最后保存选择器【save 】,然后页面就设置完毕,然后开始抓取,在【sitemap(a-laohuang这个是你最初创建站点的名字)】下面,点击【Scrap】,等待蜘蛛大侠工作完毕。
然后数据就出来啦!这个是单页爬取的内容,那么,还有分页呢,也就是说一个内容太多,不止一页内容,我们需要所有的数据咋整?
1.这时候,就需要编辑分页抓取啦。打开第二页或者第三页,点击【Sitemap】——【Edit metadata】,然后将网页网址复制下来粘贴到网址区域,网址末端显示的是page=2,这时候我们把数字2删除,然后输入页面区域:“[1-7]”因为总共有7页嘛。点击【保存】,开始抓取【scrap】
2. 导出格式,打开查看。【Export data as CSV】
3.大功告成!!!!!!!不过,如果数据很少,这代表抓取的过程中,网页内容还没有生成,我们访问速度快了。所以呢,就需要重新把访问时间加长,把选择器中的【delay】输入为2000,还有就是在【scrap】种直接把默认的500改成2000,或者3000(也就是2秒3秒,也可以设置更大数字,比如5000)
4. 最后点击【Star scraping】开启爬虫。最后结果应该就是完完整整的数据啦~ 要注意那个时间的设置,比如3000也就是,每打开一个分页,等待3秒后才让蜘蛛大侠去爬数据。这下真正的大功告成,当当当当!
结果:
通过爬虫学习,对数据收集有一个进阶提升,干活儿(需要收集想要的数据的时候)效率飞速提升。
进阶操作:
【亲子活动爬虫】794条
目的:抓取所有亲子游下相关数据,得出结果,并进行相关简单分析。
爬取数据需要解决的问题:
1.总节目多少?
2.展览类型多少?
3.非常受欢迎的活动是什么性质的?
……(其他的就是excel技能了,本人excel技能有点烂)
抓取时间:8月5日09:13分
抓取步骤:
1.建立元素集,选择scrolldown,选择总区域
2.分辨建立子元素选择器,name,type,price,paticipants
3.其中报名人数不好选择,鼠标移动到报名人数,右键选择检查,用contrl+F,查找类型,最后发现是i.joincnt 复制到选择其中,然后 done selecting
4.将数据整理,没找到快速填充,查了半天也没弄清楚,哈哈,偷懒了。用的分隔符,复制“|”。然后将数据分列处理。
抓取结果及分析:
1.总节目共794条。(这里可以对比同类别城市的数据结果,可以得到上海与北京,广州,深圳的对比)
2.展览类型共65条(选择某一列数据,然后点击数据-筛选-找到展览-回车)
3.价格最高:
最高:大师出名级别的音乐视听演出,高过其他的4-5倍不等
其次:是小朋友参与性强的,比如俱乐部,比如户外活动。
4.受欢迎程度:
最欢迎TOP1:科技类活动《畅玩2000平+14个顶尖太空科技体验项目+VR穿越时空》3305销量
其次:马戏魔幻类《欢乐马戏》小朋友最爱!传递欢乐与幽默!2571销量
还有票量极少的,分析方法同上,比如票量少的如何优化,这些就是具体到策略执行层了。而我们日常分析一个数据,除了看人家的数据结果,以及分析结果之外。
最重要的就是对比到自己做事。比如如果我是总策划,我应该从哪些方面入手优化这些活动,从而提升销量。比如我可以分析其他城市同类活动数据,寻找维度,分析指标。提出优化策略。比如活动标题,是刺激大家点击查看详情的重点,如何优化等。
最后深深有一种茅塞顿开的感触:
工具解放你的四肢,好比如各种笔记软件解放了你的大脑。
又掌握一门技能,感觉真好。