2018第六届发现杯比赛
2019-03-12 本文已影响0人
过气海豹
这是我第二次组队参加比赛,也是第一次在队伍中做出实际贡献的一次比赛。这次比赛选择的发现杯的大数据项目,依旧是和大数据有关,不过我这次负责的则是爬虫部分,是项目的数据来源所在。发现杯的大数据赛是今年刚开始开的,比赛题目也是自拟,然而这反而增大了比赛的难度,因为项目的创意是整个项目的灵魂所在、关键所在。
说一说在比赛中收获的吧,因为此次比赛我负责爬虫部分,因此我在对以往简陋的爬虫知识复习之后,又不得不学习新的知识,因为时间和任务分配的问题,我在比赛结束时也仅仅学到selenium,不过应对项目还是绰绰有余的,因为我爬取的是猫眼主站和猫眼专业版的信息,除了字体反爬的问题,基本上只用beautifulsoup库就可以轻易解决绝大多数问题,至于字体反爬问题,文章末尾会贴一个大佬的开源代码。总之,这次的比赛学到的大多是爬虫部分的知识,包括主体的爬虫和与爬虫相关的知识,比如对Hadoop进行初步了解(不过最后录入Hbase和建表语句什么的还是学长写的),了解多线程和多进程(为了提升爬取信息的效率),以及对GitHub、git等工具的使用(团队协作必需)等。
最后,感谢整个团队,感谢学长学姐们的支持、引导和大力帮助,没有你们便不可能有最后的作品,由衷的感谢你们。
猫眼反爬讲解:https://github.com/CasterWx/python-maoyan-spider
————————————————————————————————————————————————
后续:没想到我们这个作品竟然拿了华南赛区唯一的一个一等奖。。。决赛在南昌举行,到时候再更一小段。。。