初级爬虫使用指北 (1)--想清楚开始的理由

2018-07-06 本文已影响0人 ArthurN

目录

分析需求

需求分类

你的选择

1. 分析需求

分析自己的需求，问自己：需要解决的问题，是否可以在3小时内纯手工的收集？如果不可以，那么再考虑【爬虫】。下面是常见的需要收集数据的需求，这些完成需求的步骤。如果这些步骤很简单/很少，那么请直接手工收集吧。

第一类/第二类/其他类

关注某个事件的动态，以关键词作为切入点跟踪某个事件：我想知道大家关于这件事情的态度。

限定新闻网页的来源，找到出现关键词的新闻网页，运行爬虫收集这些网页，从网页标签中收集文本，分析文本

【房地产报道热度变化趋势：以财经网为主】：我想知道关于这方面的新闻，大家在谈论什么其他相关的关键词，报道是乐观居多还是悲观居多，不同的信息来源的报道偏重是什么，随着时间的推移，报道的热度有什么变化？

收集某个网站上的指定内容：我想收集它们进行分析

确定收集的路径，运行爬虫收集这些信息

【收集亚马逊在线购物网站上所有智能手机的买家评论】：看看我能从中发现什么

【财经网】：价格波动

我没给类型起名字因为我不知道我这么分类是否正确，不过一般我遇到的爬虫需求就这两个了。

以上就是一个“爬虫”能完成的事情，换句话说，程序能完成这些工作，那么你想要写程序吗？

如果你只要收集财经网，你可以直接手工收集，但如果你还要收集彭博网、澎湃新闻、网易新闻、搜狐新闻、百度新闻......呢？（当然是手工收集啦哈哈哈哈哈哈哈）