出境游分析：以微博关键字“韩国”+“酒店”为例

2016-06-05 本文已影响70人 pmalan

前言：这篇文章前后大概花了一天的时间。主要目的是研究出境游的用户以及预定酒店相关的行为和场景，而挑选了中国人常去“韩国”市场，以中国人常用的社交平台“新浪微博”作为数据来源。

一：需要的工具

全程用到了三个工具：集搜客、Microsoft Excel、文图报告。

首先我们需要用到的是爬虫工具。懂技术的朋友可能会选择针对目标网站，自己写个爬虫程序。不懂技术的产品同学们，挑个顺手的第三方工具也无妨。我这里用的是集搜客，之前大约花了半天时间阅读教程和熟悉界面，之后就上手用了，这个工具功能是挺强大的，不足之处是软件界面的用户体验不太友好。Excel 是用户对数据进行筛选、删减、排序等处理的，对于简单的数据处理，Excel 也是完全足够的，最后把得到的数据用文图形成在线的图表报告。

二：数据采集

采集的样本时间限定在了 2016 年1月至5月，而微博类型全部限定在了“原创”微博，主要采集的是搜索页面的数据，包括：用户昵称、个人主页、博文内容、博文链接、时间、发布工具、转发数、评论数、点赞数”，如果想要获取评论内容等，还需要对爬虫做进一步配置。评论内容对于这次的目的并没有意义，所以并没有进行采集。对于新浪微博平台的数据采集，主要有两个问题：

如果直接在搜索框输入“韩国酒店”的话，我们得到的搜索结果最多只有 50 页。所以需要进入高级搜索，将我们限定的时间分成若干个部分，分别进行搜素。例如这里我把五月分成了 “1-9号”、“10-19”号、“20-31号”三个时间段进行搜索采集，每次搜索得到的结果都会少于50页，这样就保证了数据的完整性；

第二个问题是，新浪微博的反爬机制会造成采集中断，每隔一段时间，新浪微博都会要求输入验证码，输入完成后当前的页面就会中断，所以就需要将当前线索重新入库。这样会造成一部分的数据重复，不过没关系，我们后续简单处理一下就可以去掉重复数据。

全部采集完成后，得到了 4091 条数据，接下来需要对这些数据进行处理。

三：数据处理

首先利用 Excel 的 COUNTIF 函数去掉重复的数据；

接着需要排除干扰项：浏览一下收集到的数据发现，部分关键词重复率很高，并且内容和我们的研究目的完全不相关。例如，韩国电影“蜜月酒店杀人事件”五月份在微博的营销力度很大，很多与这部电影相关的关键词被入到库中，但是对我们一点用处都没有，这里需要剔除。还有，很多旅游机构，都会在微博上进行推广营销，这些数据也是需要去掉的。观察发现这些旅游机构的微博通常有三个特征：昵称加“V”、博文带有推广链接、大多数都是来自“微博 weibo”网页端。最好的解决方法可能是在采集数据前，将加“V”的用户相关博文直接不显示在结果页，但是爬虫工具并不带有这个功能，所以我们只能从后面两个特征入手：去掉博文带有"http://t.cn"和来自“微博 weibo”的部分数据。处理完成后，还剩下 1469 条数据，而这 1469 条数据，基本上接近我们的有效数据。

部分数据截图

最后，依据我们的目的，对数据进一步进行拆分处理。例如，采集到的时间格式为“5月21日 12:28 ”，我们可以依据需要拆分成“月”、“日”、“时分”的格式。

四：数据分析

关于数据分析，有一些很成熟的方法论，如“PEST分析法”、“5w2h分析法”、“逻辑树分析法”等等。在这里我选取了部分数据，进行简单的分析。

1. 按照月份查看数量

1月-5月搜索结果数量对比

通过图片我们可以看出，3月份为最低，4月和5月博文数量有显著提升。这和出国游人数的月份变化趋势其实是吻合的。三月份由于学生已经开始上学，上班族年后工作上的事情比较多，选择在这个时候出游的人数是比较少的，因而，是传统意义上的淡季。

2.微博发布工具

发布工具占比

通过图表可以看出，iPhone用户要占了绝大部分：65%。而依据新浪微博官方出品的“2015下半年-智能手机微报告”，iPhone用户所占的比例仅为 37%。这说明，出境游用户比一般的微博用户购买力要高很多，对价格可能敏感度低一点。

3.博文关键字

通过对博文内容的关键字进行分析，发现“吃”、“买”、“车”、“英语”出现的频率最高，这几个词也构成了赴韩游客的关键元素，也可能是用户痛点。还有一些比较有意思的内容，这里不再展开。

出境游分析：以微博关键字“韩国”+“酒店”为例

猜你喜欢

热点阅读