美团网商家数据分析

2018-11-12  本文已影响0人  努力进步的大白菜

一、数据准备

爬虫爬取美团网广州市地区美食商家信息 1025条,爬虫工具是八爪鱼采集器,主要字段包括:店铺名称、店铺网址、评分、消费评分、消费人数、类型、店铺地址、人均价格、所在城市、关键字。

二、分析目标

针对美团网广州市地区美食商家
1、不同区域商家的商家数量、评论数量、种类分布、价格和评价如何?
2、不同种类商家的商家数量、评论数量、区域分布、价格和评价如何?
3、连锁店的门店数量、种类分布、区域分布、评论数量和价格如何?
4、评论人数最多的10家店?价格最高的10家店?

三、数据清洗与处理

下图为原数据


原数据.JPG

数据处理

清洗数据结果见下图


清洗结果数据.JPG

四、分析内容

区域

区域数量

SELECT COUNT(DISTINCT area)
FROM food;
区域数量.JPG

目前广州市辖有11个市辖区,数据中有11个区域,符合广州实际情况。

店铺数量

SELECT COUNT(*), COUNT(DISTINCT res)
FROM food;
店铺总数量.JPG

一共有980条记录,但店名去重后的数量是823,判断有部分店铺是连锁店。

各区域商家数量

SELECT area, COUNT(area)
FROM food
GROUP BY area
ORDER BY COUNT(area) DESC;
各区域商家数量.JPG

天河区的美食商家数量远大于其他区域,其次是番禺、白云、海珠和越秀,可能是这些区域人流量比较大,因此商家也比较多。

各区域评论数量

SELECT area, SUM(`comment`)
FROM food
GROUP BY area
ORDER BY SUM(`comment`) DESC;
区域评价总人数.JPG

这里用各区域评论总数量粗略代表人流量,可以看到各区域按评论数量排序的顺序跟按商家数量排序的顺序基本一致,人越多越繁华的地方,商家就越多。

结合广州各行政区常住人口数据(数据来源:维基百科)


广州各行政区常住人口.JPG

这里按常住人口数量排序跟上面两个排序有出入,但是前5名依然是白云、海珠、天河、番禺和越秀区。

各区域商家种类数量

SELECT area, COUNT(DISTINCT kind)
FROM food
GROUP BY area
ORDER BY COUNT(DISTINCT kind) DESC;
各区域商家种类数量.JPG

美食种类最多的仍然是天河、白云、海珠、番禺和越秀,商家越多,种类就越多,选择也就更多样了。

各区域平均价格

SELECT area, ROUND(AVG(price))
FROM food
GROUP BY area
ORDER BY ROUND(AVG(price)) DESC;
区域平均价格.JPG

天河区平均价格最高,毕竟是广州CBD,紧随其后的是越秀和海珠区,白云和番禺区平均价格处在中等水平,比较实惠。

各区域平均评分

SELECT area, ROUND(AVG(score),2)
FROM food
GROUP BY area
ORDER BY ROUND(AVG(score),2) DESC;
区域商家平均评分.JPG

每个区域商家评价比较好,平均评分都在4以上。

种类

种类数量

SELECT COUNT(DISTINCT kind)
FROM food;
商家种类数量.JPG

美食种类一共有122种,可供选择的类型和口味挺多的,但是可能有一些种类是从一个大类种拆分出来的。

不同种类商家数量

SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind) DESC;
不同种类商家数量最高部分.JPG
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind);
不同种类商家数量最低部分.JPG

商家数量最少的种类是一些小类,再次验证了我们的想法,有些类型其实属于同一大类。

不同种类商家区域分布情况

SELECT kind, COUNT(DISTINCT area)
FROM food
GROUP BY kind
ORDER BY COUNT(DISTINCT area) DESC;
不同种类区域分布数量.JPG

与之前的不同种类商家数量对比,商家数量越多,覆盖的区域越广。

不同种类商家平均价格

SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price)) DESC;
不同种类商家价格最高部分.JPG
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price));
不同种类商家价格最低部分.JPG

自助餐和外国菜普遍比较贵,新疆菜、杭帮菜、云南菜和重庆火锅价格也比较高,但小吃类普遍比较便宜,比如豆腐花、地方小吃、麻辣烫等等。

不同种类商家平均评分

SELECT kind, ROUND(AVG(score))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(score));
不同种类商家评分最低部分.JPG

商家平均评分还是挺高的,基本都大于3。

连锁店

CREATE VIEW chain_stores AS (
SELECT *
FROM food
GROUP BY res
HAVING COUNT(res)>1);

连锁店数量

SELECT COUNT(DISTINCT res)
FROM food
WHERE res IN (SELECT res
              FROM food
              GROUP BY res
              HAVING COUNT(res)>1);
连锁店数量.JPG

爬取数据种有65家门店是连锁店。

连锁店种类分布

SELECT kind, COUNT(kind)
FROM chain_stores
GROUP BY kind
ORDER BY COUNT(kind) DESC;
连锁店种类数量.JPG

奶茶/果汁和蛋糕店连锁店数量最多,这两种类型的连锁店可能比较容易开设。

连锁店门店数量分布

SELECT res, COUNT(res)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(res) DESC;
连锁店门店数量最高部分.JPG

快餐店华莱士门店数量最多,奶茶店的门店数量也挺多的。

连锁店区域分布

SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) DESC;
连锁店区域分布最高部分.JPG
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) ;
连锁店区域分布最低部分.JPG

通过与连锁店门店数量对比,连锁店门店数量越多,所覆盖的区域也就越大。

连锁店评论数量

SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`)  DESC;
连锁店评论数量最高部分.JPG
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`);
连锁店评论数量最低部分.JPG

连锁店之间的评论数量相差蛮大的,有的评论数量上万,一部分连锁店本身门店数量多,一部分连锁店吸引的顾客量大,有的评论数量只有几百。

连锁店平均评分

SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY AVG(score) DESC;
连锁店平均评分最高部分.JPG
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY AVG(score);
连锁店平均评分最低部分.JPG

连锁店平均评分大于3,总体评价不错,毕竟口碑不好,也很难开连锁店。

Top商家

评论数量最多的10家店

SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY `comment` DESC
LIMIT 10;
最受欢迎前10商家.JPG

最受欢迎的商家9家都分布在商家数量最多的区域,种类不一,价格没有明显的趋势。

价格最高的10家店

SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY price DESC
LIMIT 10;
最贵10家商家.JPG

平均消费价格最高的10家店有4家都在天河区,有7家都是自助餐类型的,集中在最贵的地区和类型,平均消费价格都大于200。

五、总结与不足

总结:

不足:
美团广州地区美食最多只有32页,因此只爬取了32页的数据,数据与真实数据相比存在偏差。

上一篇下一篇

猜你喜欢

热点阅读