大数据 爬虫Python AI SqlPython小哥哥

这是一篇让人脸红的python数据分析 !

2019-03-22  本文已影响0人  14e61d025165
image

“情趣内衣哪家强?”

摘要:爬取亚马逊页面情趣内衣销售数据发现了一些好玩的东西

关键词:Python 爬虫 数据分析 电商 流量

文末分享本文代码和数据,欢迎自取~[图片上传失败...(image-ffd643-1553241542563)] 代码加群:683380553

前言

大家好,我是Bynn,数据团Python微专业和可视化微专业的优秀学员。前些天,我看到某公司对数据分析师的招聘要求有一条:

4、分析客户人群的购买习惯,并通过购买习惯做出相关数据分析。

正好我最近在找项目练手,于是我决定研究亚马逊上Top100的细分品类——女式情趣内衣的销售情况。

image image

我的分析分为核心的三步:

第一步,爬取商品排名和详情页链接,需要的字段为:排名、商品名、详情页链接

第二步,爬取商品详情,需要的信息为:

第三步,数据转化为可视化图表,并做分析。

是不是迫不及待想要看过程了,来吧~

如何爬取内衣数据

爬取过程分为三步,完整代码见文末,不用谢。

1、爬取商品排名和详情页链接

image

需要爬取的具体字段:排名(Rank),商品名(item_name),商品详情页链接(item_link)、商品图片链接(img_src)

2、在商品详情页爬取更多商品信息

image

店家名、店家链接、商品名、价格

image

星级、评论标签

核心事项:

1)构建函数来获取单个商品的详细信息;

2)利用for循环,遍历商品详情页链接列表,来获取每个商品的详细信息

3、爬取评论

image

评论内容,星级

核心事项:

1)从上一步的csv文件中,读取Rank , item_name , reviews , reviews_link字段

2)构建函数读取每个商品的所有评论

3)利用for循环,获取所有商品的所有评论

4)存储到数据库和csv文件中

4、爬取size和color数据

和第三步基本一样,代码基本一样,主要在于要确认每页评论的size&color个数。

数据清洗与预处理

1、读取、清洗数据

从csv文件读取100个商品的数据,筛选出所需要的字段,进行数据清洗

image

2、以商家维度处理数据

获取所需的数据:商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比。针对星级、评论数均值、价格均值、商品数量做标准化处理,并计算加权分。

image

歪果情趣内衣哪家强?

① 不同商家的星级排名

[图片上传中...(image-8d54aa-1553241542567-17)]

让我看看LALAVAVA长什么样。亚马逊上的商品,看上去就是普通泳衣,米国人还是很保守的嘛~

image

但评分高真的就说明产品好吗?不如来看看评论数吧——

②不同商家的平均评论数排名

image

那么,亚马逊的星级评价难道就只受评论数的几颗星比例影响吗?我查阅了网上的一些资料,发现亚马逊评价星级评定的三个重要因素:评论距离现在的时间,评论被买家投票采纳数,评论是否有verified purchase标志(意指真实买家)。此外,评论的字符数,被点击次数等因素也可能会对评论星级有影响。

看来,亚马逊对评论的监控和管理是非常严格而复杂的!当然,最重要的还是看看评论第一名的Garmol长什么样:

image 比上边的泳衣更点题了,大家说好才是真的好,very sexy! image

③不同商家的价格区间排名(按均价)

image

最奢华的ELOVER看上去果然比较女神,缩略图都比别家更用心。

image

那么,到底哪个商家的策略更靠谱,市场份额更大呢?

④商家的商品数量饼图
image

Avidlove的内衣是酷酷风的,我喜欢。

image

单一方面毕竟还是很难衡量哪家商家更优秀,不如综合多个指标来分析吧~

⑤不同商家的加权分排名

image

将星级、平均评论数、商品均价、商品数量进行标准化处理后,因为不好拍定加权的比例,便将4项的归一化结果x10后直接累加得到总分,并制作成堆积图。

而每个商家的4项指标的占比,则侧面反映其自身的优劣势。

口碑最差的N-pearI,能搜到的商品也最少,不过图很劲爆……

image

粗略来看的话,想要排名靠前,口碑一定不能太差,至少要保持在平均水平及以上!

⑥不同商家的星级/价格散点图
image

x轴为商家的商品均价,y轴为商家的星级,点大小为商品数量,商品数量越大,点越大,点颜色为评论均值,评论均值越大,颜色越深红。

利用价格均值和星级均值,将图切分为四个象限:

①左上象限:实惠好评的商家

②右上象限:有点贵,但一分钱一分货的商家

③右下象限:贵,但质量不咋地的商家

④左下象限:便宜没好货的商家

所以借助这张散点图,挑商家买东西就容易多啦:

顾客可以根据自己的喜好挑选合适的商家,那么作为商家如何改进自己呢?

⑦词频分析

image

前面在爬取的过程中,同样爬取了评论标签,通过对此进行词频分析,可以发现顾客最关心的依次是:

1.是否合身:size、fit等相关字眼多次出现且排位靠前

2.质量:good quality、well made;soft and comfortable、fabric是对材质的肯定

3.款式:cute、sexy、like the picture你懂的

4.价格:cheaply made勉强算价格吧,但更多是对商品质量的怀疑

5.口碑:highly recommend,评论的还是非常有参考价值的

评论标签的数量较少,进一步对2.4w条评论进行词频分析,并制作成词云:

image

快夸我底图选得好!

最直观的,仍然是跟“是否合身”以及质量或款式有关。那么我们就从顾客购买商品的Size&Color继续分析

Size&Color的词频数据存在几点问题:

1、数据量较少,仅有约6000条

2、Size&Color无法较好的区分开,因此一起分析

3、商家的命名规则不同,比如同样是黑色款,有个商家会命名black,而有的可能是style1(所以一些奇怪的数字编号其实是商家的款式编号)

4、有些奇怪的字眼如trim可能是爬虫时爬错了或者导出csv时的格式错乱

image

可以明显看出:

Size方面:large、medium、small肯定均有涵盖,但另外还有xlarge、xxlarge、xxxlarge,亚马逊主要是欧美顾客,可能体型相对较大,所以商家应该多研发以及备货针对体型较大的顾客的商品。

Color方面:非常直观:Black > red > blue > green > white > purple....所以黑色、红色永远不会错;绿色是出乎我意料的,商家也可以大胆尝试。

Style方面:词频中出现trim、lace字眼,蕾丝最高!!!

image

总结

在分析了Top100的商品信息和2.4w条评论后,作为一篇正经的python数据分析研究,我们来总结一下亚马逊情趣内衣产品和销售策略:

1、一定要注意的竞品

Garmol、ELOVER、Avidlove分别在口碑、定价、产品数量三个方向有其核心优势,是需要重点研究的竞争对手。

2、口碑很重要

3、定价策略

4、产品策略

5、拓展&思考:

对亚马逊情趣内衣的销售数据的爬取和分析就到这里,要是学到了什么,就点个关注和在看吧~ image
上一篇 下一篇

猜你喜欢

热点阅读