2020python数据分析项目：爬取某宝口红数据&数据分析可视

2020-05-02 本文已影响0人于饼喵

项目简述

马云说：“未来最值钱的不是房子，也不是石油，而是数据”。阿里旗下的某宝，作为一个最大的电商平台，其数据蕴含了巨大的价值，而不断发展的美妆行业，使得口红占当代年轻人的消费比重愈来愈高，因此，对某宝的口红数据进行采集和分析具有一定的实用价值。此项目包含数据分析的全步骤，供更多人参考、学习和交流。

一、获取数据

【步骤】使用python爬虫对某宝“唇彩”、“口红”、“唇釉”三种分类产品前100页的数据进行采集，由于某宝的反爬非常强，因此需要使用selenium自动化测试工具进行爬取【某宝的滑块反爬不能破解，如果被某宝反爬只能换淘宝账号或者稍等一段时间后重新爬取】

爬取效果+部分代码
【备注：此次一共爬取了13187条数据，但是都是在2020-4-20这一天的数据，因此以下的分析并不包含时间序列】

二、合并数据

【步骤】由于数据分析需要分行执行代码，因此数据分析部分使用jupyter notebook而不使用pycharm。首先在jupyter notebook导入pandas库和numpy库，使用pd.read_csv方法读取爬取的数据，然后使用pd.concat方法对数据进行合并，代码如下：

import numpy as np
import pandas as pd

'''导入口红数据'''
df_lipstick = pd.read_csv(r"D:\spider_project\淘宝爬虫\口红_data.csv",sep="|",names=["pro_name","price","pay_num","store","location","date"]

'''导入唇釉部分数据'''
df_lipglaze = pd.read_csv(r"D:\spider_project\淘宝爬虫\唇釉_data.csv",sep="|",names=["pro_name","price","pay_num","store","location","date"])
df_lipglaze.head()

'''导入唇彩部分数据'''
df_lipgloss = pd.read_csv(r"D:\spider_project\淘宝爬虫\唇彩_data.csv",sep="|",names=["pro_name","price","pay_num","store","location","date"])
df_lipgloss.head()

'''合并三份数据，并赋值给df'''
df = pd.concat([df_lipstick,df_lipgloss,df_lipglaze])
df = df.reset_index(drop=True)

合并数据效果图

三、清洗数据

1.删除重复值

【步骤】由于某宝关键字搜索出的商品信息会有重叠部分，因此需要先删除商品中出现的重复值。使用drop_duplicates()方法来删除重复值,删除后只剩下10964条有效数据。

'''删除重复值'''
df = df.drop_duplicates()

2.填充缺失值

【步骤】在爬虫爬取的csv文件下，可以看到，某些商品的价格、付款人数存在缺失值，由于缺失值和任何值计算的值都为缺失值，因此我们需要对这部分缺失值进行处理，以免影响后续计算结果。使用fillna()方法将缺失值填充为0。

df["pay_num"].fillna(0,inplace = True) #填充付款人数缺失值
df["price"].fillna(0,inplace = True)   #填充价格缺失值

3.处理肮脏数据

【步骤】从某宝爬取的付款人数数据并不是int或者float类型的数据，存在“万+人付款”这个无效字段，这个无效字段会影响我们后续的分析计算，因此需要去除这个无效字段；同时，地点列的省份和城市数据都合在了一个字段里，不利于后续的地域可视化分析，因此我们需要将地点列进行分列处理。

'''处理pay_num的数据，方便计算'''
pay_num_list = []
for each in data:
    each = each.replace("人付款","").replace("+","")
    if "万" in each:
        each = each.replace("万","")
        each = float(each)*10000
    else:
        each = float(each)

    pay_num_list.append(each)

df["pay_num1"] = pay_num_list
df = df[["pro_name","price","pay_num1","store","city","province","date"]]
df = df.reset_index(drop=True)

'''定义用于分割location的函数 将location分为省和城市'''
def split_location(data):
    province = []
    city =[]
    for each in data:
        split_info = each.split(" ")
        if len(split_info) ==1:
            province.append(split_info[0])
            city.append(" ")
        else:
            province.append(split_info[0])
            city.append(split_info[1])
    return province,city

province ,city = split_location(df["location"])
df["province"] = province
df["city"] = city
df.drop(["location",],axis="columns",inplace=True)
df = df[["pro_name","price","pay_num","store","city","province","date"]]

肮脏数据处理完成效果图

四、数据分析 -- 看整体

简述

【看整体】的分析思路是指，先不对口红各档次进行具体分类分析，先从整体的角度对整个口红的市场进行分析并可视化，包括

不同价格区间内商品的数量分布分析
付款人数和价格的相关性分析
筛选出付款人数较多的品牌
热词分析
地区分析 -- 销量地图

【预处理】增加销售额列

【步骤】某宝的付款人数计算存在一定的规则，可能会引起误差，但是由于全部数据都是采用相同的付款人数计算方法，因此，可忽略付款人数计算方法带来的误差影响。使用 付款人数*价格来计算销售额，并增加sales列。

df["sales"] = df["price"]*df["pay_num1"]

1. 价格分布分析 -- 不同价格区间内商品的数量分布

【步骤】计算各价格区间的商品数量，并使用pyecharts生成柱形图进行可视化分析

from pyecharts.charts import Bar
from pyecharts import options as opts

'''计算各价格区间商品数量'''
df["group_price1"] = pd.cut(df["price"],bins=[0,200,300,400,500,1000000])
df_count = df.groupby(by="group_price1")[["pro_name"]].count()

'''绘制柱形图'''
list_labels = ["(0, 200]","(200, 300]","(300, 400]","(400, 500]",">500"]
c = (
    Bar()
    .add_xaxis(list_labels)
    .add_yaxis("",df_count["pro_name"].values.tolist())
    .set_global_opts(
        title_opts=opts.TitleOpts(title="各价格区间商品分布图",subtitle=""),
        
    )
    .render_notebook()
)
c

各价格区间商品分布图
【结论】根据上述价格区间分类，我们将(0,200]价格区间划分为大众口红产品；(200-300]价格区间的口红划分为二线口红产品;(300-400]价格区间划分为一线口红产品;(400-500]划分为超一线口红产品;>500价格区间划分为顶级口红产品。
可以看出，大部分产品价格都低于200，随着价格上升，商品数量快速下降【需要注意，>500的产品里包含了口红套装产品，即口红产品档次并不属于顶级产品，只是其他档次产品打包销售，所以价格>500】

2. 付款人数和价格的相关性分析

【步骤】此分析主要考察付款人数的变化是否跟价格的变化相关，这里通过绘制散点图和计算相关系数来查看是否相关【pandas可以使用corr()方法快速计算相关系数】。代码如下：

'''绘制散点图，观察付款人数和价格的相关性'''
c=(
    Scatter(init_opts=opts.InitOpts(width="1000px", height="500px"))
    .add_xaxis(xaxis_data=df[(df["price"]<1000)&(df["pay_num1"]<10000)]["pay_num1"])
    .add_yaxis(
        series_name="",
        y_axis=df[df["price"]<2000]["price"],
        symbol_size=1,
        label_opts=opts.LabelOpts(is_show=True),
    )
    .set_series_opts()
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(
            type_="value", splitline_opts=opts.SplitLineOpts(is_show=True)
        ),
        yaxis_opts=opts.AxisOpts(
            type_="value",
            axistick_opts=opts.AxisTickOpts(is_show=True),
            splitline_opts=opts.SplitLineOpts(is_show=True),
        ),
        tooltip_opts=opts.TooltipOpts(is_show=False),
    )
    .render_notebook()
)
c

'''根据散点图，设置对应参数并计算对应相关系数计算函数'''
data = pd.DataFrame({"X":df[(df["price"]<2000)&(df["pay_num1"]<10000)]["pay_num1"],
                     "Y":df[(df["price"]<2000)&(df["pay_num1"]<10000)]["price"]})
data.corr() #计算出的结果为-0.028434

【结论】根据散点图和相关系数的计算结果(-0.028434)可以看出，付款人数和价格并不相关，这说明消费者更注重产品本身，而不是产品价格。

3.筛选付款人数较多的品牌

【步骤】假定需要筛选出付款人数>10,000的品牌，通过布尔索引可以快速筛选符合数据，并通过绘制散点图观察该档次分布、商品数量和品牌具体名称。

'''查看付款人数大于某给定值的品牌'''
df1 = df[df["pay_num1"]>10000] #假定为10000
df1.sort_values(["pay_num1","price"],inplace=True,ascending=False)
# print(len(df1)) # 42
df1.reset_index(drop = True)

'''绘制散点图'''
c = (
    Scatter()
    .add_xaxis(df1["pay_num1"])
    .add_yaxis(
        "",
        [list(z) for z in zip(df1["price"],df1["store"] )],
        label_opts=opts.LabelOpts(
            formatter=JsCode(
                "function(params){return params.value[1]}"
            )
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="Price-pay_num"),
        tooltip_opts=opts.TooltipOpts(
            formatter=JsCode(
                "function (params) {return params.name + ' : ' + params.value[2];}"
            )
        ),
        visualmap_opts=opts.VisualMapOpts(
            type_="color", max_=150, min_=70, dimension=1
        ),
    )
    .render_notebook()
)
c

所筛选品牌分布图
【结论】通过散点图可以看出，销量较高的口红档次为大众品牌口红 > 部分一线品牌口红 > 二线品牌口红；大众品牌口红品牌有perfectdiary;colorkey;mac;花西子等品牌；二线品牌口红主要有兰蔻、tomford等品牌；一线品牌口红主要有ysl;阿玛尼等品牌。

4. 热词分析

热词分析主要是对商品名进行分析，通过词云图提取高销量的产品的热词信息，并对该热词贡献的销售额进行排序，考察目前哪些热词是消费者最关注且贡献最高销量。
【步骤】首先需要使用jieba库对商品名进行分词，然后通过wordcloud库生成词云图

热词词云图
【结论】从词云图可以看出，词频较高的热词为[中国，定制，毒液，平价，滋润，显白，不易掉色，预售，大牌，丝绒，雾面，哑光，补水，空气，唇蜜，品牌，保湿，持久，血色，血浆，南瓜，红棕色，豆沙，变色，小辣椒，新色，奶茶，番茄，红色]，下一步，便是对关键词所贡献的销售额进行分析;方法是先计算热词所贡献的销售额，然后使用横向条形图进行可视化分析。

from pyecharts.charts import Bar
from pyecharts import options as opts

df_text = ["中国","定制","毒液","平价","滋润","显白","不易掉色","预售","大牌","丝绒","雾面","哑光","补水","空气","唇蜜","品牌","保湿","持久","血色","血浆","南瓜","红棕色","豆沙","变色","小辣椒","新色","奶茶",
           "番茄","红色","金色","橙红","小辣椒","胡萝卜","枣泥","柿红"]

'''绘制 关键词-销售额横向条形图'''
bar = Bar({"width": "620px", "height": "500px"}) #调整bar的长款，显示全部数据
bar.add_xaxis(df_wordSales_num["words"][-15:].values.tolist())
bar.add_yaxis("",df_wordSales_num["words_saleNum"][-15:].values.tolist())

bar.reversal_axis()
#设置数据标签位置
bar.set_series_opts(label_opts = opts.LabelOpts(position="right"))
#     设置全局配置项
bar.set_global_opts(
title_opts=opts.TitleOpts(title="关键词-销量图"),   
)

bar.render_notebook()

热词销量图
【结论】通过热词-销量图分析可得：
贡献最多销售额的商品特质为：1.哑光 2.丝绒 3.滋润 4. 持久 5.保湿 6.唇蜜 7.雾面 8.大牌
贡献最多销售额的颜色为： 1.番茄 2.豆沙 3. 奶茶 4.新色 5.变色
即如果要打造一款短时间内创造销售额的爆品，可以在考虑在此部分热词上进行构思。

5. 地区分析

【步骤】对各省份的商家店铺数量进行统计，并根据不同的省进行分类和可视化，观察商家在国内的地区分布情况

from pyecharts import options as opts
from pyecharts.charts import Map

df_countStore = df.groupby(by="province")[["sales"]].count()
df_countStore = df_countStore.reset_index()
list_foreignCountry = ["加拿大","德国","意大利","新西兰","日本","法国","波兰","泰国","澳大利亚","美国","英国","荷兰","韩国"]
countries = []
for i in df_countStore["province"]:
    if i not in list_foreignCountry:
        countries.append("中国")
    else:
        countries.append(i)
df_countStore["countries"] = countries
df_countStore.head()

'''可视化'''
c = (
    Map()
    .add("", [list(z) for z in zip(df_countStore["province"], df_countStore["store"])], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="店铺数量中国地区分布"),
        visualmap_opts=opts.VisualMapOpts(max_=200),
    )
)
c.render_notebook()

店铺数量国内分布
【使用相同的思路和方法，可以绘制出国内外、各个省份的店铺数量地区分布情况；此处仅以广东省各市分布为额外案例】

店铺广东省内分布.png

【结论】可以看出，国内的店铺主要分布于沿海地区，内陆地区分布于四川较多；而广东省内主要分布于广州市、深圳市这两个一线城市，即广东省内，口红电商较发达的市为广州和深圳。

看整体的分析思路主要用于对所有数据情况有个大概的了解，而对产品的分析则需要从看重点入手，看重点的思路参考【2020python数据分析项目：爬取某宝口红数据&数据分析可视化(二)】

作者：爱学习，也爱女票的于饼喵

2020python数据分析项目：爬取某宝口红数据&数据分析可视

项目简述

一、获取数据

二、合并数据

三、清洗数据

1.删除重复值

2.填充缺失值

3.处理肮脏数据

四、数据分析 -- 看整体

简述

【预处理】增加销售额列

1. 价格分布分析 -- 不同价格区间内商品的数量分布

2. 付款人数和价格的相关性分析

3.筛选付款人数较多的品牌

4. 热词分析

5. 地区分析

猜你喜欢

热点阅读

2020python数据分析项目：爬取某宝口红数据&数据分析可视

项目简述

一、获取数据

二、合并数据

三、清洗数据

1.删除重复值

2.填充缺失值

3.处理肮脏数据

四、数据分析 -- 看整体

简述

【预处理】 增加销售额列

1. 价格分布分析 -- 不同价格区间内商品的数量分布

2. 付款人数和价格的相关性分析

3.筛选付款人数较多的品牌

4. 热词分析

5. 地区分析

猜你喜欢

热点阅读

【预处理】增加销售额列