某无人机航拍服务平台运营情况分析

2018-04-02 本文已影响17人 davidac

数据背景

数据来源：某无人机航拍服务平台的订单数据

这份数据是我通过 scrapy 框架爬取该平台网站公开的订单数据得到的。数据仅以分析之用，故在下文中，特意隐藏该平台网站的信息。

分析目的：

分析该平台的运营情况
总结如果开展同类型项目可能会出现的问题

爬虫思路：

根据网站链接 http://www.abc.cn/page/job_xxx.html 中「xxx」，从 xxx=55 作递增处理；
爬取订单详情页里所有与订单有关的属性，并以 csv 的文件格式保存到本地。

最后共抓取到 138 条带有效数据的链接，在该网站中代表着有 138 个公开的订单。

数据概况

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

%matplotlib inline

pd.options.display.max_rows = 250

df = pd.read_csv('../scrapy_projects/abc/abc.csv')
df = df[['标题', '任务日期', '任务天数', '地点', '预算', '最终报价', '抢单飞手', '已选飞手', '服务评分', '电池块数', '拍摄内容', '人员配置', '拍摄机型', '飞手飞龄', '飞行环境', '拍摄用途', '任务说明']]
print(df.duplicated().value_counts()) # duplicated() 为 False 的有 138，代表 df 的每条数据都是非重复的。
df

结论

df 是一个 138x18 的不重复的数据集，也代表有着 138 个有效订单数据；
结合网站时间跨度从 2016 年 12 月 24 日，到最新更新的任务订单的日期 2017 年 10 月 23 日，相隔 303 天，跟订单数相除，平均 2.19 天一个订单。

任务日期分布（按月）

df['任务日期'] = df['任务日期'].str.split(" ", expand=True).get(0)
df['任务日期'] = df['任务日期'].str.replace("年|月", "-")
df['任务日期'] = df['任务日期'].apply(lambda x: x[0:7])

print("每月的订单分布如下：\n\n", df.groupby(by='任务日期').size())

每月的订单分布如下：

任务日期
2016-12 10
2017-01 14
2017-02 7
2017-03 16
2017-04 21
2017-05 22
2017-06 25
2017-07 14
2017-08 3
2017-09 4
2017-10 2
dtype: int64

from matplotlib.font_manager import FontProperties
font_zh = FontProperties(fname='/Library/Fonts/Microsoft/SimHei.ttf')

# for style in plt.style.available:
plt.style.use('fivethirtyeight')
ax = df.groupby(by='任务日期').size().plot(kind='line', ylim=(0,30), title="订单日期分布（按月）")
ax.title.set_fontproperties(font_zh)
ax.set_xlabel("月份").set_fontproperties(font_zh)
ax.set_ylabel("订单总数").set_fontproperties(font_zh)

结论

由上面的折线图，2 月份和 8 月份的订单数量有明显的回落，2 月份是农历新年假期，数据回落可以理解。但在 8 月份，订单数量骤降至只有 3 个订单，有几个可能性，一是用户需求量突然下降，二是关闭了用户自行发布需求的入口（改成现在这种由平台的运营进行选择性发布）。不过我不清楚他们之前发布需求的方式，所以现在还只是推测。如果第二种可能性是真的，那很可能他们在 8 月份的时候便开始内部调整了。

省份城市分布

df['省份'] = df['地点'].str.split(" ", expand=True).get(0)
df['城市'] = df['地点'].str.split(" ", expand=True).get(1)

# 对缺少「省」「市」的字段进行填补
df.loc[df['省份'].isin(['广东', '湖南', '山东', '黑龙江']), '省份'] += '省'
df.loc[df['省份'].isin(['北京', '上海']), '省份'] += '市'

plt.rcParams['font.sans-serif']=['SimHei']
plt.style.use('ggplot')
font_zh = FontProperties(fname='/Library/Fonts/Microsoft/SimHei.ttf')
ax = df['省份'].value_counts()[:10].plot(kind='pie', figsize=(6,6))
ax.title.set_fontproperties(font_zh)
# ax.set_fontproperties(font_zh)
ax.set_title('订单省份分布', fontsize=20)

df.loc[df['城市'].str.len()==2, '城市'] += '市'
df.loc[df['城市']=='哈尔滨', '城市'] += '市'

# 对「城市」列上空白字符的值，可以根据「地点」列的值进行提取
df.loc[df['城市']=='', '城市'] = df.loc[df['城市']=="", '地点'].str.split(" ", expand=True).get(3)

ax = df['城市'].value_counts()[:10].plot(kind='bar', title='订单城市分布')
ax.title.set_fontproperties(font_zh)

结论

结合「订单省份分布」及「订单城市分布」的图表，过半数的订单来自广东，同时订单量前十的城市中，有 4 个来自广东的，也符合「发迹于珠三角」的战略路线。

交易数据

df.loc[:, '预算'] = df['预算'].str.replace("￥", "").astype('float32')
df.loc[:, '最终报价'] = df['最终报价'].str.replace("￥", "").astype('float32')
df['差价'] = df['预算'] - df['最终报价']

print("订单成交金额:",df['最终报价'].sum())

订单成交金额: 404459.0

bins = [0, 1000, 2000, 3000, 4000, 5000, 10000, 20000]
level = ['1000以下', '1000-2000', '2000-3000', '3000-4000', '4000-5000', '5000-10000', '10000以上']
df['level'] = pd.cut(df['预算'], bins=bins, labels=level)

df_price_pct = pd.DataFrame(df['level'].value_counts())
df_price_pct['pct'] = ((df_price_pct['level']/df_price_pct['level'].sum())*100).round(2)

df_price_pct = df_price_pct.sort_index(axis=0, level=['1000以下', '1000-2000', '2000-3000', '3000-4000', '4000-5000', '5000-10000', '10000以上'])
df_price_pct

plt.style.use('bmh')
df_price_pct['level'].plot(kind='pie', title='订单预算价格', figsize=(6,6))

结论

订单的预算，即需求方的报价，介于 500 至 19500，平均预算为 3119.93 元，平均接单价（最后报价）2930.86 元，平均下来，比预算节省 189.07 元。
将最终报价进行汇总处理，可得知所有订单的成交金额为: 404459 元，假设网站抽佣高达 10%，网站将受益 40445.9 元。考虑到统计时间段横跨 10 个月，所以网站靠订单抽佣的方式盈利金额其实并不高。
由上面的饼图可得知，订单预算金额在 2000 元以下的已经超过一半了。再扩大范围，预算金额在 4000 以下的则高达 78.26%。可见客单价较低会是比较普遍的情况。

抢单数据

print("平均每个订单的抢单数:",df['抢单飞手'].mean().round(2))

平均每个订单的抢单数: 13.22

df['抢单飞手'].describe()

count 138.000000
mean 13.217391
std 11.230004
min 1.000000
25% 6.000000
50% 11.000000
75% 15.750000
max 75.000000
Name: 抢单飞手, dtype: float64

print("中标团队数量:", len(df['已选飞手'].unique()))
df_team = df['已选飞手'].value_counts().reset_index()
df_team[df_team['已选飞手']>1]
print("中标多于 1 单的团队数量:", len(df_team[df_team['已选飞手']>1]))
print("中标团队平均服务评分:", df['服务评分'].mean().round(2))

中标团队数量: 97
中标多于 1 单的团队数量: 19
中标团队平均服务评分: 87.64

结论

从「抢单飞手」一列的平均数据得知，平均每个订单的抢单数为 13.22，对需求方是个正反馈不错的数值。
这 138 个订单，实际上只有 97 个团队成果「中标」过，但「中标」数量多于 1 的团队只有 19 个，那就说明还有 78 个团队是只「中标」过一次。还没包括没有出现在这份数据上的，没有成功「中标」过的团队。所以该网站对服务方（飞手团队）的正反馈十分匮乏。

任务说明

df['任务说明'] = df['任务说明'].str.strip()
df['任务说明'] = df['任务说明'].str.replace("\r|\n|\t", "")

import re

# pat = r'【(\s+)([\u4e00-\u9fa5]+)(\s+)】| 【([\u4e00-\u9fa5]+)】'
pat = r'【(.*?)+】| ［(.*?)+］'

df.loc[:, '标题'] = df['标题'].str.replace(pat , "")

text = "".join(df['标题'].values.tolist())

import jieba
segments = []

wordlist = jieba.cut(text, cut_all=True)
for seg in wordlist:
    if len(seg)>1:
        segments.append(seg)
        
segmentDF = pd.DataFrame({'segment': segments})

segstat = segmentDF.groupby('segment').size().reset_index()

segstat = segstat.rename(columns = {0:'counts'})
segstat = segstat.sort_values(by='counts', ascending=False)
segstat.head(10)

结论

单从订单的标题里分析拍摄需求，除「航拍」「拍摄」外，「建筑」这个词出现次数最高，证明建筑航拍在航拍需求量里是最高的，但鉴于数据量较小，此处的结论应辅以其他字段的分析进行验证。

小结

月订单数据在 8 月份开始突然骤降，一是可能跟团队内部调整有关，可以研究网站背后运作的公司的其他产品的动态辅以论证。二是可能这种商业模式依然不明朗，虽然平均订单单价 2930.86 元，但订单价在 2000 元以下的依然占超过一半，并且作为网站核心数据的订单量并不高，说明网站还处于低频低客单价的状态。从订单量看，需要结合他们团队的推广手段，来评估核心数据不高是因为推广力度不足，还是因为行业需求量偏低导致的。至于客单价的问题，可以考虑加入附加值更高的航拍服务（如电力航拍、测绘航拍）来提高订单价格。