数据科学夏令营第一堂
数据科学是什么
数据挖掘、机器学习、人工智能都是数据科学的一个分类。
接下来,我们从这几个方面来剖析一下数据科学
- 制定目标
- 收集和管理数据
- 建立模型
- 评价和批判模型
- 展现结果
- 部署模型
制定目标
为什么要做这个事情
- 提升销量
- 减少退货损失
- 提升转换率
收集和管理数据
收集
- 初步探索(最大值、最小值、平均值、中位数、分位数、方差、标准差)
- 可视化操作
管理
- 发现有用的数据
- 不断的探索
在收集数据和数据模型之间不断反复
建立模型
建立数据模型是数据科学的核心
分类
预测某个东西属于哪个类别,使用最广泛
应用领域
- 销售预测
- 用户购买行为预测
- 款式查重
- 人脸识别
- 声音识别
- 图片学习
- 深度学习
首先有一个很大的类库,打上标签,通过分类算法,找出共性,学习完成之后,就可以进行分类了。
支付宝上已经在这方面取得了一些成功。
打分
为某事件预测一个数值(比如购买概率、定价)
引用领域
- 推荐引擎
- 定价模型
预测一个商品的打分,给特定的人定价格。
AlphaGo就是利用的打分和分类
排名
排序
和打分很类似
聚类
某个东西现在属于哪个类别
应用领域
- 豆瓣九点
- 评论信息
这种很容易和分类搞混,它不是预测算法,是由机器自动分类啊。某个东西属于哪个类别。
因为文本信息很复杂,维度太多了,人工分类很困难,机器聚类有一个比较明确的概念。
关联
找出潜在的相关性
应用领域
- 啤酒与尿布(虽然是假的)
很出名的啤酒与尿布的故事,因为它是入门的数据模型,可以挖掘潜在的相关性,理论上挖掘出来可靠性多少等。电商里面用在推荐和搭配上
特征化
绘图或者报表
应用领域
- 广告投放
打标签,在业务上分组。在电商业务上多用于广告的投放。
评价和批判模型
- 准确率
- 召回率
- 是否比随机预测或者猜测更好
- 是否现实意义
模型好不好,别乱猜要好。比如生男女的几率,通过一系列的模型得出的结果可能比不上你的猜测,因为你的猜测有百分之五十的几率,已经很大了。
不断的调整参数和新模型,花了一个月时间,准确率可能高了百分之一,也可能准确率讲下了。
具体怎么算,有类似Apache提供了Mahout等工具来算这些东西
展现结果
展示和编制分析报告是必不可少的
- 体现你的目标,一定要有目标,我在这里面根据我的预测应该会出现什么样的结果来解释我的模型。
- 展示模型输出的结果,模型的解读,通过一些可视化的工具来很明显的表现出模型的好处。
- 置信度,比如:我们预测某个商品下个星期大卖,有百分之七十的可能性。然后让对方来评估风险,在进行生产等操作。很重要。
部署模型
试运行和不断调整
评价模型 不一定要新的数据, 拿历史数据来评价,训练级和测试级,在模型建立的时期,来判断数据模型的好坏。不能等上线之后。
总结
这一节课,我们了解了数据科学是什么,然后怎么制定分析目标,同时解说了几种模型和数据编制分析报告的重要性,还有一些部署模型的注意点。同时对数据科学与时下热门的机器学习和人工智能的关系有了一些了解。并了解了数据科学在实际业务上的一些实际操作。这一章节很重要,虽然信息量和陌生感可能大了一些,但是让我们体会到了我们数据科学之美。
下节课预告
- 数据探索和管理
- 数据基本统计和基本可视化