@IT·互联网

数据科学夏令营第一堂

2017-05-24  本文已影响24人  地主是我爸
数据科学带给了我们什么

数据科学是什么

数据挖掘、机器学习、人工智能都是数据科学的一个分类。

接下来,我们从这几个方面来剖析一下数据科学

制定目标

为什么要做这个事情

收集和管理数据

收集

管理

在收集数据和数据模型之间不断反复

建立模型

建立数据模型是数据科学的核心

分类

预测某个东西属于哪个类别,使用最广泛

应用领域

首先有一个很大的类库,打上标签,通过分类算法,找出共性,学习完成之后,就可以进行分类了。
支付宝上已经在这方面取得了一些成功。

打分

为某事件预测一个数值(比如购买概率、定价)

引用领域

预测一个商品的打分,给特定的人定价格。

AlphaGo就是利用的打分和分类

排名

排序
和打分很类似

聚类

某个东西现在属于哪个类别

应用领域

这种很容易和分类搞混,它不是预测算法,是由机器自动分类啊。某个东西属于哪个类别。
因为文本信息很复杂,维度太多了,人工分类很困难,机器聚类有一个比较明确的概念。

关联

找出潜在的相关性

应用领域

很出名的啤酒与尿布的故事,因为它是入门的数据模型,可以挖掘潜在的相关性,理论上挖掘出来可靠性多少等。电商里面用在推荐和搭配上

特征化

绘图或者报表

应用领域

打标签,在业务上分组。在电商业务上多用于广告的投放。

评价和批判模型

模型好不好,别乱猜要好。比如生男女的几率,通过一系列的模型得出的结果可能比不上你的猜测,因为你的猜测有百分之五十的几率,已经很大了。
不断的调整参数和新模型,花了一个月时间,准确率可能高了百分之一,也可能准确率讲下了。
具体怎么算,有类似Apache提供了Mahout等工具来算这些东西

展现结果

展示和编制分析报告是必不可少的

部署模型

试运行和不断调整

评价模型 不一定要新的数据, 拿历史数据来评价,训练级和测试级,在模型建立的时期,来判断数据模型的好坏。不能等上线之后。

总结

这一节课,我们了解了数据科学是什么,然后怎么制定分析目标,同时解说了几种模型和数据编制分析报告的重要性,还有一些部署模型的注意点。同时对数据科学与时下热门的机器学习和人工智能的关系有了一些了解。并了解了数据科学在实际业务上的一些实际操作。这一章节很重要,虽然信息量和陌生感可能大了一些,但是让我们体会到了我们数据科学之美。

下节课预告

上一篇 下一篇

猜你喜欢

热点阅读