Data Science For Business

2. 商业问题和数据科学解决方案

2020-09-03  本文已影响0人  BT小芒

From Business Problems to Data Mining Tasks

概念介绍:数据问题相关方 → stakeholders(股东)

数据分析可分解为多个任务类型,主要如下:

1. Classification and class probability estimation(分类与概率预估);

2. Regression("value estimation")(回归分析)区别于分类问题,回归问题更关注数量,分类问题更关注是或否;

3. Similarity matching(相似度匹配)基于已知数据评估个体间的相似程度;

4. Clustering(聚类分析)不依据已知的某个目的,对统计的个体按照相似性进行类别划分;

5. Co-occurrence grouping(frequent itemset mining)(共现分组)通过个体间的关联与传输关系,找到个体间的联系;

6. Profiling(behavior description)(资料收集)对特定个体、分组或群体的典型特征进行描绘,用于基于已有用户行为预测新变量后的新的用户行为;

7. Link prediction(链路预测)用于预测个体间的联系&相关性,同样也预估这些联系的强弱,如用户的共同观影爱好程度等;

8. Data reduction(数据压缩)提取关键数据,排除噪声数据,凸显数据特征等;

9. Causal modeling(因果模型)发现某个事件或行为对其他事件或模型的影响。

(本书重点介绍1-4这4种任务,任务间的差异,读到后面再更新吧,目前是在是看得懵逼)

Supervised Versus Unsupervised Methods

监督和非监督,主要区别是,监督统计中包含了某个特定的统计标准或指标,非监督中会发现特征并可对元素分组,但这些特征并不一定是有效用的特征。

分类任务需要给目标进行类别划分(不需要数值结果预测),回归分析需要包含数字化的目标结果,两者的差异。

Data Mining and Its Results

数据挖掘用于训练模型,数据使用用于未知量预测,即类似于机器学习的“学习 - 预测”方法。

The Data Mining Process

过程是,先做数据预处理,后建模,后评估,重复上述过程(过程包括:business understanding、data understanding、data preparation、modeling、evaluation;deployment-这个是上生产,不在迭代循环内),每次重复算一个迭代(iteration),模型成熟后运用到生产环境。

这个过程包含以下几个步骤:

1. Business Understanding:

先把商业问题搞懂是什么

2. Data Understanding

发现商业问题的架构和可用的数据,将他们分解为多个数据挖掘的任务(通常一个商业问题涉及多类型的数据挖掘任务,并且这些任务的结果都要被结合使用)

3. Data Preparation

数据预处理,关注“leaks”(某个变量从历史数据中可得到的、对当前的目标变量有帮助的情形),就是看看哪些历史数据对于现在的要预测的目标有关联关系,给这部分数据留下,其他的不相关数据排除。

4. Modeling

后面整本书都在讲这个,这里不展开,不要深究。

5. Evaluation

评估主要应用于对已经建立的模型和测试数据结果进行准确性评估,确保数据挖掘结果有效可信;此过程可以对部分生产环境用户进行灰度发布测试。

6. End - Deployment

大部分需要技术性的上线,通常还需要重新敲代码,适应生产环境。

Implications for Managing the Data Science Team

管理数据科学团队的指导意见,不要把数据挖掘当做一个纯IT项目。

CRISP cycle(Cross-Industry Standard Process)

Other Analytics Techniques and Technologies

其他数据分析需要的技能和技术:

Statistics(统计学)

用于:1. 特定数字值的计算,2. 借鉴统计学中更多的统计方法进行数据分析。

Database Querying(数据库查询)

先确定取数逻辑(先分析),再去数据库取数。

学好SQL,就这样。

On-line Analytical Processing(OLAP)可以提供友好的数据查询GUI,但是一般也用不着,学好SQL和tableau就行了。

Data Warehousing(数据仓库)

本书只介绍了数据仓库可从多个外部系统进行数据汇总的作用。

Regression Analysis(回归分析)

回归用于基于当前已有数据对未知数据进行预测,其他没有更多介绍。

Machine Learning and Data Mining(机器学习和数据挖掘)

KDD(knowledge discovery and data mining)是机器学习的一个分支。

Answering Business Questions with These Techniques

这是个知识用于实践的小章节:

1. who are the most profitable  customers?

需要定义“profitable”的具体内涵,有定义后可进行数据查询,从而找到潜在的影响因素。

2. is  there really a difference between the profitable customers and the average customers?

通常需要找到某个特定的指标,在合适的客户和普通客户之间,这个指标存在明显差异,且这个结果是随机性导致的可行性低于5%。

3. but who really are these customers? can i characterize them?

决策哪些特征可以将适合的客户和不适合的客户区分开来。

4. will some particular new customer be profitable? how much revenue should i expect this customer to generate?

通过历史数据对新客户进行数据预测,后面章节会详细介绍,这里不用细看。

Summary

确实是总结,看前面的本章内容就行了,没啥新东西。

上一篇 下一篇

猜你喜欢

热点阅读