2. 商业问题和数据科学解决方案

2020-09-03 本文已影响0人 BT小芒

From Business Problems to Data Mining Tasks

概念介绍：数据问题相关方 → stakeholders（股东）

数据分析可分解为多个任务类型，主要如下：

1. Classification and class probability estimation（分类与概率预估）；

2. Regression（"value estimation"）（回归分析）区别于分类问题，回归问题更关注数量，分类问题更关注是或否；

3. Similarity matching（相似度匹配）基于已知数据评估个体间的相似程度；

4. Clustering（聚类分析）不依据已知的某个目的，对统计的个体按照相似性进行类别划分；

5. Co-occurrence grouping(frequent itemset mining)（共现分组）通过个体间的关联与传输关系，找到个体间的联系；

6. Profiling（behavior description）（资料收集）对特定个体、分组或群体的典型特征进行描绘，用于基于已有用户行为预测新变量后的新的用户行为；

7. Link prediction（链路预测）用于预测个体间的联系&相关性，同样也预估这些联系的强弱，如用户的共同观影爱好程度等；

8. Data reduction（数据压缩）提取关键数据，排除噪声数据，凸显数据特征等；

9. Causal modeling（因果模型）发现某个事件或行为对其他事件或模型的影响。

（本书重点介绍1-4这4种任务，任务间的差异，读到后面再更新吧，目前是在是看得懵逼）

Supervised Versus Unsupervised Methods

监督和非监督，主要区别是，监督统计中包含了某个特定的统计标准或指标，非监督中会发现特征并可对元素分组，但这些特征并不一定是有效用的特征。

分类任务需要给目标进行类别划分（不需要数值结果预测），回归分析需要包含数字化的目标结果，两者的差异。

Data Mining and Its Results

数据挖掘用于训练模型，数据使用用于未知量预测，即类似于机器学习的“学习 - 预测”方法。

The Data Mining Process

过程是，先做数据预处理，后建模，后评估，重复上述过程（过程包括：business understanding、data understanding、data preparation、modeling、evaluation；deployment-这个是上生产，不在迭代循环内），每次重复算一个迭代（iteration），模型成熟后运用到生产环境。

这个过程包含以下几个步骤：

1. Business Understanding：

先把商业问题搞懂是什么

2. Data Understanding

发现商业问题的架构和可用的数据，将他们分解为多个数据挖掘的任务（通常一个商业问题涉及多类型的数据挖掘任务，并且这些任务的结果都要被结合使用）

3. Data Preparation

数据预处理，关注“leaks”（某个变量从历史数据中可得到的、对当前的目标变量有帮助的情形），就是看看哪些历史数据对于现在的要预测的目标有关联关系，给这部分数据留下，其他的不相关数据排除。

4. Modeling

后面整本书都在讲这个，这里不展开，不要深究。

5. Evaluation

评估主要应用于对已经建立的模型和测试数据结果进行准确性评估，确保数据挖掘结果有效可信；此过程可以对部分生产环境用户进行灰度发布测试。

6. End - Deployment

大部分需要技术性的上线，通常还需要重新敲代码，适应生产环境。

Implications for Managing the Data Science Team

管理数据科学团队的指导意见，不要把数据挖掘当做一个纯IT项目。

CRISP cycle（Cross-Industry Standard Process）

Other Analytics Techniques and Technologies

其他数据分析需要的技能和技术：

Statistics（统计学）

用于：1. 特定数字值的计算，2. 借鉴统计学中更多的统计方法进行数据分析。

Database Querying（数据库查询）

先确定取数逻辑（先分析），再去数据库取数。

学好SQL，就这样。

On-line Analytical Processing（OLAP）可以提供友好的数据查询GUI，但是一般也用不着，学好SQL和tableau就行了。

Data Warehousing（数据仓库）

本书只介绍了数据仓库可从多个外部系统进行数据汇总的作用。

Regression Analysis（回归分析）

回归用于基于当前已有数据对未知数据进行预测，其他没有更多介绍。

Machine Learning and Data Mining（机器学习和数据挖掘）

KDD（knowledge discovery and data mining）是机器学习的一个分支。

Answering Business Questions with These Techniques

这是个知识用于实践的小章节：

1. who are the most profitable customers?

需要定义“profitable”的具体内涵，有定义后可进行数据查询，从而找到潜在的影响因素。

2. is there really a difference between the profitable customers and the average customers?

通常需要找到某个特定的指标，在合适的客户和普通客户之间，这个指标存在明显差异，且这个结果是随机性导致的可行性低于5%。

3. but who really are these customers? can i characterize them?

决策哪些特征可以将适合的客户和不适合的客户区分开来。

4. will some particular new customer be profitable? how much revenue should i expect this customer to generate?

通过历史数据对新客户进行数据预测，后面章节会详细介绍，这里不用细看。

Summary

确实是总结，看前面的本章内容就行了，没啥新东西。