数据分析的基础概念和模型 |《深入浅出数据分析》
2017-03-05 本文已影响60人
TaraChen
这本书目前豆瓣评分7.6,理论上我不想拿8.0以下的书入门(最好是8.5以上)。所以犹豫了很久,但是读完发现这本书作为入门是很好的。如书中所说,这本书关注的是假设和建模范围的事情,能清楚地解释概念、模型,且能讲得通俗有趣,已经很不错了。豆瓣评分低大概是觉得太浅吧。
核心概念
- 创建模型时,务必要规定假设中的各种变量的相互关系。不要假定两个变量是不相关的。# 变量间关系
- 定义主观意愿?# 约束条件定义什么 容易忽略的约束条件
例如某厂生产橡皮鸭和橡皮鱼,求问怎样的产量组合能获得最大利润。约束条件容易考虑橡胶量、生产时间、利润,容易忽略人们对两种产品的购买意愿。例如鱼的利润小但畅销,若追求利润最大而生产很多鱼但卖不出去,依然无法利润最大。 - 散点图可判断因果关系,体现关系,但不能直接反映为什么两者有关
- 因果关系通常是网状的,不是线性的
- 随机事件
模型
最优化模型
- 用途:给定约束条件下,求怎样的变量组合得到最优解
- excel -> solver
贝叶斯规则
- 用途:可以把新信息整合到已知信息中,修正主观概率:即在已有一个假设的概率时,新证据出现时,该假设还成立的概率。关键是求(估算):假设成立的条件下,新证据出现的概率
回归
- 用途:线性回归、非线性等
- 均方根差表示散点和回归线的差异,即线性回归的误差区间。
工具
散点图
- 判断因果关系。y轴结果,x轴原因
证伪法
- 用途:
1 用于几种假设都没有强烈证据支持的时候。区别于满意法,即挑一个觉得证据多的假设为真。这有可能忽略该假设反面证据,或者漏掉其他假设的支持证据。( which is 大多数人决策会使用的方法)
2 对一种未知情况做判断,可以提出几种具体假设再证伪。
例如 iPhone 何时发布
启发法与最优解
- 用途:其中一种:别人用启发法来决策、给任务时,如果无法量化结果,可以选择说服对方换一种启发法。
直方图
- 数据点在数值范围内的分布。(有多少人薪资在15k+,多少在30k+...)
软件
- excel: 可以分隔数据(例如以分隔符隔开时)
- R软件