概率统计
数据科学家基础能力之概率统计
使用概率的语言
概率统计中的“概率”,对于学习和掌握人工智能的诸多方面都有着举足轻重的作用。
目前火热的深度学习模型,以及在之前一段时间占领机器学习统治地位的概率图模型(Probabilistic Graphical Models),都依赖于概率分布作为这些框架的基本建模语言。
因此,能够真正掌握这些分布就显得尤为重要。对于分布的掌握其实可以很容易。只要对少量几个分布有一定的认识后,就能够很容易地扩展开来。
首先,当你遇到一个实际场景的时候,你要问自己的第一个问题是,这个场景是针对离散结果建模还是针对连续数值建模?这是一个最重要的分支决策,让你选择正确的建模工具。
当面对离散结果的时候,最需要掌握的分布其实就是三个:
-
伯努利分布
- 场景是一个二元问题(例如用户是否点击,是否购买),是最直接的选择
-
多项分布
- 遇到的场景需要有多于两种选择的时候
- 广泛应用在文本建模领域
-
泊松分布
- 对可数的整数进行建模,比如一些物品的总个数。
当你面临的问题是连续数值的时候,需要掌握和理解正态分布,有时候称为高斯分布。
正态分布的重要性是再怎么强调都不为过的。任何你可以想到的场景,几乎都可以用正态分布来建模。由于中心极限定理的存在,在大规模数据的情况下,很多其他分布都可以用正态分布来近似或者模拟。
在理解概率分布的过程中,还需要逐渐建立起关于“随机数”和“参数”的概念。
衡量一个分布是离散还是连续,指的是它产生的“随机数”是离散还是连续,和这个分布的“参数”没有关系。
比如伯努利分布是一个离散分布,但是伯努利分布的参数则是一个介于 0 和 1 之间的实数。
另外,建立起参数的概念以后,所有的分布就有了模型(也就是分布本身)和参数的估计过程两个方面。这对理解机器学习中模型和算法的分离有很直接的帮助。
当理解了这些概率最基础的语言以后,下面需要做的就是了解贝叶斯统计。
-
概率分布定义先验概率
-
推导后验概率
核心:怎么利用先验概率去对复杂的现实情况进行建模。
比如说,针对用户是否购买某一件商品而言,这个问题可以用一个伯努利分布来建模。
假如想描述男性和女性可能先天上就对这个商品有不同的偏好,就可以在伯努利分布的参数上做文章。也就是说,可以认为男性和女性拥有不同的参数,然而这两个参数都来自一个共同的先验概率分布(也可以认为是全部人群的购买偏好)。建立起了一个具有先验的模型来描述数据。