概率统计

2022-05-05  本文已影响0人  Nefelibatas

数据科学家基础能力之概率统计

使用概率的语言

概率统计中的“概率”,对于学习和掌握人工智能的诸多方面都有着举足轻重的作用。

目前火热的深度学习模型,以及在之前一段时间占领机器学习统治地位的概率图模型(Probabilistic Graphical Models),都依赖于概率分布作为这些框架的基本建模语言。

因此,能够真正掌握这些分布就显得尤为重要。对于分布的掌握其实可以很容易。只要对少量几个分布有一定的认识后,就能够很容易地扩展开来。

首先,当你遇到一个实际场景的时候,你要问自己的第一个问题是,这个场景是针对离散结果建模还是针对连续数值建模?这是一个最重要的分支决策,让你选择正确的建模工具。

当面对离散结果的时候,最需要掌握的分布其实就是三个:

当你面临的问题是连续数值的时候,需要掌握和理解正态分布,有时候称为高斯分布。

正态分布的重要性是再怎么强调都不为过的。任何你可以想到的场景,几乎都可以用正态分布来建模。由于中心极限定理的存在,在大规模数据的情况下,很多其他分布都可以用正态分布来近似或者模拟。

在理解概率分布的过程中,还需要逐渐建立起关于“随机数”和“参数”的概念

衡量一个分布是离散还是连续,指的是它产生的“随机数”是离散还是连续,和这个分布的“参数”没有关系。

比如伯努利分布是一个离散分布,但是伯努利分布的参数则是一个介于 0 和 1 之间的实数。

另外,建立起参数的概念以后,所有的分布就有了模型(也就是分布本身)和参数的估计过程两个方面。这对理解机器学习中模型和算法的分离有很直接的帮助。

当理解了这些概率最基础的语言以后,下面需要做的就是了解贝叶斯统计。

核心:怎么利用先验概率去对复杂的现实情况进行建模。

比如说,针对用户是否购买某一件商品而言,这个问题可以用一个伯努利分布来建模。

假如想描述男性和女性可能先天上就对这个商品有不同的偏好,就可以在伯努利分布的参数上做文章。也就是说,可以认为男性和女性拥有不同的参数,然而这两个参数都来自一个共同的先验概率分布(也可以认为是全部人群的购买偏好)。建立起了一个具有先验的模型来描述数据。

假设检验

上一篇 下一篇

猜你喜欢

热点阅读