37统计基础-指数分布的最大似然
2021-01-09 本文已影响0人
不到7不改名
指数分布(exponential distribution):这是一种统计分布,用来模拟事件之间的时间。你要等多久才能收到另一条短信?下一个人要过多久才能看这个视频?
下图是指数分布,x轴是时间之间的时间,y轴被缩放,所以曲线下的总面积= 1。如果我们对0到5秒内发生的事件的概率感兴趣(就像看这个视频的人),我们求解x= 0到x= 5秒曲线下的面积。这是指数分布的方程
image-20201230105452031.png代入x的值,算出y的值。λ被称为率(rate)参数和事情发生的速度成正比。当λ= 1,这个模型描述了平均每秒钟发生的事件(就像有人在看这个视频)。当λ= 2,这个模型描述了平均每秒看两次视频。当λ= 0.5,这个模型描述了平均两秒看1次视频。最大似然(Maximum Likelihood)的目标是:给定一组测量值,为λ找到一个最优值。
image-20201230110508964.png所以假设我收集了很多数据关于这个视频的两次浏览间隔时间。x1=第1次看和第2次看之间的时间、x2=第2次看到第3次看之间的时间。x3 =从第3次看到第4次看的时间。现在,我们假设λ的值已经很好了。第一个测量值x1的似然是:
image-20201230111441601.png因为我们对x1和x2感兴趣,我们把两个似然函数相乘。因此我们得到x1和x2的似然: image-20201230130330469.png
接下来,我们计算所有数据x1、x2、x3......Xn的似然,它等于所有数据似然的乘积。
image-20201230130727901.png如果我们没有一个好的λ值,我们需要去找到它。我们首先对方程求导,然后令导数等于0即可:
image-20201230131519244.pngimage-20201230131615218.png
现在,当我们收集了大量关于事件之间发生时间的数据时,我们只要把这些值代入这个方程,我们就会得到λ的最大似然估计,然后我们就可以将数据拟合成指数分布。
举个例子,如果第一次和第二次观看这个视频的时间间隔是2秒,x1 = 2。第二次和第三次观看这个视频的时间间隔为2.5秒,x2 = 2.5。第3次和第4次观看这个视频间隔了1.5秒,x3 = 1.5。λ的最大似然估计=0.5。
image-20201230132057633-1609726101738.png