每日新知二十一:期望值最大化
期望值最大化

背景图:要解决凸函数空间上的(比如抛物线就是一个凸函数,如图所示)一个最优化问题[说明:机器学习,各种预测都是最优化问题]。
做法:
只要给出一个收益函数(也称为利润函数或者成本函数,因为利润的反面可以理解为成本)
在每一时刻,算出能够最大化收益(期望值)的方向,沿着这个方向走一小步,然后再从新的起点重复这个过程,不论从何处起始,最后一定能够达到收益最大的那个终点。
应用:
1.物理学:
在宇宙的演化中,物理学的基本原理,比如各物质之间的四种基本作用力,其实就是收益函数,质子和中子通过强核力形成原子核,弱核力保证原子核不要太大,电磁力保证原子核和电子能够形成原子,以及原子可以结合形成各种分子乃至万物,万有引力保证物质能够形成星球,等等。
宇宙的演变其实就是在这很少的几条规则限制下不断优化的过程,最后孕育出生命。而物种的进化也是如此,其实是我们的DNA不断优化适应环境过程。
2.在人和人的关系上。
在一个组织内部,也是不自觉地按照期望值最大化方法在不断完善。
一个人交朋友,开始可能有比较大的随意性,但是他内心有一个衡量标准(收益函数),就是最大化自己的收益,久而久之,对他好的人,能彼此产生“化学反应”的人,以及距离比较近(方便于帮助他)的人,就成了他的朋友,其它人就渐渐淡出了他的生活圈。
当然,每个人内心里的收益函数是不同的。
在一个组织内,尤其是一个公司里,更是如此,创始人定下一个什么样的价值观(收益函数),员工就会不自觉地会去朝着收益最大化的方向努力。
有一家大公司在制定年终奖标准时,把每个员工一半的奖金和他对公司价值观的认可挂钩,久而久之你就发现他们的员工出去说话都怪怪的,有意无意在宣传他们的价值观。外人是否相信不知道,但是天天说至少把自己都说得相信了。
在一个现代的组织中,但凡有点独立思考能力的人都会发现那些领导有意无意设定的收益函数,然后不自觉地调整自己的行为去最大化自己的利益。
与其教育员工,不如设置一个好的收益函数。
总结:
对于个人发展来说,需要确定一个收益函数(期望值),一直向这个方向迭代,最终会产生最大收益。
我的期望值是价值观:真实,成长,温暖。行动方面:让自己保持高能量。