ML:越千年,太白的不羁仍能懂
2019-09-26 本文已影响0人
凡有言说
想必除了预测,随机森林、决策树、神经网络等等炫酷词汇从随机出现在你我的订阅号、朋友圈,如今已然到了高频刷存在感地步。身为高学历的文科生,任他公式代码狂轰滥炸,我们不慌。拿出学术训练培养的逻辑力,我们从故事的底层入手,去追问为什么需要机器学习的方法,现有的办法就不能解决嘛?似我们读《诗经》时会想为啥有那么多关于南山的意象。
穿越千年,李太白的不羁、杜子美的悲悯,我们依然能秒懂,因为文化不曾断。有没有条线贯穿着机器学习,帮助我们懂它?
D'où venons-nous ? Que sommes-nous ? Où allons-nous ? Eugène Henri Paul Gauguin,1897过拟合,这是机器学习首要解决的问题。它是指机器在学习的时候,既学习了全局特征又学习了局部特征,还把局部特征学的过头了,这就造成了其“泛化性”差。好比唐代的诗读过头了,认为唐朝只出律诗和绝句,给首“花间派”温庭筠的词,模型会给出温庭筠不是唐朝人的反事实判断。
为了解决这个大麻烦,产生了交叉验证、正则化等方法。前者如两分法、K折法;后者如Lasso回归、Ridge回归和Elastic Net模型。特别地,交叉验证是机器学习的一个核心思想,用验证样本来判断模型优劣。哎,当我们讨论机器事时,拎得清。到了自身,往往持目标意图行事,把“执行意图”丢了老远。总是先计划棒棒的,再实施一二,来寻找“真实的自我”,熟不知大可以“先做后想”,用现实来测试种种“可能的自我”。即啥也别想,直接上测试数据集,看效果来判断自己的模型,是可以了还是要继续改。
每一次,我们都特希望自己的模型能通过测试样本的“考验”,用数学语言表述就是测试样本所得结果的误差率小。此时,只要把我们的测试样本分到最有可能的分类就好啦。这样的分类方法有:贝叶斯分类,KNN分类、LDA、决策树、支持向量机、集成学习、神经网络、随机森林等等。
公众号.png