集体智慧编程系列-1.开篇
本人java出身,百度web攻城尸一枚,以为自己这一辈子都只和web对干,突然有一天被老大叫到小黑屋里后出来立马华丽丽地“转职”,变成了一枚当下很火的数据工程师,接手了电商项目的数据平台工作,这是人生第一次从无到有做一个项目,之前也从未接触,当时由于正好被升职,头脑热呼呼的,管她妈妈是谁就这么上了,干了个半年,体会到做数据还真的有点无聊,对应的pm也由于上面的决策没法推动产品,我这半年一直忙于工程很少掺和业务产品的事情,但是我是在一个业务研发部门搞基础建设一没这个资源和条件,二上面确实也不是最关心;那我怎么办,大家都说数据是黄金,我拿着黄金却不会花,我想哭啊想哭!古人云:书中自有黄金屋;那好去看书学习,在同事和网友们大力推荐下找到了一本书《集体智慧编程》,也就是我这一系列的源头所在,觉得我写的不给力,可以直接去找原文看看,
说了以上的废话,就当是我阐述我看这本书的背景了,用以激起同路人(数据挖掘、机器学习小白)的共鸣,哈哈,那就进入开篇正题吧。
背景介绍
Google和最近推出纸牌屋的Netflix这两家公司相比家喻户晓了,它们有什么共同之处?——算法先进牛叉!将来自不同人群的数据加以组合进而得出新结论并创造出新的商机,这种信息采集、以及对其加以解释的计算能力已经激发起了很多巨大的协作型商机,并且加深了对用户和顾客更好的理解。约会网站帮助人们更快地找他们好”机油“,预测机票价格的公司不断涌现,为了创造更有针对性的广告,每一个企业都想更好地了解他们顾客,这仅仅是集体智慧这一新兴领域的几个例子而已,层出不穷的新服务意味着每天都会有新的商机涌现。笔者绝对相信,理解机器学习和统计学在许多不同领域都会变得愈加重要(坚决抵制自卖自夸的无节操行为)
什么集体智慧?(Collective Intelligence)
通常的含义是为了创造新的想法,而将一群人的行为、偏好或思想组合在一起。集体智慧真正关注的是从独立的数据提供者那里得出新的结论。
比如金融市场,价格并不是由某一个个体所决定,它由许多独立个体交易行为共同决定,大量的参与者根据他们对未来价格信息进行契约交易,这样的市场在价格预测效果方面,往往也被认为要比独立进行预测的专家们表现的更好,这是因为市场将知识、经验和成百上千人的意志组织在一起,形成了一种不依赖个人观点的预测。
尽管集体智慧在Internet之前就已经存在,单自从有了Internet,从数千上万网民中搜集信息的能力为人们提供更多的可能,一直以来,人们都在利用Internet购买所需、搜索信息、需找娱乐等等,所有行为都在不需要你费力地被监控下来,你几乎毫无感觉,但是这些信息却可以组织到一起提取出新的价值。
什么是机器学习?
机器学习是人工智能AI(artificial intelligence)领域中与算法相关的子域,它允许计算机不断地进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息——借助这些信息,算法就能够预测出未来可能会出现的其他数据。这种预测是完全有可能的,因为几乎所有非随机数据中,都会包含这样或者那样的“模式”,这些模式的存在使机器得以据此进行归纳。为了实现归纳,机器会利用它所认定的出现于数据中的重要特征对数据进行“训练”,并借此得到一个模型。
许多机器学习算法都倚仗数学与统计学,简单的相关性分析和回归都是机器学习的基本形式,本系列不是晦涩难懂的理论学习,笔者尽可能直观解释
机器学习的局限
机器学习算法受限于其在大量模式之上的归纳能力,而一个模式如果不同于算法先前曾见过的任何其他模式,那么它就很可能被“误解”。也就是说机器学习方法只能凭借已经见过的数据进行归纳,而且归纳的方式受到了很大的限制
来点真实生活
像Google、Amazon、Netflix之流这里就不再给他们做广告了。就那市场预测来说,像刚才提及的金融市场,都是集体智慧的一种形式。我要说一个例子是关于Hollywood Stock Exchange,在那里人们可以进行涉及影片和影星的模拟股票交易。我们可以按照影片的当前价格买卖股票,其对应的价值相当于电影实际首映票房收入的百万分之一。因为价格是通过交易行为来设定的,所以价值不由任何个体所决定,这时该股票的价格其实就是整个群体对电影票房收入数字的预测,这种预测往往都优于某位专家给出的预测。
开篇总结
本系列不是新的知识,但是学习和掌握机器学习对自己未来的工作还是生活都是有益的,因为这是这个时代的大势所趋。下一篇是本系列的正文开篇,主题和大家一起实践如何推荐商品