大数据和机器学习固废行业商业价值
一、大数据和机器学习的基本概念,历史渊源。综述当前大数据和机器学习应用领域。我的判断是,这两个概念现在已经不是出炒作,已经走向实用领域。
大数据这个概念兴起,我感觉是在2012年。这一年,大数据这个概念在计算机这个领域经常被提取。普通的媒体也开始常常有报道,当然普通媒体对大数据这个概念并没有什么实质性了解,他们只是在炒一些大数据表面含义,例如大数据就是大量的数据,究竟多大量数据就是大数据,我想当时的媒体多是答不上来,就算是现在,我想他们也是答不上来的。或者有些媒体留意到计算机领域一些引用到的观点,就是说几百个G的数据量就可以称为大数据。其实这是对大数据概念非常肤浅的理解。我认为大数据更重要的是指大量数据时,系统的处理方法和数据应用能力。这才是大数据核心的价值所在。
大数据处理的技术早就在技术先锋的公司得到广泛的应用,例如Google 搜索引擎。现在广泛使用到的大数据技术,就是开源社区从Google在2004年发表的GFS论文,实现论文中的大数据存储和处理技术。大数据概念兴起,这和另外一项技术在大量数据处理能力有关,这项技术就是关系型数据库。因为关系型数据库在面对大量数据时,由于本身技术架构和理论,在处理大量数据时显得力不从心,例如在几十亿笔交易记录里求平均值(在这里不讨论抽样方式,抽样在很多场景也不适合)。因为现在每天,都有很多场合会产生大量要记录的内容(进一步描述)。所以就要有新的技术来处理这种情况。这就是大数据技术诞生的背景。
其实在08-12年左右,像电信公司这样的企业,每天用户产生的数据量就很大。我参加一个技术会议了解到的,像广州和佛山的移动公司,每天他们的业务系统生产数据,就是上百个G,在12年-15年左右,多数的传统企业,他们的信息部门有认识到大数据重要性,由于对大数据处理技术和数据应用能力有限 ,多半是做数据收集,看着硬盘的数据在膨胀。由于数据应用能力不强,所以数据收集方向也不大明确,这些企业信息部门只有尽可能的收集存储数据,等到以后有条件了,再进行数据处理和分析。这些场景算是比较好的,比较糟糕的情况,连收集数据意识也没有。
下面进行简要的分析,企业为什么要收集大量数据。接着要解释大数据处理有哪些技术难点和数据应用难点。
收集大数据原因:1、在现代社会的任何一项有意义研究,大多离不开数据的支持。当然,如果是爱因斯坦,乔某某这一类的,另当别论。有很多研究,要得到比较准确的结果和预测,往往需要大量的样本数据作为支撑。例如,在研究人的很多行为喜好(行业术语,用户画像),往往要从多个角度进行描述,这样关联的数据就很多(常常会关联到音频和视频)。在商业上面对的,多是大量用户。事实上,每个人每天发生的很多我们不大留意的行为,都被网络很巧妙的收集起来,只是我们不知道。这些数据量都是非常大的,并且还在不断增加和更新。2、大数据处理,导致在上世纪90年代兴起,本世纪初趋向沉滞的技术重新兴起。特别是在这两年,几乎就是IT界讨论的全部内容,那就机器学习,以及由其演化的深度学习和迁移学习。机器学习在处理数据时,有个特点,即通过给机器“喂取”大量的数据,让机器可以像人一样通过学习逐步自我改善提高。这个反过来,需要大量数据。机器学习在我们公司业务中的应用,就是我本文要讨论的重点。3、科学研究例如基因技术,天文学,分析对象,多就是海量数据。4、多媒体数据。还有很多很多收集大数据原因,这里不再举例。
大数据处理难点:1、技术复杂。大数据量太大了,一般都是进行分布式存储和计算,也就是用分布式系统进行处理。分布式计算技术是比较复杂的,理论也比较抽象。现在用的比较多的大数据处理计算,就是hadoop。这个组件实施难度大。其数据计算组件,一般Map-Reduce。这个组件在编程上,还是不太友好。虽然现在有不少替代分布式计算组件,例如Spark,Hbase等等。但是入门的门槛还是比较高的。2、关联的技术太多了。大数据存储和计算,不单单是一个hadoop,hadoop只是大数据处理的核心组件之一。还有很多相关的技术,Spark、Hbase、zookeeper、linux操作系统技术(最好会shell编程)、Python编程、java编程、机器学习、函数式编程、数据挖掘算法(理解原理)。深厚数学背景,高等数学、线性代数、概率统计。神经网络理论等等。这些技术水平往往会决定大数据项目质量。
数据应用难点:由于存在很高的门槛,这一类大数据专家现在缺口是很大的,薪水也比较高,年薪大多在30-50W。并且大数据项目建设周期也比较长,通过网络了解到的,一个不算很大的项目,很多在2-3年(先驱项目)。导致现在的数据比较难得到处理和应用。投入的资金也不是一笔小数目,中小型企业是负担不起的,除非项目起到立竿见影效果。
二、公司投资的必要性,案例和案例分析,公司可能要用到的场景
我到公司时间不是很长,大约半年时间,公司组织和公司业务都比较多和复杂。根据自己了解到公司业务和大数据应用知识,设想公司可能用到的机器学习以下一些场景。
2.1垃圾识别后分类
2.2垃圾信息识别,估计附件地理的消费人群 喜好
2.3餐厨垃圾,识别后,评估市场农场品价格走向
2.4 公司危废品处理中,危废品识别。
2.5关联分析中,多变量交叉相关分析,数据挖掘前处理
下面就上面所列的场景进行详细说明,以期公司能投入资源开展项目。
垃圾识别分类。垃圾分类,我国官方给出的标准是四类(公司宣传画),国外一般分成两类。我到过不少城市,在公共场合见到的垃圾箱,只有两种,公司也只有两种。不过,实际上,根据我的观察,很少人按照分类,投入不同垃圾箱。原因其实也很清楚,就算有环保意识的人,也不大容易分辨哪些是可以回收,哪些是不可以回收。就算投到垃圾箱的垃圾分类正确了,其实结果也是一样的,我见到的垃圾收集人,很多都是将这两种垃圾混在一起。人多少图方便,如果指望通过宣传来改善人的行为,我认为不大可靠。其实,国外情况也差不多。针对这种情况,特别是机器学习重新兴起,国外有些创业公司做一些垃圾自动分类产品。见下面链接http://digi.tech.qq.com/a/20170902/026000.htm。其背后实现关键技术,毫无疑问,就是机器学习。http://tech.163.com/17/0827/14/CSRR2E3G00098IEO.html这个报道更加直白,就是使用机器学习,自动实现垃圾分类,无疑更具有环保意义。
垃圾信息识别。通过大量数据,训练好模型后,可以准确的识别出垃圾信息。当然要做到百度和淘宝通过图片就可以识别到该图片的物品名称,是有难度。不过实现的技术原理是一样的,那就是有监督机器学习。淘宝和百度这些互联网公司,已经积累了大量图片数据,并且这些数据还在不断的积累,这些新增数据又为训练更准确模型提供数据源泉。我们也要拥有这样的技术,这技术不但可以直接应用到公司实际生产中,更重要的是,还可也能提供重要的商业价值。准确的识别出垃圾的信息后,我们就可以做这样的数据分析,按地理分析消费倾向,哪些零食比较受欢迎,哪些地方的人比较喜欢养宠物等等。总之有了这些收集的数据,经过数据挖掘和相关分析处理后,我们可能会找到新的商业模式,或者为各种改进方案提供数据支持。在线上,用户的信息和行为喜好几乎都被大的互联网公司扒的干干净净,这些公司所有收入,坦白的说,最终都是依赖他们收集到的用户信息。至于使用的商业手段,各家都有不同。在线下,各个大超市,大卖场,通过会员卡方式,也是事无巨细收集,尽量做到点滴不漏。我们作为环保企业,要通过我们的渠道建立和用户之间的关联。
餐厨垃圾,识别后,评估市场农场品价格走向。同上类似,具体的商业模型建立,有待公司的市场专家做进一步研究。当然,现在也可以经过检测等手段,大致对餐厨成分做出大致判断。不过在细度上,很难跟机器学习相匹比。
公司危废品处理中,危废品识别,中转站和三厂的应用 。这也是在公司很好应用点,生活垃圾里,经常有参入工业垃圾这种情况发生。有些工业垃圾还是比较危险的,例如油漆桶,中转站的同事就算再细心,还是挡不住这些危险品进入中转车。这就留下很大的安全隐患。机器学习这些技术的应用,虽然不能说杜绝,但我就能在很大程度降低风险。有了垃圾物理上分类和垃圾识别信息后,我们垃圾处理手段也有可能发生变化,这些可以改善我们处理垃圾的生产工艺。
关联分析中,多变量交叉相关分析,数据挖掘前处理现在公司运行的业务支撑信息系统有10多个,如果到集团的层面就更多了。这些年来,系统生产了不少数据。公司的业务也比较多和复杂,据我了解,在不同的业务间做交叉分析的,还没有。可能是技术限制。其实现在很有必要做这样分析了,利用机器学习这些手段,处理这些系统数据,看看能不能产生新的资源,这些都是值得我们去探究的。有点要注意的是,大数据和机器学习这两个紧密关联的技术 和传统的BI技术是不能混为一谈的。BI技术也是在大量数据情况下,探索业务之间的关系,但是使用的是传统上的关系数据库间的算法,这些算法原理都比较简单。而机器学习,使用更加复杂和智能算法。智能化和自动化的程度是不一样的,BI技术更多是依赖于业务分析人员的经验。机器学习不依赖这个,所以适应的范围更加广。更重要的是,基于机器学习的大数据分析,其分析结果无疑要比传统BI分析结果要准确。因为传统BI分析,在大量分析时,无疑是要用到抽样技术的。我认为,经过一系列的误差积累后,对结果影响是比较大的。有一项研究表明 重新分析数据,研究结论可能完全不同,并且比例高达三分之一。见https://www.guokr.com/article/439139/?f=wx
国内大数据在固废应用论文比较少,并且内容非常非常的一般这我的推断是,开展大数据在固废应用研究还不多,或者是 项目还是没有实质性进展。这些应用不同企业信息化。其实到现在,大家都明白,企业信息化,这是没有什么技术含量了。大数据应用,这是实打实玩技术的(看看前面我提到的大数据相关技术),并且还有很多未知内容要探索。单单在机器学习的调参数,就可以发表很多篇论文了。
三、总结,当然做任何事情,都要进行利弊分析的。前面都是说大数据和机器学习好的一面,我们很有必要从反向的角度看看。1、成功落地大数据项目不多,或者这样说,达到预期结果的不多。成功的比例我没有去查,不过很明显的是,如果能达到预期,大数据投资会更加普及。2、技术实在是比较复杂,当前这个方向技术人才紧缺,项目周期长(中小的项目2-3年是比较普遍的)。3、投入比较大,硬件上的用于大数据运算的GPU还是比较昂贵的。一个小的大数据项目,一开始投入几十万去购买硬件是很正常的。人员成本也是非常大的。即使有这样多的不利,我想公司还是要去尝试的,毕竟要试过,我们才明白实现目标的正确方向。