大咖说数据挖掘的方法
1.1 什么是数据挖掘
数据挖掘就是对存在的数据集进行分析和总结而产出有价值信息的过程。有时数据挖掘也用来泛指一种方法,即数据挖掘是对数据进行处理,并从数据中分析、提炼、总结出有价值的信息的方法。
数据挖掘是大数据时代必然的产物,是对数据进行利用的办法,也是大数据时代最具有挑战性的工作。我们在数据采集、存储和传输领域已经具备了先进的技术,能够采集和存储大量的数据,可是在数据挖掘和应用领域还知之甚少,数据挖掘技术是未来企业重要的技术。
现在的互联网服务企业非常多,中国有BAT之说,包括百度(Baidu)、阿里(Alibaba)和腾讯(Tencent),在电商领域还有京东、苏宁、一号店、唯品会、我买网、亚马逊等,在旅游电商领域有去哪儿、去啊、百度旅游、途牛、穷游等;在快餐外卖领域有糯米、百度外卖、叫饭网、饿了么等;在团购领域有美团、窝窝团等。这些企业一般都具有百万以上的活跃用户,每天产生大量的数据,但是能够对数据进行整合和深度挖掘分析的企业仍然少之又少。包括百度在内,其采集了大量的数据,也开发了大量的数据应用,但相对于其所拥有的数量级,其数据的挖掘和应用仍然是非常少的。
数据本身没有什么商业价值,从数据中挖掘出来的商业洞察和基于该洞察的应用才有价值。随着大数据的来临,互联网行业逐渐发展成熟,并走向稳定,新型企业的创业机会会越来越少,未来互联网企业缺少的不再是创新,而是精细化运营和管理。任何行业或者产业发展都会经历这样一个规律,当行业刚刚兴起的时候,只有少数的人能够看到行业的机会,比如20世纪80年代,马云能够看到互联网平台在中国的机会,到了快速发展的时候,很多的创新衍生出来,投资者追捧,企业并不赢利,或者从来没有赢利,但投资者仍然热捧,这说明行业已经到了巅峰,盛极而衰是社会发展的必然规律。
数据分析方法有价值,但不用也是没有价值的。经过互联网改造的传统行业还会持续地成为社会的主流,当大家把工具当做生意的时候,工具变得非常重要,而工具本身本不产生多大的社会价值,只有在应用的时候才会产生价值。
数据挖掘作为一种数据应用的方法,要在使用过程中不断完善和改进,不断创新,及时跟进大数据时代数据量级的剧增。
1.2 常见的数据挖掘方法有哪些
现在所拥有的数据挖掘的方法不是很多。作为一门专业学科,其丰富程度非常有限。一方面,这是一个新鲜的领域,真正从事这方面研究的专家不多;另外一方面,数据挖掘方面的研究要结合企业的实际数据,这让很多希望从事这方面研究的科学家们缺材少料;第三个方面是,企业在实践中探索出新的方法往往作为自身应用的方法,并没有贡献给全人类,所以数据挖掘方面的知识还需要不断地研究和发展。
现在常用的数据挖掘算法有几十种,已经经过实践的算法并能够查询到相关资料的有上百种。这些算法仍然以数学和统计学的算法为核心,在大数据集上为了追求计算效率,衍生出更多的优化算法。比如2006年IEEE1的ICDM2协会选择了18种经典算法进行了评测,选择出了10种最重要的数据挖掘算法,这些算法基本都是统计学领域的算法或者是在统计学领域进行了优化和改进的算法。
在这些高深的算法外,还有非常直接的数据挖掘的算法,包括分类法、对比法、比率法、地图法、画像法、时间轴法、聚类法、过程拆解法、层级树法等。
1.3 什么是文本挖掘
文本挖掘是从文本数据中抽取有意义或者有价值信息的一种数据处理技术。文本挖掘是最近几年才开始兴起的方法,特别是当社交媒体出现并快速普及之后,为了监测社交媒体上大家的言论所进行的一种数据挖掘方法,是在常规数据挖掘的基础上,以文本中的语意为对象进行的分析。由于计算机本身不能自动识别文本的语义,所以需要把不同的词汇用字典的方式建立索引,并对文本中的关键词进行程度划分,由此来统计在社交媒体上出现的频率、被阅读的频次、被引用和转发的频次,据此来评价该文本对我们研究对象的态度等信息。
文本挖掘一般用于商业竞争情报监测、舆情监测、客户意见提取、搜索引擎等。随着Web2.0开始,以用户生产内容(UGC–UserGeneratedContent)为主要内容生产方式的网站和平台越来越多,文本挖掘越来越成为网络信息采集和分析的手段。
进行文本挖掘的时候,需要将文本或者文件中以自然语言形成的文本借助中间字典转换成计算机能够处理的语义(关键词、短语、语言特征等),然后再对语义词进行解读和统计分析。关键词包括名称识别、动作识别、形容词语义识别以及语言特征的识别,语言特征可以看做语法解读,包括识别主语谓语宾语等语言结构。不同的语言有不同的语法特征,比如中文、日文、韩文、德语、法语等和英文完全不同,一个文本挖掘的算法需要根据语言特征重新修订。
进入大数据时代后,数据格式越来越丰富,包括图片、声音和视频等,目前很多的处理方法也会以数据转换和文本挖掘的方式来做简单分析。现在将声音转换成文字,然后再对文字进行挖掘的技术已经较为成熟,这是未来人机交互的基础。目前对图片的识别和搜索还在发展阶段,简单的文字图片识别OCR1技术相对成熟,但对于图片内的图形内容的识别技术仍然有待开发和完善。
随着数据挖掘、文本挖掘、图像识别技术、声音转换技术等发展,未来对音频、视频等的数据挖掘技术也会出现。目前鉴于计算机的处理能力以及应用效果的普及,仍然处在实验阶段,商业化的普及应用仍然需要时间。现在的数据挖掘技术能够处理的数据范围还仍然停留在数字和文本的阶段,更复杂的数据格式的数据挖掘技术在不远的将来会越来越成熟,并逐步商业化应用,需要企业从事数据分析的相关人员关注技术的最新进展。
全文摘自《企业数据化管理变革-数据治理与统筹方案》赵兴峰著
该文转载已取得作者认可
版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业数据化管理变革》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】
下期内容更实战!