[1808.00803] Mobile big data ana
[1808.00803] Mobile big data analysis with machine learning
ABSTRACT
本文通过讨论移动大数据挑战的见解,进行调查以识别基于机器学习的移动大数据分析的需求和发展。 此外,它回顾了移动大数据领域中数据分析的最新应用。
首先,我们介绍移动大数据的发展。
其次,回顾了常用的数据分析方法。 分别介绍了移动大数据分析的三个典型应用,即无线通道建模,人的在线和离线行为分析以及车辆互联网中的语音识别。
最后,我们总结了移动大数据分析的主要挑战和未来的发展方向。
INTRODUCTION
随着无线局域网(WLAN)技术(aka Wi-Fi)和第二/第三/第四代(2/3 / 4G)移动网络的成功使用,移动电话数量为77.4亿,每100部中有103.5部2017年,全世界的居民数量急剧上升[1]。如今,移动电话不仅可以发送语音和文本消息,而且可以轻松便捷地访问Internet,这被认为是移动Internet(M-Internet)最具革命性的发展。同时,2017年全球活跃的移动宽带订户已增至42.2亿,比2016年增长9.21%[1]。图1显示了2010年至2017年世界及主要地区的移动蜂窝电话和活跃移动宽带订户数量。最高的数字是移动蜂窝电话或活跃移动宽带订户(百万)在每年增加的世界中。在M-Internet下,可以随处发送和接收各种内容(图像,语音,视频等),并且出现了满足人们需求的相关应用程序,包括工作,学习,日常生活,娱乐,教育,医疗保健,在中国,百度,阿里巴巴和腾讯等移动应用程序巨头每天在App中拥有M-Internet在线时间的78%,2017年约为2412分钟[2]。该数字表明M-Internet已进入快速增长阶段。
本文旨在通过讨论移动大数据挑战的见解并回顾移动大数据领域中数据分析的最新应用,来研究确定基于机器学习的移动大数据分析的需求和发展。
本文的其余部分安排如下:
第2节介绍了移动大数据的数据收集和属性的开发。
第3节回顾了数据分析的常用方法和典型应用。
第4节概述了移动大数据分析的未来挑战,并提出了建议。
移动大数据的发展和收集
数据采集
数据收集是数据处理和分析系统的基础。 数据是从移动智能终端和Internet服务(通常称为移动Internet设备(MID))收集的,这些设备是支持无线Internet访问的具有多媒体功能的移动设备,其中包含智能手机,可穿戴计算机,便携式计算机,无线传感器等。[54] 。 移动大数据应以不打扰的方式快速,准确地收集[8]。
MBD可以从底部到顶部分为两种分层数据形式:传输和应用程序数据。
传输数据集中在解决信道建模[55],[56]和与M-Internet物理传输系统相对应的用户访问问题上。
在此基础上,应用程序数据集中在基于MBD的应用程序上,包括社交网络分析[57],[58],[59],用户行为分析[48],[50],[60],语音分析和决策。 物联网[61],[62],[63],[64],[65],[66],智能电网[67],网络医疗[53],[68],[69],金融服务[46] ,[70]等。
由于M-Internet的异构性和访问设备的多样性,收集到的数据是非结构化的,并且通常具有各种类别和格式,这使得数据预处理成为数据处理和分析系统的基本组成部分,以便 确保输入数据完整可靠[71]。 预处理通常可以分为三个步骤,即数据清理,隐式评级的生成和数据集成[46]。
1) Data cleaning
由于可能的设备故障,传输错误或人为因素,原始数据通常是无法直接使用的“脏数据” [46]。 因此,在数据预处理中应用包括离群值检测和去噪的数据清理方法以获得符合要求的质量的数据。 由于庞大的数据量,在MBD中手动删除错误数据既困难又不可能。
常见的数据清理方法可以通过训练支持向量回归(SVR)分类器[72],多个线性回归模型[73],自动编码器[74],贝叶斯方法[75],[76],聚类在某种程度上减轻脏数据问题 模型,基于距离的模型,基于密度的模型,概率模型或信息理论模型[77]。
2) Generation of implicit ratings
隐式评级的生成主要应用于推荐系统。 通过分析特定的用户行为以使用机器学习算法(例如,神经网络和决策树)解决数据稀疏性问题,可以大大提高评分数据的数量[46]。
3) Data integration
数据集成是集成来自不同资源,具有不同格式和类别的数据并处理丢失的数据字段的步骤[8]。
图2表示数据收集和预处理的过程。
Properties of mobile big data
MBD的高维性,异构性和应用程序的其他复杂功能(例如计划,运营和维护,优化和营销)为传统数据分析带来了许多新挑战[57]。 本节讨论从大数据到MBD的五个Vs(体积,速度,品种,价值和准确性的缩写)[78]。 M-Internet增强了五个Vs功能,使用户可以随时随地访问Internet [79]。
1) Volume
大量的MID,Exabyte级数据和高维数据空间
2) Velocity
实时数据流和效率要求
3) Variety
移动多媒体内容的 heterogeneity and non-structured
4) Value
从低密度价值数据中挖掘隐藏的知识和模式
5) Veracity
MBD的一致性,可信赖性和安全性