基于大数据的工业感知和网络控制技术综述
1工业感知和网络控制
随着物联网技术的发展,工业感知技术也不断进行进步,物联网包含感知层、网络层、应用层,所谓工业感知和网络控制,就是在工业生产过程中通过各种传感器对各个工业环节进行监测,获取数据,再通过局域网络将数据传输到应用端进行处理分析,最后对生产环节的优劣进行判断,最后做出决策,将动作施加在这些过程中,形成闭环系统对整个过程进行控制。控制网络(control network)是一个能够监控、传感和控制或能够控制环境为目的的网络节点的集合,这些生产设备终端就是一个具有控制功能的节点。数以万计的控制网络已经存在于我们每天的生活中,包括汽车、冰箱、交通灯控制、城市照明系统和工厂的地板。一些控制网络中的节点包含三个在一起的处理器:两个负责在网络内转移数据,一个负责处理这个节点的程序。这种模块化使控制网络的成本变得便宜,并且很容易更换新处理器。控制网络越来越多的成为不用定制的软硬件组件。
图1分布式网络控制框图2什么是大数据
目前所谓的大数据,还只是停留在一个概念阶段,大数据是指具有数量大(Volume)、利用价值高(Value)、多样性丰富(Variety)、运算速度快能满足实时数据分析需求(Velocity)的数据。其实,我们也不必纠结于其概念,当德国提出工业4.0的时候,我国也提出了智能制造2025,这就要求我们要用更好的方法,譬如统计学方法、机器学习算法、云计算分布式的运算结构,来分析、利用数据,挖掘这些数据所能带来的价值。
3大数据下数据处理方案
工业感知需要数据建模与数据分析技术,对于数据的预处理,一般有异常值处理、非结构化数据结构化,异常值挑选包括平均值法、中值法、3法,数据结构化包括各种编码技术、模拟值转数字值等。数据处理也包含基于统计学方法和机器学习方法,一些统计学方法包括:交互性分析、多元线性回归、参数检验(t检验等)、非参数检验,对数据进行降维处理等。基于机器学习模型的数据训练方法有:朴素贝叶斯分类器、支持向量机、人工神经网络等(ANN)。GPU硬件的支持使得神经网络的发展有了物质支撑,深度学习云计算也逐渐兴起,基于深度学习进行特征提取让大数据处理免去了很多繁杂的算法,但其网络结构的不可解释性也为继续研究带来了障碍。
4大数据下的机器学习算法
由于大数据的海量、复杂多样、变化快的特性,对于大数据环境下的应用问题,由于现有的许多机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。
4.1大数据分治策略与抽样
分治策略是一种处理大数据问题的计算范例,尤其是近来在分布式和并行计算有很大发展的情况下,分治策略显得尤为重要。
一般来说,数据样本中存在一定程度的噪声,降低存储效率和学习算法运行效率,同时影响学习精度,故可以选择代表性样本形成原样本空间的一个子集,之后在这个子集上构造学习方法,完成学习任务。同样,重复这样的步骤,最后当新加入一个测试实例时,使用压缩最近邻(Condensed Nearest Neighbor,CNN)、约减最近邻(Reduced Nearest Neighbor,RNN)、编辑最近邻(Edited Nearest Neighbor,ENN)等进行邻近样本匹配,从而得到分类结果。
4.2大数据特征选择
大数据数据量大,需要进行一定的特征选择,以减少运算负担,剔除无关属性,可增加任务的有效性。张量(如多维数组)表示法提供一种大数据的自然表示. 故张量分解成为一种重要的汇总和分析工具。Kol-da提出一种内存使用高效的Tucker分解方法(Memory- Efficient Tucker Decomposition,MET), 用于解决传统的张量分解算法无法解决的时间和空间利用问题。MET在分解的过程中基于可用内存自适应选择正确的执行策略。该算法在利用可用内存的前提下最大化计算速度。MET避免处理在计算过程中产生的大量的零星中间结果,自适应选择操作顺序,不仅消除中间溢出问题,而且在不减少精确度的前提下节省内存。除此之外,还有正则化核估计(Regularized Kernel Estimation,RKE)和鲁棒流形展开(Robust Manifold Unfolding,RMU). 这些方法使用训练集中对象之间相异的信息,得到一个非负的低阶正定矩阵,用于将对象嵌入到一个低维欧几里德空间,其坐标可被用作各种学习模式中的属性。
常见的三种主流降维方法还包括SVD、RP和PCA。其中PCA(主成分分析)的操作步骤为:求取协方差矩阵、对协方差矩阵进行SVD或特征值分解,得到最大的k个特征值和对应的特征向量,特征值和对应特征向量的组合即为降维结果,利用方差贡献率可以得到线性组合能够解释原有矩阵的百分比。
4.3大数据分类
传统的支持向量机就是首先选择一个核函数(kernel function),然后,通过用核函数定义的映射将输入空间映射到一个特征空间,在这个特征空间中求最优分类超平面,即最大间隔超平面。如图 所示,SVM分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量。
图2 SVM最优超平面示意图对于线性可分的情况,支持向量机是从所有的分类超平面中,寻找一个最优的分类超平面,如上图4所示,H为超平面集合中的一个元素。H1与H2分别为过各类样本中离分类超平面最近的数据向量且平行于分类超平面的超平面,它们两个之间的距离叫做分类空隙或分类间隔。最优超平面就是找到一个超平面H使得分类间隔最大,从而使学习器具有较强的推广能力。
Lau等为SVM提出一种在线学习算法, 用于处理按顺序逐渐提供输入数据的分类问题。该算法速度更快,所用支持向量个数更少,并具有更优的泛化能力。Laskov等提出一种快速、数值稳定和鲁棒的增量支持向量机学习方法。
除此之外,也有决策树分类、神经网络与极端学习机等分类方法。
4.4大数据聚类
文章中上述算法均介绍的为有监督的学习方法,在工业中有时数据量大、数据难以快速分类,所以可采用聚类的方式,将相似的样本暂且归为一类,或作为相似样本分析,聚类依据的是特征的距离。为解决大规模数据分析难题,基于MapReduce的K- means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。一种利用MapReduce模型实现协同聚类(Co-clustering)的系统框架——分布式协同聚类框架(Distributed Co- clustering,DisCo),并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。实验结果证明DisCo具有良好的可扩展性、高执行效率,能处理几百GB数据。
5数据应用实例——ERP系统
ERP系统是企业资源计划(Enterprise Resource Planning )的简称,是指建立在信息技术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决策层提供决策手段的管理平台。它是从MRP(物料需求计划)发展而来的新一代集成化管理信息系统,它扩展了MRP的功能,其核心思想是供应链管理。
ERP系统依托数据库管理技术,将企业中在生产、物流、销售、售后等方方面面的信息存储到系统中,然后利用统计学的手段进行分析,探索如何从供应链范围去优化企业的资源,优化了现代企业的运行模式,反映了市场对企业合理调配资源的要求。它对于改善企业业务流程、提高企业核心竞争力具有显著作用。
借用这些数据,合理分析用户需求,优化自身产品,寻找对应的用户群和潜在用户,进一步扩大业务范围。
图3 ERP系统流程图6总 结
在计算机技术、物联网技术的支持下,大数据的利用率将越来越高,随着机器学习和深度神经网络的兴起,最新的算法和数学理论为生产、销售提供决策支撑,工业生产与供应链管理会越来越完善,在生产中对生产环节进行决策把控,在销售中进行改良产品、推荐潜在用户。另外,对于传感和控制节点,如何减少耗能增加节点寿命也是一大难题,可以研发高效率的电池,优化网络拓扑结构减少通信耗能,对网络进行分簇管理等。