《大数据架构师指南 》摘抄
ETL系统
一.数据存储规模与数据类型
存储规模将大致确定大数据平台的建设规模,而数据类型将决定所需要的所使用的技术以及复杂度。
二.数据来源与数据质量
在项目规划初期,需要对相关数据源进行识别,并甄别出有风险的数据源,在项目规划初期即上升至决策层进行决策。而且要考虑后期运营过程中,如何对数据源通过技术手段进行质量评估,并且对数据源的质量辅以相应的考核机制。只有针对数据质量形成闭环反馈,才有可能在未来的运营中逐步提高数据质量;而没有数据质量控制的大数据系统,在运营过程中很可能会逐渐退化,甚至最终失败。
三.业务特征
从业务处理的实时性的角度来划分,系统可以分为实时处理系统和批处理系统。实时系统更加关心响应时间和并发度。批处理系统更关心处理能力。
从系统功能角度划分,系统可分为侧重数据保存的存储型系统、侧重数据分析的密集计算型系统以及需求大量内存的内存计算系统。存储行系统需要考虑在磁盘IO读写方面进行优化处理,数据分析密集计算型系统需要对cpu的选型进行重点考虑,内存计算型系统需要考虑系统内存消耗等。
四. 经济可行性
大数据之所以能提升社会生产效益,其本质是提升人类生产活动的准确性,减少了相关的浪费。大数据本身并不能带来直接效益,它不能吃也不能穿,但是它可以消除浪费。
大数据项目的效益主要体现在三个方面:
1、系统轻载。对于需要存储大量历史数据的企业来说,在生产系统存储历史数据,不仅会代价高昂,而且会影响生产系统的稳定性。所以系统轻载是一种”接近于本能的刚需“,例如,银行/证劵等企业仅仅将历史交易查询系统迁移到大数据平台中,就可以极大地减轻生产系统的负载,提升生产系统的稳定性。
2、闭环应用。大数据平台通过收集生产系统中产生的业务过程数据,以及对业务数据进行建模,对当前生产系统提出改进建议与分析报告,去除或改进现有系统中不合理的环节,提高系统生产效率,降低成本。例如,通过收集无限网络的网络覆盖相关信息,可以对现网的网规网优工作进行指导,与传统依靠路测进行网规网优的模式相比,无论是资金成本还是时间成本,都将急剧降低。还有电子商务的推荐系统,通过电子商务网站产生的数据,分析用户的属性与标签,形成推荐结果后反馈给电子商务网站,以促进电子商务网站销售,形成闭环反馈。
3、开环应用。主要是通过第三方实现数据变现,例如,利用电信运营商的数据进行道路规划、人流密集度预测,或通过数据的经营与交互产生相应的收益。由于开环应用较难形成稳定的收入,数据产生的最终价值由于缺上反馈也较难衡量,较难形成形影的闭环。
一般来说,项目建设的初期,可以考虑先选择较易产生经济效益的闭环应用进行建设,使项目形成经济的自我造血功能,然后在依托所积累的数据,进行开环应用的拓展。这样的建设顺序,将有助于提升项目的成功的慨率。
五.运维管理要求
大数据运维管理系统,需要考虑如下的问题或因素。
1.对于上百台深知上万台的服务器、网络设备、存储设备等,如何让这些设备稳定地运行在生产环境中,不会因为硬件损坏、系统升级而引发业务系统故障?一旦故障发生,运维人员如何评估故障对业务的影响有多大?需要多少时间和工作量恢复?
2.如何应对系统规模与业务规模的快速膨胀?如何预防新上线大规模作业队集群性能造成的冲击,甚至让整个集群崩溃失效?
3.不同的应用、甚至不同的计算框架在同一集群下运行,如何对各类作业、资源、数据进行管理,并满足安全性要求。
六.安全性要求
大数据时代的数据安全比传统数据安全更加复杂,企业部署大数据面临的数据安全风险体现在如下几个方面:
1.大量数据的集中存储增加了大数据泄露风险,大数据中心往往存储海量的客户信息、客户的隐私和行为轨迹,这些数据的集中存储增加了数据泄漏风险。
2.海量数据本身就蕴藏着价值。
3.敏感数据的所有权和使用权并没有被明确界定,敏感数据的共享与隔离存在风险,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题,未考虑敏感数据屏蔽。
4.大数据对数据完整性、可用性和秘密性带来挑战,被滥用和被破坏的风险很高。
5.海量数据的集中存储涉及如何防止数据丢失或者被误删除,同时数据容灾、数据的备份与数据的恢复等引入了新的技术难题。
6.随着大数据存储规模不断扩大,集群冷热数据分布会更加不均匀,如何管理数据生命周期也是一个挑战。
7.如何进行大数据安全访问控制、安全审计、安全监控也是一个难题。
大数据时代的应用安全比传统IT应用安全问题更加突出,具体天灾如下几个方面:
1.大数据集群上线后往往运行各种类型的应用程序(统称作业),同时这些作业将访问集群各类软硬件资源,如CPU/硬盘/内存以及各类业务数据等,在同一集群下数据、作业、资源的安全访问以及隔离是一个巨大的挑战。
2.同一个集群可能多计算框架并存,保证不同应用、相同/不同计算框架间的安全更佳困难。
3.具体到作业权限管理,如何实现从客户端接入、作业提交、作业执行、作业监控、作业资源管理等端到端全流程权限控制。
4.大数据服务众多,如何打通各个组件间的权限控制,对服务进行安全管理是必须解决的问题。
5.大数据业务访问控制,如数据与应用访问控制、集群管理访问控制、Web访问控制,如何对访问审计等。
6.大数据用户的认证、授权及企业已有权限系统与大数据权限控制结合也是个难题
7.数据传递安全管理,保证数据传递过程的安全性。
七.部署要求
1.首先明确大数据的发展战略以及定位问题
2.其次软件规划考虑上线的服务类型
3.再次,硬件规划需要结合现状以及资金投入计划进行规划
4.最后容灾问题是最容易忽略的关键问题
八.系统边界
大数据系统系统边界主要从系统交互界面与系统交割界面两方面进行考虑。
1.系统的数据安全
2.系统交互的流量
3.系统交互的接口
4.系统交互的周期性
5.项目执行边界的界定
大数据系统与其他系统进行对接与交割时,需要考虑如下几个方面:
1.数据备份
2.业务容忍中断时常和切换时间
3.迁移效率
4.系统兼容性
5.数据安全性
6.系统稳定性
7.数据正确性