大师兄的信息化管理学习笔记(十六):大数据

2023-03-16  本文已影响0人  superkmi

大师兄的信息化管理学习笔记(十五):软件质量与软件维护

一、关于大数据

1. 大数据的特征(5V)
特征 描述
大量Volume 数据量大,包括采集、存储和计算的量都非常大
多样Variety 种类和来源多样化。包括结构化、半结构化和非结构化数据
价值Value 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵
速度Velocity 数据增长速度快,处理速度也快,时效性要求高
真实性Veracity 来源复杂,要保证数据准确性和可信赖度即数据质量
2. 大数据的应用
  • 互联网访问: 访问的网站和页面、访问内容、停留时间、访问网页的关联性、购买行为、兴趣点、位置信息、社交信息等。
  • 商品的市场行情监控。
  • 流量、安全预警。
  • 流行疾病预警。
  • 节假日客运流量预告。
  • 正在向以数据生产、流通和利用为核心的金融、零售、电信、公共管理、医疗卫生等领域渗透。
  • 大数据征信
  • 大数据风控
  • 大数据消费金融
  • 大数据财务管理
  • 大数据疾病预测
3. 大数据处理环节
环节 描述
数据准备 从数据源获取数据并进行预处理
数据存储与管理 设计存储模型、存储策略、管理数据
计算处理 大型数据汇总计算
数据分析 专用手段对大数据分析挖掘
知识展现 大数据计算结果可视化

二、Hadoop简介

  • 高效可靠
  • 易于扩展
  • 使用广泛
  • 业界支持
  • 社区活跃
  • 免费开源
1. 分布式文件系统HDFS
2. 分布式计算模型MapReduce
3. Hadoop生态圈
4. Hadoop核心组件
上一篇 下一篇

猜你喜欢

热点阅读