读书笔记-《大数据架构商业之路》

2018-12-15  本文已影响36人  neo_ng

本文是《大数据架构商业之路:从业务需求到技术方案》的读书笔记
该书涵盖了大数据领域的各个方面。
本书还有一本"姊妹篇"--《大数据架构和算法实现之路》,本书几乎每一章都是一个很大的主题,但显然,本书的目标是求全不求精,力求使大家对于大数据的技术全貌有所了解!

Outline

数据收集

互联网数据收集(外部数据收集)

Web Crawler/Spider
爬虫策略

网络图-Web Graph

网络爬虫的基本架构和工作流程
Nutch

Nutch衍生了Hadoop,Tika,Gora和Crawler Commoms四个Java开源项目
主要组成部分:

Nutch在Lucene的基础上做了进一步封装和拓展,增加了爬虫功能

Heritrix

内部数据收集

内部数据的收集主要分为推送和两大类

Flume
Flume工作的基本流程 层次型的Flume集群架构

支持的源头:

支持的沉淀器:

通道类型:

Scribe
Logstash

Scribe和Logstash采用推送模式

数据存储

Entity Relationship Diagram -- ER图

持久化存储

关系型,Hbase和mongodb的数据模型对比

非持久化存储

缓存和散列

将缓存定义为数据交换的缓冲区,它的读取速度远远高于普通介质,作用是帮助系统更快地运行
缓存的普遍规律是以高速读取介质来充当相对低速的介质的缓存
策略:

常见的缓存系统:

Redis3.0--> 集群
支持水平拓展

数据处理

按及时性分类:

离线

提升数据处理的及时性

消息传递的两种基本模型:

P2P模式 发布订阅模式
JMS

JMS定义一套通用的接口和相关语义,提供了持久,验证和事务等消息服务。
JMS(Java Message Service) - 需要沉重的消息头
提供事务性消息传输
Exactly Once: 消息只会发送一次,与关系数据库中的事务概念相一致

常见消息机制(系统):

在线实时处理

信息检索

现代信息检索的一般定义:从大规模非结构化数据的集合中找出满足用户信息需求的资料的过程

信息检索的基本构成

核心要素:

搜索引擎的结果处理必须是秒级的,通常不能超过3秒

相关性

相关性模型:

VSM的Cosine计算图解释

及时性

本章主要介绍了倒排索引的相关内容
可参考这两篇文章:
搜索-Elasticsearch基础
elasticsearch-进阶2

搜索与数据库查询的对比

数据库完成的任务时通过精确的ID,查找关联的关系数据
“正向索引”
相比数据库,检索引擎的查询实时性要求更高
搜索系统采用“倒排索引”/“逆向索引”,更新索引的开销要高于数据库

搜索引擎

Web搜索中的链接分析
电子商务中的商品排序

文本模型
反作弊模型

多因子和基于学习的排序
搜索系统框架
搜索引擎常见的系统架构
Lucene简介
Solr简介

DIH(Data Import Handler)
Solr -- Search On Lucne w/Replication
Master-Slave
即使在索引生成后,其分片也可以添加或再次分片,是一个更为灵活的分布式配置方案

Elasticsearch简介

Elasticsearch的副本时不包含主分片的
数据镜像服务

推荐

推荐是一种为用户提供建议,帮助其挑选物品并做出最终决策的技术

抽象来看,推荐系统一般有四个重要的角色:

推荐系统分类

按照推荐依据:

按照相似度:

按照相似度传播的方式:

基于用户的协同过滤原理 基于物品的协同过滤原理

推荐系统的准确性在很大程度上依赖于用户数和物品书的比例

推荐系统框架

离线部分:

推荐引擎常见的系统架构
Mahout

相似度计算:

kNN

在线广告

按照投放方式分类:

按照计费方式分类:

按照售卖方式:

CPM非常适合品牌的推广
CPC模式最早产生于搜索广告,是目前最为广泛的计费方式

拍卖和计算是普通搜索引擎,推荐引擎所不具备的功能,也是在线广告与它们最大的区别

广告投放机制
广告系统架构
广告系统架构

数据挖掘

Knowledge Discovery in Databases
一般指通过算法从大量的数据中挖掘有价值的模式和知识的过程

当多个数据源集成到一起,通过清晰,变换,集成,装入等步骤对数据进行处理,最后形成数据仓库

多维数据挖掘允许在各种丽都上进行多维组合查询,借此发现代表知识的有趣模式

数据挖掘的常见主题:

对于大数据相关的领域而言,挖掘主要应用于商务智能和信息检索
商业智能(Business Intelligence)技术提供商务运作的历史,现状和预测等数据,从而可以发现竞争对手的优势和劣势,留住具有高价值的客户,做出正确的业务决策

数据预处理

效能评估

效果评估

性能评估

本书涉及到的主要技术点和相互关系:

本书涉及到的主要技术点和相互关系
上一篇 下一篇

猜你喜欢

热点阅读