数据仓库互联网科技每天写1000字

用户画像与标签

2017-03-31  本文已影响364人  热血沸腾

本质

用户画像是对现实用户的数据建模 

标签是一个符号并且与业务紧密相连才有意义

标签的评判标准定义. 例如,假设我们有一个类目就是洗车,那很好办,如果用户下过洗车的单子,那么该用户就打上这个标签

谨记

构建用户画像,确定标签要与业务部门和产品部门共同商量确定,因为用户画像与业务紧密相连,标签体系是搜集所有业务方面的需求。

验证

验证需要两方面考究。第一,标签是否准确。第二,标签是否齐全。但是无法保证这两者100%符合,尤其是后者,因为业务不断变化,导致最多在一段时间内标签的齐全,抑或多数情况下标签是不齐全的。

所以我们通常判断的是准确性。准确性的判断有两类。第一类,以实时为依据,比如用户的性别,通过数据是可查究的。第二类,无事实为依据,比如用户的忠诚度,只有通过线上数据的A/B Test来对比验证。

①用户数据采集

多种数据源,不同终端(Web、App、H5、桌面软件)用户行为,后端系统日志(Web server Log),业务数据( DB ) 

②数据接入与存储

实时导入数据,数据格式从此统一、完备。先进的事件—用户数据模型,为分析用户行为提供坚实基础

③可视化查询与分析

多维事件分析、漏斗分析、留存分析、用户分群、行为轨迹分析和回访分析,不同分析模型帮助揭示数据背后的含义,深度解答各种问题。

支持将任何分析查询添加到数据概览。配置数据概览。

技术架构

海量日志(一般为流式数据,如,搜索引擎的pv,查询等)数据提取 Hadoop的Chukwa,Cloudera的Flume,FaceBook的Scribe

分布式数据存储技术 HBase 、HDFS

Sqoop  用于 Hadoop、Hive 与传统数据库 MySQL、Oracle之间数据转换

Hive、SparkSQL、MapReduce处理数据数据分析、挖掘

Storm、Spark等实时技术 流式数据处理

Karmasphere 数据查询和呈现

R取样本,假设检验,做回归

机器算法  聚类 KMeans  DBscan    分类和回归 贝叶斯算法    预测 Boosting,Bagging

技术架构

实施方法论

实施方法论



上一篇下一篇

猜你喜欢

热点阅读