用户画像构建方法：整体的用户画像系统架构

2022-09-11 本文已影响0人一个黑客创业者

用户画像构建需要用到哪些技术？

用到的主要技术包括：机器学习、数据挖掘、自然语言处理、图像处理、复杂网络等。

整体的用户画像系统架构

1.数据清洗

异常数据清洗：过滤掉乱码等信息。

数据过滤：过滤没有任何意义的数据。

数据转换：字符集转换成统一的编码。

数据集成：将所有同类数据源整理成统一的格式。

2.数据统计

主要是对行为类数据进行统计汇总。

3.分词

定制化改写的开源分词库HanLP。

新词发现、敏感词挖掘等。

4.关键词提取

语言特征：词性、句法结构等。

统计特征：词语的IDF、词语的Topic分布熵等。

嵌入特征：词向量、N-Grams等。

场景特征：数据源特征、篇章结构特征等。

5.图像预处理

图像数据清洗：训练图像分类模型，识别并清洗脏数据图像。

模型输入数据生成：图像解析、图像裁减、像素归一化、向量化。

6.目标检测

基于传统手工特征的算法：HOG检测器、DPM模型等，模型简单、速度快，但精度相对较低。

基于区域提名（object proposal）的模型：SPP-net、Faster RCNN模型等，准确率和精度更高，但速度相对较慢。

端到端（end-to-end）的卷积网络模型：YOLO、SSD模型等，检测速度快，精度中等。

7.网络构建

关系数据：任何实体和实体之间的交互都可以看作关系型数据，实体和关系构成复杂网络。融合了多种实体和关系的复杂网络进一步可以构成生态，比如知识图谱就是由关系复杂网络和实体属性来构成的。

构建网络：提取节点和关系，设置边权重和节点属性，构建网络。

8.网络计算

网络测度：计算节点拓扑等特征。

传播模型：基于随机游走的传播算法，如标签传播算法、定向用户扩散、兴趣传播算法等。

社区发现：目标在于建设用户社区标签，分为局部社区和全局社区划分。

图神经网络：网络向量化（Graph Embedding），研发主流算法如GCN、GAT等。

动态网络模型：节点和边都随时间变化，研发针对这种网络的挖掘算法。

9.挖掘模型

线性模型：LR。

树模型：GBDT+LR、RandomForest、XGBoost。

深度学习模型：DNN（Wide&Deep）等。

10.语义分析

知识库构建：知识图谱挖掘算法（Knowledge Graph）。

文本类目标注：基于语言模型的弱监督标注算法（BERT、Attention、Language Model、Transfer Learning）。

文本类目理解：文本类目体系的表示和理解算法（Knowledge representation and reasoning）。

文本类目匹配：文本语义与类目体系语义的匹配算法（Semantic Search）。