用户画像构建方法:整体的用户画像系统架构

2022-09-11  本文已影响0人  一个黑客创业者

用户画像构建需要用到哪些技术?

用到的主要技术包括:机器学习、数据挖掘、自然语言处理、图像处理、复杂网络等。

整体的用户画像系统架构

1.数据清洗

异常数据清洗:过滤掉乱码等信息。

数据过滤:过滤没有任何意义的数据。

数据转换:字符集转换成统一的编码。

数据集成:将所有同类数据源整理成统一的格式。

2.数据统计

主要是对行为类数据进行统计汇总。

3.分词

定制化改写的开源分词库HanLP。

新词发现、敏感词挖掘等。

4.关键词提取

语言特征:词性、句法结构等。

统计特征:词语的IDF、词语的Topic分布熵等。

嵌入特征:词向量、N-Grams等。

场景特征:数据源特征、篇章结构特征等。

5.图像预处理

图像数据清洗:训练图像分类模型,识别并清洗脏数据图像。

模型输入数据生成:图像解析、图像裁减、像素归一化、向量化。

6.目标检测

基于传统手工特征的算法:HOG检测器、DPM模型等,模型简单、速度快,但精度相对较低。

基于区域提名(object proposal)的模型:SPP-net、Faster RCNN模型等,准确率和精度更高,但速度相对较慢。

端到端(end-to-end)的卷积网络模型:YOLO、SSD模型等,检测速度快,精度中等。

7.网络构建

关系数据:任何实体和实体之间的交互都可以看作关系型数据,实体和关系构成复杂网络。融合了多种实体和关系的复杂网络进一步可以构成生态,比如知识图谱就是由关系复杂网络和实体属性来构成的。

构建网络:提取节点和关系,设置边权重和节点属性,构建网络。

8.网络计算

网络测度:计算节点拓扑等特征。

传播模型:基于随机游走的传播算法,如标签传播算法、定向用户扩散、兴趣传播算法等。

社区发现:目标在于建设用户社区标签,分为局部社区和全局社区划分。

图神经网络:网络向量化(Graph Embedding),研发主流算法如GCN、GAT等。

动态网络模型:节点和边都随时间变化,研发针对这种网络的挖掘算法。

9.挖掘模型

线性模型:LR。

树模型:GBDT+LR、RandomForest、XGBoost。

深度学习模型:DNN(Wide&Deep)等。

10.语义分析

知识库构建:知识图谱挖掘算法(Knowledge Graph)。

文本类目标注:基于语言模型的弱监督标注算法(BERT、Attention、Language Model、Transfer Learning)。

文本类目理解:文本类目体系的表示和理解算法(Knowledge representation and reasoning)。

文本类目匹配:文本语义与类目体系语义的匹配算法(Semantic Search)。

上一篇 下一篇

猜你喜欢

热点阅读