0.NLP技术总览

2020-07-29  本文已影响0人  空无_ae80

分词

常见问题

分词标准

序列标注

命名实体识别(NER)

新词发现

语义消歧

基于词典与规则

正向最大匹配

反向最大匹配

最少切分

基于统计与概率

隐马尔科夫模型(HMM)

例如:jieba分词、中科院NLPIR(原ICTCLAS)

条件随机场(CRF)

例如:StanfordNLPCRF++

基于深度学习

Bi-LSTM+CRF

词性标注

常见问题

词性消歧

词性分类

词性标注

基于词典与规则

基于统计与概率

最大熵

HMM

CRF

基于深度学习

Bi-LSTM+CRF

文本表示

常见问题

降维

语义表示

特征选取

文本除噪

常用方法

布尔模型

向量空间模型(VSM)

独热编码(one-hot)

TF-IDF

词袋

n-gram

概率模型

Mixture of unigram

LSA/LSI

PLSA

LDA

图空间模型

基于深度学习

Word2vec

Doc2vec

文本分类

常见问题

情感分析

推荐项目——推特情感分析

推荐项目——电影评论情感分析

推特情感分析数据集

短文本分类

新闻分类

常用方法

基于知识规则

专家制定规则

基于统计学习

SVM

KNN

最大熵

朴素贝叶斯

遗传算法

基于深度学习

fastText——相关论文

TextCNN——相关论文

TextRNN + Attention——相关论文

TextRCNN——相关论文

文档自动摘要

基本步骤

文本分析

文本内容的选取和泛化

文摘的转化和生成

类型

基于抽取

打分排序

压缩式摘要

基于抽象

应用范围

学术文献

会议记录

电影剧本

学生反馈

软件代码

直播文字

推荐项目1

推荐项目2

知识图谱

常用方法

知识抽取

实体抽取

基于百科或垂直站点提取

基于规则与词典

启发式算法

规则模板

基于统计学习

KNN+CRF

最大熵

基于深度学习

Bi-LSTM+CRF

面向开放域的实体抽取

迭代拓展

搜索聚类

关系抽取

模式匹配

开放式实体关系抽取

二元

n元

基于联合推理的实体关系抽取

基于马尔可夫逻辑网

基于本体推理的深层隐含关系抽取方法

属性抽取

知识融合

实体对齐

成对实体对齐

基于传统概率模型

基于聚类

基于机器学习

局部集体实体对齐

全局集体实体对齐

基于相似性传播

基于概率模型

LDA模型、CRF模型、Markov逻辑网等

知识合并

知识加工

本体构建

实体并列关系相似度计算

实体上下位关系抽取

本体的生成

知识推理(推荐阅读)

基于逻辑

基于图

基于深度学习

质量评估

知识更新

逻辑层面

包括概念层的更新和数据层的更新

内容层面

包括全量与增量

应用

智能搜索

构建人物关系图

反欺诈(推荐阅读)

不一致性验证

异常分析

静态分析

动态分析

失联客户管理

上一篇下一篇

猜你喜欢

热点阅读