2021-02-26nlp知识了解
基本概念“aspect”
aspect term、aspect category、aspect opinion、aspect opinion pair类似于键值对
nlp中aspect相关知识
Embedding概念
流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么,深度学习的任务就是把高维原始数据(图像,句子)映射到低维流形,使得高维的原始数据被映射到低维流形之后变得可分,而这个映射就叫嵌入(Embedding)。比如Word Embedding,就是把单词组成的句子映射到一个表征向量。
Embedding就是从原始数据提取出来的Feature,也就是那个通过神经网络映射之后的低维向量。
事件抽取:Event extraction 变为Nugget detection
rnn相关知识

cnn最大池化层、前向传播,反向传播

- 专有名词翻译
discriminator分辨器
adversarial 对立的、对抗的
GAN Generative Adversarial Network生成对抗网络
generator+discriminator
对抗训练示意
注:图中的黑色虚线表示真实的样本的分布情况,蓝色虚线表示判别器判别概率的分布情况,绿色实线表示生成样本的分布。
我们的目标是使用生成样本分布(绿色实线)去拟合真实的样本分布(黑色虚线),来达到生成以假乱真样本的目的。
可以看到在(a)状态处于最初始的状态的时候,生成器生成的分布和真实分布区别较大,并且判别器判别出样本的概率不是很稳定,因此会先训练判别器来更好地分辨样本。
通过多次训练判别器来达到(b)样本状态,此时判别样本区分得非常显著和良好。然后再对生成器进行训练。
训练生成器之后达到(c)样本状态,此时生成器分布相比之前,逼近了真实样本分布。
经过多次反复训练迭代之后,最终希望能够达到(d)状态,生成样本分布拟合于真实样本分布,并且判别器分辨不出样本是生成的还是真实的(判别概率均为0.5)。也就是说我们这个时候就可以生成出非常真实的样本啦,目的达到。

极大似然估计在机器学习上比较重要

Graph Convolutional Network, GCN 图卷积神经网络
mechanism机制,self-att self attention自注意力机制
CRF Conditionl Random Field 条件随机场
navigate 航海;横渡;找到方法