师书说阅读练习170《自然语言处理:基于预训练模型的方法》
2022年四月第48本书
未知率30%
预计阅读速度5000字/分钟
实际阅读速度3000字/分钟
目前研究的方向是如何用人工智能辅助阅读。
关于自然语言的处理,对于儿童语言学习机制的研究太少,现有的算法与人脑的差距依然很大。
本书需要一定专业背景才能阅读。
>> 本书包括基础知识、预训练词向量和预训练模型三部分:基础知识部分介绍自然语言处理和深度学习的基础知识和基本工具;预训练词向量部分介绍静态词向量和动态词向量的预训练方法及应用;预训练模型部分介绍几种典型的预训练语言模型及应用,以及预训练模型的最新进展。
>> 自然语言处理的目标是使得机器具有和人类一样的语言理解与运用能力。
◆ 1.3 自然语言处理任务体系
>> 1.回归问题即将输入文本映射为一个连续的数值,如对作文的打分,对案件刑期或罚款金额的预测等。
>> 2.分类问题又称为文本分类,即判断一个输入的文本所属的类别,如:在垃圾邮件识别任务中,可以将一封邮件分为正常和垃圾两类;在情感分析中,可以将用户的情感分为褒义、贬义或中性三类。
>> 3.匹配问题判断两个输入文本之间的关系,
◆ 1.4 自然语言处理技术发展历史
>> 所谓模型预训练(Pre-train),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。
>> 自监督学习(Self-supervised Learning)。
◆ 2.1 文本的表示
>> 将文本表示为向量,其中的每一维代表一个特征。
◆ 2.2 自然语言处理任务
>> 情感(Sentiment)是人类重要的心理认知能力,使用计算机自动感知和处理人类情感已经成为人工智能领域重要的研究内容之一。
>> 阅读理解式问答系统,通过抽取给定文档中的文本片段或生成一段答案来回答用户提出的问题。
◆ 2.3 基本问题
>> 所谓序列标注(Sequence Labeling),指的是为输入文本序列中的每个词标注相应的标签,如词性标注是为每个词标注一个词性标签,包括名词、动词和形容词等。
◆ 3.3 PyTorch基础
>> PyTorch具有如下优点:• 框架简洁;• 入门简单,容易上手;• 支持动态神经网络构建;• 与Python语言无缝结合;• 调试方便。
◆ 4.2 卷积神经网络
>> 卷积操作输出的结果还可以进行进一步聚合,这一过程被称为池化(Pooling)操作。
◆ 5.1 神经网络语言模型
>> 由于监督信号来自数据自身,因此这种学习方式也被称为自监督学习(Self-supervised Learning)。
◆ 5.2 Word2vec词向量
>> 给定一段文本,CBOW模型的基本思想是根据上下文对目标词进行预测。
◆ 7.1 概述
>> 这好比人们在小学、初中和高中阶段会学习数学、语文、物理、化学和地理等基础知识,夯实基本功并构建基本的知识体系(预训练阶段)。而当人们步入大学后,将根据选择的专业(目标任务)学习某一领域更深层次的知识(精调阶段)。
◆ 9.3 异构知识融合
>> 从人类的角度来看,人类不仅仅通过阅读学习并获取智能,也善于“站在巨人的肩膀上”,吸纳已有的知识库和概念系统;并且可以从不同任务中学习、相互启发。
>> 为了构建知识增强的预训练模型,需要解决两个问题:一是使用什么类型的知识?二是如何在预训练模型中有效地融入异构知识?