文本风格迁移技术调研

2022-07-05 本文已影响0人晓柒NLP与药物设计

文本风格迁移是自然语言处理领域的重要问题之一，旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等)。受风格迁移在计算机视觉领域的研究启发，Hu等人[5]提出文本风格迁移(Text Style Transfer，简称TST)任务，其目的是通过编辑句子来改变句子的属性(即风格)，保留与属性无关的文本内容以及保证句子的流畅度，其方法的迁移效果如下表所示：

原文	转换文本	迁移风格
这首歌不好听	这首歌充满了感情	消极->积极
我过去认为这首歌不好听	我猜这首歌不好听	过去时态->虚拟语态

目前，文本风格迁移可应用于许多现实场景，如人机对话，特定风格标题生成，诗歌生成等

由于缺乏大量平行语料，TST任务难以直接使用机器翻译中常用的序列到序列(sequence to sequence，简称seq2seq[12])模型，因此大部分的研究旨在从无监督学习的角度通过某种学习机制分离文本属性与文本内容的潜在表示，再融合文本内容和目标属性以实现风格迁移。一些常见的解决思路有：

利用生成对抗网络[2]学习文本的数据平滑表示
分离文本的属性与内容[5,13,14,15,16]
利用强化学习策略，将文本的属性、内容、流畅度等量化作为奖励加入模型以实现属性与内容的分类[17,18]
利用机器翻译中的回译策略，弱化句子的属性更好地保留句子内容[19]。此外，与上述隐式分离文本属性与内容的方法不同
显式地分离相关短语并更换为目标属性短语便可实现文本风格迁移[20]，从而提出删除、检索、生成（delete, retrieve, generate）的风格迁移模型

TST简介

定义

文本风格迁移旨在保留文本内容的基础上通过编辑或生成的方法更改文本的特定风格（即属性），包括情感，时态，性别，政治倾向等

形式化定义如下：给定数据集 $\mathcal{A}=\left\{(x_1,v_1),(x_2,v_2),...,(x_n,v_n)\right\}$ ，其中 $x_i$ 表示一个句子， $v_i(v_i\in\gamma)$ 表示句子 $x_i$ 包含的某种属性。 $\gamma$ 为属性的取值集合，一般包含源属性与目标属性两种，即 $\gamma=\left\{v^{src},v^{tgt}\right\}$ 。文本风格迁移的目标式学习一个函数 $f_{\theta}(·):(x,v^{src}) \rightarrow (y, v^{tgt})$ 。其中具有源属性 $v^{src}$ 的句子 $x$ 经过函数映射得到具有目标属性 $v^{tgt}$ 的 $y$ ，但保留了文本的内容。针对不同的文本风格迁移任务， $\gamma$ 的定义也不同，如在情感迁移任务中， $\gamma=\left\{positive, negative\right\}$

任务难点

目前，风格迁移任务主要存在以下难点：

（1）缺少平行语料：针对不同的文本风格迁移任务需要构建不同的数据集，而构建每一平行语料数据集都需要大量的语言学知识和极大的人工开销。平行语料的缺乏导致大部分文本风格迁移任务要在无监督学习的框架下进行建模。

（2）难以分离内容和属性：文本风格迁移不仅要转换文本的属性，还需保留文本的内容。然而再自然语言中文本的内容和属性难以显式地进行解缠。如何让模型在隐空间中更好地分离出属性词，式该任务的主要难点之一。

（3）缺乏公认而统一的评价指标：文本风格迁移任务缺乏公认且普适性的评价指标，不同的工作采用的评价指标不尽相同。

方法综述

基于监督学习的方法

TST任务上可以使用基于监督学习的序列到序列(seq2seq)模型。seq2seq模型由编码器和解码器两个部分构成，并使用平行语料库进行训练。在训练过程中，编码器的输入书需要转换风格的文本，解码器的输出是转换目标风格后的文本

Jhamatani等人[23]首先探索一种自动化将现代英语转换为莎士比亚英语的方法，方法使用基于注意力机制的seq2seq模型，编码器采用双向LSTM模型，解码器采用RNN和指针网络(pointer Network)构成的混合模型
Wang等人[24]基于GYAFC数据集研究正式-非正式(formal-informal)语言TST问题，方法使用GPT[29]作为编码器和解码器
Sancheti等人[25]针对有平行语料的"正式-非正式"(formal-informal)和莎士比亚-现代两个文本风格数据集提出基于seq2seq的TST方法。方法采用一种强化学习的框架，编码器采用LSTM模型，解码器采用RNN和指针网络构成的混合模型，根据转换后样本的风格正确率得分和内容保留度得分作为奖励，从而促进生成更加符合要求的样本

基于无监督学习的方法

目前大部分工作均为基于无监督学习的方法，旨在有效分离文本的属性和内容，本节首先根据分离数据的形式将这类方法大致分为隐式方法和显式方法

隐式方法

该类方法指模型自动学习句子内容和属性的潜在表示并进行风格的分离与转换。目前策略有：解缠、强化学习、回译、伪平行语料等策略，并基于自编码器(Auto-Encoder，简称AE)、变分自编码器（Variational Auto-Encoder, 简称VAE）、生成对抗网络（Generative Adversarial Network, 简称GAN）等模型学习文本的潜在表示

解缠策略：通过编码器将文本映射到隐空间得到潜在表示，从而分离内容和属性并进行属性迁移。常见解缠策略有：

（上图最上分支）采用对抗学习方式，即将生成的目标句子送入属性判别器，再通过判别器优化生成器，从而使得目标属性完成由编码 $c$ 控制，属性无关的文本内容完全由编码 $z$ 控制
（上图中间分支）在属性分类器的指导下对潜在表示进行编辑，迭代执行这一过程直到潜在表示具有目标属性类别为止。其中 $z$ 表示经过编码器编码后的潜在表示， $z'$ 表示在属性分类器监督下优化后得到的潜在表示
（下图最下分支）先将输入的文本编码为两个潜在表示，一个包含源属性信息（即 $a$ )，另一个包含文本的内容信息(即 $z$ )，然后将 $a$ 替换为目标属性(即 $c$ )，最后使用 $z$ 和 $c$ 的组合进行解码
强化学习策略：通过设计不同的奖励函数机制促进模型更好地学习文本内容和风格表示。模型框架如下图所示，其中Generator指根据需要选择的某种编码解码模型，目的是将源句转换为目标句，奖励可基于迁移准确率、文本内容保留、句子流畅度等方面进行定义。

回译策略：机器翻译中常用的一种策略，用于更好地利用单语语料以辅助翻译模型的训练。假设有目标语言句子 $y$ ,用训练好的目标语言到源语言的翻译模型得到伪平行句子对 $(x',y)$ 。然后加入到平行句子对集合中一起训练，尽管 $x'$ 可能包含一些未知词UNK或者错误的句法，然后由于 $y$ 是高质量的单语语料，因此这样的训练可以想象成一种去噪声的训练形式，即在有噪声的情况下，通过训练 $x\rightarrow y$ 方向的翻译模型更好地学习源句的潜在表示。由于文本风格迁移任务也可视为一类翻译任务，因此可借鉴回译策略，基于语言翻译模型学习源句的潜在表示，从而弱化句子的属性
伪平行语料策略：构建伪平行语料,通过迭代的方法优化翻译模型,实现风格迁移。主要分为两个过程：先通过构建伪平行语料，再在相应的数据集上进一步训练风格迁移模型
其它特殊策略：如域自适应方法：利用来自源域的大量可用数据，解决在目标域中数据稀缺且与源域数据分布不匹配的问题，使得文本风格迁移能够以域感知的方法进行

显式方法

该类方法认为，句子的属性通常体现在独特的短语中，如有些形容词能够体现该句子的情绪属性，因此一种简单有效的方法是只替代属性词，而不是从头生成一个新句子，即只需要改变风格相关的词或短语而保留风格无关的部分就可以达到风格迁移的目的。一般可分为三步：

删除（Delete)，即找到并删除句子中的属性词
检索（Retrieve）,即检索与文本内容最相似的目标句子
生成（Generate)，即结合目标属性并生成目标句子。框架如下图所示，其中虚线表示删除属性词之后也可不通过检索步骤而直接生成目标句子。

该方法的关键在于第一步，即如何更好地定位属性词，可由三类策略：

基于词频的删除策略：
$s(u,v) = (count(u,D_v) + \lambda) / (\sum_{v'\in V, v'\neq v}count(u,D_{v'})+\lambda)\tag{1}$
其中 $D_v$ 为具有属性 $v$ 的句子集合， $D_{v'}$ 为不具有 $v$ 的句子集合， $count(u,D_v)$ 表示n-gram(u)在 $D_v$ 中出现的次数， $\lambda$ 为平衡参数。如果 $s(u,v)$ 值大于阈值 $\gamma$ ，则认为 $u$ 是属性词
基于注意力机制的删除策略：

一类方法是，构建网络得到注意力权重，注意力大于平均值的词被认定为情感词，小于平均注意力权重的词被认定为文本内容
基于词频和注意力机制结合的删除策略：

一类方法是，采用一种掩蔽-填充(mask-infill)两步法。首先定位属性词并用掩蔽(mask)来代替,达到分离文本内容和情感属性的目的；然后，改进掩蔽语言模型(mask language model，简称MLM)得到属性条件MLM模(attribute conditional MLM)，文中使用了词频和注意力机制结合的方法定位属性词

基于半监督学习的方法

由于TST任务缺乏平行语料，难以直接训练基于seq2seq的TST模型，半监督学习旨在研究如何同时利用少量的有类标签的样本和大量的无类标签的样本改进学习性能

Shang等人[32]提出隐空间交叉投影方法，以seq2seq为基础框架，定义在不同风格的隐空间之间的投影函数。针对小规模平行语料与大规模非平行语料，分别设计了不同的约束条件来训练投影函数。为了评估所提出方法的性能，作者构建并发布了一个关于中文古诗词和现代诗词的风格迁移数据集
Zhang等人[33]针对正式-非正式文本风格迁移任务提出三种数据增强方法(回译、正式性判别、多任务迁移)来扩充平行语料，增强的数据被视为模型的先验知识，仅在预训练阶段使用

评价指标

一个好的文本风格迁移模型应该满足生成的句子符合目标属性、文本内容保留度高、语言流畅性好等不同方面的性能。目前已有工作使用的评价指标概括如下：

自动化评价：准确率，BLEU, 困惑度(Perplexity)
- 准确率是通过预训练好的分类器(如TextCNN，FastText等)来判断转换后的句子是否满足目标属性
- BLEU是机器翻译中评价内容一致性的指标
- PPL是通过预训练好的语言模型(如GPT-1，GPT-2，BERT等)来判断转换后句子的语法正确性和流畅度，PPL值越小，语句越流畅
人工评价：人工评价具有一定的主观性且耗时耗力，一般作为自动化评价的补充。常用方法是随机挑选一些转换后的句子，将其和源句子一起交给语言学家评判，但不透露句子的风格信息。和自动化评价一样，人工评价也是从迁移准确率、文本内容保留度、语法正确性三个方面进行打分，打分范围在 0~5，最后计算平均得分

Reference

[1] Gatys LA, Ecker AS, Bethge M. Image style transfer using convolutional neural networks. In: Proc. of the CVPR. 2016. 2414–2423.
[2] Goodfellow IJ, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative adversarial nets. In: Proc.of the NIPS. 2014. 2672–2680.
[3] Chen X, Duan Y, Houthooft R, Schulman J, Sutskever I, Abbeel P. InfoGAN: Interpretable representation learning by informationmaximizing generative adversarial nets. In: Proc. of the NIPS. 2016. 2172–2180.
[4] Chen FJ, Zhu F, Wu QX, Hao YM, Wang ED, Cui YG. A Survey of Generative Adversarial Networks and Its Application in ImageGeneration. Journal of Computers. 2021,44(02):347-369(in Chinese).
[5] Hu ZT, Yang ZC, Liang XD, Salakhutdinov R, Xing E.P. Toward controlled generation of text. In: Proc. of the ICML. 2017.1587-1596.
[6] Rao S, Tetreault J. Dear sir or madam, may I introduce the GYAFC dataset: corpus, benchmarks and metrics for formality style transfer.In: Proc. of the ACL. 2018. 129–140.
[7] Yi XY, Sun MS, Li RY, Li WH. Automatic poetry generation with mutual reinforcement learning. In: Proc. of the EMNLP. 2018. 3143–3153.
[8] Zhou H, Huang M, Zhang TY, Zhu XY, Liu B. Emotional chatting machine: Emotional conversation generation with internal andexternal memory. In: Proc. of the AAAI. 2018. 730–738.
[9] Jin D, Jin ZJ, Zhou JT, Orii L, Szolovits P. Hooks in the headline: learning to generate headlines with controlled styles. In: Proc. Of theACL. 2020. 5082-5093.
[10] Cicero NDS, Melnyk I, Padhi I. Fighting offensive language on social media with unsupervised text style transfer. In: Proc. of the ACL.2018. 189–194.
[11] Laugier L, Pavlopoulos J, Sorensen J, Dixon L. Civil rephrases of toxic texts with self-supervised transformers. In: Proc. Of the EACL.2021. 1442–1461.
[12] Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proc. of the NIPS. 2014. 3104–3112.
[13] Shen TX, Lei T, Barzilay R, Jaakkola T. Style transfer from non-parallel text by cross-alignment. In: Proc. of the NIPS. 2017. 6830–6841.
[14] Yang ZC, Hu ZT, Dyer C, Xing E.P, Berg-Kirkpatrick T. Unsupervised text style transfer using language models as discriminators. In:Proc. of the NIPS. 2018. 7298–7309.
[15] Zhao J, Kim Y, Zhang K, Rush A, LeCun Y. Adversarially regularized autoencoders. In: Proc. of the ICML. 2018.
[16] Fu ZX, Tan XY, Peng NY, Zhao D, Yan R. Style Transfer in text: Exploration and evaluation. In: Proc. Of the AAAI. 2018. 663–670.
[17] Luo F, Li P, Zhou J, Yang P, Chang B, Sui Z, Sun X. A dual reinforcement learning framework for unsupervised text style transfer. In:Proc. of the IJCAI. 2019. 5116-5122
[18] Gong HY, Bhat S, Wu LF, Xiong JJ, Hwu WM. Reinforcement learning based text style transfer without parallel training corpus. In:Proc. of the ACL. 2019. 3168–3180.
[19] Prabhumoye S, Tsvetkov Y, Salakhutdinov R, Black A.W. Style transfer through back-translation. In: Proc. of the ACL. 2018. 866–876,
[20] Li J, Jia R, He H, Liang P. Delete, retrieve, generate: a simple approach to sentiment and style transfer. In: Proc. Of the ACL. 2018.1865–1874.
[21] Xu W, Ritter A, Dolan B, Grishman R, Cherry C. Paraphrasing for Style. In: Proc. Of the COLING. 2012. 2899–2914.
[22] Xu W. Data-driven approaches for paraphrasing across language variations. Ph.D. thesis, New York University. 2014.
[23] Jhamtani H, Gangal V, Hovy E, Nyberg E. Shakespearizing Modern Language Using Copy-Enriched Sequence to Sequence Models. In:Proc. Of the EMNLP. 2017.
[24] Wang YL, Wu Y, Mou LL, Li ZJ, Chao WH. Harnessing Pre-Trained Neural Networks with Rules for Formality Style Transfer. In: Proc.Of the EMNLP-IJCNLP. 2019. 3573–3578.
[25] Sancheti A, Krishna K, Srinivasan BV, Natarajan A. Reinforced rewards framework for text style transfer. In: Proc. Of the ECIR. 2020.545-560.
[26] Marcus MP, Marcinkiewicz MA, Santorini B. Building a large annotated corpus of English: The Penn treebank. In: Proc. Of the CL.1993. 313–330.
[27] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A.N, Kaiser L, Polosukhin I. Attention is all you need. In: Proc. Of theNIPS, 2017. 6000–6010.
[28] Merity S, Xiong C, Bradbury J, Socher R. Pointer Sentinel Mixture Model. In: Proc. Of the ICLR. 2017.
[29] Radford A, Narasimhan K, Salimans T, Sutskever I. Improving language understanding by generative pre-training. 2018.
[30] Radford A, Wu J, Child R, Luan D, Amodei D, Sutskever I. Language Models are Unsupervised Multitask Learners. OpenAI Blog. 2019.18 Journal of Software 软件学报1(8):9.
[31] L JW, L Y, L XL. Semi-Supervised learning method. Journal of Computers. 2015, 000(008):1592-1617(in Chinese).
[32] Shang MY, Li PJ, Fu ZX, Bing LD, Zhao DY, Shi SM, Yan R. Semi-supervised text style transfer: Cross projection in latent space. In:Proc. Of the EMNLP-IJCNLP. 2019. 4937–4946.
[33] Zhang Y, Ge T, Sun X. Parallel data augmentation for formality style transfer. In: Proc. Of the ACL. 2020. 3221–3228.
[34] Hinton, G, E, et al. Reducing the Dimensionality of Data with Neural Networks. Science, 2006. 504–507.
[35] Kingma DP, Welling M. Auto-encoding variational bayes. In: Proc. Of the ICLR. 2014.