自然语言处理理论与实践

自然语言处理之文本数据增强

2021-07-17  本文已影响0人  dreampai

什么是数据增强

数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训练,但实际情况中数据并没有那么多,因此需要做数据增强。

数据增强的作用

数据增强的分类

根据数据增强的对象可以将增强研究分类两类:

本文针对于面向原始文本的增强研究,总结以下几种方法。

EDA

ICLR 2019 workshop 论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》介绍了几种NLP数据增强技术,并推出了EDA github代码。EDA github repo提出了四种简单的操作来进行数据增强,以防止过拟合,并提高模型的泛化能力。EDA 在个文本分类问题上带来性能的提升,但是其增强方式可能会破坏原始文本的句法结构和通顺性。

同义词替换

不考虑 stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。关于同义词可以使用开源同义词表+领域自定义词表来建立。

def synonym_replacement(words, n):
    new_words = words.copy()
    random_word_list = list(set([word for word in words if word not in stop_words]))
    random.shuffle(random_word_list)
    num_replaced = 0
    for random_word in random_word_list:
        # get_synonyms 获取某个单词的同义词列表
        synonyms = get_synonyms(random_word)
        if len(synonyms) >= 1:
            synonym = random.choice(list(synonyms))
            new_words = [synonym if word == random_word else word for word in new_words]
            num_replaced += 1
        if num_replaced >= n:
            break
    sentence = ' '.join(new_words)
    new_words = sentence.split(' ')
    return new_words

随机删除

句子中的每个词,以概率p随机删除。有几种极端情况需要考虑:

def random_deletion(words, p):
    # obviously, if there's only one word, don't delete it
    if len(words) == 1:
        return words

    # randomly delete words with probability p
    new_words = []
    for word in words:
        r = random.uniform(0, 1)
        if r > p:
            new_words.append(word)

    # if you end up deleting all words, just return a random word
    if len(new_words) == 0:
        rand_int = random.randint(0, len(words) - 1)
        return [words[rand_int]]

    return new_words

随机交换

句子中,随机选择两个词,位置交换。该过程可以重复n次。
(swap_word 函数中随机产生两个序列下标,如果相同最多重新生成三次。)


def random_swap(words, n):
    new_words = words.copy()
    for _ in range(n):
        new_words = swap_word(new_words)
    return new_words


def swap_word(new_words):
    random_idx_1 = random.randint(0, len(new_words) - 1)
    random_idx_2 = random_idx_1
    counter = 0
    while random_idx_2 == random_idx_1:
        random_idx_2 = random.randint(0, len(new_words) - 1)
        counter += 1
        if counter > 3:
            return new_words
    new_words[random_idx_1], new_words[random_idx_2] = new_words[random_idx_2], new_words[random_idx_1]
    return new_words

随机插入

句子中的每个词,以概率p随机删除。随机插入的字符通过同义词获取。

def random_insertion(words, n):
    new_words = words.copy()
    for _ in range(n):
        add_word(new_words)
    return new_words


def add_word(new_words):
    synonyms = []
    counter = 0
    while len(synonyms) < 1:
        random_word = new_words[random.randint(0, len(new_words) - 1)]
        synonyms = get_synonyms(random_word)
        counter += 1
        if counter >= 10:
            return
    random_synonym = synonyms[0]
    random_idx = random.randint(0, len(new_words) - 1)
    new_words.insert(random_idx, random_synonym)

模型预打标

使用少量的数据训练一个模型或者将少量数据通过 Bert finetune 训练一个模型,在已有模型的基础上对无监督数据打标,选择置信度较高的数据作为伪标签(pseudo label)加入到已有数据中训练模型,循环迭代优化模型。

回译(Back Translation)

回译(Back Translation)是机器翻译中非常常用的数据增强的方式,其主要的思想就是通过翻译工具将一个句子翻译为另一种语言,再把这翻译的另一种语言再翻译为原来的语言,最后得到一个意思相近但表达方式不同的句子。这种方式也是目前相对靠谱的方式,这种方式不仅有同义词替换,词语增删,还具有对句子结构语序调整的效果,并还能保持与原句子意思相近,是目前一种非常有效的文本数据增强方式。

反向翻译的过程如下:

我喜欢学习NLP,因为他存在极大的挑战。

其他方法

参考链接

关于我

dreampai(公众号,简书,知乎同名),专注于 NLP和金融。

上一篇 下一篇

猜你喜欢

热点阅读