大模型微调

2024-10-14 本文已影响0人阿凡提说AI

常用的参数高效微调方法有Prompt Tuning、Adapter Tuning、Prefix Tuning、LoRA（Low-Rank Adaptation）和 QLoRA（Quantized LoRA）

1. Prompt Tuning

定义：Prompt Tuning 是通过添加可学习的提示（prompt）向量来引导预训练模型进行特定任务的方法。这些提示向量在输入嵌入中被拼接，以帮助模型生成任务相关的输出。
优点：
- 仅修改少量参数，训练效率高。
- 保留了原始模型的结构和参数。
缺点：
- 对提示的设计和选择敏感，可能需要经验和实验。

2. Adapter Tuning

定义：Adapter Tuning 通过在每个 Transformer 层之间插入小的适配器模块来进行微调。这些适配器通常包括少量的可训练参数，而不改变预训练模型的主干网络。
优点：
- 能够在特定任务上获得较好的性能。
- 模型主干保持不变，因此可以方便地进行多任务学习。
缺点：
- 增加模型的复杂性，尽管新增的参数量相对较小。

3. Prefix Tuning

定义：Prefix Tuning 是通过在输入序列前添加可学习的前缀（prefix）向量，影响模型的生成和推理过程。这些向量不直接参与输入的嵌入，但会影响整个计算过程。
优点：
- 只在预训练模型的输入层增加额外的参数，保持主干模型不变。
- 对于生成任务能显著改善结果。
缺点：
- 与 Prompt Tuning 类似，对前缀的选择敏感。

4. LoRA（Low-Rank Adaptation）

定义：LoRA 是通过将模型权重分解为两个低秩矩阵，引入少量可训练参数来进行微调。这允许在保持大部分模型不变的情况下，适应特定的任务。
优点：
- 显著减少了参数量和计算成本。
- 保留了预训练参数的性能，具有较好的泛化能力。
缺点：
- 低秩假设可能对某些任务不适用。

5. QLoRA（Quantized LoRA）

定义：QLoRA 是在 LoRA 的基础上进一步优化，通过量化技术降低模型的内存占用和计算需求，通常用于资源受限的设备上。
优点：
- 除了 LoRA 的优点外，还显著减小了模型的存储需求和推理时的计算成本。
- 适合在资源受限的环境中进行快速推理。
缺点：
- 量化可能导致模型性能下降，尤其在高精度场景下。

总结对比

方法	主要特点	可训练参数量	对任务的依赖	应用场景
Prompt Tuning	添加可学习的提示向量	较少	高	NLP 分类任务
Adapter Tuning	在 Transformer 层插入适配器模块	中	中	多任务学习
Prefix Tuning	添加可学习的前缀向量影响输出	较少	中	生成任务
LoRA	使用低秩矩阵进行微调	较少	中	各类推理任务
QLoRA	在 LoRA 基础上量化参数	较少	中	资源受限设备

这些方法各有优缺点，选择合适的微调方式主要取决于具体任务要求、计算资源限制以及模型性能需求。

大模型 LoRA 微调详解

什么是 LoRA？

LoRA（Low-Rank Adaptation）是一种专门用于大模型微调的有效技术。它通过引入低秩矩阵的方式，使得模型在适应特定任务时，能够以较低的计算和内存成本进行微调。相较于传统的全参数微调，LoRA 提供了一种高效且灵活的解决方案。

LoRA 的原理

LoRA 的核心思想是将需要调整的模型权重分解为两个低秩矩阵，从而减少需要优化的参数数量。具体步骤如下：

模型权重分解：
假设一个预训练模型的某一层的权重为 ( W )，LoRA 将这个权重分解为：

W' = W +△W = W + BA

其中 ( B ) 和 ( A ) 分别为低秩矩阵，且 △ W 为微调过程中引入的调整部分。
训练：
在微调过程中，通常只训练矩阵 ( A ) 和 ( B )，而保持 ( W ) 不变。这意味着在微调时，我们只需要更新相对较少的参数。
推理：
在推理时，把原始权重 ( W ) 和通过低秩适应调整后的权重 ( W' ) 结合起来使用。

LoRA 微调的流程

以下是 LoRA 微调的具体流程：

模型选择： 选择合适的预训练语言模型，如 BERT、GPT 等。
插入 LoRA 层： 在特定的层（通常是 Transformer 的注意力层或前馈层）中插入 LoRA 层，即添加低秩矩阵 ( A ) 和 ( B )。
冻结原始参数： 冻结模型的原始权重参数，以避免在训练过程中其被改变。
准备数据集： 准备与目标任务相关的微调数据集。进行数据预处理，确保数据格式符合模型的输入要求。
训练 LoRA 层： 使用特定任务的数据集训练 LoRA 层。优化算法通常为 Adam 或者 AdamW。
评估模型： 在验证集或测试集上评估微调后的模型性能。

LoRA 微调的优势

参数量少： 由于只需微调低秩矩阵，模型需要训练的参数显著减少，降低了计算成本。
内存占用低： LoRA 使得微调可以在内存受限的环境中顺利进行。
训练速度快： 由于参数量大幅减少，训练速度相较于全参数微调快得多。
保留预训练能力： 通过冻结大部分的预训练参数，LoRA 能够更好地保留模型的预训练特性，提高泛化能力。
易于调节： 调整低秩矩阵的大小，可以在性能和资源消耗之间进行很好的平衡。

LoRA 微调的应用场景

NLP 任务: 文本分类、情感分析、问答系统等。
推荐系统: 根据用户行为和特征进行个性化的推荐。
特定领域的微调: 如医学、金融、法律等领域的特定任务。
快速迭代: 当需要频繁微调模型以适应变化的需求时。

LoRA 微调的局限性

适应能力有限: 虽然 LoRA 可减少计算量，但在某些复杂任务下，可能无法像全参数微调那样达到最佳性能。
低秩限制: 低秩矩阵的选择对性能影响较大，选择不当可能导致模型性能下降。

总结

LoRA 是一种高效的微调技术，适用于大规模预训练语言模型的快速微调。通过引入低秩适应策略，LoRA 以较低的计算和内存成本调节模型参数，提高了大模型在特定任务上的表现。尽管存在一定的局限性，LoRA 在 NLP 和其他领域的应用前景广阔。

下面是使用 PyTorch 和 Hugging Face Transformers 库进行 LoRA 微调的简单示例。我们将演示如何在已有的预训练模型上添加 LoRA 层，并进行微调。

环境准备

首先，确保你安装了所需的库：

pip install torch transformers

LoRA 微调的基本代码实现

以下是一个简单的 LoRA 微调实现示例，该示例基于 BERT 模型：

import torch
import torch.nn as nn
from transformers import BertModel, BertTokenizer, AdamW

# 定义 LoRA 模块
class LoRA(nn.Module):
    def __init__(self, model: nn.Module, r: int = 4):
        super(LoRA, self).__init__()
        self.model = model
        self.r = r

        # 获取 BERT 中的某一层
        for param in self.model.parameters():
            param.requires_grad = False  # 冻结模型的原始参数

        # 创建低秩适应矩阵
        self.lora_A = nn.Parameter(torch.zeros((self.r, self.model.config.hidden_size)))
        self.lora_B = nn.Parameter(torch.zeros((self.model.config.hidden_size, self.r)))

    def forward(self, input_ids, attention_mask):
        # 通过 BERT 模型获得输出
        output = self.model(input_ids, attention_mask=attention_mask)[0]
        # 加入 LoRA 调整
        lora_output = output @ self.lora_B @ self.lora_A.transpose(0, 1)  # 进行低秩适应
        return output + lora_output  # 返回调整后的输出

# 初始化模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
base_model = BertModel.from_pretrained('bert-base-uncased')
lora_model = LoRA(base_model)  # 包装 BERT 模型

# 准备优化器
optimizer = AdamW(lora_model.parameters(), lr=5e-5)

# 准备示例输入数据
texts = ["Hello, how are you?", "I am fine, thank you!"]
inputs = tokenizer(texts, padding=True, return_tensors="pt")

# 开始训练
lora_model.train()
for epoch in range(3):  # 设定训练周期
    optimizer.zero_grad()
    outputs = lora_model(inputs['input_ids'], inputs['attention_mask'])
    loss = outputs.sum()  # 这里的 loss 是示例，真实场景中需要根据任务计算损失

    loss.backward()  # 后向传播
    optimizer.step()  # 更新参数

    print(f"Epoch {epoch + 1}: Loss {loss.item()}")  # 打印损失

解释代码

LoRA 模块：
定义了 LoRA 类，它接受一个预训练的模型（如 BERT），并添加了两个可训练的低秩矩阵 ( A ) 和 ( B )。在 forward 方法中，通过模型和 LoRA 层计算输出。
模型初始化：
使用 BertTokenizer 和 BertModel 初始化基础模型，并将其包装在 LoRA 类中。
优化器：
使用 AdamW 作为优化器，但仅优化 LoRA 的参数。
训练过程：
在简单的循环中执行了模型的训练，打印了每个 epoch 的损失值。在实际应用中，损失的计算应依据具体的任务类型。

注意事项

数据集： 实际应用中，应使用适当的数据集进行训练，确保数据格式正确。
损失函数： 这里的损失计算为示例，您可能需要根据任务（如分类、生成等）使用适当的损失函数。
设备配置： 如果在 GPU 上训练，请确保将模型和数据移动到 CUDA 设备。
参数调试： LoRA 的低秩矩阵的大小（r）可以根据任务需求进行调整。

小结

这是一个基本的 LoRA 微调实现示例，您可以根据实际需求进行扩展和调整。通过引入 LoRA 层，您可以在不改变大部分预训练参数的情况下，快速适应特定任务。