01-学习Qwen模型架构-2024-05-16

2024-05-15  本文已影响0人  yunpeng

本文是《从零手搓大模型实战》学习的第一篇个人学习笔记,记录下学习内容以及相关心得。

注:相关学习内容来自datawhalechina/tiny-universe

本次的学习主要是通过深入剖析大模型本身原理,进一步了解大模型LLM底层的网络结构,通过学习Qwen2相关代码,了解了LLM模型结构内部。

1. Qwen模型与Transformer架构

Qwen是一个基于Transformer架构的预训练模型。

Transformer是2017年出现的一种革命性的神经网络架构,主要依赖于注意力机制来处理序列数据
Transformer的主要特点:

2. Qwen模型基本架构

简化的Qwen模型基本架构

Qwen模型基本架构概述

  1. 文本输入(Text Input)

    • Tokenizer层:将输入的文本序列转换为单词或子词标记的序列。
    • Input_ids层:将Tokenizer生成的标记转换为唯一的ID序列。
  2. Embedding层

    • 将每个ID映射到一个固定维度的向量,生成一个向量序列作为模型的初始输入表示。
  3. Decoder Layer

    • 包含多个重复的堆叠层(Layers1, Layers..., Layersn),每层内部可能包含以下组件:
      • Self-Attention机制
        • Query, Key, Value(QKV):计算输入序列内部的不同部分之间的相关性。
        • Dot_attn:计算Q和K的点积,然后应用Softmax函数得到Attention_weight。
        • Attention_weight:用于缩放Value的权重,生成加权和作为Attention的输出。
      • Feed-Forward Network (MLP)
        • 接收Attention的输出,并通过一到两个全连接层进行变换。
      • Residual Connection
        • 将输入(Hidden_states)与MLP的输出相加,以保持梯度在反向传播时的稳定性。
      • Normalization层(如RMSNorm)
        • 对Hidden_states进行归一化,以加速训练和提高模型的泛化能力。
      • Rotary Position Embedding
        • 为序列中的每个位置添加位置信息,以帮助模型理解序列中单词的顺序。
  4. 输出层(Output Layer)

    • Linear层:将最后一层Decoder的输出转换为任务所需的维度。
    • Softmax或Sigmoid等激活函数:根据任务的性质(如分类或回归),应用适当的激活函数。
  5. 损失函数(Loss Function)

    • 根据任务的目标定义损失函数,如交叉熵损失(用于分类任务)或均方误差损失(用于回归任务)。
  6. 其他优化策略

    • Dropout:在训练过程中随机丢弃部分神经元,以防止过拟合。
    • 权重初始化:使用适当的权重初始化策略,如Xavier或He初始化,以加快训练速度。

注意,这里上图只是一个简化的概述,Qwen架构实际包含更多的细节。

3. Qwen2Model Qwen2Config

Qwen2Config中包含一些自定义的超参数,例如vocab_size,hidden_size,num_hidden_layers, num_attention_heads等。类似于dict可以调用里面的超参数:config.pad_token_id

模型初始化

该方法设置了模型的两个属性:padding_idx(用于指定填充标记的索引),vocab_size(词汇表的大小)并初始化模型的嵌入层、解码器层、归一化层

4. Qwen2DecoderLayer

Qwen2DecoderLayer是模型的核心结构

decoder layer image.png

5. Qwen2Attention

image.png
上一篇下一篇

猜你喜欢

热点阅读