大模型基础概念简析

2024-05-14 本文已影响0人一钱科技

tokens

tokens是模型处理文本的基本单位。通常由分词器生成，分词器将一段文本拆分成多个tokens，可以是单词、标点符号、数字、特殊字符或子词。在NLP中，一个 "token" 通常是指文本中的一个元素或单位。
一般情况下，1000 tokens大约对应750个字符（包括标点等字符），大约对应400～500个汉字。

参数量

参数具体体现在模型的复杂性和容量上。在自然语言处理（NLP）和深度学习领域，模型参数是指神经网络中的权重和偏置等可调整的变量，用于训练和优化神经网络的性能，参数的数量决定了模型能够捕捉到的数据中的细节和模式数量。
参数中的“B”通常代表十亿（Billion），参数亮7B、66B分别表示模型大约有70亿个、660亿个参数。

训练数据量

训练数据量是指用于训练机器学习或深度学习模型的数据集的大小。

泛化能力：较大的数据集通常包含更多的变化和多样性，这有助于模型学习更通用的表示，从而更好地泛化到未见过的数据。
过拟合：当训练数据量较小时，模型可能会过于关注训练数据中的噪声或异常值，导致在测试数据上表现不佳。
欠拟合：当训练数据量不足以捕捉数据的复杂性时，模型可能无法学习到数据的真正结构，也会导致性能下降。

上下文长度

自然语言处理（NLP）和深度学习领域，上下文长度通常用于描述模型在生成新的文本或理解输入的语句时，可以处理的最大文本长度。通常是以“token”作为计算单位

大模型基础概念简析

tokens

参数量

训练数据量

上下文长度

猜你喜欢

热点阅读