AIGC&ChatGPT

模型微调事项要点

2023-12-14  本文已影响0人  求知笔记

1. max_tokens 设置尽可能小一点

因为在自然语言处理中,较长的文本输出通常需要更长的计算时间和更多的计算资源。因此,限制输出文本的长度可以在一定程度上降低计算成本和计算时间。这样做的目的,还有
1) 保证输出文本的长度不会超过 LLM 的接受范围
2)充分利用计算资源,提高模型的运行效率
3)限制 max_tokens 能够增加 prompt 的长度;如 gpt-3.5-turbo 的限制为 4097 tokens,如果设置 max_tokens=4000,那么 prompt 就只剩下 97 tokens 可用,如果超过就会报错。

2. 数据集长文本如何切分比较合理?

通常会将文本按照段落或者句子进行切分,以便更好地处理和理解文本中的语义和结构信息。
最小切分单位取决于具体的任务和技术实现。例如gpt-3.5-turbo 的限制为 4097 tokens,他的最小节分单位不能超过4097 tokens。
通常情况下,我们需要将整个句子或者段落作为切分单位。当然,还需要进行实验和评估来确定最合适的 embedding 技术和切分单位。可以在测试集上 / 命中测试比较不同技术和切分单位的性能表现,并选择最优的方案。

3. 知识库里上传数据集文档是 Excel,如何更好的处理?

首行设置表头,后面每行显示内容,不要有其他多余的表头设置,不要设置复杂格式的表格内容。
如下方表格示例,仅需保留第二行的表头,首行(表格1)为多余表头,需删掉。


4. TopK:值范围为整数 1~10

用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 2 。这个值建议可以*设置为 2~5 ,因为我们期待的是得到与嵌入的上下文匹配度更高的答案。

5. Score 阈值:值范围为两位小数的浮点数 0~1

用于设置文本片段筛选的相似度阈值,即:只召回超过设置分数的文本片段(在“命中测试”中我们可以查看到每个片段的命中分数)。系统默认关闭该设置,即不会对召回的文本片段相似值过滤。打开后默认值为 0.7 。这里我们推荐保持默认关闭设置,如果你有更精准的回复要求,也可以设置更高的值(最高值为1,不建议过高)

6. 设置停止序列 Stop_Sequences

我们不期望 LLM 生成多余的内容,所以需要设置指特定的单词、短语或字符(默认设置为 Human:),告知 LLM 停止生成文本。

上一篇下一篇

猜你喜欢

热点阅读