用于 LLM 的公开的数值数据

2023-05-18  本文已影响0人  Dlimeng

用于 LLM 的公开的数值数据

这个存储库包含了用于训练 OpenAI 的大型语言模型的一部分公开的数值数据。这些数据已经被处理成符合 OpenAI 的数据管道格式。此外,我们还提供了一个 Python 脚本,用于将原始的表格数据转换成适合训练的格式。

数据来源

这些数据来自于以下公开的来源:

数据格式

数据被存储为 JSON 文件,每个 JSON 文件包括一个名为 data 的数组。数组中的每个元素都是一个包含两个键的字典:

{
    "data": [
        {
            "input": "What was the average price of a gallon of regular gasoline in the United States in 2019?",
            "output": "2.60"
        },
        {
            "input": "What is the distance from Earth to Mars in kilometers?",
            "output": "225,000,000"
        },
        ...
    ]
}

如何使用这些数据

要使用这些数据训练您的模型,您需要将它们处理成适合您的训练框架的格式。我们提供了一个 Python 脚本,用于将原始的表格数据转换成适合训练的格式。您可以参考这个脚本来了解如何处理数据,以及如何根据您的需求修改它。

LLM 开发者应知的数字

在谷歌,传奇工程师杰夫·迪恩(Jeff Dean)整理了一份名为“每位工程师都应该知道的数字”的文档。对于大型语言模型(LLM)开发者来说,拥有一套可用于粗略计算的类似数字非常有用。在这里,我们分享 Anyscale 使用的一些特定数字,说明这些数字的重要性以及如何将其用于您的优势。

内容列表

CPU 时钟周期

内存访问延迟

磁盘延迟

网络延迟

FLOPs 和 AI 训练

许可

这些数据遵循 CC0 1.0 协议。您可以自由地复制、修改、发布和使用这些数据,无需获取许可或支付费用。然而,我们鼓励您在使用这些数据时,引用这个存储库以便其他人可以找到这些资源。

项目地址

https://github.com/ray-project/llm-numbers

上一篇 下一篇

猜你喜欢

热点阅读