2023-03-26

2023-03-25 本文已影响0人斧正堂

三、数学
我们在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva（解决数学问题的最新LLM）的性能：GSM8K 和MATH 。GSM8K是一个小学数学数据集，包含8000个关于算术、分数、几何和单词问题等主题的问题和答案。MATH是一个高中数学数据集，包含12,500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型，该数据集包含大约2000个多个选择（4个选择）问题，涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用正确方法解决高中数学问题的能力。
结果：
GPT4 在每个数据集上的测试都超过了 Minerva，并且在两个测试集的准率都超过 80% 。

上一篇下一篇

猜你喜欢

热点阅读