2023-03-26
2023-03-25 本文已影响0人
斧正堂
三、数学
我们在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva(解决数学问题的最新LLM)的性能:GSM8K 和MATH 。GSM8K是一个小学数学数据集,包含8000个关于算术、分数、几何和单词问题等主题的问题和答案。MATH是一个高中数学数据集,包含12,500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型,该数据集包含大约2000个多个选择(4个选择)问题,涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用正确方法解决高中数学问题的能力。
结果:
GPT4 在每个数据集上的测试都超过了 Minerva,并且在两个测试集的准率都超过 80% 。