进步
2025-07-19 本文已影响0人
福星高照幸运星
AI 在数学推理上的进步,可以看作是所需「思考时间」的不断拉长:
GSM8K (普通数学题): 顶尖人类约需 0.1 分钟。
MATH benchmark (高中数学题): 顶尖人类约需 1 分钟。
AIME (美国数学邀请赛): 顶尖人类约需 10 分钟。
IMO (国际数学奥林匹克): 顶尖人类约需 100 分钟。
从 0.1 分钟到 100 分钟,这背后是 1000 倍 的推理复杂度跃迁。IMO 的题目通常没有固定的解法,需要选手在数小时内,不断尝试各种策略、从特例中寻找规律、提出并验证猜想,最终构建出一个完整且严谨的证明。