最近都说 DeepSeek R1 模型很牛,到底牛在哪里?
卓越的推理能力
数学推理:在 AIME 2024 数学竞赛中,DeepSeek R1 取得了 79.8% 的 pass@1 得分,略微超过 OpenAI-o1-1217。在 MATH-500 基准测试上,它获得了 97.3% 的高分,与 OpenAI-o1-1217 的性能相当,并且显著优于其他模型。
代码推理:在代码竞赛任务中,DeepSeek R1 展示了专家级水平,例如在 Codeforces 上获得了 2,029 Elo 评级,超过了该竞赛中 96.3% 的人类参与者。