
机器之心报道,机器之心编辑部突破级推理模型来了,Deepseek开启自我验证数学推理方向。鲸鱼回来了!刚刚,Deepseek悄悄上传了一个新的Hugging Face模型:Deepseek-Math-V2。顾名思义,它是一个数学模型。其先前版本 Deepseek-Math-7B 已于一年多前发布。当时,这个模型仅使用了 7B 个参数,就达到了与 GPT-4 和 Gemini-ultra 相当的性能水平。相关论文还首次引入了GRPO,显着提高了数学推理能力。一年半过去了,基于 Deepseek-V3.2-exp-base 构建的 Deepseek-Math-V2 有哪些惊喜? Deepseek 表示,Gemini Deepthink 的情况越来越糟,达到了黄金级性能。论文标题:DeepSeekMath-V2:走向自我验证数学推理模型:https://huggingface.co/deepseek-ai/deepseek-math-v2 Pa每个地址:https://github.com/deepseek-ai/deepseek-math-v2/blob/main/deepseek-ai任正非的论文《Deepseek》指出了当前人工智能研究在逻辑推理方面的局限性:用正确的最终答案作为奖励是过度追求最终答案的正确性。虽然这种方法可能会让推理模型在 AIME 和 HMMT 等基准测试中达到较高水平,甚至达到饱和,但 Deepseek 表示,它并没有解决主要问题:正确答案并不能保证推理过程正确。此外,许多数学任务(例如定理证明)需要严格的逐步推导,而不仅仅是数字答案,这使得基于最终答案的奖励方法不合适。为了突破深度推理的极限,Deepseek 认为有必要证明数学推理的完整性和严格性。他们指出:“在扩展规模时,自我验证尤为重要。为了实现数学自我推理,Deepseek 研究了如何训练一个准确可靠的基于 LLM 的定理证明验证器。然后,他们使用这个验证器作为奖励模型来训练证明生成器,并激励生成器在最后完成证明。尝试在自己的证明中尽可能多地发现和解决问题。为了随着生成器能力的增强而保持生成验证差距,Deepseek 建议扩大验证范围简单来说,Deepseek 的主要目的不仅是让 AI 做正确的事情,而且要让 AI “不仅能做,还能自我检查,甚至诚实地承认哪里出了问题。”可以用“学生-教师-导师”的比喻来理解:第一,培养合格的“师资证明”。过去,在训练AI数学模型时,我们通常只检查最终答案是否正确。但在高等数学证明题(如奥数)中,严格的过程比答案更重要。因此,Deepseek团队首先训练了一名专家验证者,也称为“标记者”。这位老师不仅检查和交叉,而且学会像人的专家一样将证明过程分为三个级别: 1分:逻辑严格。 0.5分:有小瑕疵或细节缺失。不仅要打分,还要写评论:要求模型指出什么是好的,什么是错的。给老师分配一个“监督者”(元验证)。 Deepseek发现一个问题:评分老师有时会随机扣分。它可能给出低分,但指出的错误根本不存在(也就是说,它造成了一种错觉)。为了解决这个问题,他们引入了元验证的机制,相当于给老师分配了一个“监督者”。督导员的任务不是看试卷,而是专门检查老师写的“评语”是否合理。这提供了双重确认:导师会检查老师指出的错误是否真实,扣分是否合乎逻辑。因此,通过训练模型既充当老师又充当监督者,人工智能评估证书的准确性和可信度大大提高。然后,培养能够“自我反思”(生成具有自我验证的证明)的学生。有了好的评分系统,下一步就是训练做题的“学生”(生成器)。这里有一个非常根本性的变化:忠诚度奖励机制。换句话说,它不仅解决了问题,而且还自我评估:模型输出解决问题的过程后,它必须立即进行“自我评估”并给自己打分(0、0.5 或 1)。它奖励诚实:如果模型犯了错误,但它在自我评估中诚实地指出了自己的错误,它就会得到奖励。相反,如果它有问题却坚持认为是对的(盲目自信),或者试图“蒙混过关”,就会受到伊藤惩罚(从低到高的平滑奖励)。其目的是迫使AI在输出答案之前进行深入思考,试图发现并纠正自己的错误,直到它认为自己真的做对了。最终形成自动闭环(协同)。人类专家无法为数千道数学奥数题写出详细的分步分数,因此 Deepseek 设计了一个自动化流程,允许系统通过“相互竞争”来进化: 海量生成:让“学生”针对同一个问题生成多个解决方案。小组投票:让“老师”们多次检查这些解决方案。如果大多数评论都同意解决方案有问题,则判定为有问题;如果没有发现漏洞,则判断正确。斗撑阻力:这样,系统就会自动挑选那些难以正确判断或回答的问题,将其变成新的教材,防止“老师”和“学生”的误会。如此一来,随着“学生”解决问题的能力越来越强,“老师”的眼光也变得更加恶毒。简而言之,DeepSeekMath-V2方法本质上是从“结果导向”转向“过程导向”。它不依赖大量的数学解题数据,而是教会AI如何像数学家一样严格评估证明过程(包括自我评估),从而不断提高其在无需人工干预的情况下解决困难数学证明问题的能力。最终,他们得到了DeepSeekMath-V2模型,该模型展示了强大的定理证明能力:以扩展性达到接近118/120的分数d Putnam 2024 测试计算。下图显示了 DeepSeekmath-V2 在 Imo-Proofbench Benchmark(这是 Imo Bench 的子集,包含 60 个证明问题)上的性能。可以看到,在主要基准测试中,DeepseekMath-V2不仅与其他模型相差甚远,甚至达到了接近99%的惊人高分。在难度较高的高级子集中,DeepSeekmath-V2 略逊于 Gemini Deep Think(Imo Gold)。 Deepseek表示:“尽管还有很多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,有望推动更强大的数学AI系统的发展。”自验证数学推理iran的框架可以说打破了传统强化学习(RL)的限制,使模型不再依赖最终答案的正确性作为唯一的奖励,而是专注于严格的推理过程。此外,验证器生成器DeepseekMath-V2中的发生器协同双向改进循环带来了全面严谨的数学推理能力,显着减少大规模模型错觉。论文中,介绍了Deepseek更多的技术细节,有兴趣的同学可以仔细阅读。回来吧
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:iheight中的内容(包括照片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。