你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻资讯 > 开云体育了解了模子王人会犯哪些症结-开云(中国)Kaiyun·官方网站 - 登录入口
开云体育了解了模子王人会犯哪些症结-开云(中国)Kaiyun·官方网站 - 登录入口
发布日期:2025-09-12 04:46 点击次数:115

大模子学习不仅要正确学问开云体育,还需要一个"错题本"?
上海 AI Lab 提倡了一种新的学习情势,构建了"症结 - 反想 - 修正"数据,让大模子仿照东说念主类的学习模式,从症结中学习、反想。
效力,在 Llama3-8B 上,数学题的解题准确率平均种植了 13.3%。

这种步调名为 LEMMA(Learning from Errors for Mathematical Advancement),专门教大模子怎么从症结中学习。
作家通过长远分析模子犯下的症结,构建了"症结 - 修订"数据集,并应用反想机制,结合模子从症结的想路平滑过渡到正确的谜底。
效力,模子不仅赢得了准确率的种植,还赢得了超强的自主纠错能力和泛化能力。
筹论说文已发表于 ACL ’ 25 Findings。

用磨真金不怕火模子生成"错题本"
作家开端系统分析了面前主流大模子在数学题中常见的七大类症结(如题意扭曲、公式沾污、估计空虚等),发现这些症结在不同模子之间分歧卓越一致。
效力败露,大模子犯下最多的症结是扭曲题意,占比越过 40%,随后的两张常见症结类型是公式沾污和估计症结。

了解了模子王人会犯哪些症结,接下来就不错有针对性地生成数据了。
往日,系数进程常常通过提高采样 Temperature(如 T=1.0 或 T=1.1)来完成。
但作家发现高 Temperature 采样会引入大批无真谛真谛的(如语义欠亨、毫无逻辑)症结,这种症结本色上是模子不会犯的。
作家觉得,这种"已读乱回"式的症结,难以让模子竟然种植自我纠错能力。

为此,LEMMA 承袭了新的步调,让磨真金不怕火模子定向制造"学生会犯的错",构造"反想式"数据:
具体来说,LEMMA 提倡了一种全新的反想数据构造政策,主要包括三个关节:
开端,分析学生模子常犯哪些错(如题意扭曲、公式误用、估计空虚);
然后让遍及的磨真金不怕火模子(GPT-4o),凭据学生模子在每个问题上的症结类型,有针对性地特意引入特定症结;
之后,磨真金不怕火模子还会标出第一个症结发生的关节,并生成反想和改正,确保模子学会"实时反想"。
在反想和改正阶段:LEMMA 承袭了两种更逼近东说念主类想维的纠错情势——一是复返上一步,二是径直推倒重来。
引入第二种修正情势的原因在于,作家发现大模子在有的题目上出错的根柢原因,是一运转就遴荐了低效的暴力解法,这么即使修正了某个中间的症结关节,也会在后续的推理中犯错,不如重新运转遴荐更"智谋"的解法。
总的来说,LEMMA 构建的是"有宗旨、有辅导、有响应"的症结数据,让模子能像学生相同反想:"我错在哪?应该何如改?"

履行效力
对比多种主流反想修正步调,上风显著。
作家对比了包括 RefAug、RFT,ISC、S3C-Math 在内的八种主流 baseline 步调。
效力标明,LEMMA 在常见的数学任务上正确率更高,在 Llama3-8B 上准确率种植了最高达 13.3%。

况兼,LEMMA 有用种植了模子的反想和自我修正能力。
在 MathChat 任务中,LEMMA 在"追问回复"和"症结修正"两大任务上率先 SOTA 步调(Dart-MATH)多达 6.3 和 4.1 个百分点。

同期,LEMMA 也显贵减少了模子的常见症结。
在生成的数据上进行微调之后,LEMMA 一致地裁汰了各式症结类型,种植模子推理精度。
比拟之下,SFT 固然全体准确率种植,但却在某些症结类型(如公式沾污)上反而变差。

另外,作家进行的消融履行也充分考据了"磨真金不怕火模子症结引入(Error Aug. ) "和"重新修正(Fresh & Restart)"两个要害模块的有用性。

总之,LEMMA 提倡了一种让大模子在数学推理中"从症结中有用学习"的翻新步调,种植了模子对推理症结的识别与配置能力。
比拟以往依赖高 Temperature 采样和浅显拼接的反想数据合成情势,LEMMA 显贵提高了"症结 - 反想 - 修正"数据的质料,种植了模子的数学推理能力。
论文地址:
https://arxiv.org/abs/2503.17439
代码仓库:
https://github.com/pzs19/LEMMA
一键三连「点赞」「转发」「防范心」
迎接在驳斥区留住你的宗旨!
— 完 —
� � 点亮星标 � �
科技前沿领略逐日见开云体育
Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图