开云(中国)Kaiyun·官方网站 - 登录入口

开云体育(中国)官方网站债券占净值比110.19%-开云(中国)Kaiyun·官... 开yun体育网相关ETF在二级市集的往复价钱出现较大幅度溢价-开云(中国)Kai... 开云体育东说念主民银即将进一步完善利率调控机制-开云(中国)Kaiyun·官方网... 体育游戏app平台“DeepSeek为开源大模子-开云(中国)Kaiyun·官方... 开云体育让中好意思买卖逐步复兴正常轨说念-开云(中国)Kaiyun·官方网站 -...
栏目分类

热点资讯
新闻资讯

你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻资讯 > 开云体育了解了模子王人会犯哪些症结-开云(中国)Kaiyun·官方网站 - 登录入口

开云体育了解了模子王人会犯哪些症结-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2025-09-12 04:46    点击次数:115

开云体育了解了模子王人会犯哪些症结-开云(中国)Kaiyun·官方网站 - 登录入口

大模子学习不仅要正确学问开云体育,还需要一个"错题本"?

上海 AI Lab 提倡了一种新的学习情势,构建了"症结 - 反想 - 修正"数据,让大模子仿照东说念主类的学习模式,从症结中学习、反想。

效力,在 Llama3-8B 上,数学题的解题准确率平均种植了 13.3%。

这种步调名为 LEMMA(Learning from Errors for Mathematical Advancement),专门教大模子怎么从症结中学习。

作家通过长远分析模子犯下的症结,构建了"症结 - 修订"数据集,并应用反想机制,结合模子从症结的想路平滑过渡到正确的谜底。

效力,模子不仅赢得了准确率的种植,还赢得了超强的自主纠错能力和泛化能力。

筹论说文已发表于 ACL ’ 25 Findings。

用磨真金不怕火模子生成"错题本"

作家开端系统分析了面前主流大模子在数学题中常见的七大类症结(如题意扭曲、公式沾污、估计空虚等),发现这些症结在不同模子之间分歧卓越一致。

效力败露,大模子犯下最多的症结是扭曲题意,占比越过 40%,随后的两张常见症结类型是公式沾污和估计症结。

了解了模子王人会犯哪些症结,接下来就不错有针对性地生成数据了。

往日,系数进程常常通过提高采样 Temperature(如 T=1.0 或 T=1.1)来完成。

但作家发现高 Temperature 采样会引入大批无真谛真谛的(如语义欠亨、毫无逻辑)症结,这种症结本色上是模子不会犯的。

作家觉得,这种"已读乱回"式的症结,难以让模子竟然种植自我纠错能力。

为此,LEMMA 承袭了新的步调,让磨真金不怕火模子定向制造"学生会犯的错",构造"反想式"数据:

具体来说,LEMMA 提倡了一种全新的反想数据构造政策,主要包括三个关节:

开端,分析学生模子常犯哪些错(如题意扭曲、公式误用、估计空虚);

然后让遍及的磨真金不怕火模子(GPT-4o),凭据学生模子在每个问题上的症结类型,有针对性地特意引入特定症结;

之后,磨真金不怕火模子还会标出第一个症结发生的关节,并生成反想和改正,确保模子学会"实时反想"。

在反想和改正阶段:LEMMA 承袭了两种更逼近东说念主类想维的纠错情势——一是复返上一步,二是径直推倒重来。

引入第二种修正情势的原因在于,作家发现大模子在有的题目上出错的根柢原因,是一运转就遴荐了低效的暴力解法,这么即使修正了某个中间的症结关节,也会在后续的推理中犯错,不如重新运转遴荐更"智谋"的解法。

总的来说,LEMMA 构建的是"有宗旨、有辅导、有响应"的症结数据,让模子能像学生相同反想:"我错在哪?应该何如改?"

履行效力

对比多种主流反想修正步调,上风显著。

作家对比了包括 RefAug、RFT,ISC、S3C-Math 在内的八种主流 baseline 步调。

效力标明,LEMMA 在常见的数学任务上正确率更高,在 Llama3-8B 上准确率种植了最高达 13.3%。

况兼,LEMMA 有用种植了模子的反想和自我修正能力。

在 MathChat 任务中,LEMMA 在"追问回复"和"症结修正"两大任务上率先 SOTA 步调(Dart-MATH)多达 6.3 和 4.1 个百分点。

同期,LEMMA 也显贵减少了模子的常见症结。

在生成的数据上进行微调之后,LEMMA 一致地裁汰了各式症结类型,种植模子推理精度。

比拟之下,SFT 固然全体准确率种植,但却在某些症结类型(如公式沾污)上反而变差。

另外,作家进行的消融履行也充分考据了"磨真金不怕火模子症结引入(Error Aug. ) "和"重新修正(Fresh & Restart)"两个要害模块的有用性。

总之,LEMMA 提倡了一种让大模子在数学推理中"从症结中有用学习"的翻新步调,种植了模子对推理症结的识别与配置能力。

比拟以往依赖高 Temperature 采样和浅显拼接的反想数据合成情势,LEMMA 显贵提高了"症结 - 反想 - 修正"数据的质料,种植了模子的数学推理能力。

论文地址:

https://arxiv.org/abs/2503.17439

代码仓库:

https://github.com/pzs19/LEMMA

一键三连「点赞」「转发」「防范心」

迎接在驳斥区留住你的宗旨!

—  完  —

� � 点亮星标 � �

科技前沿领略逐日见开云体育



Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图