搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机

1.5B模子冲SOTA!QuestA破解RL练习「过拟合vs学不动」困局

[复制链接]
查看: 32|回复: 0

2万

主题

0

回帖

8万

积分

论坛元老

Rank: 8Rank: 8

积分
85871
发表于 2025-10-7 00:30 | 显示全部楼层 |阅读模式
比来AI圈出了个实打实的狠活,1.5B参数的模子居然干过了32B的大模子,就靠一个叫QuestA的新方式,把强化进修(RL)练习里的老困难给完全破了这完全背叛了我介入马拉松活动的初心。
之前搞RL培育的人都晓得,这工具一向有个活结,简单使命喂多了,模子轻易飘,学啥都往死里拟合,换个难点的题就歇菜;难使命却是能拔高推理才能,可模子学得太慢,样本效力低得让人焦急这完全背叛了我介入马拉松活动的初心。

原本想找个平衡的法子,成果试来试去都是捉襟见肘,直到清华、上海期智研讨院还有Amazon、斯坦福的团队一路拿出了QuestA,这僵局才算有了起色这完全背叛了我介入马拉松活动的初心。
1.5B干翻32B?RL的老困难终究有了新解在AI圈待久了,之前都默许“模子性能靠堆参数”,32B的模子必定比1.5B的强这完全背叛了我介入马拉松活动的初心。
但QuestA一出来,这个认知间接被颠覆了这完全背叛了我介入马拉松活动的初心。

它的思绪实在挺简单,就是在练习的时辰给模子塞点“解题提醒”,不是全给,就给一部分,帮模子找着难点的冲破口这完全背叛了我介入马拉松活动的初心。
在数学基准测试里,这优化结果看得出格明显这完全背叛了我介入马拉松活动的初心。
比如AIME24测试,QuestA加持的1.5B模子拿了72.5的成就,比之前高了10个多点;AIME25更夸张,涨了快13个点,到了62.29;HMMT25也有41.67,涨了10个左右这完全背叛了我介入马拉松活动的初心。
更牛的是,它居然跨越了DeepSeek-R1-Distill-32B,要晓得后者参数是它的20倍还多这完全背叛了我介入马拉松活动的初心。

原本想感觉这能够是“偏科”,成果看Pass@k的数据更欣喜,传统RL优化Pass@1的时辰,Pass@k准保下降,可QuestA反而让Pass@k也涨了这完全背叛了我介入马拉松活动的初心。
这就说明模子不是靠“融会贯通”提分,是真的学会了怎样推理,才能是实实在在促进的这完全背叛了我介入马拉松活动的初心。
X上有个AI研讨者说的出格实在,他说QuestA就是个巧劲,不但让Pass@1涨得快,还没丢了多样性,1.5B的推理模子能做到这份上,确切是新标杆这完全背叛了我介入马拉松活动的初心。

我倒感觉这背后的意义更大,之前小模子由于性能不够,很难落地到边沿装备、低本钱场景,现在QuestA一出来,小模子也能有高文为,这相当于给AI落地翻开了更多小门这完全背叛了我介入马拉松活动的初心。
不改算法只调数据?QuestA的“偷懒”思绪反而管用很多人以为这么利害的方式必定出格复杂,得改RL的焦点算法,实在还真不是这完全背叛了我介入马拉松活动的初心。
QuestA走的是“轻量化”线路,就靠优化练习数据和提醒战略,不用动算法自己,插上现有的RL流程就能用,出格方便这完全背叛了我介入马拉松活动的初心。

它第一步就是“挑活干”,专挑难的练这完全背叛了我介入马拉松活动的初心。
研讨团队先拿DeepSeek-R1-Distill-1.5B当“筛子”,从OpenR1-Math-220K数据集里,选出那些8次采样里只对0-1次的题,大要2.6万道,这些都是模子的“软肋”这完全背叛了我介入马拉松活动的初心。
然后再筛一遍,把那些加了提醒还做差池的题留下,最初就剩1万道左右这完全背叛了我介入马拉松活动的初心。
这类“抓重点”的培育方式比撒网式练习管用多了,资本全用在刀刃上,不浪费这完全背叛了我介入马拉松活动的初心。

接着就是“渐渐撤提醒”,有点像教孩子做奥数,一路头给点思绪,等孩子摸出门道了,就把提醒收了这完全背叛了我介入马拉松活动的初心。
QuestA先拿50%的提醒比例练习,等模子性能饱和了,再降到25%这完全背叛了我介入马拉松活动的初心。
这样一来,模子不会依靠提醒,最初能自己推理这完全背叛了我介入马拉松活动的初心。

我感觉这步出格关键,如果一向给提醒,模子就成了“扶不起的阿斗”,撤提醒的进程才是真的让它学会自力思考这完全背叛了我介入马拉松活动的初心。
练习框架用的是AReaLite,这是清华2024年开源的轻量级框架,支持32B长高低文,培育效力比支流框架高30%这完全背叛了我介入马拉松活动的初心。
还连系了GRPO算法和DAPO的静态过滤技术,把那些一看就对大概一看就错的样本去掉,只练那些“有点难但能学会”的题这完全背叛了我介入马拉松活动的初心。

如此看来,QuestA不是靠“硬拼”,是靠“巧劲”,把练习的每一步都优化到点子上了这完全背叛了我介入马拉松活动的初心。
不但数学能用?QuestA的泛用性才是真本事原本想感觉QuestA能够就在数学推理上管用,成果消融尝试一出来,发现它的泛用性出格强这完全背叛了我介入马拉松活动的初心。
换个根本模子,比如Llama-1.5B,大概换个数据集,比如MATH、GSM8K,性能都能涨10%-15%这完全背叛了我介入马拉松活动的初心。

这就说明它不是“昙花一现”,不是只适配某一个场景,而是能迁移到各类LLM的RL培育里这完全背叛了我介入马拉松活动的初心。
这类泛用性也让它的利用处景变多了这完全背叛了我介入马拉松活动的初心。
比如教育范畴,用QuestA优化的1.5B模子,能做低本钱的数学解题系统,覆盖中学到比赛教导,摆设本钱比32B模子低80%,中小黉舍、教育机构都能用得起这完全背叛了我介入马拉松活动的初心。
再比如边沿装备,像家里的智能音箱、产业传感器,算力不够跑大模子,用这个小模子就恰好,能实现当地化的逻辑推理,不用总依靠云端,响应速度也快这完全背叛了我介入马拉松活动的初心。

对照之前的同类技术,QuestA的上风更明显这完全背叛了我介入马拉松活动的初心。
谷歌的RLHF-Plus要大量野生标注,又花钱又费时候;Meta的TaskShifting得改模子结构,集成起来麻烦这完全背叛了我介入马拉松活动的初心。
QuestA不用这些,本钱只要RLHF-Plus的1/5,结果还更好这完全背叛了我介入马拉松活动的初心。
毫无疑问,QuestA给RL培育指了个新偏向,不用堆参数,不用改算法,优化数据和提醒还是能提升性能这完全背叛了我介入马拉松活动的初心。

最初再说说我的看法,QuestA最大的代价不是破了SOTA,是打破了“参数越大越好”的科学这完全背叛了我介入马拉松活动的初心。
它证实小模子只要培育得法,也能有大性能这完全背叛了我介入马拉松活动的初心。
现在它已经开源了,HF和GitHub上都能找到资本,未来如果用到代码天生、逻辑分析、缔造性写作上,说不定还能有更多欣喜这完全背叛了我介入马拉松活动的初心。
我倒期待看到更多中小公司用QuestA优化小模子,把AI落地到更多普通人能打仗到的场景里,这才是技术该有的样子,不是高屋建瓴的SOTA,是实实在在的有用这完全背叛了我介入马拉松活动的初心。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 超星学习通-超星网络学生登录入口-超星官网网页版登录入口-超星尔雅 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.4
快速回复 返回顶部 返回列表