1.5B模型冲SOTA!QuestA破解RL训练「过拟合vs学不动」困局
最近AI圈出了个实打实的狠活,1.5B参数的模型居然干过了32B的大模型,就靠一个叫QuestA的新方法,把强化学习(RL)训练里的老难题给彻底破了。之前搞RL培育的人都知道,这东西一直有个死结,简单任务喂多了,模型容易飘,学啥都往死里拟合,换个难点的题就歇菜;难任务倒是能拔高推理能力,可模型学得太慢,样本效率低得让人着急。
本来想找个平衡的法子,结果试来试去都是顾此失彼,直到清华、上海期智研究院还有Amazon、斯坦福的团队一起拿出了QuestA,这僵局才算有了转机。
1.5B干翻32B?RL的老难题终于有了新解在AI圈待久了,之前都默认“模型性能靠堆参数”,32B的模子肯定比1.5B的强。
但QuestA一出来,这个认知直接被推翻了。
它的思路其实挺简单,就是在训练的时候给模型塞点“解题提示”,不是全给,就给一部分,帮模型找着难点的突破口。
在数学基准测试里,这优化效果看得特别明显。
比如AIME24测试,QuestA加持的1.5B模型拿了72.5的成绩,比之前高了10个多点;AIME25更夸张,涨了快13个点,到了62.29;HMMT25也有41.67,涨了10个左右。
更牛的是,它居然超过了DeepSeek-R1-Distill-32B,要知道后者参数是它的20倍还多。
本来想觉得这可能是“偏科”,结果看Pass@k的数据更惊喜,传统RL优化Pass@1的时候,Pass@k准保下降,可QuestA反而让Pass@k也涨了。
这就说明模型不是靠“死记硬背”提分,是真的学会了怎么推理,能力是实实在在增进的。
X上有个AI研究者说的特别实在,他说QuestA就是个巧劲,不光让Pass@1涨得快,还没丢了多样性,1.5B的推理模型能做到这份上,确实是新标杆。
我倒觉得这背后的意义更大,之前小模型因为性能不够,很难落地到边缘设备、低成本场景,现在QuestA一出来,小模型也能有大作为,这相当于给AI落地打开了更多小门。
不改算法只调数据?QuestA的“偷懒”思路反而管用很多人以为这么厉害的方法肯定特别复杂,得改RL的核心算法,其实还真不是。
QuestA走的是“轻量化”路线,就靠优化训练数据和提示策略,不用动算法本身,插上现有的RL流程就能用,特别方便。
它第一步就是“挑活干”,专挑难的练。
研究团队先拿DeepSeek-R1-Distill-1.5B当“筛子”,从OpenR1-Math-220K数据集里,选出那些8次采样里只对0-1次的题,大概2.6万道,这些都是模型的“软肋”。
然后再筛一遍,把那些加了提示还做不对的题留下,最后就剩1万道左右。
这种“抓重点”的培育方式比撒网式训练管用多了,资源全用在刀刃上,不浪费。
接着就是“慢慢撤提示”,有点像教孩子做奥数,一开始给点思路,等孩子摸出门道了,就把提示收了。
QuestA先拿50%的提示比例训练,等模型性能饱和了,再降到25%。
这样一来,模型不会依赖提示,最后能自己推理。
我觉得这步特别关键,要是一直给提示,模型就成了“扶不起的阿斗”,撤提示的过程才是真的让它学会独立思考。
训练框架用的是AReaLite,这是清华2024年开源的轻量级框架,支持32B长上下文,培育效率比主流框架高30%。
还结合了GRPO算法和DAPO的动态过滤技术,把那些一看就对或者一看就错的样本去掉,只练那些“有点难但能学会”的题。
如此看来,QuestA不是靠“硬拼”,是靠“巧劲”,把训练的每一步都优化到点子上了。
不光数学能用?QuestA的泛用性才是真本事本来想觉得QuestA可能就在数学推理上管用,结果消融实验一出来,发现它的泛用性特别强。
换个基础模型,比如Llama-1.5B,或者换个数据集,比如MATH、GSM8K,性能都能涨10%-15%。
这就说明它不是“昙花一现”,不是只适配某一个场景,而是能迁移到各种LLM的RL培育里。
这种泛用性也让它的应用场景变多了。
比如教育领域,用QuestA优化的1.5B模型,能做低成本的数学解题系统,覆盖中学到竞赛辅导,部署成本比32B模型低80%,中小学校、教育机构都能用得起。
再比如边缘设备,像家里的智能音箱、工业传感器,算力不够跑大模型,用这个小模型就刚好,能实现本地化的逻辑推理,不用总依赖云端,响应速度也快。
对比之前的同类技术,QuestA的优势更明显。
谷歌的RLHF-Plus要大量人工标注,又花钱又费时间;Meta的TaskShifting得改模型结构,集成起来麻烦。
QuestA不用这些,成本只有RLHF-Plus的1/5,效果还更好。
毫无疑问,QuestA给RL培育指了个新方向,不用堆参数,不用改算法,优化数据和提示照样能提升性能。
最后再说说我的看法,QuestA最大的价值不是破了SOTA,是打破了“参数越大越好”的迷信。
它证明小模型只要培育得法,也能有大性能。
现在它已经开源了,HF和GitHub上都能找到资源,未来要是用到代码生成、逻辑分析、创造性写作上,说不定还能有更多惊喜。
我倒期待看到更多中小公司用QuestA优化小模型,把AI落地到更多普通人能接触到的场景里,这才是技术该有的样子,不是高高在上的SOTA,是实实在在的有用。
页:
[1]