1.5B模型冲SOTA！QuestA破解RL训练「过拟合vs学不动」困局

[db:作者] 发表于 2025-10-7 00:30

最近AI圈出了个实打实的狠活，1.5B参数的模型居然干过了32B的大模型，就靠一个叫QuestA的新方法，把强化学习（RL）训练里的老难题给彻底破了。
之前搞RL培育的人都知道，这东西一直有个死结，简单任务喂多了，模型容易飘，学啥都往死里拟合，换个难点的题就歇菜；难任务倒是能拔高推理能力，可模型学得太慢，样本效率低得让人着急。

本来想找个平衡的法子，结果试来试去都是顾此失彼，直到清华、上海期智研究院还有Amazon、斯坦福的团队一起拿出了QuestA，这僵局才算有了转机。
1.5B干翻32B？RL的老难题终于有了新解在AI圈待久了，之前都默认“模型性能靠堆参数”，32B的模子肯定比1.5B的强。
但QuestA一出来，这个认知直接被推翻了。

它的思路其实挺简单，就是在训练的时候给模型塞点“解题提示”，不是全给，就给一部分，帮模型找着难点的突破口。
在数学基准测试里，这优化效果看得特别明显。
比如AIME24测试，QuestA加持的1.5B模型拿了72.5的成绩，比之前高了10个多点；AIME25更夸张，涨了快13个点，到了62.29；HMMT25也有41.67，涨了10个左右。
更牛的是，它居然超过了DeepSeek-R1-Distill-32B，要知道后者参数是它的20倍还多。

本来想觉得这可能是“偏科”，结果看Pass@k的数据更惊喜，传统RL优化Pass@1的时候，Pass@k准保下降，可QuestA反而让Pass@k也涨了。
这就说明模型不是靠“死记硬背”提分，是真的学会了怎么推理，能力是实实在在增进的。
X上有个AI研究者说的特别实在，他说QuestA就是个巧劲，不光让Pass@1涨得快，还没丢了多样性，1.5B的推理模型能做到这份上，确实是新标杆。

我倒觉得这背后的意义更大，之前小模型因为性能不够，很难落地到边缘设备、低成本场景，现在QuestA一出来，小模型也能有大作为，这相当于给AI落地打开了更多小门。
不改算法只调数据？QuestA的“偷懒”思路反而管用很多人以为这么厉害的方法肯定特别复杂，得改RL的核心算法，其实还真不是。
QuestA走的是“轻量化”路线，就靠优化训练数据和提示策略，不用动算法本身，插上现有的RL流程就能用，特别方便。

它第一步就是“挑活干”，专挑难的练。
研究团队先拿DeepSeek-R1-Distill-1.5B当“筛子”，从OpenR1-Math-220K数据集里，选出那些8次采样里只对0-1次的题，大概2.6万道，这些都是模型的“软肋”。
然后再筛一遍，把那些加了提示还做不对的题留下，最后就剩1万道左右。
这种“抓重点”的培育方式比撒网式训练管用多了，资源全用在刀刃上，不浪费。

接着就是“慢慢撤提示”，有点像教孩子做奥数，一开始给点思路，等孩子摸出门道了，就把提示收了。
QuestA先拿50%的提示比例训练，等模型性能饱和了，再降到25%。
这样一来，模型不会依赖提示，最后能自己推理。

我觉得这步特别关键，要是一直给提示，模型就成了“扶不起的阿斗”，撤提示的过程才是真的让它学会独立思考。
训练框架用的是AReaLite，这是清华2024年开源的轻量级框架，支持32B长上下文，培育效率比主流框架高30%。
还结合了GRPO算法和DAPO的动态过滤技术，把那些一看就对或者一看就错的样本去掉，只练那些“有点难但能学会”的题。

如此看来，QuestA不是靠“硬拼”，是靠“巧劲”，把训练的每一步都优化到点子上了。
不光数学能用？QuestA的泛用性才是真本事本来想觉得QuestA可能就在数学推理上管用，结果消融实验一出来，发现它的泛用性特别强。
换个基础模型，比如Llama-1.5B，或者换个数据集，比如MATH、GSM8K，性能都能涨10%-15%。

这就说明它不是“昙花一现”，不是只适配某一个场景，而是能迁移到各种LLM的RL培育里。
这种泛用性也让它的应用场景变多了。
比如教育领域，用QuestA优化的1.5B模型，能做低成本的数学解题系统，覆盖中学到竞赛辅导，部署成本比32B模型低80%，中小学校、教育机构都能用得起。
再比如边缘设备，像家里的智能音箱、工业传感器，算力不够跑大模型，用这个小模型就刚好，能实现本地化的逻辑推理，不用总依赖云端，响应速度也快。

对比之前的同类技术，QuestA的优势更明显。
谷歌的RLHF-Plus要大量人工标注，又花钱又费时间；Meta的TaskShifting得改模型结构，集成起来麻烦。
QuestA不用这些，成本只有RLHF-Plus的1/5，效果还更好。
毫无疑问，QuestA给RL培育指了个新方向，不用堆参数，不用改算法，优化数据和提示照样能提升性能。

最后再说说我的看法，QuestA最大的价值不是破了SOTA，是打破了“参数越大越好”的迷信。
它证明小模型只要培育得法，也能有大性能。
现在它已经开源了，HF和GitHub上都能找到资源，未来要是用到代码生成、逻辑分析、创造性写作上，说不定还能有更多惊喜。
我倒期待看到更多中小公司用QuestA优化小模型，把AI落地到更多普通人能接触到的场景里，这才是技术该有的样子，不是高高在上的SOTA，是实实在在的有用。

页: [1]

超星学习通-超星网络学生登录入口-超星官网网页版登录入口-超星尔雅's Archiver

1.5B模型冲SOTA！QuestA破解RL训练「过拟合vs学不动」困局