5 月 28 日 NVIDIA Polar 发布:Codex 训练性能暴涨 594%
最新AI日报
2026-05-28
10 阅读
5 月 28 日,英伟达(NVIDIA)正式开源全新强化学习训练框架 Polar,主打 “零改造接入” 能力,可让 Codex、Claude Code、Qwen Code 等主流代码智能体(Agent)无需修改原生代码,直接对接 GRPO(广义相对策略优化)强化学习训练。
行业痛点:智能体强化学习的 “高墙”
当前代码智能体正从单步任务走向长流程复杂任务(如仓库级代码修改、操作系统交互),高度依赖成熟执行框架。但传统强化学习接入方式存在三大难题:
- 接入成本极高:需将代码逻辑强制改写成
env.init()、env.step()等标准接口,流程繁琐; - 关键信息丢失:重构中易丢失工具调用细节、多轮对话上下文、子智能体协作逻辑,导致训练信号质量差;
- 生态割裂:不同智能体框架难以互通,训练资源无法复用。
核心突破:把 “API 边界” 变成训练入口
Polar 不改造执行框架,而是在模型 API 层面做透明代理,核心设计如下:
- 黑盒兼容:在执行框架与推理服务器之间部署 Gateway,拦截并转发所有请求,兼容 Anthropic、OpenAI、Google 等任意 API;
- 轨迹自动重构:转发时实时记录提示词、采样 Token、对数概率等,自动生成强化学习所需的 “轨迹数据”;
- 高效异步架构:Rollout Server 调度任务与持久化,Gateway Node 管理生命周期,通过预热缓冲池与并行处理,彻底消除 GPU 训练阻塞。
性能炸裂:训练效率与效果双飞跃
基于 Qwen3.5-4B 模型的 SWE-Bench Verified 测试显示,Polar+GRPO 带来质变:
- Codex 框架:pass@1 从 3.8%→26.4%,涨幅 594.74%;
- Claude Code 框架:29.8%→34.6%;
- Pi 框架:34.2%→40.4%。
训练效率同样亮眼:引入prefix_merging策略后,训练时间缩短 5.39 倍,GPU 利用率从 20.4% 飙升至 87.7%。
行业意义:AI 智能体训练进入工程化时代
英伟达 Polar 的开源,相当于为 AI 智能体铺设了强化学习的 “高速公路”:
- 研究者可直接复用海量开源代码框架,零成本接入 GRPO 训练;
- 大幅降低 GPU 算力门槛,让中小团队也能训练顶级代码智能体;
- 推动 AI 编码智能体进化路径标准化、规模化,从实验室手动调优走向工程化生产。
未来,开发者无需再为适配训练框架烦恼,代码智能体的迭代将更高效、更快速。
相关标签
英伟达 Polar
Polar 强化学习框架
NVIDIA Polar 开源
代码智能体训练
GRPO 训练接入
Codex 性能暴涨,
模型强化学习
AI代码 Agent 训练
强化学习框架开源
GPU 训练优化