5 月 28 日 NVIDIA Polar 发布:Codex 训练性能暴涨 594%

5 月 28 日 NVIDIA Polar 发布:Codex 训练性能暴涨 594%

最新AI日报 2026-05-28 10 阅读

5 月 28 日,英伟达(NVIDIA)正式开源全新强化学习训练框架 Polar,主打 “零改造接入” 能力,可让 Codex、Claude Code、Qwen Code 等主流代码智能体(Agent)无需修改原生代码,直接对接 GRPO(广义相对策略优化)强化学习训练。

行业痛点:智能体强化学习的 “高墙”

当前代码智能体正从单步任务走向长流程复杂任务(如仓库级代码修改、操作系统交互),高度依赖成熟执行框架。但传统强化学习接入方式存在三大难题:

  • 接入成本极高:需将代码逻辑强制改写成env.init()env.step()等标准接口,流程繁琐;
  • 关键信息丢失:重构中易丢失工具调用细节、多轮对话上下文、子智能体协作逻辑,导致训练信号质量差;
  • 生态割裂:不同智能体框架难以互通,训练资源无法复用。

核心突破:把 “API 边界” 变成训练入口

Polar 不改造执行框架,而是在模型 API 层面做透明代理,核心设计如下:

  • 黑盒兼容:在执行框架与推理服务器之间部署 Gateway,拦截并转发所有请求,兼容 Anthropic、OpenAI、Google 等任意 API;
  • 轨迹自动重构:转发时实时记录提示词、采样 Token、对数概率等,自动生成强化学习所需的 “轨迹数据”;
  • 高效异步架构:Rollout Server 调度任务与持久化,Gateway Node 管理生命周期,通过预热缓冲池与并行处理,彻底消除 GPU 训练阻塞

性能炸裂:训练效率与效果双飞跃

基于 Qwen3.5-4B 模型的 SWE-Bench Verified 测试显示,Polar+GRPO 带来质变:

  • Codex 框架:pass@1 从 3.8%→26.4%,涨幅 594.74%
  • Claude Code 框架:29.8%→34.6%;
  • Pi 框架:34.2%→40.4%。

训练效率同样亮眼:引入prefix_merging策略后,训练时间缩短 5.39 倍,GPU 利用率从 20.4% 飙升至 87.7%。

行业意义:AI 智能体训练进入工程化时代

英伟达 Polar 的开源,相当于为 AI 智能体铺设了强化学习的 “高速公路”:

  • 研究者可直接复用海量开源代码框架,零成本接入 GRPO 训练
  • 大幅降低 GPU 算力门槛,让中小团队也能训练顶级代码智能体;
  • 推动 AI 编码智能体进化路径标准化、规模化,从实验室手动调优走向工程化生产。

未来,开发者无需再为适配训练框架烦恼,代码智能体的迭代将更高效、更快速。


相关标签

英伟达 Polar Polar 强化学习框架 NVIDIA Polar 开源 代码智能体训练 GRPO 训练接入 Codex 性能暴涨, 模型强化学习 AI代码 Agent 训练 强化学习框架开源 GPU 训练优化