5 月 28 日 NVIDIA Polar 发布：Codex 训练性能暴涨 594%

5 月 28 日 NVIDIA Polar 发布：Codex 训练性能暴涨 594%

最新AI日报 2026-05-28 10 阅读

5 月 28 日，英伟达（NVIDIA）正式开源全新强化学习训练框架 Polar，主打 “零改造接入” 能力，可让 Codex、Claude Code、Qwen Code 等主流代码智能体（Agent）无需修改原生代码，直接对接 GRPO（广义相对策略优化）强化学习训练。

行业痛点：智能体强化学习的 “高墙”

当前代码智能体正从单步任务走向长流程复杂任务（如仓库级代码修改、操作系统交互），高度依赖成熟执行框架。但传统强化学习接入方式存在三大难题：

接入成本极高：需将代码逻辑强制改写成env.init()、env.step()等标准接口，流程繁琐；
关键信息丢失：重构中易丢失工具调用细节、多轮对话上下文、子智能体协作逻辑，导致训练信号质量差；
生态割裂：不同智能体框架难以互通，训练资源无法复用。

核心突破：把 “API 边界” 变成训练入口

Polar 不改造执行框架，而是在模型 API 层面做透明代理，核心设计如下：

黑盒兼容：在执行框架与推理服务器之间部署 Gateway，拦截并转发所有请求，兼容 Anthropic、OpenAI、Google 等任意 API；
轨迹自动重构：转发时实时记录提示词、采样 Token、对数概率等，自动生成强化学习所需的 “轨迹数据”；
高效异步架构：Rollout Server 调度任务与持久化，Gateway Node 管理生命周期，通过预热缓冲池与并行处理，彻底消除 GPU 训练阻塞。

性能炸裂：训练效率与效果双飞跃

基于 Qwen3.5-4B 模型的 SWE-Bench Verified 测试显示，Polar+GRPO 带来质变：

Codex 框架：pass@1 从 3.8%→26.4%，涨幅 594.74%；
Claude Code 框架：29.8%→34.6%；
Pi 框架：34.2%→40.4%。

训练效率同样亮眼：引入prefix_merging策略后，训练时间缩短 5.39 倍，GPU 利用率从 20.4% 飙升至 87.7%。

行业意义：AI 智能体训练进入工程化时代

英伟达 Polar 的开源，相当于为 AI 智能体铺设了强化学习的 “高速公路”：

研究者可直接复用海量开源代码框架，零成本接入 GRPO 训练；
大幅降低 GPU 算力门槛，让中小团队也能训练顶级代码智能体；
推动 AI 编码智能体进化路径标准化、规模化，从实验室手动调优走向工程化生产。

未来，开发者无需再为适配训练框架烦恼，代码智能体的迭代将更高效、更快速。

相关标签

英伟达 Polar Polar 强化学习框架 NVIDIA Polar 开源代码智能体训练 GRPO 训练接入 Codex 性能暴涨，模型强化学习 AI代码 Agent 训练强化学习框架开源 GPU 训练优化