NextFin 新闻——2025 年 12 月 6 日(UTC),苹果公司向 arXiv 预印本服务器公开提交了一篇题为“RLAX:面向 TPU 的大规模分布式语言模型强化学习”的技术论文。该研究介绍了 RLAX,一个针对部署在谷歌 TPU v5p 集群上进行优化的强化学习框架,旨在利用可扩展的分布式系统加速大型语言模型 (LLM) 的后训练。然而,该论文在几天内迅速被撤回,引发了人们对论文突然撤回及其背后原因的广泛关注。
对公开的 v1 版本草案的分析揭示了其技术和贡献者组合的奇妙之处:苹果利用了谷歌的 TPU 基础设施、亚马逊的 AWS Lambda 无服务器环境以及阿里巴巴的开源中文语言模型 Qwen-32B 来进行关键的实验验证。作者名单中包括苹果人工智能基础设施的关键工程师,例如邹凯文和程良,但也包括最近离开苹果加入 Meta 的庞若明。此外,还有六位合作作者和贡献者近期也加入了 OpenAI、Anthropic、Meta 和 xAI 等领先的人工智能公司,这凸显了人才的大量流失。
RLAX 框架采用参数服务器架构,实现了训练和推理工作负载在 TPU 集群上的逻辑分离和抢占式调度。这种架构支持可中断的 TPU 资源管理,对于平衡高优先级推理任务和持续训练作业至关重要。苹果的实现还提供了可配置的策略,支持策略内和策略外强化学习。在 1024 个 TPU v5p 上运行不到 13 小时后,Qwen-32B 的 pass@8 基准测试成绩提高了 12.8%,系统级准确率得到了显著提升。
值得注意的是,RLAX 基础设施集成了一个名为“Oubliette”的创新验证组件,该组件在临时的 AWS Lambda 容器中运行大规模代码执行测试,从而确保确定性验证和资源隔离。这凸显了苹果公司务实地利用跨云服务,突破其以往封闭的生态系统,拥抱异构基础设施以改进 AI 模型。
该论文还揭示了基于 TPU 的强化学习在使用 bfloat16 运算时固有的微妙数值精度挑战。训练阶段和推理阶段算子融合的差异会导致概率偏差,从而影响稳定性。苹果的解决方案——强制重新物化以协调计算图——体现了深厚的工程技术,这对于可扩展的 LLM 训练后处理至关重要。
此次退出反映了重塑人工智能研究和基础设施发展的多层次动态。在技术层面,苹果展现了其在分布式强化学习系统设计和基础计算调试方面的世界一流水平。然而,对谷歌TPU和阿里巴巴模型的依赖表明,苹果正在从以往封闭的硬件中心模式转向跨平台、多云的人工智能生态系统。AWS Lambda与中国开源模型的整合,为人工智能工作流程中务实的国际合作和资源优化树立了先例。
从战略角度来看,苹果公司多位知名作者离职加入领先的人工智能机构,标志着人才重新分配的关键性趋势。苹果的人工智能团队似乎出现分散,经验丰富的研究人员纷纷转投OpenAI、Meta、Anthropic和xAI等公司,这可能会暂时减缓苹果在人工智能领域的创新步伐。此次人才流失恰逢苹果在人工智能基础设施方面取得突破性进展,这表明在美国总统特朗普执政期间,苹果正处于一个复杂的重建和调整阶段,其重点在于提升技术竞争力以及与外国实体开展合作的灵活性。
展望未来,RLAX 的设计原则可能会影响更广泛的 LLM 训练领域,强调容错性、资源抢占性和策略灵活的强化学习框架。异构云和硬件生态系统的成功融合有望加速混合人工智能基础设施的普及,使顶尖企业能够高效地部署和优化大规模强化学习模型,而无需考虑专有芯片组。
然而,苹果对外部TPU基础设施和开源海外LLM的依赖也引发了人们对其在当前地缘政治不确定性下的战略自主性和供应链韧性的担忧。此外,人才外流趋势可能会迫使苹果加强内部人才培养和激励机制,以重夺人工智能领域的领导地位。
总之,RLAX事件标志着一个关键时刻,表明尖端人工智能基础设施创新正日益超越传统的公司、国家和硬件界限。苹果撤回该论文与其说是一次挫折,不如说是揭示了正在演变的相互依存关系、竞争压力和合作模式,这些因素正在塑造未来的人工智能研究生态系统。
Explore more exclusive insights at nextfin.ai.