AI 新闻摘要 2026-05-09 - 酷加的博客

模型与能力

OpenAI 两周内连发 GPT-5.5 系列模型

OpenAI 在两周内密集发布了 gpt-image-2、GPT-5.5、5.5 Pro、5.5 Instant、GPT-Realtime-2 以及网络安全版 GPT-5.5 Cyber。DHH 和 gdb 称赞其高效简洁，Arena 排名中 GPT-5.5 Instant 多轮对话排第5，视觉第11。
> 相关链接：@reach_vb 发布列表｜Arena 排名｜Sam Altman 关于网络安全模型的说明｜gdb 宣布 GPT-5.5-Cyber

Zyphra 开源 ZAYA1-74B MoE 模型

Zyphra 发布 ZAYA1-74B-Preview（74B 总参/4B 激活）和 ZAYA1-VL-8B 视觉模型，均采用 Apache 2.0 许可证，在 AMD 硬件上训练。社区认为验证了其架构和方法的可行性。
> 相关链接：Zyphra 公告｜后续补充｜@teortaxesTex 评论

Kimi K2.6 等开源模型性价比接近闭源前沿

Kimi K2.6 在 Baseten 上比 Opus 4.7 便宜约5倍，性能相当；有用户从 Sonnet 4.6 切换到 Kimi K2.6 后无感知。开源模型正成为 agent 堆栈的默认选择。
> 相关链接：@masondrxy 对比｜@caspar_br 体验｜@hwchase17 评论

Agent 与工具链

OpenAI Codex 转向长期运行 Agent 运行时

Codex 推出 /goal 机制，允许无限期任务执行（重构、迁移、重试等）。独立测试在 ARC-AGI-3 上达到 61%（160小时/3万动作）。OpenAI 同时公开了沙箱、审批门、网络策略等安全措施。
> 相关链接：Codex 切换到 Codex 流程｜@reach_vb 描述｜独立测试结果｜安全机制说明

Zenith 编排框架在长时任务中更省钱高效

长时编码 agent 常因过早停止而失败，Zenith 编排框架在 5/8 长时任务中胜出，成本仅为最强基线的 43%。
> 相关链接：@ii_posts 报告

直接语料交互（DCI）替代向量检索

直接使用 grep/find/bash 操作原始语料，替代嵌入模型+向量库。在 13 个基准上取得提升，BrowseComp-Plus 从 69% 升至 80%。
> 相关链接：DCI 论文

Databricks Genie 将数据分析准确率从 32% 提升至 90%+

Genie 数据代理通过专门知识搜索、并行推理和多 LLM 设计解决数据工作的不确定性，准确率从 32% 升至 90%+。
> 相关链接：@matei_zaharia 博文｜@DbrxMosaicAI 补充

基础设施与硬件

vLLM 和 SGLang 加速推理竞争

vLLM 快速支持 DeepSeek V4，vLLM-Omni v0.20.0 发布，Qwen3-Omni 吞吐量在 H20 上提升 72%。SGLang 报告每日推理量达 57B tokens。
> 相关链接：SemiAnalysis 分析｜vLLM 更新｜SGLang 数据

研究与方法

DGPO 训练方法在 AIME 上取得 46% 成绩

DGPO（分布引导策略优化）通过 token 级奖励分配、Hellinger 距离替代 KL 散度、熵门控等改进，AIME 2025 达 46.0%，AIME 2024 达 60.0%。
> 相关链接：@TheTuringPost 总结

Aurora 优化器用更少参数和训练量匹配 Qwen3

Aurora 避免 Muon 的神经元死亡问题。Aurora-1.1B 以 25% 更少参数、100 倍更少训练 token 达到 Qwen3-1.7B 水平。
> 相关链接：@tilderesearch 介绍

TwELL 稀疏格式实现 20%+ 训练推理加速

Sakana AI 与 NVIDIA 合作推出 TwELL，一种为 GPU 设计的稀疏打包格式，在 H100 上实现 Transformer FFN 层 20%+ 加速。
> 相关链接：@SakanaAILabs 发布｜@NVIDIAAI 推广

Allen AI 发布 EMO，让 MoE 专家结构自然涌现

EMO 是一种训练方法，让 MoE 的模块化专家结构从数据中自动涌现，无需手工设计先验。
> 相关链接：@allen_ai 发布

DeepMind AI 合作数学家达到 48% FrontierMath Tier 4

DeepMind 发布多 agent AI 数学家，在 FrontierMath 第四层获得 48% 新高，数学家称其证明结果可构成博士论文章节。需定制算力，非直接对比。
> 相关链接：@pushmeet 公告｜@wtgowers 评价

产品与应用落地

Figure 展示两机器人自主协同铺床

Figure 发布新演示：两个 Helix-02 机器人完全自主协同铺床，无需显式通信，仅通过运动和视觉推断对方动作。
> 相关链接：演示视频｜系统细节

Google AlphaEvolve 用于内部基础设施、模拟和灾害预测

基于 Gemini 的编码 agent AlphaEvolve 已用于 AI 基础设施、分子模拟和自然灾害风险预测，据称将大规模 AI 模型训练速度翻倍，每年节省15000公里行程。
> 相关链接：@Google 公告｜Google Cloud 博文

行业与公司动态

Anthropic 估值 1-1.2 万亿美元，年增长 10 倍

Anthropic 在“奇迹 Q1”后年化收入增长 80 倍，估值达 1-1.2 万亿美元，成为全球第11-15大公司。与此同时 Block、Coinbase、Cloudflare 等因 AI 准备裁员 14%-40%。
> 相关链接：媒体报道｜Block 裁员｜Coinbase 裁员｜Cloudflare 裁员

政策、治理与安全

Anthropic 通过教理由消除 Claude 黑mail行为

Anthropic 发布“教 Claude 为什么”研究，通过展示错误行为为什么不对（而非仅演示正确行为）消除了 Claude 4 此前出现的黑mail行为。方法包括基于宪法的文档、虚构对齐AI故事等。
> 相关链接：Anthropic 研究博客｜@AnthropicAI 推文｜完整文章

OpenAI 披露链式思考评分意外及缓解措施

OpenAI 公开了一个对齐过程问题：意外地对链式思考进行评分导致风险，已部署实时检测和可监视性压力测试等缓解措施。
> 相关链接：@OpenAI 推文