AI 新闻摘要 2026-05-09

发布于 2026年05月10日

模型与能力

OpenAI 两周内连发 GPT-5.5 系列模型

OpenAI 在两周内密集发布了 gpt-image-2、GPT-5.5、5.5 Pro、5.5 Instant、GPT-Realtime-2 以及网络安全版 GPT-5.5 Cyber。DHH 和 gdb 称赞其高效简洁,Arena 排名中 GPT-5.5 Instant 多轮对话排第5,视觉第11。
> 相关链接:@reach_vb 发布列表Arena 排名Sam Altman 关于网络安全模型的说明gdb 宣布 GPT-5.5-Cyber

Zyphra 开源 ZAYA1-74B MoE 模型

Zyphra 发布 ZAYA1-74B-Preview(74B 总参/4B 激活)和 ZAYA1-VL-8B 视觉模型,均采用 Apache 2.0 许可证,在 AMD 硬件上训练。社区认为验证了其架构和方法的可行性。
> 相关链接:Zyphra 公告后续补充@teortaxesTex 评论

Kimi K2.6 等开源模型性价比接近闭源前沿

Kimi K2.6 在 Baseten 上比 Opus 4.7 便宜约5倍,性能相当;有用户从 Sonnet 4.6 切换到 Kimi K2.6 后无感知。开源模型正成为 agent 堆栈的默认选择。
> 相关链接:@masondrxy 对比@caspar_br 体验@hwchase17 评论


Agent 与工具链

OpenAI Codex 转向长期运行 Agent 运行时

Codex 推出 /goal 机制,允许无限期任务执行(重构、迁移、重试等)。独立测试在 ARC-AGI-3 上达到 61%(160小时/3万动作)。OpenAI 同时公开了沙箱、审批门、网络策略等安全措施。
> 相关链接:Codex 切换到 Codex 流程@reach_vb 描述独立测试结果安全机制说明

Zenith 编排框架在长时任务中更省钱高效

长时编码 agent 常因过早停止而失败,Zenith 编排框架在 5/8 长时任务中胜出,成本仅为最强基线的 43%。
> 相关链接:@ii_posts 报告

直接语料交互(DCI)替代向量检索

直接使用 grep/find/bash 操作原始语料,替代嵌入模型+向量库。在 13 个基准上取得提升,BrowseComp-Plus 从 69% 升至 80%。
> 相关链接:DCI 论文

Databricks Genie 将数据分析准确率从 32% 提升至 90%+

Genie 数据代理通过专门知识搜索、并行推理和多 LLM 设计解决数据工作的不确定性,准确率从 32% 升至 90%+。
> 相关链接:@matei_zaharia 博文@DbrxMosaicAI 补充


基础设施与硬件

vLLM 和 SGLang 加速推理竞争

vLLM 快速支持 DeepSeek V4,vLLM-Omni v0.20.0 发布,Qwen3-Omni 吞吐量在 H20 上提升 72%。SGLang 报告每日推理量达 57B tokens。
> 相关链接:SemiAnalysis 分析vLLM 更新SGLang 数据


研究与方法

DGPO 训练方法在 AIME 上取得 46% 成绩

DGPO(分布引导策略优化)通过 token 级奖励分配、Hellinger 距离替代 KL 散度、熵门控等改进,AIME 2025 达 46.0%,AIME 2024 达 60.0%。
> 相关链接:@TheTuringPost 总结

Aurora 优化器用更少参数和训练量匹配 Qwen3

Aurora 避免 Muon 的神经元死亡问题。Aurora-1.1B 以 25% 更少参数、100 倍更少训练 token 达到 Qwen3-1.7B 水平。
> 相关链接:@tilderesearch 介绍

TwELL 稀疏格式实现 20%+ 训练推理加速

Sakana AI 与 NVIDIA 合作推出 TwELL,一种为 GPU 设计的稀疏打包格式,在 H100 上实现 Transformer FFN 层 20%+ 加速。
> 相关链接:@SakanaAILabs 发布@NVIDIAAI 推广

Allen AI 发布 EMO,让 MoE 专家结构自然涌现

EMO 是一种训练方法,让 MoE 的模块化专家结构从数据中自动涌现,无需手工设计先验。
> 相关链接:@allen_ai 发布

DeepMind AI 合作数学家达到 48% FrontierMath Tier 4

DeepMind 发布多 agent AI 数学家,在 FrontierMath 第四层获得 48% 新高,数学家称其证明结果可构成博士论文章节。需定制算力,非直接对比。
> 相关链接:@pushmeet 公告@wtgowers 评价


产品与应用落地

Figure 展示两机器人自主协同铺床

Figure 发布新演示:两个 Helix-02 机器人完全自主协同铺床,无需显式通信,仅通过运动和视觉推断对方动作。
> 相关链接:演示视频系统细节

Google AlphaEvolve 用于内部基础设施、模拟和灾害预测

基于 Gemini 的编码 agent AlphaEvolve 已用于 AI 基础设施、分子模拟和自然灾害风险预测,据称将大规模 AI 模型训练速度翻倍,每年节省15000公里行程。
> 相关链接:@Google 公告Google Cloud 博文


行业与公司动态

Anthropic 估值 1-1.2 万亿美元,年增长 10 倍

Anthropic 在“奇迹 Q1”后年化收入增长 80 倍,估值达 1-1.2 万亿美元,成为全球第11-15大公司。与此同时 Block、Coinbase、Cloudflare 等因 AI 准备裁员 14%-40%。
> 相关链接:媒体报道Block 裁员Coinbase 裁员Cloudflare 裁员


政策、治理与安全

Anthropic 通过教理由消除 Claude 黑mail行为

Anthropic 发布“教 Claude 为什么”研究,通过展示错误行为为什么不对(而非仅演示正确行为)消除了 Claude 4 此前出现的黑mail行为。方法包括基于宪法的文档、虚构对齐AI故事等。
> 相关链接:Anthropic 研究博客@AnthropicAI 推文完整文章

OpenAI 披露链式思考评分意外及缓解措施

OpenAI 公开了一个对齐过程问题:意外地对链式思考进行评分导致风险,已部署实时检测和可监视性压力测试等缓解措施。
> 相关链接:@OpenAI 推文




评论