AI 新闻摘要 2026-05-06

行业与公司动态

模型厂扎堆搞服务公司：Anthropic 与 OpenAI 新动作

Anthropic 联合黑石等成立合资公司（融资 15 亿），OpenAI 成立 The Deployment Company（融资 40 亿）。两家都发现光卖模型不够，得下场帮企业做落地部署和定制，赚最后一公里的服务钱。
> 相关链接：Anthropic 合资详情｜OpenAI 部署公司｜行业分析

RadixArk 融资 1 亿刀：押注 SGLang 与推理基建

围绕 SGLang 推理栈和 Miles 训练系统的 RadixArk 拿到 1 亿美元种子轮。目标是把前沿基建开源且生产级化，让大家不用重复造调度器和 KV 缓存管理的轮子。
> 相关链接：融资 announcement｜社区讨论

模型与能力

GPT-5.5 Instant 成为 ChatGPT 默认模型

OpenAI 把 GPT-5.5 Instant 设为默认，事实性和图像理解有提升。重点加强了个性化：能读取记忆、历史聊天、文件甚至 Gmail，还能显示“记忆来源”让用户知道它参考了啥。
> 相关链接：官方发布｜rollout 细节

OpenAI 重构语音底层：延迟更低

为了语音对话更流畅，OpenAI 重写了 WebRTC 栈，用薄中继加状态收发器降低延迟。这暗示语音功能马上要有大更新，目标是跟上真人语速。
> 相关链接：技术细节｜语音更新信号

Gemma 4 推理加速 3 倍：多 Token 预测

Google 发布 Gemma 4 MTP drafters，用 speculative decoding 技术，解码速度最高快 3 倍且质量不降。vLLM、Ollama 等主流工具已支持，本地部署党狂喜。
> 相关链接：Google 发布｜vLLM 支持

Agent 与工具链

OpenAI 发布 TypeScript 版 Agents SDK

开发者工具链继续扩容，OpenAI 推出 TS 版 Agents SDK，包含沙箱 Agent 和开源 harness。方便 JS/TS 开发者更顺滑地集成 Agent 功能。
> 相关链接：SDK 发布

代码 Agent 体验大乱斗：没有绝对赢家

社区评测混乱，Droid、Hermes、Codex 各有优劣。有人觉得 Codex 下载量超 Claude Code，也有人觉得 Claude Code 实用感变平。工具链体验还在碎片化阶段。
> 相关链接：体验对比｜下载量数据

Cursor/Devin 切入安全与 CI 自动化

自动化不止写代码，还管修 bug 和安全。Cursor 推出监控 GitHub 自动修 CI 失败的 Agent；Devin 推出安全版，能自动修复漏洞甚至提前拦截恶意包。
> 相关链接：Cursor CI｜Devin 安全

llama.cpp 支持 MTP 加速（Beta）

llama.cpp 上线 MTP 支持，针对 Qwen3.x 等模型，吞吐提升 2 倍以上。本地推理党注意，这是目前最大的性能改进之一，尤其对稠密模型效果显著。
> 相关链接：PR 详情｜技术讨论

研究与方法

Meta ProgramBench：整库生成准确率 0%

Meta 新基准测试要求模型从零生成完整软件（如 SQLite），结果顶尖模型准确率也是 0%。虽然能过部分测试，但离真正“整库生成”还差得远，基准争议很大。
> 相关链接：基准介绍｜结果讨论

RL 基础设施转向长周期系统

RL 环境不再只是“单次生成 + 奖励”，转向支持数千环境的长周期系统。Forge、ROLL 等新框架出现，重点解决 rollout 延迟和 KV 缓存管理问题。
> 相关链接：环境框架对比｜Agentic RL survey

可观测性要做成反馈闭环

LangChain 等指出光有 Trace 不够，得把反馈连上。观测系统要能直接挖掘错误、定位组件故障并自动修复，形成“数据 - 修复 - 测试”的闭环。
> 相关链接：LangChain 观点｜Raindrop Triage

产品与应用落地

Anthropic 推金融 Agent 模板

Anthropic 发布金融服务业 Agent 模板，涵盖 pitches、估值审查、KYC 等，集成了 FactSet、S&P 等数据源。金融已是 Claude 第二大收入来源，落地动作很快。
> 相关链接：模板发布｜金融事件

Perplexity 进军金融与医疗专业版

Perplexity 推出金融专业版（35 个工作流）和医疗数据访问（NEJM、BMJ 等期刊）。不再只是通用搜索，开始打包 licensed 数据做垂直工作流产品。
> 相关链接：金融版｜医疗数据

Anthropic Orbit 主动助手泄露

泄露显示 Anthropic 在测 Orbit，一个不用提示就能主动合成 Gmail、Slack、GitHub 数据的助手。Manus 也加了类似的情景推荐连接器，主动助手成新赛道。
> 相关链接：Orbit 泄露｜Manus 更新

OpenAI Codex UX 更新：任务进度 UI

OpenAI 继续优化 Codex 体验，新增任务进度 UI 和 Auto Review 功能，降低审批摩擦。社区反馈 5.5 版本在高 token 预算的编码和非编码工作流上表现更强。
> 相关链接：UX 更新｜社区反馈

基础设施与硬件

推理成本看提供商脸色：Cache 命中是关键

同一模型在不同提供商那速度/价格差异巨大。测试显示 Cache 命中率是 V4 时代降低成本的主轴，SambaNova 速度最快，Fireworks 性价比在前。
> 相关链接：提供商对比｜Cache 优化

模型冷启动优化 60 倍

新系统通过直接从持有权重的 GPU 服务，而不是云存储，把冷启动从分钟级降到秒级，提速 60 倍。解决 serverless 推理等待时间长的问题。
> 相关链接：冷启动优化

DeepMind 分布式训练优化：带宽省 240 倍

DeepMind 的 Decoupled DiLoCo 技术在大规模训练时，用更少的跨数据中心带宽（省 240 倍）实现了更高的有效吞吐（88% vs 27%）。
> 相关链接：训练优化