行业与公司动态
模型厂扎堆搞服务公司:Anthropic 与 OpenAI 新动作
Anthropic 联合黑石等成立合资公司(融资 15 亿),OpenAI 成立 The Deployment Company(融资 40 亿)。两家都发现光卖模型不够,得下场帮企业做落地部署和定制,赚最后一公里的服务钱。
> 相关链接:Anthropic 合资详情|OpenAI 部署公司|行业分析
RadixArk 融资 1 亿刀:押注 SGLang 与推理基建
围绕 SGLang 推理栈和 Miles 训练系统的 RadixArk 拿到 1 亿美元种子轮。目标是把前沿基建开源且生产级化,让大家不用重复造调度器和 KV 缓存管理的轮子。
> 相关链接:融资 announcement|社区讨论
模型与能力
GPT-5.5 Instant 成为 ChatGPT 默认模型
OpenAI 把 GPT-5.5 Instant 设为默认,事实性和图像理解有提升。重点加强了个性化:能读取记忆、历史聊天、文件甚至 Gmail,还能显示“记忆来源”让用户知道它参考了啥。
> 相关链接:官方发布|rollout 细节
OpenAI 重构语音底层:延迟更低
为了语音对话更流畅,OpenAI 重写了 WebRTC 栈,用薄中继加状态收发器降低延迟。这暗示语音功能马上要有大更新,目标是跟上真人语速。
> 相关链接:技术细节|语音更新信号
Gemma 4 推理加速 3 倍:多 Token 预测
Google 发布 Gemma 4 MTP drafters,用 speculative decoding 技术,解码速度最高快 3 倍且质量不降。vLLM、Ollama 等主流工具已支持,本地部署党狂喜。
> 相关链接:Google 发布|vLLM 支持
Agent 与工具链
OpenAI 发布 TypeScript 版 Agents SDK
开发者工具链继续扩容,OpenAI 推出 TS 版 Agents SDK,包含沙箱 Agent 和开源 harness。方便 JS/TS 开发者更顺滑地集成 Agent 功能。
> 相关链接:SDK 发布
代码 Agent 体验大乱斗:没有绝对赢家
社区评测混乱,Droid、Hermes、Codex 各有优劣。有人觉得 Codex 下载量超 Claude Code,也有人觉得 Claude Code 实用感变平。工具链体验还在碎片化阶段。
> 相关链接:体验对比|下载量数据
Cursor/Devin 切入安全与 CI 自动化
自动化不止写代码,还管修 bug 和安全。Cursor 推出监控 GitHub 自动修 CI 失败的 Agent;Devin 推出安全版,能自动修复漏洞甚至提前拦截恶意包。
> 相关链接:Cursor CI|Devin 安全
llama.cpp 支持 MTP 加速(Beta)
llama.cpp 上线 MTP 支持,针对 Qwen3.x 等模型,吞吐提升 2 倍以上。本地推理党注意,这是目前最大的性能改进之一,尤其对稠密模型效果显著。
> 相关链接:PR 详情|技术讨论
研究与方法
Meta ProgramBench:整库生成准确率 0%
Meta 新基准测试要求模型从零生成完整软件(如 SQLite),结果顶尖模型准确率也是 0%。虽然能过部分测试,但离真正“整库生成”还差得远,基准争议很大。
> 相关链接:基准介绍|结果讨论
RL 基础设施转向长周期系统
RL 环境不再只是“单次生成 + 奖励”,转向支持数千环境的长周期系统。Forge、ROLL 等新框架出现,重点解决 rollout 延迟和 KV 缓存管理问题。
> 相关链接:环境框架对比|Agentic RL survey
可观测性要做成反馈闭环
LangChain 等指出光有 Trace 不够,得把反馈连上。观测系统要能直接挖掘错误、定位组件故障并自动修复,形成“数据 - 修复 - 测试”的闭环。
> 相关链接:LangChain 观点|Raindrop Triage
产品与应用落地
Anthropic 推金融 Agent 模板
Anthropic 发布金融服务业 Agent 模板,涵盖 pitches、估值审查、KYC 等,集成了 FactSet、S&P 等数据源。金融已是 Claude 第二大收入来源,落地动作很快。
> 相关链接:模板发布|金融事件
Perplexity 进军金融与医疗专业版
Perplexity 推出金融专业版(35 个工作流)和医疗数据访问(NEJM、BMJ 等期刊)。不再只是通用搜索,开始打包 licensed 数据做垂直工作流产品。
> 相关链接:金融版|医疗数据
Anthropic Orbit 主动助手泄露
泄露显示 Anthropic 在测 Orbit,一个不用提示就能主动合成 Gmail、Slack、GitHub 数据的助手。Manus 也加了类似的情景推荐连接器,主动助手成新赛道。
> 相关链接:Orbit 泄露|Manus 更新
OpenAI Codex UX 更新:任务进度 UI
OpenAI 继续优化 Codex 体验,新增任务进度 UI 和 Auto Review 功能,降低审批摩擦。社区反馈 5.5 版本在高 token 预算的编码和非编码工作流上表现更强。
> 相关链接:UX 更新|社区反馈
基础设施与硬件
推理成本看提供商脸色:Cache 命中是关键
同一模型在不同提供商那速度/价格差异巨大。测试显示 Cache 命中率是 V4 时代降低成本的主轴,SambaNova 速度最快,Fireworks 性价比在前。
> 相关链接:提供商对比|Cache 优化
模型冷启动优化 60 倍
新系统通过直接从持有权重的 GPU 服务,而不是云存储,把冷启动从分钟级降到秒级,提速 60 倍。解决 serverless 推理等待时间长的问题。
> 相关链接:冷启动优化
DeepMind 分布式训练优化:带宽省 240 倍
DeepMind 的 Decoupled DiLoCo 技术在大规模训练时,用更少的跨数据中心带宽(省 240 倍)实现了更高的有效吞吐(88% vs 27%)。
> 相关链接:训练优化