AI 新闻摘要 2026-05-15 - 酷加的博客

模型与能力

Zyphra 发布 ZAYA1-8B-Diffusion-Preview：解码快 4.6–7.7 倍

这是扩散语言模型，解码速度比自回归生成快很多，质量损失不大，适合低成本部署和多样生成模式。
> 相关链接：Zyphra 公告

Datadog 开源 Toto 2.0 时间序列模型，多项基准第一

发布 5 个开源模型（4M~2.5B 参数），在 BOOM、GIFT-Eval、TIME 上排第一，说明时间序列基础模型的缩放定律可能成立。
> 相关链接：Datadog 发布｜@atalwalkar 评论

Kimi K2.6 获得开源金融 Agent 基准第一

Moonshot AI 的 Kimi K2.6 在 Finance Agent Benchmark V2 上成为排名第一的开源模型。
> 相关链接：Moonshot AI 推文

Ring-2.6-1T 发布当天即获 vLLM 支持

开源大模型 Ring-2.6-1T 发布当天 vLLM 就提供了推理支持，方便大家直接部署。
> 相关链接：vLLM 公告

Agent 与工具链

OpenAI 推出 Codex 移动端：手机遥控电脑跑代码

在 ChatGPT 移动应用里可以直接启动、审查、批准和执行代码，Codex 在后台电脑上跑。同时 Remote SSH 正式上线，还加了 hooks 和访问令牌用于企业自动化。
> 相关链接：OpenAI 公告｜Remote SSH｜Hooks/Tokens

GitHub 推出 Copilot App 桌面版：Agent 优先的并行工作环境

技术预览版，支持多个并行工作流、仓库/PR 管理、灵活切换模型，专为 Agent 优先的开发者设计。
> 相关链接：GitHub 公告｜@adrianmg 评论｜@OrenMe 评论

VS Code 发布新 Agents 窗口：多代理、多项目、浏览器也支持

新增专门窗口管理多个 Agent 和项目，支持 vscode.dev/agents 在浏览器/手机端使用，改进了 BYOK，还加了终端压缩省 Token。
> 相关链接：VS Code 公告｜浏览器/移动支持｜BYOK 更新

Nous/Hermes Agent 集成 Codex 运行时

开源 Hermes Agent 现在可以用 Codex CLI/App-Server 执行 OpenAI 支持的回合，复用 ChatGPT 订阅额度在 Hermes 会话里跑。
> 相关链接：Nous Research｜@Teknium

Kimi Web Bridge：浏览器扩展让 Codex/Claude Code 等模拟人类上网

Moonshot AI 发布的浏览器扩展，让 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes 等工具能像人一样和网页交互。
> 相关链接：Moonshot AI 公告

LangChain 发布 Engine 和 SmithDB：让 Agent 跟踪数据自动修复错误

SmithDB 是专为 Agent 跟踪数据设计的数据库，Engine 则自动分析失败、定位代码问题并提出修复方案，把日志监控变成自动改进循环。
> 相关链接：@hwchase17 介绍｜@caspar_br 分析 Engine｜SmithDB 架构讨论

基础设施与硬件

CoreWeave 与 W&B 推出 Sandboxes：安全跑 RL 和工具调用

提供隔离执行环境，专门给强化学习、工具使用和评测用，甚至测试了 rm -rf / 这种破坏性命令，保证不搞坏系统。
> 相关链接：Weights & Biases 公告

Qwen 3.6 本地推理加速：MTP + TurboQuant 提速 62%

社区 fork 的 llama.cpp 加了多 Token 预测和 TurboQuant 量化，在 MacBook Pro M5 Max 上从 21 tok/s 提升到 34 tok/s，不过有用户反映 TurboQuant 在某些场景下反而更慢，推荐纯 MTP 或标准量化为佳。
> 相关链接：Reddit 讨论

研究与方法

LangChain 成立研究实验室：让 Agent 在运行中自我进化

LangChain Labs 做持续学习的应用研究，想把生产环境里的跟踪数据变成训练信号、评测用例和能力改进来源，让 Agent 越用越聪明。
> 相关链接：LangChain 公告｜Prime Intellect 合作

Goodfire 揭示 Llama 数学机制：像几何旋转计算器

通过激活操控发现 Llama 做算术时内部使用类似傅里叶特征的“形状旋转”机制，不只是事后解释，还能直接干预行为。
> 相关链接：GoodfireAI 文章｜后续讨论

RL 研究新方向：从 PPO 转向“展开工程”，自动优化器逼近人类水平

一篇综述把 LLM 强化学习归纳为生成/过滤/控制/重放四个阶段。同时新方法“教学 RL”用特权信息主动找有用的展开，Prime Intellect 的自动化搜索在 nanoGPT 基准上跑了 1 万次，结果接近人类设计的优化器。
> 相关链接：RL 综述｜教学 RL 论文｜Prime Intellect 优化器搜索

产品与应用落地

Figure 人形机器人 24/7 分拣直播：自主运行超过 24 小时无故障

Figure 直播展示一台人形机器人连续 24 小时以上自主分拣小包裹，吞吐量接近人类，全程由 Helix-02 机载模型控制，声称无远程操控。
> 相关链接：CEO 确认｜24 小时更新｜Day 2 直播

行业与公司动态

Anthropic 限制 Claude Code 使用量，开发者激烈反弹

开发者 Theo 称 T3 Code 等第三方工具遭遇大幅限速，尽管经过官方集成路径。他带头取消订阅并号召转向开源。多位知名工程师批评 Anthropic 切断了开源社区的便宜 Token 通道，认为厂商锁定风险增大，必须做模型/提供商抽象。
> 相关链接：Theo 初始抱怨｜取消订阅｜其他开发者响应