AI 新闻摘要 2026-05-15

发布于 2026年05月17日

模型与能力

Zyphra 发布 ZAYA1-8B-Diffusion-Preview:解码快 4.6–7.7 倍

这是扩散语言模型,解码速度比自回归生成快很多,质量损失不大,适合低成本部署和多样生成模式。
> 相关链接:Zyphra 公告

Datadog 开源 Toto 2.0 时间序列模型,多项基准第一

发布 5 个开源模型(4M~2.5B 参数),在 BOOM、GIFT-Eval、TIME 上排第一,说明时间序列基础模型的缩放定律可能成立。
> 相关链接:Datadog 发布@atalwalkar 评论

Kimi K2.6 获得开源金融 Agent 基准第一

Moonshot AI 的 Kimi K2.6 在 Finance Agent Benchmark V2 上成为排名第一的开源模型。
> 相关链接:Moonshot AI 推文

Ring-2.6-1T 发布当天即获 vLLM 支持

开源大模型 Ring-2.6-1T 发布当天 vLLM 就提供了推理支持,方便大家直接部署。
> 相关链接:vLLM 公告


Agent 与工具链

OpenAI 推出 Codex 移动端:手机遥控电脑跑代码

在 ChatGPT 移动应用里可以直接启动、审查、批准和执行代码,Codex 在后台电脑上跑。同时 Remote SSH 正式上线,还加了 hooks 和访问令牌用于企业自动化。
> 相关链接:OpenAI 公告Remote SSHHooks/Tokens

GitHub 推出 Copilot App 桌面版:Agent 优先的并行工作环境

技术预览版,支持多个并行工作流、仓库/PR 管理、灵活切换模型,专为 Agent 优先的开发者设计。
> 相关链接:GitHub 公告@adrianmg 评论@OrenMe 评论

VS Code 发布新 Agents 窗口:多代理、多项目、浏览器也支持

新增专门窗口管理多个 Agent 和项目,支持 vscode.dev/agents 在浏览器/手机端使用,改进了 BYOK,还加了终端压缩省 Token。
> 相关链接:VS Code 公告浏览器/移动支持BYOK 更新

Nous/Hermes Agent 集成 Codex 运行时

开源 Hermes Agent 现在可以用 Codex CLI/App-Server 执行 OpenAI 支持的回合,复用 ChatGPT 订阅额度在 Hermes 会话里跑。
> 相关链接:Nous Research@Teknium

Kimi Web Bridge:浏览器扩展让 Codex/Claude Code 等模拟人类上网

Moonshot AI 发布的浏览器扩展,让 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes 等工具能像人一样和网页交互。
> 相关链接:Moonshot AI 公告

LangChain 发布 Engine 和 SmithDB:让 Agent 跟踪数据自动修复错误

SmithDB 是专为 Agent 跟踪数据设计的数据库,Engine 则自动分析失败、定位代码问题并提出修复方案,把日志监控变成自动改进循环。
> 相关链接:@hwchase17 介绍@caspar_br 分析 EngineSmithDB 架构讨论


基础设施与硬件

CoreWeave 与 W&B 推出 Sandboxes:安全跑 RL 和工具调用

提供隔离执行环境,专门给强化学习、工具使用和评测用,甚至测试了 rm -rf / 这种破坏性命令,保证不搞坏系统。
> 相关链接:Weights & Biases 公告

Qwen 3.6 本地推理加速:MTP + TurboQuant 提速 62%

社区 fork 的 llama.cpp 加了多 Token 预测和 TurboQuant 量化,在 MacBook Pro M5 Max 上从 21 tok/s 提升到 34 tok/s,不过有用户反映 TurboQuant 在某些场景下反而更慢,推荐纯 MTP 或标准量化为佳。
> 相关链接:Reddit 讨论


研究与方法

LangChain 成立研究实验室:让 Agent 在运行中自我进化

LangChain Labs 做持续学习的应用研究,想把生产环境里的跟踪数据变成训练信号、评测用例和能力改进来源,让 Agent 越用越聪明。
> 相关链接:LangChain 公告Prime Intellect 合作

Goodfire 揭示 Llama 数学机制:像几何旋转计算器

通过激活操控发现 Llama 做算术时内部使用类似傅里叶特征的“形状旋转”机制,不只是事后解释,还能直接干预行为。
> 相关链接:GoodfireAI 文章后续讨论

RL 研究新方向:从 PPO 转向“展开工程”,自动优化器逼近人类水平

一篇综述把 LLM 强化学习归纳为生成/过滤/控制/重放四个阶段。同时新方法“教学 RL”用特权信息主动找有用的展开,Prime Intellect 的自动化搜索在 nanoGPT 基准上跑了 1 万次,结果接近人类设计的优化器。
> 相关链接:RL 综述教学 RL 论文Prime Intellect 优化器搜索


产品与应用落地

Figure 人形机器人 24/7 分拣直播:自主运行超过 24 小时无故障

Figure 直播展示一台人形机器人连续 24 小时以上自主分拣小包裹,吞吐量接近人类,全程由 Helix-02 机载模型控制,声称无远程操控。
> 相关链接:CEO 确认24 小时更新Day 2 直播


行业与公司动态

Anthropic 限制 Claude Code 使用量,开发者激烈反弹

开发者 Theo 称 T3 Code 等第三方工具遭遇大幅限速,尽管经过官方集成路径。他带头取消订阅并号召转向开源。多位知名工程师批评 Anthropic 切断了开源社区的便宜 Token 通道,认为厂商锁定风险增大,必须做模型/提供商抽象。
> 相关链接:Theo 初始抱怨取消订阅其他开发者响应




评论