AI 新闻摘要 2026-05-12

模型与能力

Thinking Machines 发布交互模型 TML-Interaction-Small

这家公司推出了 276B 参数（12B 激活）的 MoE 模型，专门为实时语音和视频交互设计。它能同时听、看、说、思考，200ms 内做出反应，还支持打断和主动提醒（比如“你开始驼背了”），在多个新基准上超过了 GPT-Realtime-2 和 Gemini 3.1-Flash。
> 相关链接：发布博客｜技术细节线程｜Mira Murati 推文

Qwen 3.6 本地推理新增 MTP 支持

Unsloth 发布了保留 MTP 层的 GGUF 文件（27B 和 35B-A3B），让本地能在 llama.cpp 上用多头预测加速。不过目前需要手动编译特殊 PR，有人遇到了运行报错，兼容性还没完全搞定。
> 相关链接：Reddit 讨论

Agent 与工具链

多个 Agent 工具发布：aggit、Claude agents 终端管理、Cursor 进 Teams

aggit 是一个 Rust 写的 CLI，支持把 agent 生成的中间产物存到 S3，能像 git 一样 stash/branch/restore。Claude Code 新增 claude agents 命令，可以在终端管理多个 Agent 实例。Cursor 直接接入了 Microsoft Teams，能读完整聊天记录然后自动开 PR。
> 相关链接：aggit 介绍｜Claude agents 终端｜Cursor 在 Teams

Hermes Agent 支持任意模型用电脑

Nous Research 的 Hermes Agent 现在允许本地/开源模型也能像闭源 API 那样控制电脑（CUA），大大降低了用 Agent 操作桌面的门槛。
> 相关链接：推文

Agent 只需两个原始工具：Search 和 Execute

有人提出观点：Agent 不需要一大堆工具，只需“搜索”和“执行”两个基础能力，然后靠动态语义发现来扩展功能，这比静态工具菜单更灵活。
> 相关链接：推文

基础设施与硬件

TurboQuant 被质疑效果不佳

多篇独立分析指出，最近很火的量化加速方法 TurboQuant 实际表现并不好。有人做了第一个全面的精度/延迟/吞吐研究，结论是“它真的不太行”，提醒大家要谨慎看待。
> 相关链接：研究推文｜vLLM 相关

本地模型进步速度超过摩尔定律：两年提 4.7 倍

同样一台 MacBook Pro 的内存上限，能跑的最强开源模型从 Llama 3 70B 级别提升到 DeepSeek V4 Flash 混合量化版，性能约涨了 4.7 倍，相当于每 10.7 个月翻一番，比传统硬件升级快得多。
> 相关链接：推文

研究与方法

EMO：更模块化的 MoE 设计

AllenAI 的新方法 EMO 在混合专家模型中用文档级路由，让不同任务共享专家池。只保留 25% 专家时性能只掉 1% 左右，而传统 MoE 会掉 10-15%。
> 相关链接：TheTuringPost 介绍

扩散模型用于语言生成：Fast BLT 和字节级并行解码

多篇论文尝试用扩散模型替代自回归生成语言。Fast BLT 用扩散做字节级并行解码，速度更快。另外有工作指出扩散模型采样可微分，奖励梯度能直接反传到参数，比标准 LLM 更适合优化。
> 相关链接：LucaAmb 推文｜Fast BLT 介绍

“记忆诅咒”：长历史会降低 Agent 合作能力

研究发现在多轮社交博弈中，Agent 看到太长的历史记录后反而更保守、更倾向跟风，显式的思维链甚至会加剧问题。这表示长程 Agent 的质量受限于记忆和策略控制，不只是模型智力。
> 相关链接：论文链接

PwC 研究：Agent 澄清问题的最佳时机

研究发现目标澄清在任务执行到 10% 左右之后价值就大幅下降，而输入澄清的窗口更长。这提示 Agent 要尽早问清楚目标，否则后面再问就没用了。
> 相关链接：推文

产品与应用落地

OpenAI 成立部署公司，收购 Tomoro 带来 150 名现场工程师

OpenAI 宣布成立专门的部署公司，帮大企业把前沿模型真正用到生产流程里。通过收购 Tomoro 获得了 150 名部署专家，初期有 19 家合作伙伴投入 40 亿美元。这被看作模仿 Palantir/Microsoft 的贴身服务模式。
> 相关链接：官方公告｜Tomoro 收购

OpenAI 发布 Daybreak：面向企业的网络安全产品

Daybreak 结合 GPT-5.5 和 Codex，能自动做威胁建模、漏洞发现、补丁生成和应急响应。它提供分级访问，最严格的“可信访问”通道给敏感场景，还有个专门的 GPT-5.5-Cyber 模型。
> 相关链接：Daybreak 公告｜Sam Altman 推文

行业与公司动态

人工分析发布编程 Agent 排行榜：Opus 4.7 在 Cursor CLI 上最高

新榜单测试模型+框架组合，结果 Opus 4.7 用 Cursor CLI 得了 61 分，GPT-5.5 用 Codex 接近。开源方案里 GLM-5.1、Kimi K2.6、DeepSeek V4 Pro 在 Claude Code 里表现也不错，但差距明显。每任务成本差 30 倍以上。
> 相关链接：榜单发布

DeepSeek V4 Flash 被称性价比极高

LangChain 分析认为，对于大量 Agent 调用场景，DeepSeek V4 Flash 的价格远低于 GPT 和 Gemini 的同类闪存模型，是低成本高吞吐的好选择。
> 相关链接：定价分析

政策、治理与安全

微软 Semantic Kernel 爆出严重漏洞：模型输出导致主机被控

安全研究员指出“你的 LLM 不是安全边界”——微软 Semantic Kernel 框架过度信任模型输出，攻击者可以用提示注入实现远程代码执行（RCE）。这提醒所有 Agent 框架必须做好输出隔离。
> 相关链接：详细警告