模型与能力
Thinking Machines 发布交互模型 TML-Interaction-Small
这家公司推出了 276B 参数(12B 激活)的 MoE 模型,专门为实时语音和视频交互设计。它能同时听、看、说、思考,200ms 内做出反应,还支持打断和主动提醒(比如“你开始驼背了”),在多个新基准上超过了 GPT-Realtime-2 和 Gemini 3.1-Flash。
> 相关链接:发布博客|技术细节线程|Mira Murati 推文
Qwen 3.6 本地推理新增 MTP 支持
Unsloth 发布了保留 MTP 层的 GGUF 文件(27B 和 35B-A3B),让本地能在 llama.cpp 上用多头预测加速。不过目前需要手动编译特殊 PR,有人遇到了运行报错,兼容性还没完全搞定。
> 相关链接:Reddit 讨论
Agent 与工具链
多个 Agent 工具发布:aggit、Claude agents 终端管理、Cursor 进 Teams
aggit 是一个 Rust 写的 CLI,支持把 agent 生成的中间产物存到 S3,能像 git 一样 stash/branch/restore。Claude Code 新增 claude agents 命令,可以在终端管理多个 Agent 实例。Cursor 直接接入了 Microsoft Teams,能读完整聊天记录然后自动开 PR。
> 相关链接:aggit 介绍|Claude agents 终端|Cursor 在 Teams
Hermes Agent 支持任意模型用电脑
Nous Research 的 Hermes Agent 现在允许本地/开源模型也能像闭源 API 那样控制电脑(CUA),大大降低了用 Agent 操作桌面的门槛。
> 相关链接:推文
Agent 只需两个原始工具:Search 和 Execute
有人提出观点:Agent 不需要一大堆工具,只需“搜索”和“执行”两个基础能力,然后靠动态语义发现来扩展功能,这比静态工具菜单更灵活。
> 相关链接:推文
基础设施与硬件
TurboQuant 被质疑效果不佳
多篇独立分析指出,最近很火的量化加速方法 TurboQuant 实际表现并不好。有人做了第一个全面的精度/延迟/吞吐研究,结论是“它真的不太行”,提醒大家要谨慎看待。
> 相关链接:研究推文|vLLM 相关
本地模型进步速度超过摩尔定律:两年提 4.7 倍
同样一台 MacBook Pro 的内存上限,能跑的最强开源模型从 Llama 3 70B 级别提升到 DeepSeek V4 Flash 混合量化版,性能约涨了 4.7 倍,相当于每 10.7 个月翻一番,比传统硬件升级快得多。
> 相关链接:推文
研究与方法
EMO:更模块化的 MoE 设计
AllenAI 的新方法 EMO 在混合专家模型中用文档级路由,让不同任务共享专家池。只保留 25% 专家时性能只掉 1% 左右,而传统 MoE 会掉 10-15%。
> 相关链接:TheTuringPost 介绍
扩散模型用于语言生成:Fast BLT 和字节级并行解码
多篇论文尝试用扩散模型替代自回归生成语言。Fast BLT 用扩散做字节级并行解码,速度更快。另外有工作指出扩散模型采样可微分,奖励梯度能直接反传到参数,比标准 LLM 更适合优化。
> 相关链接:LucaAmb 推文|Fast BLT 介绍
“记忆诅咒”:长历史会降低 Agent 合作能力
研究发现在多轮社交博弈中,Agent 看到太长的历史记录后反而更保守、更倾向跟风,显式的思维链甚至会加剧问题。这表示长程 Agent 的质量受限于记忆和策略控制,不只是模型智力。
> 相关链接:论文链接
PwC 研究:Agent 澄清问题的最佳时机
研究发现目标澄清在任务执行到 10% 左右之后价值就大幅下降,而输入澄清的窗口更长。这提示 Agent 要尽早问清楚目标,否则后面再问就没用了。
> 相关链接:推文
产品与应用落地
OpenAI 成立部署公司,收购 Tomoro 带来 150 名现场工程师
OpenAI 宣布成立专门的部署公司,帮大企业把前沿模型真正用到生产流程里。通过收购 Tomoro 获得了 150 名部署专家,初期有 19 家合作伙伴投入 40 亿美元。这被看作模仿 Palantir/Microsoft 的贴身服务模式。
> 相关链接:官方公告|Tomoro 收购
OpenAI 发布 Daybreak:面向企业的网络安全产品
Daybreak 结合 GPT-5.5 和 Codex,能自动做威胁建模、漏洞发现、补丁生成和应急响应。它提供分级访问,最严格的“可信访问”通道给敏感场景,还有个专门的 GPT-5.5-Cyber 模型。
> 相关链接:Daybreak 公告|Sam Altman 推文
行业与公司动态
人工分析发布编程 Agent 排行榜:Opus 4.7 在 Cursor CLI 上最高
新榜单测试模型+框架组合,结果 Opus 4.7 用 Cursor CLI 得了 61 分,GPT-5.5 用 Codex 接近。开源方案里 GLM-5.1、Kimi K2.6、DeepSeek V4 Pro 在 Claude Code 里表现也不错,但差距明显。每任务成本差 30 倍以上。
> 相关链接:榜单发布
DeepSeek V4 Flash 被称性价比极高
LangChain 分析认为,对于大量 Agent 调用场景,DeepSeek V4 Flash 的价格远低于 GPT 和 Gemini 的同类闪存模型,是低成本高吞吐的好选择。
> 相关链接:定价分析
政策、治理与安全
微软 Semantic Kernel 爆出严重漏洞:模型输出导致主机被控
安全研究员指出“你的 LLM 不是安全边界”——微软 Semantic Kernel 框架过度信任模型输出,攻击者可以用提示注入实现远程代码执行(RCE)。这提醒所有 Agent 框架必须做好输出隔离。
> 相关链接:详细警告