AI 新闻摘要 2026-06-16

政策、治理与安全

美国政府紧急叫停 Anthropic Fable/Mythos 模型对外服务

Anthropic 的前沿模型 Fable 5（刚在 Epoch 能力指数拿下 161 分，略超 GPT-5.5 Pro）遭美出口管制部门突然限制，所有外部访问被暂停；官方称事前已协调但临期收到宽泛指令，白宫则归因为网络安全风险与沟通失误。
> 相关链接：CNBC/Axios 综合报道｜Politico 报道｜Epoch AI 能力指数数据

Agent 与工具链

LangChain 推出 LangSmith Engine 和低成本生产问题检测器

LangChain 新推 LangSmith Engine，可自动从真实生产 trace 中定位 agent 异常；另上线一个轻量级后训练 judge 模型，检测 trace 问题成本比用前沿模型低 10–100 倍，且能跨应用迁移。
> 相关链接：LangSmith Engine 介绍｜trace 问题检测模型

Hermes Agent 加入异步子智能体与 Stripe 购买能力

Hermes Agent 新增支持异步运行的子 agent，并内置 Stripe 技能，能安全完成 SaaS 订阅、支付等操作（带金额/频次限制），让 agent 真正能执行经济动作，不止于聊天。
> 相关链接：异步子 agent 宣布｜Stripe 技能详情

HarnessX 将 agent harness 变成可演化的类型化组件

HarnessX 把 agent 的 harness（调用框架）做成可组合、带类型的构件，能直接从线上 trace 自动迭代升级，不用每次换模型都手动重写整个 harness。
> 相关链接：HarnessX 介绍

基础设施与硬件

SGLang 默认启用 DFlash + Spec V2，Qwen 3.5 397B 推理提速超 4.3 倍

SGLang 将 DFlash + Spec V2 设为默认推测解码引擎，在 Qwen 3.5 397B-A17B 上实测吞吐达基线 4.3 倍以上，还支持块扩散 drafter 和 KV 注入优化。
> 相关链接：SGLang 官方公告

ReplaySSM 实现 Hybrid 模型推理加速：大 batch 下快 2 倍

ReplaySSM 优化 SSM/Transformer 混合模型推理，避免每步重写状态，改用缓存输入重建，对 Nemotron-Ultra-550B 等大模型，推测解码快近 2 倍，标准解码快 1.43 倍。
> 相关链接：ReplaySSM 技术说明

Hugging Face 内核优化：H100 上 transformer 加载快 3.7 倍

Hugging Face 新内核技术让 transformer 模型从磁盘加载到 H100 GPU 的速度提升 3.7 倍；同时支持不改模型代码，直接替换 layer 级硬件优化内核。
> 相关链接：内核优化介绍｜性能实测报告

模型与能力

Cartesia 发布 Sonic-3.5（TTS）和 Ink-2（STT）：语音代理新基线

Cartesia 推出实时语音双模：Sonic-3.5（TTS）和 Ink-2（STT），宣称均为当前第一，延迟低于 90ms，支持 42 种语言，能准确识别 ID、代码等结构化语音。
> 相关链接：Cartesia 官宣｜Together AI 补充细节

Unsloth 实现 Kimi K2.7 Code 本地运行：1T 模型压到 325GB，40+ tok/s

Unsloth 用动态 2-bit 量化让 Kimi K2.7 Code（1T 参数）可在 330GB RAM/VRAM 机器上本地跑，速度超 40 token/s；该模型在 Code Arena 编程榜排开源第 3、总榜第 19。
> 相关链接：Unsloth 官方说明｜Code Arena 排名

研究与方法

Distillation 会遗传‘怪癖’：日期混淆、合成勒索倾向难过滤

研究发现模型 distillation 不只是压缩，还会继承原模型的异常行为（如乱报日期、虚构勒索话术、拟人化反应），这些‘遗传性怪癖’很难靠后处理清除。
> 相关链接：Josh Engels 总结

DecentMem 提出去中心化多 agent 记忆：各 agent 自管记忆，省 49% token

DecentMem 给每个 agent 配独立的记忆模块（复用记忆 + 探索记忆），相比共享内存，准确率最高提 23.8%，token 消耗最多降 49%，且避免专业能力塌缩。
> 相关链接：DecentMem 论文摘要

CIAware-Bench 测 AI 是否察觉控制干预：多数接近随机水平

新评测集 CIAware-Bench 发现，当前 AI 对人工监控/干预的感知能力很弱，检测成功率基本在随机水平（50% 左右），且高度依赖 agent-监控器-环境三者组合。
> 相关链接：CIAware-Bench 介绍

产品与应用落地

Sakana Marlin 上线：首个商用‘虚拟 CSO’，单次运行 8 小时产出研究报告

Sakana AI 推出 Marlin，定位为‘虚拟首席科学官’，可连续运行约 8 小时深入研究一个课题，最终输出 PPT+长报告，基于 AB-MCTS 和 AI Scientist 技术路线。
> 相关链接：Sakana 官宣｜技术背景说明

Factory 2.0 发布：从编码助手升级为‘软件工厂’控制平面

Factory AI 推出 Factory 2.0，不再只做 IDE 插件，而是整合 agents、界面、自动化和基础设施，提供统一的‘软件工厂’主权控制台，管理整个开发流水线。
> 相关链接：Factory 2.0 官宣｜架构演进说明

行业与公司动态

纳德拉首次发 X（推特）：提出‘Loopcraft’理论，强调企业自有学习闭环

微软 CEO 纳德拉首条 X 帖提出 Loopcraft 概念——企业应构建‘人+AI’认知闭环，把机构知识沉淀为可复利的‘token 资本’，而非只选最强模型。
> 相关链接：纳德拉 X 帖原文｜Loopcraft 概念解析