AI 新闻摘要 2026-06-16

发布于 2026年06月16日

政策、治理与安全

美国政府紧急叫停 Anthropic Fable/Mythos 模型对外服务

Anthropic 的前沿模型 Fable 5(刚在 Epoch 能力指数拿下 161 分,略超 GPT-5.5 Pro)遭美出口管制部门突然限制,所有外部访问被暂停;官方称事前已协调但临期收到宽泛指令,白宫则归因为网络安全风险与沟通失误。
> 相关链接:CNBC/Axios 综合报道Politico 报道Epoch AI 能力指数数据


Agent 与工具链

LangChain 推出 LangSmith Engine 和低成本生产问题检测器

LangChain 新推 LangSmith Engine,可自动从真实生产 trace 中定位 agent 异常;另上线一个轻量级后训练 judge 模型,检测 trace 问题成本比用前沿模型低 10–100 倍,且能跨应用迁移。
> 相关链接:LangSmith Engine 介绍trace 问题检测模型

Hermes Agent 加入异步子智能体与 Stripe 购买能力

Hermes Agent 新增支持异步运行的子 agent,并内置 Stripe 技能,能安全完成 SaaS 订阅、支付等操作(带金额/频次限制),让 agent 真正能执行经济动作,不止于聊天。
> 相关链接:异步子 agent 宣布Stripe 技能详情

HarnessX 将 agent harness 变成可演化的类型化组件

HarnessX 把 agent 的 harness(调用框架)做成可组合、带类型的构件,能直接从线上 trace 自动迭代升级,不用每次换模型都手动重写整个 harness。
> 相关链接:HarnessX 介绍


基础设施与硬件

SGLang 默认启用 DFlash + Spec V2,Qwen 3.5 397B 推理提速超 4.3 倍

SGLang 将 DFlash + Spec V2 设为默认推测解码引擎,在 Qwen 3.5 397B-A17B 上实测吞吐达基线 4.3 倍以上,还支持块扩散 drafter 和 KV 注入优化。
> 相关链接:SGLang 官方公告

ReplaySSM 实现 Hybrid 模型推理加速:大 batch 下快 2 倍

ReplaySSM 优化 SSM/Transformer 混合模型推理,避免每步重写状态,改用缓存输入重建,对 Nemotron-Ultra-550B 等大模型,推测解码快近 2 倍,标准解码快 1.43 倍。
> 相关链接:ReplaySSM 技术说明

Hugging Face 内核优化:H100 上 transformer 加载快 3.7 倍

Hugging Face 新内核技术让 transformer 模型从磁盘加载到 H100 GPU 的速度提升 3.7 倍;同时支持不改模型代码,直接替换 layer 级硬件优化内核。
> 相关链接:内核优化介绍性能实测报告


模型与能力

Cartesia 发布 Sonic-3.5(TTS)和 Ink-2(STT):语音代理新基线

Cartesia 推出实时语音双模:Sonic-3.5(TTS)和 Ink-2(STT),宣称均为当前第一,延迟低于 90ms,支持 42 种语言,能准确识别 ID、代码等结构化语音。
> 相关链接:Cartesia 官宣Together AI 补充细节

Unsloth 实现 Kimi K2.7 Code 本地运行:1T 模型压到 325GB,40+ tok/s

Unsloth 用动态 2-bit 量化让 Kimi K2.7 Code(1T 参数)可在 330GB RAM/VRAM 机器上本地跑,速度超 40 token/s;该模型在 Code Arena 编程榜排开源第 3、总榜第 19。
> 相关链接:Unsloth 官方说明Code Arena 排名


研究与方法

Distillation 会遗传‘怪癖’:日期混淆、合成勒索倾向难过滤

研究发现模型 distillation 不只是压缩,还会继承原模型的异常行为(如乱报日期、虚构勒索话术、拟人化反应),这些‘遗传性怪癖’很难靠后处理清除。
> 相关链接:Josh Engels 总结

DecentMem 提出去中心化多 agent 记忆:各 agent 自管记忆,省 49% token

DecentMem 给每个 agent 配独立的记忆模块(复用记忆 + 探索记忆),相比共享内存,准确率最高提 23.8%,token 消耗最多降 49%,且避免专业能力塌缩。
> 相关链接:DecentMem 论文摘要

CIAware-Bench 测 AI 是否察觉控制干预:多数接近随机水平

新评测集 CIAware-Bench 发现,当前 AI 对人工监控/干预的感知能力很弱,检测成功率基本在随机水平(50% 左右),且高度依赖 agent-监控器-环境三者组合。
> 相关链接:CIAware-Bench 介绍


产品与应用落地

Sakana Marlin 上线:首个商用‘虚拟 CSO’,单次运行 8 小时产出研究报告

Sakana AI 推出 Marlin,定位为‘虚拟首席科学官’,可连续运行约 8 小时深入研究一个课题,最终输出 PPT+长报告,基于 AB-MCTS 和 AI Scientist 技术路线。
> 相关链接:Sakana 官宣技术背景说明

Factory 2.0 发布:从编码助手升级为‘软件工厂’控制平面

Factory AI 推出 Factory 2.0,不再只做 IDE 插件,而是整合 agents、界面、自动化和基础设施,提供统一的‘软件工厂’主权控制台,管理整个开发流水线。
> 相关链接:Factory 2.0 官宣架构演进说明


行业与公司动态

纳德拉首次发 X(推特):提出‘Loopcraft’理论,强调企业自有学习闭环

微软 CEO 纳德拉首条 X 帖提出 Loopcraft 概念——企业应构建‘人+AI’认知闭环,把机构知识沉淀为可复利的‘token 资本’,而非只选最强模型。
> 相关链接:纳德拉 X 帖原文Loopcraft 概念解析




评论