AI 新闻摘要 2026-07-02

模型与能力

Anthropic 重启 Claude Fable 5，但加了安全兜底机制

Fable 5 正式恢复上线，但部分请求（尤其涉及网络安全、生物/化学内容）会被自动路由到 Opus 4.8；同时重置用户速率限制。Cursor 测试显示它在 CursorBench 中表现最强，但单任务成本最高。
> 相关链接：Anthropic 官方公告｜Cursor 性能对比｜速率限制重置说明

GLM-5.2 成首个在 APEX-SWE 集成测试中领先的开源模型

GLM-5.2 在 APEX-SWE 的 Integration 类别拿下 55.3% Pass@1，是首个登顶该子项的开源模型；整体为当前测试中最强开源编码模型，Kimi K2.7 紧随其后。
> 相关链接：APEX-SWE 测试结果

Agent 与工具链

LangChain 推出 OpenWiki：专为 AI Agent 设计的代码库知识维基

OpenWiki 能自动生成和持续更新代码文档，让 Agent 拥有可检索、可维护、可检查的结构化记忆层，解决多轮对话中上下文丢失问题。
> 相关链接：LangChain 官方发布

Cognition 推出 Devin Security Swarm：用 Agentic MapReduce 扫描代码漏洞

系统将代码库分片交给多个轻量 Agent 并行扫描，聚合结果并验证可利用性，已帮某 Fortune 500 公司发现并修复超千个生产环境漏洞。
> 相关链接：Cognition 官方介绍

SkillComposer 提升技能调用准确率：+23.1pp 技能选择正确率

把技能选择建模为联合自回归生成问题，而非简单分类，在 SkillsBench 上比无技能基线高 23.1 个百分点，显著减少工具误用。
> 相关链接：技术细节与评测

基础设施与硬件

NVIDIA TwoTower：2.42 倍更快生成，保留 98.7% 原模型质量

用冻结的上下文模型 + 训练的写作模型组成双塔结构，实现并行 token 生成；30B 模型实测提速 2.42×，质量几乎不掉点。
> 相关链接：NVIDIA 官方介绍

vLLM 新增 DeepSeek 模型原生 DSpark 推理支持

vLLM v0.8.0 加入对 DeepSeek 的 DSpark（投机解码）支持，在 8×B300 上达约 250 tok/s，接受率优于 MTP。
> 相关链接：vLLM 更新日志

研究与方法

AdaJEPA：LeCun 团队提出带测试时自适应的世界模型

通过预测潜在状态误差实现测试阶段动态调整，不依赖大量标注数据；目标是构建可泛化、可纠错的因果世界理解模型。
> 相关链接：论文与解读

NEO：学习可复用的因果‘程序’，不止于下一帧预测

放弃传统视频预测范式，转而训练模型提取可迁移、可组合的因果操作单元（如‘打开门’‘移动物体’），提升跨任务泛化能力。
> 相关链接：技术概述

产品与应用落地

Z.ai 发布 ZCode：GLM-5.2 官方开发环境，支持 BYOK 和跨平台

ZCode 是专为 GLM-5.2 优化的 AI 原生 IDE，强调长任务调度与自主编码流程；订阅用户可获额外配额，已成部分开发者日常主力工具。
> 相关链接：Z.ai 官方发布

Google Gemma 4 WebGPU 版跑出 255 tok/s：M4 笔记本本地实时推理

Gemma 4 量化版通过 WebGPU 在 M4 Mac 上实现 255 tokens/秒推理速度，内核由 Fable 5 辅助编写，无需额外服务依赖。
> 相关链接：Google 工程分享

行业与公司动态

Together Computer 完成 8 亿美元 C 轮融资，估值达 83 亿美元

本轮由 Andreessen Horowitz 领投，资金将用于扩大开源大模型基础设施（包括集群与推理服务），加速开放生态建设。
> 相关链接：融资公告

政策、治理与安全

FLARE-AI 启动：统一 AI 缺陷与事故上报标准

由网络安全与 AI 安全研究者联合发起，旨在打通分散的漏洞提交渠道，让问题能自动分发至对应模型方、芯片商或监管平台。
> 相关链接：FLARE-AI 官网