AI 新闻摘要 2026-07-02

发布于 2026年07月02日

模型与能力

Anthropic 重启 Claude Fable 5,但加了安全兜底机制

Fable 5 正式恢复上线,但部分请求(尤其涉及网络安全、生物/化学内容)会被自动路由到 Opus 4.8;同时重置用户速率限制。Cursor 测试显示它在 CursorBench 中表现最强,但单任务成本最高。
> 相关链接:Anthropic 官方公告Cursor 性能对比速率限制重置说明

GLM-5.2 成首个在 APEX-SWE 集成测试中领先的开源模型

GLM-5.2 在 APEX-SWE 的 Integration 类别拿下 55.3% Pass@1,是首个登顶该子项的开源模型;整体为当前测试中最强开源编码模型,Kimi K2.7 紧随其后。
> 相关链接:APEX-SWE 测试结果


Agent 与工具链

LangChain 推出 OpenWiki:专为 AI Agent 设计的代码库知识维基

OpenWiki 能自动生成和持续更新代码文档,让 Agent 拥有可检索、可维护、可检查的结构化记忆层,解决多轮对话中上下文丢失问题。
> 相关链接:LangChain 官方发布

Cognition 推出 Devin Security Swarm:用 Agentic MapReduce 扫描代码漏洞

系统将代码库分片交给多个轻量 Agent 并行扫描,聚合结果并验证可利用性,已帮某 Fortune 500 公司发现并修复超千个生产环境漏洞。
> 相关链接:Cognition 官方介绍

SkillComposer 提升技能调用准确率:+23.1pp 技能选择正确率

把技能选择建模为联合自回归生成问题,而非简单分类,在 SkillsBench 上比无技能基线高 23.1 个百分点,显著减少工具误用。
> 相关链接:技术细节与评测


基础设施与硬件

NVIDIA TwoTower:2.42 倍更快生成,保留 98.7% 原模型质量

用冻结的上下文模型 + 训练的写作模型组成双塔结构,实现并行 token 生成;30B 模型实测提速 2.42×,质量几乎不掉点。
> 相关链接:NVIDIA 官方介绍

vLLM 新增 DeepSeek 模型原生 DSpark 推理支持

vLLM v0.8.0 加入对 DeepSeek 的 DSpark(投机解码)支持,在 8×B300 上达约 250 tok/s,接受率优于 MTP。
> 相关链接:vLLM 更新日志


研究与方法

AdaJEPA:LeCun 团队提出带测试时自适应的世界模型

通过预测潜在状态误差实现测试阶段动态调整,不依赖大量标注数据;目标是构建可泛化、可纠错的因果世界理解模型。
> 相关链接:论文与解读

NEO:学习可复用的因果‘程序’,不止于下一帧预测

放弃传统视频预测范式,转而训练模型提取可迁移、可组合的因果操作单元(如‘打开门’‘移动物体’),提升跨任务泛化能力。
> 相关链接:技术概述


产品与应用落地

Z.ai 发布 ZCode:GLM-5.2 官方开发环境,支持 BYOK 和跨平台

ZCode 是专为 GLM-5.2 优化的 AI 原生 IDE,强调长任务调度与自主编码流程;订阅用户可获额外配额,已成部分开发者日常主力工具。
> 相关链接:Z.ai 官方发布

Google Gemma 4 WebGPU 版跑出 255 tok/s:M4 笔记本本地实时推理

Gemma 4 量化版通过 WebGPU 在 M4 Mac 上实现 255 tokens/秒推理速度,内核由 Fable 5 辅助编写,无需额外服务依赖。
> 相关链接:Google 工程分享


行业与公司动态

Together Computer 完成 8 亿美元 C 轮融资,估值达 83 亿美元

本轮由 Andreessen Horowitz 领投,资金将用于扩大开源大模型基础设施(包括集群与推理服务),加速开放生态建设。
> 相关链接:融资公告


政策、治理与安全

FLARE-AI 启动:统一 AI 缺陷与事故上报标准

由网络安全与 AI 安全研究者联合发起,旨在打通分散的漏洞提交渠道,让问题能自动分发至对应模型方、芯片商或监管平台。
> 相关链接:FLARE-AI 官网




评论