AI 新闻摘要 2026-06-23

基础设施与硬件

SpaceX 成为全球顶级GPU租赁商：年合同额达 280 亿美元

SpaceX 已与 Reflection AI、Anthropic、Google 签下三笔大型 GPU 租赁协议，按 Blackwell 芯片折算，月租超 23 亿美元（约 10 美元/小时），年化达 280 亿美元——相当于 Coreweave 当前年收入的两倍。
> 相关链接：Latent Space 原文

模型与能力

GLM-5.2 成首个被广泛采用的开源前沿级代理模型

GLM-5.2 在 GDPval-AA 榜单上排名第三（1524 Elo），仅次于 Claude Fable 5 和 Opus 4.8；实测中比 Opus 更便宜（$0.41 vs $0.81）、更鲁棒（能清理死代码并验证构建），已登陆 AWS Marketplace、Baseten、Fireworks 等 20+ 平台。
> 相关链接：Artificial Analysis 评测｜Cline 实测对比

OpenAI 发布 GPT-5.5-Cyber：从找漏洞升级到自动生成补丁

GPT-5.5-Cyber 不再只扫描漏洞，而是能结合 Codex Security 插件完成威胁建模、补丁生成、人工审核闭环；已覆盖 cURL、Go、Python 等关键开源项目，自动发现 50 万+ 修复项。
> 相关链接：OpenAI 官宣｜Scope 细节

Agent 与工具链

Google 正式发布 Gemini Interactions API：首个带沙箱的全栈代理接口

Gemini Interactions API 现已 GA，支持异步后台执行、多模态生成、工具调用，并内置隔离 Linux 沙箱「Antigravity」；同时推出可安装的 SDK 技能包，帮开发者快速迁移旧代理逻辑。
> 相关链接：Google 官方公告｜Antigravity 沙箱说明

Sakana 推出 Fugu：用学习型编排替代单一大模型调用

Fugu 不是新模型，而是一个「智能路由层」：自动选择、拆分、验证、合成多个模型输出；已在 Vercel AI Gateway 上线 Fugu Ultra，实测在盲棋、CAD 设计等长周期任务中优于单次调用。
> 相关链接：Sakana 官方发布｜Vercel 集成

Hermes 支持 GUI 控制 Windows/Linux 桌面应用

Hermes 新增跨平台桌面控制能力，无需 Mac 即可接入 iMessage，还能通过 Raft 协议接入共享工作区；GitHub 星标突破 20 万，成为最火本地代理平台之一。
> 相关链接：GUI 控制更新｜iMessage 支持

研究与方法

LLM 评测法官可靠性遭质疑：Kappa 系数比准确率低 33–41 分

对 21 个 LLM 评测模型的大规模审计发现：用「完全匹配」算一致性会严重高估质量；改用 Cohen’s kappa 后，MT-Bench 上各法官排名大幅变动，提醒团队慎用 Judge-as-a-Service。
> 相关链接：DAIR AI 审计报告

业界共识转向「系统级评测」：不再只看单轮问答分数

主流观点认为，评估代理应关注「能否主动发现、预判、协作」，而非仅测试单次响应；GLM 在 Cline 的真实 bug 修复、Daybreak 的闭环补丁流程、Fugu 的长周期协调，都是系统行为范例。
> 相关链接：Jules 观点｜rseroter 分析

产品与应用落地

Baseten 获 13 亿美元 F 轮融资：押注企业「自有智能层」

Baseten 宣布完成 13 亿美元融资，客户包括 Cursor、Notion、Harvey 等；核心主张是：企业正把模型微调、私有数据训练、持续学习能力作为标配，而非依赖黑盒 API。
> 相关链接：Baseten 官宣｜CEO 论述

行业与公司动态

Reflection AI 与 SpaceX 签下 63 亿美元 GB300 计算协议

Reflection AI 向 SpaceX 租赁 GB300 算力，合同金额达 63 亿美元；结合此前 Anthropic 和 Google 的订单，SpaceX 已成继 Coreweave、Lambda Labs 后又一重要 AI 算力供应商。
> 相关链接：交易报道｜Jamin Ball 分析

政策、治理与安全

OpenAI 网络安全模型引发出口管制争议

OpenAI 宣称 GPT-5.5-Cyber 在 CyberGym 达 SOTA，但未受类似 Anthropic Mythos/Fable 的出口限制；专家质疑：若能力更强，为何监管尺度不一？NSA 红队已失去 Mythos 访问权限。
> 相关链接：Sama 声明｜BlackHC 提问