AI 新闻摘要 2026-06-23

发布于 2026年06月23日

基础设施与硬件

SpaceX 成为全球顶级GPU租赁商:年合同额达 280 亿美元

SpaceX 已与 Reflection AI、Anthropic、Google 签下三笔大型 GPU 租赁协议,按 Blackwell 芯片折算,月租超 23 亿美元(约 10 美元/小时),年化达 280 亿美元——相当于 Coreweave 当前年收入的两倍。
> 相关链接:Latent Space 原文


模型与能力

GLM-5.2 成首个被广泛采用的开源前沿级代理模型

GLM-5.2 在 GDPval-AA 榜单上排名第三(1524 Elo),仅次于 Claude Fable 5 和 Opus 4.8;实测中比 Opus 更便宜($0.41 vs $0.81)、更鲁棒(能清理死代码并验证构建),已登陆 AWS Marketplace、Baseten、Fireworks 等 20+ 平台。
> 相关链接:Artificial Analysis 评测Cline 实测对比

OpenAI 发布 GPT-5.5-Cyber:从找漏洞升级到自动生成补丁

GPT-5.5-Cyber 不再只扫描漏洞,而是能结合 Codex Security 插件完成威胁建模、补丁生成、人工审核闭环;已覆盖 cURL、Go、Python 等关键开源项目,自动发现 50 万+ 修复项。
> 相关链接:OpenAI 官宣Scope 细节


Agent 与工具链

Google 正式发布 Gemini Interactions API:首个带沙箱的全栈代理接口

Gemini Interactions API 现已 GA,支持异步后台执行、多模态生成、工具调用,并内置隔离 Linux 沙箱「Antigravity」;同时推出可安装的 SDK 技能包,帮开发者快速迁移旧代理逻辑。
> 相关链接:Google 官方公告Antigravity 沙箱说明

Sakana 推出 Fugu:用学习型编排替代单一大模型调用

Fugu 不是新模型,而是一个「智能路由层」:自动选择、拆分、验证、合成多个模型输出;已在 Vercel AI Gateway 上线 Fugu Ultra,实测在盲棋、CAD 设计等长周期任务中优于单次调用。
> 相关链接:Sakana 官方发布Vercel 集成

Hermes 支持 GUI 控制 Windows/Linux 桌面应用

Hermes 新增跨平台桌面控制能力,无需 Mac 即可接入 iMessage,还能通过 Raft 协议接入共享工作区;GitHub 星标突破 20 万,成为最火本地代理平台之一。
> 相关链接:GUI 控制更新iMessage 支持


研究与方法

LLM 评测法官可靠性遭质疑:Kappa 系数比准确率低 33–41 分

对 21 个 LLM 评测模型的大规模审计发现:用「完全匹配」算一致性会严重高估质量;改用 Cohen’s kappa 后,MT-Bench 上各法官排名大幅变动,提醒团队慎用 Judge-as-a-Service。
> 相关链接:DAIR AI 审计报告

业界共识转向「系统级评测」:不再只看单轮问答分数

主流观点认为,评估代理应关注「能否主动发现、预判、协作」,而非仅测试单次响应;GLM 在 Cline 的真实 bug 修复、Daybreak 的闭环补丁流程、Fugu 的长周期协调,都是系统行为范例。
> 相关链接:Jules 观点rseroter 分析


产品与应用落地

Baseten 获 13 亿美元 F 轮融资:押注企业「自有智能层」

Baseten 宣布完成 13 亿美元融资,客户包括 Cursor、Notion、Harvey 等;核心主张是:企业正把模型微调、私有数据训练、持续学习能力作为标配,而非依赖黑盒 API。
> 相关链接:Baseten 官宣CEO 论述


行业与公司动态

Reflection AI 与 SpaceX 签下 63 亿美元 GB300 计算协议

Reflection AI 向 SpaceX 租赁 GB300 算力,合同金额达 63 亿美元;结合此前 Anthropic 和 Google 的订单,SpaceX 已成继 Coreweave、Lambda Labs 后又一重要 AI 算力供应商。
> 相关链接:交易报道Jamin Ball 分析


政策、治理与安全

OpenAI 网络安全模型引发出口管制争议

OpenAI 宣称 GPT-5.5-Cyber 在 CyberGym 达 SOTA,但未受类似 Anthropic Mythos/Fable 的出口限制;专家质疑:若能力更强,为何监管尺度不一?NSA 红队已失去 Mythos 访问权限。
> 相关链接:Sama 声明BlackHC 提问




评论