基础设施与硬件
SpaceX 成为全球顶级GPU租赁商:年合同额达 280 亿美元
SpaceX 已与 Reflection AI、Anthropic、Google 签下三笔大型 GPU 租赁协议,按 Blackwell 芯片折算,月租超 23 亿美元(约 10 美元/小时),年化达 280 亿美元——相当于 Coreweave 当前年收入的两倍。
> 相关链接:Latent Space 原文
模型与能力
GLM-5.2 成首个被广泛采用的开源前沿级代理模型
GLM-5.2 在 GDPval-AA 榜单上排名第三(1524 Elo),仅次于 Claude Fable 5 和 Opus 4.8;实测中比 Opus 更便宜($0.41 vs $0.81)、更鲁棒(能清理死代码并验证构建),已登陆 AWS Marketplace、Baseten、Fireworks 等 20+ 平台。
> 相关链接:Artificial Analysis 评测|Cline 实测对比
OpenAI 发布 GPT-5.5-Cyber:从找漏洞升级到自动生成补丁
GPT-5.5-Cyber 不再只扫描漏洞,而是能结合 Codex Security 插件完成威胁建模、补丁生成、人工审核闭环;已覆盖 cURL、Go、Python 等关键开源项目,自动发现 50 万+ 修复项。
> 相关链接:OpenAI 官宣|Scope 细节
Agent 与工具链
Google 正式发布 Gemini Interactions API:首个带沙箱的全栈代理接口
Gemini Interactions API 现已 GA,支持异步后台执行、多模态生成、工具调用,并内置隔离 Linux 沙箱「Antigravity」;同时推出可安装的 SDK 技能包,帮开发者快速迁移旧代理逻辑。
> 相关链接:Google 官方公告|Antigravity 沙箱说明
Sakana 推出 Fugu:用学习型编排替代单一大模型调用
Fugu 不是新模型,而是一个「智能路由层」:自动选择、拆分、验证、合成多个模型输出;已在 Vercel AI Gateway 上线 Fugu Ultra,实测在盲棋、CAD 设计等长周期任务中优于单次调用。
> 相关链接:Sakana 官方发布|Vercel 集成
Hermes 支持 GUI 控制 Windows/Linux 桌面应用
Hermes 新增跨平台桌面控制能力,无需 Mac 即可接入 iMessage,还能通过 Raft 协议接入共享工作区;GitHub 星标突破 20 万,成为最火本地代理平台之一。
> 相关链接:GUI 控制更新|iMessage 支持
研究与方法
LLM 评测法官可靠性遭质疑:Kappa 系数比准确率低 33–41 分
对 21 个 LLM 评测模型的大规模审计发现:用「完全匹配」算一致性会严重高估质量;改用 Cohen’s kappa 后,MT-Bench 上各法官排名大幅变动,提醒团队慎用 Judge-as-a-Service。
> 相关链接:DAIR AI 审计报告
业界共识转向「系统级评测」:不再只看单轮问答分数
主流观点认为,评估代理应关注「能否主动发现、预判、协作」,而非仅测试单次响应;GLM 在 Cline 的真实 bug 修复、Daybreak 的闭环补丁流程、Fugu 的长周期协调,都是系统行为范例。
> 相关链接:Jules 观点|rseroter 分析
产品与应用落地
Baseten 获 13 亿美元 F 轮融资:押注企业「自有智能层」
Baseten 宣布完成 13 亿美元融资,客户包括 Cursor、Notion、Harvey 等;核心主张是:企业正把模型微调、私有数据训练、持续学习能力作为标配,而非依赖黑盒 API。
> 相关链接:Baseten 官宣|CEO 论述
行业与公司动态
Reflection AI 与 SpaceX 签下 63 亿美元 GB300 计算协议
Reflection AI 向 SpaceX 租赁 GB300 算力,合同金额达 63 亿美元;结合此前 Anthropic 和 Google 的订单,SpaceX 已成继 Coreweave、Lambda Labs 后又一重要 AI 算力供应商。
> 相关链接:交易报道|Jamin Ball 分析
政策、治理与安全
OpenAI 网络安全模型引发出口管制争议
OpenAI 宣称 GPT-5.5-Cyber 在 CyberGym 达 SOTA,但未受类似 Anthropic Mythos/Fable 的出口限制;专家质疑:若能力更强,为何监管尺度不一?NSA 红队已失去 Mythos 访问权限。
> 相关链接:Sama 声明|BlackHC 提问