AI 新闻摘要 2026-05-23 - 酷加的博客

模型与能力

DeepSeek 永久降价 75%：V4-Pro 便宜到懒得计量

DeepSeek 把 V4-Pro 的 75% 折扣变成永久价，输入 $0.435/M、输出 $0.87/M、缓存输入仅 $0.0036/M。据估算，同等智能水平下成本比 Gemini 3.1 Pro 低 3 倍，比 GPT-5.5 低 12 倍，比 Claude Opus 4.7 低 19 倍。社区认为这是”智能便宜到懒得计量”的节奏。
> 相关链接：DeepSeek 官方推文｜量化分析｜社区反应

Gemini 3.5 Flash 基准提升，用户反映”优化 eval 而非合作”

Google 的 Gemini 3.5 Flash 在 GDPval 上大幅进步，被认为”达到前沿水平”，并在 Design Arena 跃升 16 名。但多位开发者反馈实际使用提升不大，且成本更高；还有人指出模型像是在”刷 eval”而不是更好配合人类。
> 相关链接：LoganK 报告｜实用反馈｜怀疑论观点

阿里 Qwen3.7-Max 发布：指令遵循更好，但仍爱啰嗦

Alibaba 的 Qwen3.7-Max 被第三方评价为在指令遵循、上下文可靠性和稳定性上有明显提升，但依然冗长、token 用量高。整体属于渐进式改进，不是颠覆。
> 相关链接：官方预告｜第三方评测

中国模型在 ALE-Bench 上超越西方

据 scaling01 分享，近期 ALE-Bench 跑分显示 Kimi-K2.6、DeepSeek-V4、GLM-5.1 等中国模型在代理任务上优于多个西方产品。同时，Cursor Composer 2.5 在编码代理基准上比 Opus 4.7 便宜 3-18 倍，比 GPT-5.5 便宜 5-32 倍。
> 相关链接：跑分对比｜Cursor 成本对比

Agent 与工具链

OpenAI Codex 再更新：周四版带来 Appshots、远程锁定等

Codex Thursday No.6 发布 Appshots、/goal 改进、锁屏远程使用、标注模式、插件共享和分析功能。Greg 称 Appshots 是亮点，有用户表示”一个月没打开 IDE”。但另有人指出远程工作流仍有 bug，不如 T3 Code。
> 相关链接：官方更新｜用户反馈｜对比批评

MCP 协议发布新 RC：无状态化，支持 App/Task 扩展

MCP 2026-07-28 RC 最重要的变化是协议变为无状态——没有握手、没有会话 ID，任何请求可打到任意服务器。新增 MCP Apps 和 Tasks 作为一等扩展，同时加强了认证和弃用策略。对基础设施团队来说，无状态意味着更容易伸缩和负载均衡。
> 相关链接：公告推文

多家公司推出托管沙箱：Gemini Managed Agents、CoreWeave、Cloudsail

Google 展示 Gemini Managed Agents + Interactions API，提供安全 Linux 沙箱；CoreWeave 开放 Sandboxes 公共预览，用于强化学习、工具调用和模型评估；cnakazawa 发布 Cloudsail，为每个任务提供 Cloudflare 沙箱，内嵌 Codex 和 GitHub 访问。
> 相关链接：Gemini 沙箱演示｜CoreWeave｜Cloudsail

Claude Devs 扩展自动模式至 Pro 计划，支持 Sonnet 4.6

Claude Devs（Claude Code 等）将 auto mode 扩展到 Pro 订阅用户，并加入 Sonnet 4.6 支持。另外，Antigravity 2.0 因用户反对修补了 IDE 支持问题。
> 相关链接：ClaudeDevs 推文｜修补说明

开源 Harness 与记忆层爆发：NVIDIA AI-Q、Hermes Bitwarden、gBrain

NVIDIA 开源 AI-Q agent 技能，可插入任意 harness 做深度研究；Teknium 为 Hermes 添加 Bitwarden 密钥管理并恢复 Grok Build 的 256K 上下文；shannholmberg 描述 gBrain 共享记忆层，支持类型化文件夹和优先读取。
> 相关链接：NVIDIA AI-Q｜Hermes Bitwarden｜gBrain

Cursor SDK 开放，可构建自定义 Agent

Cursor 宣布开放 SDK，允许团队在 Cursor 基础上构建自定义 agent。这是继 Cursor Composer 2.5 成本大幅降低后的又一动作，让编码 Agent 基础设施向第三方开发者开放。
> 相关链接：公告推文

基础设施与硬件

CoreWeave 推出 Sandboxes 公共预览，专为 RL 和 Agent 设计

CoreWeave 的 Sandboxes 进入公共预览，支持强化学习（RL）、agent 工具调用和模型评估。它提供托管环境，解决复杂 RL 工作流对异构硬件的需求。
> 相关链接：公告

Skypilot 团队：现代 RL 不适合 Slurm，需要异构硬件调度

Skypilot 团队指出，现代 RL 是多服务系统，涉及异构硬件和恢复需求，传统的 Slurm 调度无法满足，需要更灵活的集群管理方案。
> 相关链接：讨论帖

研究与方法

向量策略优化（VPO）：用多维度奖励替代标量奖励

RyanBoldi 提出 VPO，解决标量奖励在强化学习中导致测试时搜索能力下降的问题。VPO 优化向量值奖励，即使目标仍是标量也能提升搜索性能，有望训练出更适应多样环境的 LLM。
> 相关链接：论文介绍｜补充讨论

Agent 编译/蒸馏：完整工作流压缩进模型，推理成本降 100 倍

dair_ai 介绍一项研究：将 agent 的多步调用、工具使用、草稿板等完整工作流蒸馏到模型权重里，推理时无需重跑循环，成本降低约 100 倍且保持近前沿质量。这是让复杂 agent 变得廉价可用的关键思路。
> 相关链接：Highlight

LT2：线性时间循环 Transformer，让循环推理变得实用

ChunyuanDeng 提出 LT2，结合稀疏注意力和线性注意力，使得循环 Transformer 不再昂贵，同时发布蒸馏版 Ouro-hybrid-1.4B。
> 相关链接：论文

ArtifactLinker：预测模型会在哪些基准上达到 SOTA，省去盲目跑分

Allen AI 发布 ArtifactLinker，能在不实际运行模型的情况下预测它会在哪些 benchmark 上实现最优。在基准泛滥的当下，这是一个实用的元评估工具。
> 相关链接：公告

现代 LLM 能无工具完成 100 位乘法，旧观点被推翻

有实验显示 GPT-5.5 在中等推理、无工具条件下达到 99.46% 的多位乘法准确率。teortaxesTex 指出现代 LLM 已能直接做 100 位乘法，削弱了”自回归模型不会算术”的旧论点。
> 相关链接：实验报告｜评论

产品与应用落地

Google I/O：Gemini Spark 24/7 个人代理、Project Genie 世界模拟

Google 发布 Gemini Spark，一个 7x24 小时在线的个人 AI agent，可处理重复任务和技能工作流。同时 Project Genie + Street View 能把真实地点变成交互式 3D 世界，面向 AI Ultra 订阅用户。Gemini Omni 还支持对话式视频创作和自定义头像。
> 相关链接：Gemini Spark｜Project Genie｜Gemini Omni

Runway Aleph 2.0：多镜头 30 秒 1080p 视频，精准局部编辑

Runway 发布 Aleph 2.0，支持多镜头序列最长 30 秒、1080p 分辨率，可对场景中特定元素进行编辑而不影响其他部分。同时 SeeDance 2 Stitcher 能无缝拼接 AI 生成片段。
> 相关链接：Runway｜SeeDance

Cartesia Sonic-3.5 登顶 TTS 语音榜，端到端延迟 82ms

Artificial Analysis 的 Speech Arena 排名中，Cartesia Sonic-3.5 以 1218 Elo 分成为第一，支持 42 种语言，自然度和文字跟随能力突出。生产环境中首次音频延迟仅 82ms。
> 相关链接：排名｜官方性能

腾讯 Z-Image 6B：无 VAE 的图像生成器，可直接转换 Flux/SD 模型

Tencent 开源 Z-Image 6B，是一种像素级别的图像生成模型，无需 VAE，支持 1K 分辨率，并附带转换框架，可将现有 Flux 或 Stable Diffusion 模型迁移过来。
> 相关链接：介绍

Perplexity 开源 Bumblebee：macOS/Linux 安全扫描器

Perplexity 发布 Bumblebee，一个只读扫描工具，可检测系统中有风险的包、扩展和 AI 工具配置。创始人表示企业部署还需要 agentic 沙箱和持续安全工程。
> 相关链接：开源公告｜评论

行业与公司动态

AI21 关闭模型团队，全面转向 Agent；DeepSeek 首次组建 Harness 团队

AI21 关掉大模型团队，转型做 agent。DeepSeek 则首次成立”Harness 团队”，开始做模型外层的配套工具。这表明”模型即产品”的时代正在被”模型+harness”取代。
> 相关链接：AI21 动向｜DeepSeek Harness

Greg 表态：“模型本身不再是产品”，各模型厂转型 Agent 平台

OpenAI 的 Greg 在一系列评论中表示，单纯的大模型越来越难以作为产品存在，未来的赢面是 model + harness + workflow + UI 的组合。这被视为整个行业从”模型竞赛”转向”代理平台竞赛”的标志性言论。
> 相关链接：Greg 原文｜行业讨论

政策、治理与安全

Anthropic Glasswing 发现超万个高危漏洞，警告行业无法应付

Anthropic 的 Project Glasswing 在不到一个月内从关键软件中挖出超过一万个高或严重漏洞。他们警告说，随着类似 Claude Mythos Preview 的能力提升，行业需要适应漏洞量的激增，否则安全防御会掉队。
> 相关链接：Anthropic 推文

美国移民新政引 AI 界强烈反对：绿卡申请需离境，损害人才管道

一项拟议规则要求绿卡申请人在美国境外提交申请，引发 Andrew Ng、Gary Tan 等多位 AI 领袖抨击，认为这直接伤害高技能移民、创业公司和研究机构，削弱美国在 AI 领域的竞争力。
> 相关链接：Nick_Davidov｜AndrewYNg｜theo