模型与能力
DeepSeek 永久降价 75%:V4-Pro 便宜到懒得计量
DeepSeek 把 V4-Pro 的 75% 折扣变成永久价,输入 $0.435/M、输出 $0.87/M、缓存输入仅 $0.0036/M。据估算,同等智能水平下成本比 Gemini 3.1 Pro 低 3 倍,比 GPT-5.5 低 12 倍,比 Claude Opus 4.7 低 19 倍。社区认为这是”智能便宜到懒得计量”的节奏。
> 相关链接:DeepSeek 官方推文|量化分析|社区反应
Gemini 3.5 Flash 基准提升,用户反映”优化 eval 而非合作”
Google 的 Gemini 3.5 Flash 在 GDPval 上大幅进步,被认为”达到前沿水平”,并在 Design Arena 跃升 16 名。但多位开发者反馈实际使用提升不大,且成本更高;还有人指出模型像是在”刷 eval”而不是更好配合人类。
> 相关链接:LoganK 报告|实用反馈|怀疑论观点
阿里 Qwen3.7-Max 发布:指令遵循更好,但仍爱啰嗦
Alibaba 的 Qwen3.7-Max 被第三方评价为在指令遵循、上下文可靠性和稳定性上有明显提升,但依然冗长、token 用量高。整体属于渐进式改进,不是颠覆。
> 相关链接:官方预告|第三方评测
中国模型在 ALE-Bench 上超越西方
据 scaling01 分享,近期 ALE-Bench 跑分显示 Kimi-K2.6、DeepSeek-V4、GLM-5.1 等中国模型在代理任务上优于多个西方产品。同时,Cursor Composer 2.5 在编码代理基准上比 Opus 4.7 便宜 3-18 倍,比 GPT-5.5 便宜 5-32 倍。
> 相关链接:跑分对比|Cursor 成本对比
Agent 与工具链
OpenAI Codex 再更新:周四版带来 Appshots、远程锁定等
Codex Thursday No.6 发布 Appshots、/goal 改进、锁屏远程使用、标注模式、插件共享和分析功能。Greg 称 Appshots 是亮点,有用户表示”一个月没打开 IDE”。但另有人指出远程工作流仍有 bug,不如 T3 Code。
> 相关链接:官方更新|用户反馈|对比批评
MCP 协议发布新 RC:无状态化,支持 App/Task 扩展
MCP 2026-07-28 RC 最重要的变化是协议变为无状态——没有握手、没有会话 ID,任何请求可打到任意服务器。新增 MCP Apps 和 Tasks 作为一等扩展,同时加强了认证和弃用策略。对基础设施团队来说,无状态意味着更容易伸缩和负载均衡。
> 相关链接:公告推文
多家公司推出托管沙箱:Gemini Managed Agents、CoreWeave、Cloudsail
Google 展示 Gemini Managed Agents + Interactions API,提供安全 Linux 沙箱;CoreWeave 开放 Sandboxes 公共预览,用于强化学习、工具调用和模型评估;cnakazawa 发布 Cloudsail,为每个任务提供 Cloudflare 沙箱,内嵌 Codex 和 GitHub 访问。
> 相关链接:Gemini 沙箱演示|CoreWeave|Cloudsail
Claude Devs 扩展自动模式至 Pro 计划,支持 Sonnet 4.6
Claude Devs(Claude Code 等)将 auto mode 扩展到 Pro 订阅用户,并加入 Sonnet 4.6 支持。另外,Antigravity 2.0 因用户反对修补了 IDE 支持问题。
> 相关链接:ClaudeDevs 推文|修补说明
开源 Harness 与记忆层爆发:NVIDIA AI-Q、Hermes Bitwarden、gBrain
NVIDIA 开源 AI-Q agent 技能,可插入任意 harness 做深度研究;Teknium 为 Hermes 添加 Bitwarden 密钥管理并恢复 Grok Build 的 256K 上下文;shannholmberg 描述 gBrain 共享记忆层,支持类型化文件夹和优先读取。
> 相关链接:NVIDIA AI-Q|Hermes Bitwarden|gBrain
Cursor SDK 开放,可构建自定义 Agent
Cursor 宣布开放 SDK,允许团队在 Cursor 基础上构建自定义 agent。这是继 Cursor Composer 2.5 成本大幅降低后的又一动作,让编码 Agent 基础设施向第三方开发者开放。
> 相关链接:公告推文
基础设施与硬件
CoreWeave 推出 Sandboxes 公共预览,专为 RL 和 Agent 设计
CoreWeave 的 Sandboxes 进入公共预览,支持强化学习(RL)、agent 工具调用和模型评估。它提供托管环境,解决复杂 RL 工作流对异构硬件的需求。
> 相关链接:公告
Skypilot 团队:现代 RL 不适合 Slurm,需要异构硬件调度
Skypilot 团队指出,现代 RL 是多服务系统,涉及异构硬件和恢复需求,传统的 Slurm 调度无法满足,需要更灵活的集群管理方案。
> 相关链接:讨论帖
研究与方法
向量策略优化(VPO):用多维度奖励替代标量奖励
RyanBoldi 提出 VPO,解决标量奖励在强化学习中导致测试时搜索能力下降的问题。VPO 优化向量值奖励,即使目标仍是标量也能提升搜索性能,有望训练出更适应多样环境的 LLM。
> 相关链接:论文介绍|补充讨论
Agent 编译/蒸馏:完整工作流压缩进模型,推理成本降 100 倍
dair_ai 介绍一项研究:将 agent 的多步调用、工具使用、草稿板等完整工作流蒸馏到模型权重里,推理时无需重跑循环,成本降低约 100 倍且保持近前沿质量。这是让复杂 agent 变得廉价可用的关键思路。
> 相关链接:Highlight
LT2:线性时间循环 Transformer,让循环推理变得实用
ChunyuanDeng 提出 LT2,结合稀疏注意力和线性注意力,使得循环 Transformer 不再昂贵,同时发布蒸馏版 Ouro-hybrid-1.4B。
> 相关链接:论文
ArtifactLinker:预测模型会在哪些基准上达到 SOTA,省去盲目跑分
Allen AI 发布 ArtifactLinker,能在不实际运行模型的情况下预测它会在哪些 benchmark 上实现最优。在基准泛滥的当下,这是一个实用的元评估工具。
> 相关链接:公告
现代 LLM 能无工具完成 100 位乘法,旧观点被推翻
有实验显示 GPT-5.5 在中等推理、无工具条件下达到 99.46% 的多位乘法准确率。teortaxesTex 指出现代 LLM 已能直接做 100 位乘法,削弱了”自回归模型不会算术”的旧论点。
> 相关链接:实验报告|评论
产品与应用落地
Google I/O:Gemini Spark 24/7 个人代理、Project Genie 世界模拟
Google 发布 Gemini Spark,一个 7x24 小时在线的个人 AI agent,可处理重复任务和技能工作流。同时 Project Genie + Street View 能把真实地点变成交互式 3D 世界,面向 AI Ultra 订阅用户。Gemini Omni 还支持对话式视频创作和自定义头像。
> 相关链接:Gemini Spark|Project Genie|Gemini Omni
Runway Aleph 2.0:多镜头 30 秒 1080p 视频,精准局部编辑
Runway 发布 Aleph 2.0,支持多镜头序列最长 30 秒、1080p 分辨率,可对场景中特定元素进行编辑而不影响其他部分。同时 SeeDance 2 Stitcher 能无缝拼接 AI 生成片段。
> 相关链接:Runway|SeeDance
Cartesia Sonic-3.5 登顶 TTS 语音榜,端到端延迟 82ms
Artificial Analysis 的 Speech Arena 排名中,Cartesia Sonic-3.5 以 1218 Elo 分成为第一,支持 42 种语言,自然度和文字跟随能力突出。生产环境中首次音频延迟仅 82ms。
> 相关链接:排名|官方性能
腾讯 Z-Image 6B:无 VAE 的图像生成器,可直接转换 Flux/SD 模型
Tencent 开源 Z-Image 6B,是一种像素级别的图像生成模型,无需 VAE,支持 1K 分辨率,并附带转换框架,可将现有 Flux 或 Stable Diffusion 模型迁移过来。
> 相关链接:介绍
Perplexity 开源 Bumblebee:macOS/Linux 安全扫描器
Perplexity 发布 Bumblebee,一个只读扫描工具,可检测系统中有风险的包、扩展和 AI 工具配置。创始人表示企业部署还需要 agentic 沙箱和持续安全工程。
> 相关链接:开源公告|评论
行业与公司动态
AI21 关闭模型团队,全面转向 Agent;DeepSeek 首次组建 Harness 团队
AI21 关掉大模型团队,转型做 agent。DeepSeek 则首次成立”Harness 团队”,开始做模型外层的配套工具。这表明”模型即产品”的时代正在被”模型+harness”取代。
> 相关链接:AI21 动向|DeepSeek Harness
Greg 表态:“模型本身不再是产品”,各模型厂转型 Agent 平台
OpenAI 的 Greg 在一系列评论中表示,单纯的大模型越来越难以作为产品存在,未来的赢面是 model + harness + workflow + UI 的组合。这被视为整个行业从”模型竞赛”转向”代理平台竞赛”的标志性言论。
> 相关链接:Greg 原文|行业讨论
政策、治理与安全
Anthropic Glasswing 发现超万个高危漏洞,警告行业无法应付
Anthropic 的 Project Glasswing 在不到一个月内从关键软件中挖出超过一万个高或严重漏洞。他们警告说,随着类似 Claude Mythos Preview 的能力提升,行业需要适应漏洞量的激增,否则安全防御会掉队。
> 相关链接:Anthropic 推文
美国移民新政引 AI 界强烈反对:绿卡申请需离境,损害人才管道
一项拟议规则要求绿卡申请人在美国境外提交申请,引发 Andrew Ng、Gary Tan 等多位 AI 领袖抨击,认为这直接伤害高技能移民、创业公司和研究机构,削弱美国在 AI 领域的竞争力。
> 相关链接:Nick_Davidov|AndrewYNg|theo