AI 新闻摘要 2026-04-24

模型与能力

OpenAI 上线 GPT-5.5：更强代理能力与 1M 上下文

OpenAI 发布 GPT-5.5，API 价格$5/$30每百万 token，Pro 版$30/$180。支持 1M 上下文，终端基准测试 82.7%，SWE-Bench Pro 58.6%。token 效率比 5.4 更高，但 API 访问略有延迟。
> 相关链接：官方发布｜价格与评测

DeepSeek-V4 预览版开源：1.6T 参数与极低价格

DeepSeek 开源 V4 预览版（MIT 协议），V4-Pro 总参 1.6T/激活 49B，V4-Flash 激活 13B。均支持 1M 上下文。价格极具侵略性：Flash 仅$0.14/$0.28，Pro 为$1.74/$3.48。
> 相关链接：模型发布｜价格详情

Anthropic 修复 Claude Code 回归问题

Anthropic 承认 Claude Code 质量因三个问题出现滑坡，已在 v2.1.116+ 版本修复。引发社区对代理 Harness 敏感性和回归测试重要性的讨论。
> 相关链接：修复说明

Agent 与工具链

OpenAI Codex 升级为超级应用底座

Codex 新增浏览器控制、Office 套件操作、全系统听写及自动审查模式。OpenAI 意图将其打造为超级应用基础，支持跨应用工作流和夜间实验运行。
> 相关链接：功能更新｜策略分析

Sakana AI 推出 Fugu 多代理编排 API

Fugu 测试版上线，可动态选择协调前沿模型。声称在 SWE-Pro 等基准达 SOTA，支持递归测试时缩放。代理正变为异构工具与模型的编排层。
> 相关链接：产品介绍

LangSmith Fleet 新增文件编辑与演示生成

LangChain 扩展 LangSmith Fleet，支持文件编辑、网页/演示文稿生成及斜杠命令技能。演示渲染器被视为有用的代理原生工件格式。
> 相关链接：更新日志

Cua 开源 macOS 代理驱动

Cua 开源 Cua Driver，允许代理在后台控制任意 macOS 应用，支持多玩家/多光标。解决了代理控制表面的关键基础设施问题。
> 相关链接：开源项目

Hermes Agent v0.11.0 支持 GPT-5.5

Hermes Agent 发布新版本，扩展提供商支持，增加图像生成，并立即支持 GPT-5.5。贡献者 releases 较大，生态活跃度提升。
> 相关链接：版本发布

代理架构趋势：无状态决策记忆

社区讨论转向企业代理的无状态决策记忆，用不可变日志替代可变状态，提升水平扩展性和审计能力。Trace 数据到评估是核心飞轮。
> 相关链接：技术讨论

基础设施与硬件

Together AI 月 token 处理量达 300T

Together AI 报告月 token 处理量从 30B 增长至 300T，同比增长显著。表明推理需求正在大规模扩张，基础设施负载加重。
> 相关链接：增长数据

Epoch AI 下调 Stargate 功耗预估

Epoch AI 将 Stargate Abilene 当前运营功耗下调至 0.3GW， full 1.2GW 里程碑推迟至 2026 年 Q4。前沿算力部署追踪仍存在不确定性。
> 相关链接：功耗报告

vLLM 与 SGLang 即日支持 DeepSeek-V4

针对 DeepSeek-V4 新注意力机制，vLLM 宣布即日支持，SGLang shipped 优化及 RL 流水线支持。基础设施响应速度显著加快。
> 相关链接：vLLM 支持｜SGLang 优化

研究与方法

Google Decoupled DiLoCo 解决全球分布式训练

Google 提出 Decoupled DiLoCo，解耦分布式低通信训练，支持全球数据中心异构硬件容错。旨在解决巨型训练任务在故障基础设施上的存活问题。
> 相关链接：论文解读

DeepMind Vision Banana 统一视觉生成任务

Vision Banana 将 2D/3D 视觉任务视为图像生成，在多个任务上超越专用 SOTA。预示分割、深度等任务可能转向统一多模态骨干网。
> 相关链接：研究发布

自博弈算法让 7B 模型媲美百倍大模型

新论文提出自博弈算法，使 7B 模型解决问题数量达到百倍大模型 pass@4 水平。表明算法缩放比 brute-force 采样更有效。
> 相关链接：论文讨论

神经垃圾回收：RL 管理 KV Cache

研究提出通过强化学习让模型管理自身 KV Cache，而非固定启发式。对长程代理任务可能是重要方向，提升上下文效率。
> 相关链接：技术线程

Omni 模型中的上下文展开研究

新研究提出统一模型跨文本、图像、视频、3D 训练，显式展开跨模态推理。趋势是将感知/生成任务折叠进更少的一般多模态骨干网。
> 相关链接：研究分享

产品与应用落地

LTX 推出 HDR 视频生成测试版

LTX HDR beta 主张 AI 视频生产瓶颈在于动态范围而非分辨率。支持超越 8-bit SDR 的素材，可承受后期调色与合成，更具生产价值。
> 相关链接：产品测试

Meta 开源 Sapiens2 人体感知模型

Meta 发布 Sapiens2，基于 10 亿张人体图像训练的高分辨率视觉 Transformer。用于人体中心感知任务，开源社区可用。
> 相关链接：模型开源

World Labs 推出交互式 3D 创作工具

World Labs 围绕 Marble 1.1 + Spark LoD 启动 World Jam。旨在推动交互式 3D 内容创作，降低 3D 生成门槛。
> 相关链接：活动页面

ml-intern 通过实习风格测试

Hugging Face adjacent 项目 ml-intern 在 15 分钟内通过实习风格测试。显示自主编码/研究 Harness 作为独立产品的兴趣浓厚，尽管 token 消耗高。
> 相关链接：测试报告

行业与公司动态

OpenAI 定位为 AI 推理公司

Sam Altman framing 公司日益成为 AI 推理公司。GPT-5.5 协同设计用于 NVIDIA GB200/300 系统，模型自身帮助改进推理栈。
> 相关链接：战略动向

DeepSeek 定价策略极具侵略性

DeepSeek-V4 定价远低于同行，Flash 版尤其 disruptive。但 Pro 版吞吐量受高端算力限制，未来依赖 Ascend 950 availability 降价。
> 相关链接：市场分析