AI 新闻摘要 2026-04-24

发布于 2026年04月29日

模型与能力

OpenAI 上线 GPT-5.5:更强代理能力与 1M 上下文

OpenAI 发布 GPT-5.5,API 价格$5/$30每百万 token,Pro 版$30/$180。支持 1M 上下文,终端基准测试 82.7%,SWE-Bench Pro 58.6%。token 效率比 5.4 更高,但 API 访问略有延迟。
> 相关链接:官方发布价格与评测

DeepSeek-V4 预览版开源:1.6T 参数与极低价格

DeepSeek 开源 V4 预览版(MIT 协议),V4-Pro 总参 1.6T/激活 49B,V4-Flash 激活 13B。均支持 1M 上下文。价格极具侵略性:Flash 仅$0.14/$0.28,Pro 为$1.74/$3.48。
> 相关链接:模型发布价格详情

Anthropic 修复 Claude Code 回归问题

Anthropic 承认 Claude Code 质量因三个问题出现滑坡,已在 v2.1.116+ 版本修复。引发社区对代理 Harness 敏感性和回归测试重要性的讨论。
> 相关链接:修复说明


Agent 与工具链

OpenAI Codex 升级为超级应用底座

Codex 新增浏览器控制、Office 套件操作、全系统听写及自动审查模式。OpenAI 意图将其打造为超级应用基础,支持跨应用工作流和夜间实验运行。
> 相关链接:功能更新策略分析

Sakana AI 推出 Fugu 多代理编排 API

Fugu 测试版上线,可动态选择协调前沿模型。声称在 SWE-Pro 等基准达 SOTA,支持递归测试时缩放。代理正变为异构工具与模型的编排层。
> 相关链接:产品介绍

LangSmith Fleet 新增文件编辑与演示生成

LangChain 扩展 LangSmith Fleet,支持文件编辑、网页/演示文稿生成及斜杠命令技能。演示渲染器被视为有用的代理原生工件格式。
> 相关链接:更新日志

Cua 开源 macOS 代理驱动

Cua 开源 Cua Driver,允许代理在后台控制任意 macOS 应用,支持多玩家/多光标。解决了代理控制表面的关键基础设施问题。
> 相关链接:开源项目

Hermes Agent v0.11.0 支持 GPT-5.5

Hermes Agent 发布新版本,扩展提供商支持,增加图像生成,并立即支持 GPT-5.5。贡献者 releases 较大,生态活跃度提升。
> 相关链接:版本发布

代理架构趋势:无状态决策记忆

社区讨论转向企业代理的无状态决策记忆,用不可变日志替代可变状态,提升水平扩展性和审计能力。Trace 数据到评估是核心飞轮。
> 相关链接:技术讨论


基础设施与硬件

Together AI 月 token 处理量达 300T

Together AI 报告月 token 处理量从 30B 增长至 300T,同比增长显著。表明推理需求正在大规模扩张,基础设施负载加重。
> 相关链接:增长数据

Epoch AI 下调 Stargate 功耗预估

Epoch AI 将 Stargate Abilene 当前运营功耗下调至 0.3GW, full 1.2GW 里程碑推迟至 2026 年 Q4。前沿算力部署追踪仍存在不确定性。
> 相关链接:功耗报告

vLLM 与 SGLang 即日支持 DeepSeek-V4

针对 DeepSeek-V4 新注意力机制,vLLM 宣布即日支持,SGLang shipped 优化及 RL 流水线支持。基础设施响应速度显著加快。
> 相关链接:vLLM 支持SGLang 优化


研究与方法

Google Decoupled DiLoCo 解决全球分布式训练

Google 提出 Decoupled DiLoCo,解耦分布式低通信训练,支持全球数据中心异构硬件容错。旨在解决巨型训练任务在故障基础设施上的存活问题。
> 相关链接:论文解读

DeepMind Vision Banana 统一视觉生成任务

Vision Banana 将 2D/3D 视觉任务视为图像生成,在多个任务上超越专用 SOTA。预示分割、深度等任务可能转向统一多模态骨干网。
> 相关链接:研究发布

自博弈算法让 7B 模型媲美百倍大模型

新论文提出自博弈算法,使 7B 模型解决问题数量达到百倍大模型 pass@4 水平。表明算法缩放比 brute-force 采样更有效。
> 相关链接:论文讨论

神经垃圾回收:RL 管理 KV Cache

研究提出通过强化学习让模型管理自身 KV Cache,而非固定启发式。对长程代理任务可能是重要方向,提升上下文效率。
> 相关链接:技术线程

Omni 模型中的上下文展开研究

新研究提出统一模型跨文本、图像、视频、3D 训练,显式展开跨模态推理。趋势是将感知/生成任务折叠进更少的一般多模态骨干网。
> 相关链接:研究分享


产品与应用落地

LTX 推出 HDR 视频生成测试版

LTX HDR beta 主张 AI 视频生产瓶颈在于动态范围而非分辨率。支持超越 8-bit SDR 的素材,可承受后期调色与合成,更具生产价值。
> 相关链接:产品测试

Meta 开源 Sapiens2 人体感知模型

Meta 发布 Sapiens2,基于 10 亿张人体图像训练的高分辨率视觉 Transformer。用于人体中心感知任务,开源社区可用。
> 相关链接:模型开源

World Labs 推出交互式 3D 创作工具

World Labs 围绕 Marble 1.1 + Spark LoD 启动 World Jam。旨在推动交互式 3D 内容创作,降低 3D 生成门槛。
> 相关链接:活动页面

ml-intern 通过实习风格测试

Hugging Face adjacent 项目 ml-intern 在 15 分钟内通过实习风格测试。显示自主编码/研究 Harness 作为独立产品的兴趣浓厚,尽管 token 消耗高。
> 相关链接:测试报告


行业与公司动态

OpenAI 定位为 AI 推理公司

Sam Altman framing 公司日益成为 AI 推理公司。GPT-5.5 协同设计用于 NVIDIA GB200/300 系统,模型自身帮助改进推理栈。
> 相关链接:战略动向

DeepSeek 定价策略极具侵略性

DeepSeek-V4 定价远低于同行,Flash 版尤其 disruptive。但 Pro 版吞吐量受高端算力限制,未来依赖 Ascend 950 availability 降价。
> 相关链接:市场分析




评论