AI 新闻摘要 2026-05-22

模型与能力

RAEv2 发布：视觉表示自编码器，收敛快 10 倍

RAEv2 改进了表示自编码器，实现统一视觉理解与生成，收敛速度提升 10 倍以上，重建和生成效果更好，并扩展到文生图和世界模型。三个关键发现：对编码器最后 K 层求和优于仅用最后一层，RAE 和 REPA 在语义/空间结构上互补，REPA 可重组为内部自引导机制。
> 相关链接：@1jaskiratsingh｜@recatm 中文总结｜@sainingxi’e 评论

NVIDIA 推出 Gated DeltaNet-2：线性注意力新模型

Gated DeltaNet-2 用通道门控解耦线性注意力中的擦除和写入操作，1.3B 参数在语言建模和常识推理上超越 KDA 和 Mamba-3，长上下文检索（RULER）提升明显。被认为是有趣的混合注意力方向。
> 相关链接：论文页面｜@rasbt 点评

研究与方法

数据过滤新发现：足够算力下「不过滤」可能更好

DCLM 实验表明，当算力足够大（约 1e30 FLOPs），最佳数据过滤器可能是无过滤。随着规模增大，过滤带来的收益递减，甚至可能不如原始数据。下游评测也支持这一趋势，但对互联网规模数据来说交叉点还在较远处。
> 相关链接：@tatsu_hashimoto 推文｜后续讨论

OpenAI 的 Erdős 数学问题结果引发讨论

OpenAI 在 Erdős 单位距离问题上取得 AI 辅助突破，被看作数学领域最易实现 AI 研究突破的信号。但也有人质疑可复现性和基准游戏化，3 小时内就被人类超越。核心观点：数学作为可验证的 AI 研究前沿仍有价值。
> 相关链接：@markchen90 讨论｜@wtgowers 评论｜@cloneofsimo 讽刺

Agent 与工具链

Codex 重大更新：远程电脑使用 + Appshots + 团队插件

OpenAI 的 Codex 现在可以从手机安全使用 Mac 上的应用（即使 Mac 已锁定）；新增 Appshots 截取截图+文字丰富上下文；团队可共享插件；组织分析更详细。这表明编程助手正从 IDE 走向跨设备操作。
> 相关链接：远程电脑使用｜Appshots 发布｜团队插件共享

Gemini 代理能力扩展：Daily Brief + 第三方应用动作

Google 推出 Daily Brief 和连接 OpenTable、Canva、Instacart 的动作，实为消费者端的工作流。同时 Gemini 3.5 Flash 在 APEX-Agents-AA 排名第一，超过大模型。Gemini 的单 API 调用即可实现 GitHub 问题分类等任务。
> 相关链接：Daily Brief 公告｜第三方动作公告｜APEX 排名 @OfficialLoganK

Physics-intern：科学问题 Harness 使模型性能翻倍

@lvwerra 发布物理学问题 harness，使 Gemini 3.1 Pro 从 17.7 分升至 31.4 分，超过 GPT 5.5 Pro。但 GPT 5.5 Pro 本身未受益，说明 harness 增益与模型相关。同时 mini-swe-agent 也可在 ProgramBench 上运行。
> 相关链接：@lvwerra 发布｜mini-swe-agent @KLieret

Weaviate 内置 MCP 服务器，LangChain 推出沙箱 Auth Proxy 和新流协议

Weaviate 在数据库中集成 MCP 服务器，编码 agent 可混合 BM25+向量检索。LangChain 发布 Auth Proxy 控制 agent 世界边界，以及新的类型化流协议（工具、子 agent、媒体、中断作为一等公民），替代 token 流。
> 相关链接：Weaviate MCP｜LangChain Auth Proxy｜LangChain 新流协议

子 Agent 设计模式：从单 Agent 到多 Agent 的最佳实践

@cwolferesearch 建议先坚持单 Agent，只有在工具过多或提示膨胀严重时才迁移到 manager/sub-agent 或去中心化多 Agent。Cognition 的 sub-Devin 工作流被形容为将 2+ 工程师周的工作压缩到几小时。
> 相关链接：@cwolferesearch 合成｜@andrew_locke 描述 sub-Devin

基础设施与硬件

Turbopuffer 达到 1 亿美元 ARR 并盈利

搜索/检索公司 Turbopuffer 在 3 月达到 1 亿美元年化收入，距 100 万美元仅 19 个月，融资不到 100 万且已盈利。定位是 AI 上下文检索基础设施。
> 相关链接：@Sirupsen 宣布｜后续讨论

AI 云平台 Modal 获得 3.55 亿美元 C 轮，估值 46.5 亿。投资者认为其从底层重建 AI 云栈，性能和开发者体验突出。
> 相关链接：@bernhardsson 公告｜Redpoint 观点

Hark 融资 7 亿美元，估值 60 亿，押注 GPU 基础设施和智能硬件

Hark 获得 7 亿美元融资，目标包括 GPU 基础设施、模型开发、硬件、多模态/个人智能产品。还公布了一个 200 小时不间断自主运行实验，但技术细节尚少。
> 相关链接：@adcock_brett 宣布｜200 小时自主运行

vLLM 实现弹性专家并行：MoE 拓扑实时调整

vLLM 支持在 MoE 部署中实时调整专家并行拓扑，无需完全重启，通过 NVLink/RDMA 直接 GPU 传输。对容错和弹性扩展很重要。
> 相关链接：@vllm_project 描述

HBM 成本占比升至 63%，AI 芯片组件支出持续转向内存

Epoch AI 数据显示，从 2024Q1 到 2025Q4，HBM 在 AI 芯片组件支出中占比从 52% 增至 63%。内存正成为成本大头。
> 相关链接：@EpochAIResearch 报告

产品与应用落地

Runway 发布 Aleph 2.0 和 Edit Studio：单帧编辑传播到整段视频

Runway 推出新版视频编辑工具，用户可编辑单帧并将修改传播到整个视频，是参考引导编辑传播的实际产品化。
> 相关链接：Runway 公告｜产品负责人的解释

视频生成新方法：MIGA（无训练无限帧）和美团 LongCat 视频头像 1.5

阿里 MIGA 无需训练即可生成无限帧视频，用两阶段对齐保证时序一致性。美团 LongCat-Video-Avatar 1.5 用 Whisper-Large 替代 Wav2Vec2，8 步推理，保持长视频身份一致性。
> 相关链接：MIGA @HuggingPapers｜LongCat 发布

生物与地球基础模型落地：Carbon DNA 在 Trainium2 运行，OlmoEarth 实现 3 倍加速

Hugging Face Bio 的 Carbon DNA 模型（500M/3B/8B）在 Trainium2 上编译并运行。OlmoEarth v1.1 通过改变 Sentinel-2 分词方式，将 token 减少 3 倍，推理成本降低 3 倍。
> 相关链接：Carbon 演示 @LoubnaBenAllal1｜Carbon on Trainium2 @Shekswess｜OlmoEarth v1.1 @cgeorgiaw

开源人形机器人 LeRobot Humanoid 发布：全套开源，约 2500 美元

Hugging Face LeRobot 推出全栈开源人形机器人，包含硬件 CAD、校准、仿真、训练工具，成本约 2500 美元，可迭代和修复，适合真实机器人学习。
> 相关链接：@robotsdigest 评论｜@lukas_m_ziegler 强调

行业与公司动态

Exa 完成 2.5 亿美元 C 轮融资，估值 22 亿美元

AI 搜索公司 Exa 获 2.5 亿美元 C 轮，估值 22 亿美元。公司专注于 AI 上下文检索，被视为基础设施领域的重要玩家。
> 相关链接：融资公告｜相关播客