AI 新闻摘要 2026-05-22

发布于 2026年05月22日

模型与能力

RAEv2 发布:视觉表示自编码器,收敛快 10 倍

RAEv2 改进了表示自编码器,实现统一视觉理解与生成,收敛速度提升 10 倍以上,重建和生成效果更好,并扩展到文生图和世界模型。三个关键发现:对编码器最后 K 层求和优于仅用最后一层,RAE 和 REPA 在语义/空间结构上互补,REPA 可重组为内部自引导机制。
> 相关链接:@1jaskiratsingh@recatm 中文总结@sainingxi’e 评论

NVIDIA 推出 Gated DeltaNet-2:线性注意力新模型

Gated DeltaNet-2 用通道门控解耦线性注意力中的擦除和写入操作,1.3B 参数在语言建模和常识推理上超越 KDA 和 Mamba-3,长上下文检索(RULER)提升明显。被认为是有趣的混合注意力方向。
> 相关链接:论文页面@rasbt 点评


研究与方法

数据过滤新发现:足够算力下「不过滤」可能更好

DCLM 实验表明,当算力足够大(约 1e30 FLOPs),最佳数据过滤器可能是无过滤。随着规模增大,过滤带来的收益递减,甚至可能不如原始数据。下游评测也支持这一趋势,但对互联网规模数据来说交叉点还在较远处。
> 相关链接:@tatsu_hashimoto 推文后续讨论

OpenAI 的 Erdős 数学问题结果引发讨论

OpenAI 在 Erdős 单位距离问题上取得 AI 辅助突破,被看作数学领域最易实现 AI 研究突破的信号。但也有人质疑可复现性和基准游戏化,3 小时内就被人类超越。核心观点:数学作为可验证的 AI 研究前沿仍有价值。
> 相关链接:@markchen90 讨论@wtgowers 评论@cloneofsimo 讽刺


Agent 与工具链

Codex 重大更新:远程电脑使用 + Appshots + 团队插件

OpenAI 的 Codex 现在可以从手机安全使用 Mac 上的应用(即使 Mac 已锁定);新增 Appshots 截取截图+文字丰富上下文;团队可共享插件;组织分析更详细。这表明编程助手正从 IDE 走向跨设备操作。
> 相关链接:远程电脑使用Appshots 发布团队插件共享

Gemini 代理能力扩展:Daily Brief + 第三方应用动作

Google 推出 Daily Brief 和连接 OpenTable、Canva、Instacart 的动作,实为消费者端的工作流。同时 Gemini 3.5 Flash 在 APEX-Agents-AA 排名第一,超过大模型。Gemini 的单 API 调用即可实现 GitHub 问题分类等任务。
> 相关链接:Daily Brief 公告第三方动作公告APEX 排名 @OfficialLoganK

Physics-intern:科学问题 Harness 使模型性能翻倍

@lvwerra 发布物理学问题 harness,使 Gemini 3.1 Pro 从 17.7 分升至 31.4 分,超过 GPT 5.5 Pro。但 GPT 5.5 Pro 本身未受益,说明 harness 增益与模型相关。同时 mini-swe-agent 也可在 ProgramBench 上运行。
> 相关链接:@lvwerra 发布mini-swe-agent @KLieret

Weaviate 内置 MCP 服务器,LangChain 推出沙箱 Auth Proxy 和新流协议

Weaviate 在数据库中集成 MCP 服务器,编码 agent 可混合 BM25+向量检索。LangChain 发布 Auth Proxy 控制 agent 世界边界,以及新的类型化流协议(工具、子 agent、媒体、中断作为一等公民),替代 token 流。
> 相关链接:Weaviate MCPLangChain Auth ProxyLangChain 新流协议

子 Agent 设计模式:从单 Agent 到多 Agent 的最佳实践

@cwolferesearch 建议先坚持单 Agent,只有在工具过多或提示膨胀严重时才迁移到 manager/sub-agent 或去中心化多 Agent。Cognition 的 sub-Devin 工作流被形容为将 2+ 工程师周的工作压缩到几小时。
> 相关链接:@cwolferesearch 合成@andrew_locke 描述 sub-Devin


基础设施与硬件

Turbopuffer 达到 1 亿美元 ARR 并盈利

搜索/检索公司 Turbopuffer 在 3 月达到 1 亿美元年化收入,距 100 万美元仅 19 个月,融资不到 100 万且已盈利。定位是 AI 上下文检索基础设施。
> 相关链接:@Sirupsen 宣布后续讨论

AI 云平台 Modal 获得 3.55 亿美元 C 轮,估值 46.5 亿。投资者认为其从底层重建 AI 云栈,性能和开发者体验突出。
> 相关链接:@bernhardsson 公告Redpoint 观点

Hark 融资 7 亿美元,估值 60 亿,押注 GPU 基础设施和智能硬件

Hark 获得 7 亿美元融资,目标包括 GPU 基础设施、模型开发、硬件、多模态/个人智能产品。还公布了一个 200 小时不间断自主运行实验,但技术细节尚少。
> 相关链接:@adcock_brett 宣布200 小时自主运行

vLLM 实现弹性专家并行:MoE 拓扑实时调整

vLLM 支持在 MoE 部署中实时调整专家并行拓扑,无需完全重启,通过 NVLink/RDMA 直接 GPU 传输。对容错和弹性扩展很重要。
> 相关链接:@vllm_project 描述

HBM 成本占比升至 63%,AI 芯片组件支出持续转向内存

Epoch AI 数据显示,从 2024Q1 到 2025Q4,HBM 在 AI 芯片组件支出中占比从 52% 增至 63%。内存正成为成本大头。
> 相关链接:@EpochAIResearch 报告


产品与应用落地

Runway 发布 Aleph 2.0 和 Edit Studio:单帧编辑传播到整段视频

Runway 推出新版视频编辑工具,用户可编辑单帧并将修改传播到整个视频,是参考引导编辑传播的实际产品化。
> 相关链接:Runway 公告产品负责人的解释

视频生成新方法:MIGA(无训练无限帧)和美团 LongCat 视频头像 1.5

阿里 MIGA 无需训练即可生成无限帧视频,用两阶段对齐保证时序一致性。美团 LongCat-Video-Avatar 1.5 用 Whisper-Large 替代 Wav2Vec2,8 步推理,保持长视频身份一致性。
> 相关链接:MIGA @HuggingPapersLongCat 发布

生物与地球基础模型落地:Carbon DNA 在 Trainium2 运行,OlmoEarth 实现 3 倍加速

Hugging Face Bio 的 Carbon DNA 模型(500M/3B/8B)在 Trainium2 上编译并运行。OlmoEarth v1.1 通过改变 Sentinel-2 分词方式,将 token 减少 3 倍,推理成本降低 3 倍。
> 相关链接:Carbon 演示 @LoubnaBenAllal1Carbon on Trainium2 @ShekswessOlmoEarth v1.1 @cgeorgiaw

开源人形机器人 LeRobot Humanoid 发布:全套开源,约 2500 美元

Hugging Face LeRobot 推出全栈开源人形机器人,包含硬件 CAD、校准、仿真、训练工具,成本约 2500 美元,可迭代和修复,适合真实机器人学习。
> 相关链接:@robotsdigest 评论@lukas_m_ziegler 强调


行业与公司动态

Exa 完成 2.5 亿美元 C 轮融资,估值 22 亿美元

AI 搜索公司 Exa 获 2.5 亿美元 C 轮,估值 22 亿美元。公司专注于 AI 上下文检索,被视为基础设施领域的重要玩家。
> 相关链接:融资公告相关播客




评论