模型与能力
RAEv2 发布:视觉表示自编码器,收敛快 10 倍
RAEv2 改进了表示自编码器,实现统一视觉理解与生成,收敛速度提升 10 倍以上,重建和生成效果更好,并扩展到文生图和世界模型。三个关键发现:对编码器最后 K 层求和优于仅用最后一层,RAE 和 REPA 在语义/空间结构上互补,REPA 可重组为内部自引导机制。
> 相关链接:@1jaskiratsingh|@recatm 中文总结|@sainingxi’e 评论
NVIDIA 推出 Gated DeltaNet-2:线性注意力新模型
Gated DeltaNet-2 用通道门控解耦线性注意力中的擦除和写入操作,1.3B 参数在语言建模和常识推理上超越 KDA 和 Mamba-3,长上下文检索(RULER)提升明显。被认为是有趣的混合注意力方向。
> 相关链接:论文页面|@rasbt 点评
研究与方法
数据过滤新发现:足够算力下「不过滤」可能更好
DCLM 实验表明,当算力足够大(约 1e30 FLOPs),最佳数据过滤器可能是无过滤。随着规模增大,过滤带来的收益递减,甚至可能不如原始数据。下游评测也支持这一趋势,但对互联网规模数据来说交叉点还在较远处。
> 相关链接:@tatsu_hashimoto 推文|后续讨论
OpenAI 的 Erdős 数学问题结果引发讨论
OpenAI 在 Erdős 单位距离问题上取得 AI 辅助突破,被看作数学领域最易实现 AI 研究突破的信号。但也有人质疑可复现性和基准游戏化,3 小时内就被人类超越。核心观点:数学作为可验证的 AI 研究前沿仍有价值。
> 相关链接:@markchen90 讨论|@wtgowers 评论|@cloneofsimo 讽刺
Agent 与工具链
Codex 重大更新:远程电脑使用 + Appshots + 团队插件
OpenAI 的 Codex 现在可以从手机安全使用 Mac 上的应用(即使 Mac 已锁定);新增 Appshots 截取截图+文字丰富上下文;团队可共享插件;组织分析更详细。这表明编程助手正从 IDE 走向跨设备操作。
> 相关链接:远程电脑使用|Appshots 发布|团队插件共享
Gemini 代理能力扩展:Daily Brief + 第三方应用动作
Google 推出 Daily Brief 和连接 OpenTable、Canva、Instacart 的动作,实为消费者端的工作流。同时 Gemini 3.5 Flash 在 APEX-Agents-AA 排名第一,超过大模型。Gemini 的单 API 调用即可实现 GitHub 问题分类等任务。
> 相关链接:Daily Brief 公告|第三方动作公告|APEX 排名 @OfficialLoganK
Physics-intern:科学问题 Harness 使模型性能翻倍
@lvwerra 发布物理学问题 harness,使 Gemini 3.1 Pro 从 17.7 分升至 31.4 分,超过 GPT 5.5 Pro。但 GPT 5.5 Pro 本身未受益,说明 harness 增益与模型相关。同时 mini-swe-agent 也可在 ProgramBench 上运行。
> 相关链接:@lvwerra 发布|mini-swe-agent @KLieret
Weaviate 内置 MCP 服务器,LangChain 推出沙箱 Auth Proxy 和新流协议
Weaviate 在数据库中集成 MCP 服务器,编码 agent 可混合 BM25+向量检索。LangChain 发布 Auth Proxy 控制 agent 世界边界,以及新的类型化流协议(工具、子 agent、媒体、中断作为一等公民),替代 token 流。
> 相关链接:Weaviate MCP|LangChain Auth Proxy|LangChain 新流协议
子 Agent 设计模式:从单 Agent 到多 Agent 的最佳实践
@cwolferesearch 建议先坚持单 Agent,只有在工具过多或提示膨胀严重时才迁移到 manager/sub-agent 或去中心化多 Agent。Cognition 的 sub-Devin 工作流被形容为将 2+ 工程师周的工作压缩到几小时。
> 相关链接:@cwolferesearch 合成|@andrew_locke 描述 sub-Devin
基础设施与硬件
Turbopuffer 达到 1 亿美元 ARR 并盈利
搜索/检索公司 Turbopuffer 在 3 月达到 1 亿美元年化收入,距 100 万美元仅 19 个月,融资不到 100 万且已盈利。定位是 AI 上下文检索基础设施。
> 相关链接:@Sirupsen 宣布|后续讨论
Modal 完成 3.55 亿美元 C 轮融资,估值 46.5 亿美元
AI 云平台 Modal 获得 3.55 亿美元 C 轮,估值 46.5 亿。投资者认为其从底层重建 AI 云栈,性能和开发者体验突出。
> 相关链接:@bernhardsson 公告|Redpoint 观点
Hark 融资 7 亿美元,估值 60 亿,押注 GPU 基础设施和智能硬件
Hark 获得 7 亿美元融资,目标包括 GPU 基础设施、模型开发、硬件、多模态/个人智能产品。还公布了一个 200 小时不间断自主运行实验,但技术细节尚少。
> 相关链接:@adcock_brett 宣布|200 小时自主运行
vLLM 实现弹性专家并行:MoE 拓扑实时调整
vLLM 支持在 MoE 部署中实时调整专家并行拓扑,无需完全重启,通过 NVLink/RDMA 直接 GPU 传输。对容错和弹性扩展很重要。
> 相关链接:@vllm_project 描述
HBM 成本占比升至 63%,AI 芯片组件支出持续转向内存
Epoch AI 数据显示,从 2024Q1 到 2025Q4,HBM 在 AI 芯片组件支出中占比从 52% 增至 63%。内存正成为成本大头。
> 相关链接:@EpochAIResearch 报告
产品与应用落地
Runway 发布 Aleph 2.0 和 Edit Studio:单帧编辑传播到整段视频
Runway 推出新版视频编辑工具,用户可编辑单帧并将修改传播到整个视频,是参考引导编辑传播的实际产品化。
> 相关链接:Runway 公告|产品负责人的解释
视频生成新方法:MIGA(无训练无限帧)和美团 LongCat 视频头像 1.5
阿里 MIGA 无需训练即可生成无限帧视频,用两阶段对齐保证时序一致性。美团 LongCat-Video-Avatar 1.5 用 Whisper-Large 替代 Wav2Vec2,8 步推理,保持长视频身份一致性。
> 相关链接:MIGA @HuggingPapers|LongCat 发布
生物与地球基础模型落地:Carbon DNA 在 Trainium2 运行,OlmoEarth 实现 3 倍加速
Hugging Face Bio 的 Carbon DNA 模型(500M/3B/8B)在 Trainium2 上编译并运行。OlmoEarth v1.1 通过改变 Sentinel-2 分词方式,将 token 减少 3 倍,推理成本降低 3 倍。
> 相关链接:Carbon 演示 @LoubnaBenAllal1|Carbon on Trainium2 @Shekswess|OlmoEarth v1.1 @cgeorgiaw
开源人形机器人 LeRobot Humanoid 发布:全套开源,约 2500 美元
Hugging Face LeRobot 推出全栈开源人形机器人,包含硬件 CAD、校准、仿真、训练工具,成本约 2500 美元,可迭代和修复,适合真实机器人学习。
> 相关链接:@robotsdigest 评论|@lukas_m_ziegler 强调
行业与公司动态
Exa 完成 2.5 亿美元 C 轮融资,估值 22 亿美元
AI 搜索公司 Exa 获 2.5 亿美元 C 轮,估值 22 亿美元。公司专注于 AI 上下文检索,被视为基础设施领域的重要玩家。
> 相关链接:融资公告|相关播客