AI 新闻摘要 2026-05-19

发布于 2026年05月19日

模型与能力

Cursor 发布 Composer 2.5 并披露更大模型训练计划

Cursor 推出 Composer 2.5,是其最强模型,擅长长任务和指令跟随。同时透露正在用 SpaceXAI 训练一个比过去大 10 倍的新模型,使用 Colossus 2 集群(百万 H100)。社区认为性价比和编码质量明显提升。
> 相关链接:Cursor 官方公告训练细节披露

Qwen3.7 预览版在 LMSYS Arena 排名跃升

阿里 Qwen3.7 预览版(Max)在 Arena 文本榜排第 13,数学第 7、专家第 9、软件与 IT 第 9、编程第 10;视觉榜排第 16。阿里成为文本第 6、视觉第 5 的实验室,显示中国模型持续进步。
> 相关链接:Arena 结果阿里官方推文

字节跳动开源 Lance 多模态模型

Lance 是一个统一的多模态模型,支持图像/视频理解、生成和编辑。包含 3B 视频、3B 图像和 3B 解码器,开源可用,适合需要原生多模态能力的开发者和研究者。
> 相关链接:开源发布

Perplexity 发布开源多语言 ColBERT 嵌入模型

Perplexity 在 pplx-embed-0.6b 基础上继续训练,开源了一个多语言 ColBERT 模型,用于检索。同时分享了使用 MaxSim 内核的注意事项,适合多语言搜索场景。
> 相关链接:模型发布

Anthropic 默认启用 Opus 4.7 作为 Fast 模式

Anthropic 将 Claude 的 Fast 模式默认改为 Opus 4.7,降低了编码工作流的延迟。同时新增了 Prompt Cache 诊断功能,帮助开发者了解缓存命中情况。
> 相关链接:Claude Devs 推文Fast 模式说明


Agent 与工具链

Anthropic 发布 Claude Code 大型仓库最佳实践

Anthropic 给出了在百万行代码、遗留系统和微服务环境中运行 Claude Code 的建议,同时补充了 Prompt Cache 诊断工具,并让 Fast 模式默认用 Opus 4.7,降低延迟。
> 相关链接:最佳实践推文

OpenAI Codex 工作流扩展:Zoom 插件、远程执行、保持 Mac 唤醒

OpenAI 为 Codex 增加了 Zoom 插件,支持手机和桌面端远程执行任务,还能让 Mac 保持唤醒,方便长时间任务从手机 App 继续运行。
> 相关链接:更新推文

微软 GitHub Copilot 远程控制功能正式上线

微软宣布 GitHub Copilot 的 CLI 和 VS Code 远程控制功能达到 GA 状态,开发者可以远程使用 Copilot 进行编程。
> 相关链接:官方公告

LangSmith 推出 Agent CI/CD 引擎和可观测性数据库 SmithDB

LangSmith Engine 能自动从生产痕迹中检测 Agent 失败、聚类问题并生成修复和评估,相当于 Agent 的 CI/CD 循环。同时发布 SmithDB,专门用于 Agent 可观测性和评估数据,支持低延迟查询和自托管。
> 相关链接:Krish 推文LangChain 推文

Cognition 发布 Devin Auto-Triage 自动分类修复

Devin Auto-Triage 像一个始终在线的“第一响应者”,能自动处理 bug、告警和事故,具备长期记忆、管理者/子代理结构,并能自动生成 PR。早期用户(如 Modal)认为它比常见的自动化方案更实用。
> 相关链接:Cognition 推文用户反馈


基础设施与硬件

llama.cpp 支持 MTP,Qwen3.6 本地推理速度提升 78%

Georgi Gerganov 宣布 llama.cpp 为 Qwen3.6 系列添加 Multi-Token Prediction(MTP)支持。实测显示 Qwen3.6-27B 在 A10G 上从 25 tok/s 跳到 45 tok/s,大幅缩小本地与云端差距。
> 相关链接:Gerganov 推文性能数据

Hugging Face 联合 Dell 提供企业级一键模型部署

通过 Dell Enterprise Hub,用户可以一键部署 Kimi K2.6、DeepSeek V4 Pro/Flash、GLM 5.1、MiniMax M2.7 等模型,底层使用 Dell PowerEdge XE9780 与 NVIDIA B300,面向本地或私有云。
> 相关链接:推文Hugging Face CEO 评论

Zyphra 在 AMD Instinct MI355X 上实现接近 B200 的推理性能

Zyphra 公布端到端推理基准,在 AMD MI355X 上运行 Kimi K2.6、GLM 5.1、DeepSeek V3.2 等模型,性能明显优于 AMD 基线,缩小了与 NVIDIA B200 的差距。
> 相关链接:Zyphra 推文

硬件基准讨论:应区分硬件天花板与当前软件状态

Quentin Anthony 指出,很多跨硬件对比混淆了厂商理论峰值、实际 GEMM 性能和软件成熟度。工程师应把基准看作“堆栈依赖的快照”,而非绝对真理。
> 相关链接:讨论推文


研究与方法

LeCun 等人新研究:RL 训练信号中平滑模型与噪声标签的重要性

论文“On Training in Imagination”发现:平滑的世界/奖励模型能收紧误差边界;奖励模型常比动力学模型更容易扩展;大量噪声标签可胜过少量高质量标签,但有偏奖励很危险。
> 相关链接:总结推文

Meta AIRA:基于智能体的架构搜索小模型超越 Llama 3.2

Meta 提出 AIRA,用规划智能体(AIRA-Compose)和实现智能体(AIRA-Design)在 24 小时计算预算内搜索架构。在 350M、1B、3B 规模上均超过 Llama 3.2。
> 相关链接:研究推文DAIR.AI 分享

训练 2000+ MoE 模型揭示设计关键:专家大小和数量

研究“Slicing and Dicing MoEs”总结,MoE 设计空间多数分歧最终归结为专家大小和专家数量两个参数,其他配置的影响比预想的小。
> 相关链接:论文推文

Agent 评估新方向:衡量委托智能而非静态知识

Cameron Wolfe 发布 Agent 评估指南,知乎文章进一步指出,Agent 时代应评估模型何时选择搜索、编码、推理或调用工具,而不是只测内部思维链能力。
> 相关链接:Wolfe 推文知乎讨论


行业与公司动态

Anthropic 收购 SDK 平台 Stainless

Anthropic 宣布收购 Stainless,这家公司一直是 Anthropic API 的 SDK 和 MCP 服务器提供商。此举显示 Anthropic 在开发者工具和协议层面进行垂直整合。
> 相关链接:Anthropic 公告

OpenAI 和 Anthropic 在顶级 AI 公司中收入份额持续上升

据分析,在 34 家头部 AI 初创公司的模型与应用收入中,OpenAI 和 Anthropic 的占比越来越高,暗示生态系统可能走向经济集中化。
> 相关链接:Amir 推文

Papers With Code 用 AI 代理重新激活,提升研究可发现性

Papers With Code 被注入 AI 代理能力,自动解析方法、更新排行榜和追踪 SOTA,让研究者更容易发现和对比成果。
> 相关链接:Niels Rogge 推文




评论