AI 新闻摘要 2026-05-19 - 酷加的博客

模型与能力

Cursor 发布 Composer 2.5 并披露更大模型训练计划

Cursor 推出 Composer 2.5，是其最强模型，擅长长任务和指令跟随。同时透露正在用 SpaceXAI 训练一个比过去大 10 倍的新模型，使用 Colossus 2 集群（百万 H100）。社区认为性价比和编码质量明显提升。
> 相关链接：Cursor 官方公告｜训练细节披露

Qwen3.7 预览版在 LMSYS Arena 排名跃升

阿里 Qwen3.7 预览版（Max）在 Arena 文本榜排第 13，数学第 7、专家第 9、软件与 IT 第 9、编程第 10；视觉榜排第 16。阿里成为文本第 6、视觉第 5 的实验室，显示中国模型持续进步。
> 相关链接：Arena 结果｜阿里官方推文

字节跳动开源 Lance 多模态模型

Lance 是一个统一的多模态模型，支持图像/视频理解、生成和编辑。包含 3B 视频、3B 图像和 3B 解码器，开源可用，适合需要原生多模态能力的开发者和研究者。
> 相关链接：开源发布

Perplexity 发布开源多语言 ColBERT 嵌入模型

Perplexity 在 pplx-embed-0.6b 基础上继续训练，开源了一个多语言 ColBERT 模型，用于检索。同时分享了使用 MaxSim 内核的注意事项，适合多语言搜索场景。
> 相关链接：模型发布

Anthropic 默认启用 Opus 4.7 作为 Fast 模式

Anthropic 将 Claude 的 Fast 模式默认改为 Opus 4.7，降低了编码工作流的延迟。同时新增了 Prompt Cache 诊断功能，帮助开发者了解缓存命中情况。
> 相关链接：Claude Devs 推文｜Fast 模式说明

Agent 与工具链

Anthropic 发布 Claude Code 大型仓库最佳实践

Anthropic 给出了在百万行代码、遗留系统和微服务环境中运行 Claude Code 的建议，同时补充了 Prompt Cache 诊断工具，并让 Fast 模式默认用 Opus 4.7，降低延迟。
> 相关链接：最佳实践推文

OpenAI Codex 工作流扩展：Zoom 插件、远程执行、保持 Mac 唤醒

OpenAI 为 Codex 增加了 Zoom 插件，支持手机和桌面端远程执行任务，还能让 Mac 保持唤醒，方便长时间任务从手机 App 继续运行。
> 相关链接：更新推文

微软 GitHub Copilot 远程控制功能正式上线

微软宣布 GitHub Copilot 的 CLI 和 VS Code 远程控制功能达到 GA 状态，开发者可以远程使用 Copilot 进行编程。
> 相关链接：官方公告

LangSmith 推出 Agent CI/CD 引擎和可观测性数据库 SmithDB

LangSmith Engine 能自动从生产痕迹中检测 Agent 失败、聚类问题并生成修复和评估，相当于 Agent 的 CI/CD 循环。同时发布 SmithDB，专门用于 Agent 可观测性和评估数据，支持低延迟查询和自托管。
> 相关链接：Krish 推文｜LangChain 推文

Cognition 发布 Devin Auto-Triage 自动分类修复

Devin Auto-Triage 像一个始终在线的“第一响应者”，能自动处理 bug、告警和事故，具备长期记忆、管理者/子代理结构，并能自动生成 PR。早期用户（如 Modal）认为它比常见的自动化方案更实用。
> 相关链接：Cognition 推文｜用户反馈

基础设施与硬件

llama.cpp 支持 MTP，Qwen3.6 本地推理速度提升 78%

Georgi Gerganov 宣布 llama.cpp 为 Qwen3.6 系列添加 Multi-Token Prediction（MTP）支持。实测显示 Qwen3.6-27B 在 A10G 上从 25 tok/s 跳到 45 tok/s，大幅缩小本地与云端差距。
> 相关链接：Gerganov 推文｜性能数据

Hugging Face 联合 Dell 提供企业级一键模型部署

通过 Dell Enterprise Hub，用户可以一键部署 Kimi K2.6、DeepSeek V4 Pro/Flash、GLM 5.1、MiniMax M2.7 等模型，底层使用 Dell PowerEdge XE9780 与 NVIDIA B300，面向本地或私有云。
> 相关链接：推文｜Hugging Face CEO 评论

Zyphra 在 AMD Instinct MI355X 上实现接近 B200 的推理性能

Zyphra 公布端到端推理基准，在 AMD MI355X 上运行 Kimi K2.6、GLM 5.1、DeepSeek V3.2 等模型，性能明显优于 AMD 基线，缩小了与 NVIDIA B200 的差距。
> 相关链接：Zyphra 推文

硬件基准讨论：应区分硬件天花板与当前软件状态

Quentin Anthony 指出，很多跨硬件对比混淆了厂商理论峰值、实际 GEMM 性能和软件成熟度。工程师应把基准看作“堆栈依赖的快照”，而非绝对真理。
> 相关链接：讨论推文

研究与方法

LeCun 等人新研究：RL 训练信号中平滑模型与噪声标签的重要性

论文“On Training in Imagination”发现：平滑的世界/奖励模型能收紧误差边界；奖励模型常比动力学模型更容易扩展；大量噪声标签可胜过少量高质量标签，但有偏奖励很危险。
> 相关链接：总结推文

Meta AIRA：基于智能体的架构搜索小模型超越 Llama 3.2

Meta 提出 AIRA，用规划智能体（AIRA-Compose）和实现智能体（AIRA-Design）在 24 小时计算预算内搜索架构。在 350M、1B、3B 规模上均超过 Llama 3.2。
> 相关链接：研究推文｜DAIR.AI 分享

训练 2000+ MoE 模型揭示设计关键：专家大小和数量

研究“Slicing and Dicing MoEs”总结，MoE 设计空间多数分歧最终归结为专家大小和专家数量两个参数，其他配置的影响比预想的小。
> 相关链接：论文推文

Agent 评估新方向：衡量委托智能而非静态知识

Cameron Wolfe 发布 Agent 评估指南，知乎文章进一步指出，Agent 时代应评估模型何时选择搜索、编码、推理或调用工具，而不是只测内部思维链能力。
> 相关链接：Wolfe 推文｜知乎讨论

行业与公司动态

Anthropic 收购 SDK 平台 Stainless

Anthropic 宣布收购 Stainless，这家公司一直是 Anthropic API 的 SDK 和 MCP 服务器提供商。此举显示 Anthropic 在开发者工具和协议层面进行垂直整合。
> 相关链接：Anthropic 公告

OpenAI 和 Anthropic 在顶级 AI 公司中收入份额持续上升

据分析，在 34 家头部 AI 初创公司的模型与应用收入中，OpenAI 和 Anthropic 的占比越来越高，暗示生态系统可能走向经济集中化。
> 相关链接：Amir 推文

Papers With Code 用 AI 代理重新激活，提升研究可发现性

Papers With Code 被注入 AI 代理能力，自动解析方法、更新排行榜和追踪 SOTA，让研究者更容易发现和对比成果。
> 相关链接：Niels Rogge 推文