AI 新闻摘要 2026-05-16

发布于 2026年05月17日

模型与能力

传闻 xAI 即将发布 1.5 万亿参数模型

X 上有人爆料,xAI 准备推一个 1.5T 的超大模型。如果属实,算力需求又要涨一波。
> 相关链接:scaling01 爆料

Claude Mythos 被吹爆,有人说比 GPT-5.5 还强

多位推友实测 Claude Mythos,觉得在某些任务上“离谱”强,超过 GPT-5.5。但 Epoch AI 的专项评测显示 Claude 擅长软件工程,数学偏弱。
> 相关链接:scaling01 评价teortaxesTex 评价


Agent 与工具链

OpenAI Codex 移动 App 上线一周下载破百万

Codex 移动版火得一塌糊涂,4M 周活用户,一周下载超 100 万。能从手机远程控制 Mac 写代码,甚至通过 Telegram 操作。Ollama、Zed 都赶紧接入了。
> 相关链接:用户分享 (flavioAd)官方数据 (etnshow)

GitHub Copilot 团队:编程体验更依赖“缰绳”而非模型

VS Code / Copilot 团队发文说,编程助手好不好用主要看上下文拼接、工具调用这些“缰绳”设计,而不是底层模型有多强。新功能包括 agent merge 和终端风险标记。
> 相关链接:官方推文 (@code)新功能 (davidfowl)

Agent 搜索效率:grep 比向量数据库更好用?

一篇论文发现,编程代理里用 grep 做文本搜索效果不输嵌入检索。还有实测显示 MCP 比直接 SDK 调用多花 8 倍 token,工具链效率值得关注。
> 相关链接:论文解读 (omarsar0)MCP 对比 (YoniBraslaver)

新基准 FutureSim:用真实事件流测试 Agent 长期预测能力

Agent 评测越来越难,FutureSim 通过重放真实事件来测试模型持续更新和预测的能力,被认为是更贴近实际的评测方式。
> 相关链接:FutureSim 介绍讨论 (cwolferesearch)

工程可靠性警告:别掉进“MTTR 就是一切”的陷阱

Mitchellh 发帖警告,不少公司正变成“灾难机器”——表面指标好看,整体理解越来越差。LangChain 则推出 Interrupt 工具加强可观测性。
> 相关链接:Mitchellh 原帖LangChain Interrupt

Hermes Agent 生态加速:NVIDIA 出官方本地部署教程

开源编程代理 Hermes Agent 被更多平台集成,ClawRouter、Grok 都接入了。NVIDIA 甚至出了教程教你在 DGX Spark 上用 Ollama 本地跑。但“一键部署”仍然不现实。
> 相关链接:NVIDIA 教程吐槽 (onusoz)


基础设施与硬件

推理优化新进展:Meta 自剪枝 KV 注意力,vLLM 支持多模态

Meta 提出 Self-Pruned KV attention,模型自主决定保留哪些键值对,降低缓存并加速解码。vLLM 不仅部署了多模态模型 Intern-S2-Preview,还支持连续批处理深度教程。llama.cpp 也因推测解码参数优化让小模型提速 1.8 倍。
> 相关链接:Meta 论文llama.cpp 速度优化

vLLM-Omni 正式用于生产,多模态推理不再依赖闭源 API

Baseten 用 vLLM-Omni 部署了多模态服务,支持音频、流式多模态、实时 TTS 等负载,过去这些大多靠闭源 API。vLLM 还第一时间支持了开源科学基础模型 Intern-S2-Preview。
> 相关链接:vLLM-Omni 部署Intern-S2-Preview


研究与方法

新优化器 SODA:不调参就能胜过 Muon

SODA 是一个包装类优化器,不引入超参数,却能提升 Adam 和 Muon 的效果。SODA[Muon] 甚至打败了经过调参的 Muon 本身。优化器家族又开始热闹了。
> 相关链接:SODA 论文zacharynado 总结

“快慢学习” + 教学式强化学习:让模型学得更聪明

“Learning Fast and Slow”将慢速权重 RL 与快速上下文适应结合;教学式 RL 则要求教师模型输出学生能跟上的步骤,否则惩罚教师。两种方法都试图提高数据效率和泛化性。
> 相关链接:Fast/Slow 论文教学式 RL 解读

ParseBench 榜单更新:解析模型 Infinity-Parser2-Pro 领跑

PDF 解析基准 ParseBench 公布新排名,Infinity-Parser2-Pro (35B) 和 Flash (2B) 表现最好。它们使用了 500 万个合成样本和联合 RL 训练,兼顾文档、表格和图表解析。
> 相关链接:ParseBench 榜单


产品与应用落地

ChatGPT 推出个人财务功能,Pro 用户可管钱

OpenAI 在美国为 Pro 用户上线个人财务助手,能连银行账户、分析支出、回答财务问题。内部测试中 GPT-5.5 Thinking 得 79 分,Pro 版 82.5 分。这可能会挤压一批金融助手 App。
> 相关链接:官方公告kimmonismus 评论

Weaviate 1.37 新增分词调试,Cohere 发布 Compass 文档检索

Weaviate 更新了 per-property 分词设置和 /v1/tokenize 接口,方便排查 BM25 问题。Cohere 推出 Compass,用视觉解析加搜索嵌入检索复杂文档,适合合同、表格等难搞的 PDF。
> 相关链接:Weaviate 更新Cohere Compass


行业与公司动态

Cerebras 上市市值 600 亿,称已在跑 OpenAI 万亿参数模型

Cerebras 终于 IPO 了,市值 600 亿美元。CFO 公开表态:我们什么规模都跑,没有上限,已经在给 OpenAI 的 5.4 和 5.5 版本做推理。这次上市被看作推理基础设施赛道的重要里程碑。
> 相关链接:投资者评述 (ishanit5)CFO 采访 (CNBC)行业解读 (Apoorv)

Anthropic 突然重置开发者速率限制,疑似应对 Codex 竞争

多位开发者发现 Claude 的 5 小时和每周速率限制被重置了,免费/低付费用户可调用量增加。市场猜测这是 Anthropic 在 Codex 火爆后抢用户的手段,也可能是算力更充足了。
> 相关链接:kimmonismus 报道

Anthropic 估值跃升至 9000 亿美元,ARR 达到 450 亿

据金融时报报道,Anthropic 估值已到 9000 亿美元,预计到 5 月底年化收入 450 亿。这个数字远超早先预期,反映出资本对领先 AI 公司的极度看好。
> 相关链接:kimmonismus 转引


政策、治理与安全

Dan Jeffries 长文反对开源 AI 限制政策

开源倡导者 Dan Jeffries 发了一篇长推,认为出口管制、权重限制等会伤害整个 AI 生态,引发大量转发。开源与闭源的争论仍是行业焦点。
> 相关链接:Dan Jeffries 原文

LinkedIn 简介藏 prompt 注入,提醒 Agent 安全风险

推友 tmuxvim 在 LinkedIn 简介里藏了 prompt 注入,AI 爬取后会说出搞笑内容。这个例子虽娱乐,但说明 Agent 直接读取用户文本极易被注入,安全防护不能忽视。
> 相关链接:tmuxvim 演示




评论