AI 新闻摘要 2026-05-16 - 酷加的博客

模型与能力

传闻 xAI 即将发布 1.5 万亿参数模型

X 上有人爆料，xAI 准备推一个 1.5T 的超大模型。如果属实，算力需求又要涨一波。
> 相关链接：scaling01 爆料

Claude Mythos 被吹爆，有人说比 GPT-5.5 还强

多位推友实测 Claude Mythos，觉得在某些任务上“离谱”强，超过 GPT-5.5。但 Epoch AI 的专项评测显示 Claude 擅长软件工程，数学偏弱。
> 相关链接：scaling01 评价｜teortaxesTex 评价

Agent 与工具链

OpenAI Codex 移动 App 上线一周下载破百万

Codex 移动版火得一塌糊涂，4M 周活用户，一周下载超 100 万。能从手机远程控制 Mac 写代码，甚至通过 Telegram 操作。Ollama、Zed 都赶紧接入了。
> 相关链接：用户分享 (flavioAd)｜官方数据 (etnshow)

GitHub Copilot 团队：编程体验更依赖“缰绳”而非模型

VS Code / Copilot 团队发文说，编程助手好不好用主要看上下文拼接、工具调用这些“缰绳”设计，而不是底层模型有多强。新功能包括 agent merge 和终端风险标记。
> 相关链接：官方推文 (@code)｜新功能 (davidfowl)

Agent 搜索效率：grep 比向量数据库更好用？

一篇论文发现，编程代理里用 grep 做文本搜索效果不输嵌入检索。还有实测显示 MCP 比直接 SDK 调用多花 8 倍 token，工具链效率值得关注。
> 相关链接：论文解读 (omarsar0)｜MCP 对比 (YoniBraslaver)

新基准 FutureSim：用真实事件流测试 Agent 长期预测能力

Agent 评测越来越难，FutureSim 通过重放真实事件来测试模型持续更新和预测的能力，被认为是更贴近实际的评测方式。
> 相关链接：FutureSim 介绍｜讨论 (cwolferesearch)

工程可靠性警告：别掉进“MTTR 就是一切”的陷阱

Mitchellh 发帖警告，不少公司正变成“灾难机器”——表面指标好看，整体理解越来越差。LangChain 则推出 Interrupt 工具加强可观测性。
> 相关链接：Mitchellh 原帖｜LangChain Interrupt

Hermes Agent 生态加速：NVIDIA 出官方本地部署教程

开源编程代理 Hermes Agent 被更多平台集成，ClawRouter、Grok 都接入了。NVIDIA 甚至出了教程教你在 DGX Spark 上用 Ollama 本地跑。但“一键部署”仍然不现实。
> 相关链接：NVIDIA 教程｜吐槽 (onusoz)

基础设施与硬件

推理优化新进展：Meta 自剪枝 KV 注意力，vLLM 支持多模态

Meta 提出 Self-Pruned KV attention，模型自主决定保留哪些键值对，降低缓存并加速解码。vLLM 不仅部署了多模态模型 Intern-S2-Preview，还支持连续批处理深度教程。llama.cpp 也因推测解码参数优化让小模型提速 1.8 倍。
> 相关链接：Meta 论文｜llama.cpp 速度优化

vLLM-Omni 正式用于生产，多模态推理不再依赖闭源 API

Baseten 用 vLLM-Omni 部署了多模态服务，支持音频、流式多模态、实时 TTS 等负载，过去这些大多靠闭源 API。vLLM 还第一时间支持了开源科学基础模型 Intern-S2-Preview。
> 相关链接：vLLM-Omni 部署｜Intern-S2-Preview

研究与方法

新优化器 SODA：不调参就能胜过 Muon

SODA 是一个包装类优化器，不引入超参数，却能提升 Adam 和 Muon 的效果。SODA[Muon] 甚至打败了经过调参的 Muon 本身。优化器家族又开始热闹了。
> 相关链接：SODA 论文｜zacharynado 总结

“快慢学习” + 教学式强化学习：让模型学得更聪明

“Learning Fast and Slow”将慢速权重 RL 与快速上下文适应结合；教学式 RL 则要求教师模型输出学生能跟上的步骤，否则惩罚教师。两种方法都试图提高数据效率和泛化性。
> 相关链接：Fast/Slow 论文｜教学式 RL 解读

ParseBench 榜单更新：解析模型 Infinity-Parser2-Pro 领跑

PDF 解析基准 ParseBench 公布新排名，Infinity-Parser2-Pro (35B) 和 Flash (2B) 表现最好。它们使用了 500 万个合成样本和联合 RL 训练，兼顾文档、表格和图表解析。
> 相关链接：ParseBench 榜单

产品与应用落地

ChatGPT 推出个人财务功能，Pro 用户可管钱

OpenAI 在美国为 Pro 用户上线个人财务助手，能连银行账户、分析支出、回答财务问题。内部测试中 GPT-5.5 Thinking 得 79 分，Pro 版 82.5 分。这可能会挤压一批金融助手 App。
> 相关链接：官方公告｜kimmonismus 评论

Weaviate 1.37 新增分词调试，Cohere 发布 Compass 文档检索

Weaviate 更新了 per-property 分词设置和 /v1/tokenize 接口，方便排查 BM25 问题。Cohere 推出 Compass，用视觉解析加搜索嵌入检索复杂文档，适合合同、表格等难搞的 PDF。
> 相关链接：Weaviate 更新｜Cohere Compass

行业与公司动态

Cerebras 上市市值 600 亿，称已在跑 OpenAI 万亿参数模型

Cerebras 终于 IPO 了，市值 600 亿美元。CFO 公开表态：我们什么规模都跑，没有上限，已经在给 OpenAI 的 5.4 和 5.5 版本做推理。这次上市被看作推理基础设施赛道的重要里程碑。
> 相关链接：投资者评述 (ishanit5)｜CFO 采访 (CNBC)｜行业解读 (Apoorv)

Anthropic 突然重置开发者速率限制，疑似应对 Codex 竞争

多位开发者发现 Claude 的 5 小时和每周速率限制被重置了，免费/低付费用户可调用量增加。市场猜测这是 Anthropic 在 Codex 火爆后抢用户的手段，也可能是算力更充足了。
> 相关链接：kimmonismus 报道

Anthropic 估值跃升至 9000 亿美元，ARR 达到 450 亿

据金融时报报道，Anthropic 估值已到 9000 亿美元，预计到 5 月底年化收入 450 亿。这个数字远超早先预期，反映出资本对领先 AI 公司的极度看好。
> 相关链接：kimmonismus 转引

政策、治理与安全

Dan Jeffries 长文反对开源 AI 限制政策

开源倡导者 Dan Jeffries 发了一篇长推，认为出口管制、权重限制等会伤害整个 AI 生态，引发大量转发。开源与闭源的争论仍是行业焦点。
> 相关链接：Dan Jeffries 原文

LinkedIn 简介藏 prompt 注入，提醒 Agent 安全风险

推友 tmuxvim 在 LinkedIn 简介里藏了 prompt 注入，AI 爬取后会说出搞笑内容。这个例子虽娱乐，但说明 Agent 直接读取用户文本极易被注入，安全防护不能忽视。
> 相关链接：tmuxvim 演示