AI 新闻摘要 2026-05-13

模型与能力

多项前沿基准发布：数学、医学、编程和语音评测再升级

Soohak发布了由64位数学家从头编写的439道研究级数学题，难度超过奥赛；SophontAI的Medmarks v1.0将医学基准从20个扩到30个、模型从46个扩到61个；ProgramBench第一个任务被GPT-5.5 high/xhigh拿下，xhigh各项指标超过Opus 4.7；Artificial Analysis的τ-Voice基准显示，最好的语音模型（Grok Voice Think Fast 1.0）也只解决了约一半的客服场景。旧基准饱和问题被再次提出。
> 相关链接：Soohak数学题｜Medmarks v1.0｜ProgramBench｜τ-Voice基准

Claude Opus 4.7 推出快速模式：速度快2.5倍，价格贵6倍

Anthropic上线了Claude Opus 4.7 fast mode，API和Claude Code都可以用。Cursor实测速度提升2.5倍，但成本也翻到6倍，给不同场景多了一个性价比选择。
> 相关链接：Anthropic发布｜Cursor成本对比

Qwen 3.6 本地评测：35B A3B最强，27B能处理10万行代码

Reddit用户对比了Qwen 3.6 35B A3B、27B、Gemma 4 26B等模型在论文理解、长上下文代码重构上的表现。35B A3B被认为最强，但思考模式啰嗦缓慢；27B配合强模型启动后能处理10万+行项目。MTP（多Token预测）的GGUF支持还不稳定。
> 相关链接：本地评测帖子｜MTP GGUF问题

Jina嵌入v5和Meta Sapiens2：多模态嵌入与人形视觉模型发布

Jina发布jina-embeddings-v5-omni，支持文本、图像、音频、视频的统一嵌入，有1.57B和0.95B两个版本，支持Matryoshka裁剪。Meta悄悄放出Sapiens2，一系列高分辨率人形ViT模型（0.1B～5B参数），用于姿态估计、分割、法线和点图。
> 相关链接：Jina v5｜Sapiens2

Agent 与工具链

Stanford Shepherd：把Agent执行变成Git式版本控制

Shepherd将Agent任务、副作用、轨迹视为一等对象，支持精确回放、分支、回滚，并在Lean中给出形式化保证。在CooperBench上，实时监督准确率从28.8%涨到54.7%，还能加速反事实优化和树RL推理。
> 相关链接：介绍推文

OpenAI 预告 Symphony 和 Codex 电脑操控功能

OpenAI展示了Symphony系统：每个打开的任务都会自动跑一个Codex Agent；同时Codex新增电脑操控能力，能在多个应用间操作而不需完全接管屏幕。
> 相关链接：Symphony预告｜Computer use for Codex

LangChain 重新开源 Chat LangChain，LangGraph 引入增量快照

LangChain把大改后的Chat LangChain应用重新开源，声称每天处理近2万亿token的Q&A流量。LangGraph推出DeltaChannel快照，替代全量检查点实现可扩展的持久化执行，并已用于deepagents v0.6的消息历史与文件存储。
> 相关链接：Chat LangChain开源｜LangGraph DeltaChannel

26M参数的Needle：从Gemini蒸馏的轻量工具调用模型

Cactus Compute发布Needle，只有26M参数，专做单次工具调用。预填充速度达6000 tok/s，解码1200 tok/s，可在消费级设备运行。它没有MLP层，只用注意力+门控，作者声称在单次函数调用上超过0.6B级模型。适合用作路由器。
> 相关链接：发布帖｜模型权重

基础设施与硬件

Perplexity 公布 GB200 上跑 Qwen3 235B 的实测数据

Perplexity详细测试了在NVIDIA GB200 NVL72上服务微调后的Qwen3 235B。GB200相比H200，NVLS all-reduce延迟从586µs降到313µs，MoE prefill组合延迟从730µs降到438µs，解码吞吐更高。Aravind Srinivas称这改变了大型MoE的prefill/decode分离方式。
> 相关链接：Perplexity博客｜Aravind评论

Modal发文认为推理需要独立的调度栈（计算管理、缓存、CRIU、GPU检查点等），Perceptron立刻背书，称其Mk1模型的全部推理都在Modal上跑，因为视频、结构化输出、混合推理带来了特殊的冷启动和扩缩容需求。
> 相关链接：Modal观点｜Perceptron确认

SemiAnalysis：B200 多机集群 + PD分离可提升每GPU吞吐7倍

报告指出，将多个B200 8-GPU机器通过RoCEv2 CX-7组网，配合prefill/decode分离，可使每GPU的token吞吐量提升最多7倍，折算下来每token成本大幅下降。
> 相关链接：SemiAnalysis报告

用 Intel Optane 持久内存本地跑1万亿参数模型，约4 tok/s

一位用户用768GB Optane PMem（DDR4作缓存）+ RTX 3060 12GB，通过llama.cpp混合推理跑Kimi K2.5（~1T参数MoE），达到约4 tok/s。虽然慢，但证明了超大模型可以不上云。成本约2000-2500美元。
> 相关链接：帖子详情

研究与方法

AI 做数学和物理研究：Co-Mathematician 和 physics-intern 分别刷新基准

Google DeepMind发布AI Co-Mathematician，一个异步、有状态的研究工作台，在FrontierMath Tier 4上达到48%；另有一个physics-intern系统，通过将CritPt分解为多个专门Agent，将Gemini 3.1 Pro的成绩从17.7%提升到31.4%。两者都展示了AI在科学发现中的潜力。
> 相关链接：Co-Mathematician｜physics-intern

优化器新进展：SOAP-Muon 和 Lean4 超级优化器

Modded-NanoGPT社区使用SOAP-Muon以3150步刷新记录（比之前少60步）；同时一个基于Lean4的张量程序超级优化器可以自动发现FlashAttention2等内核，在A100上获得约1.8倍几何平均加速，还能联合搜索核、优化器、超参数传递规则和缩放定律。
> 相关链接：SOAP-Muon｜超级优化器

缩放定律老说法受质疑：应该用字节而不是 token 算

@che_shr_cat指出经典的“20 tokens每参数”说法依赖tokenizer选择，建议用字节衡量缩放规模。@JJitsev则强调缩放定律不仅用于预测，还能作为比较不同学习过程的系统基础。
> 相关链接：字节论｜缩放定律价值

训练时效率技巧：Lighthouse Attention 和 Renderers

Nous的Lighthouse Attention在训练阶段用次二次复杂度的注意力包裹，训练后期可移除，恢复标准推理。Prime Intellect的Renderers解决RL训练与Agent环境之间的token/消息不匹配问题，在热门开源模型上实现3倍以上吞吐。
> 相关链接：Lighthouse｜Renderers

产品与应用落地

Perceptron Mk1 发布：原生视频推理模型

Perceptron Mk1定位为前沿视频和具身推理模型，原生支持2 FPS视频、时间定位、多模态上下文学习，还能输出点、框、多边形等结构化空间结果。32k多模态上下文，不走通用VLM路线，而是物理世界推理栈。
> 相关链接：发布推文｜OpenRouter概括

Google 和 Meta 同时强化多模态交互：AI指针和语音对话

Google DeepMind演示了AI鼠标指针，与Gemini联动，用户点屏幕上内容并语音指令即可操作。Meta宣布Meta AI语音对话由Muse Spark驱动，支持打断、语言切换、图像生成和摄像头交互。两者都在把AI从聊天窗口移到系统级交互。
> 相关链接：Google AI指针｜Meta Muse Spark

行业与公司动态

OpenAI 停用微调 API，微调时代可能结束

OpenAI正式废弃微调API，曾被视为AI工程师重要工具的微调功能被砍。业界认为这可能是因为算力紧张，也反映了行业趋势：长提示词和RL后训练正在取代微调。但开源模型微调（如Cursor和Cognition）反而在增加。
> 相关链接：原文讨论

Anthropic 估值可能首次反超 OpenAI

市场消息显示Anthropic正在洽谈新一轮融资，估值有望超过OpenAI，这将是历史上首次。同时Cognition被曝以250亿美元估值融资。AI初创公司的估值竞赛继续升温。
> 相关链接：估值讨论｜Cognition融资

Isomorphic Labs 获 21 亿美元融资，AI 制药吸金

Demis Hassabis宣布Isomorphic Labs获得21亿美元新融资，用于AI驱动药物发现，这是本次数据集中最大的一笔直接应用于AI平台的资本承诺。
> 相关链接：融资宣布

政策、治理与安全

Mini Shai-Hulud 供应链攻击扩散，针对 AI 开发者工具

攻击从TanStack扩展到OpenSearch、Mistral AI、Guardrails AI、UiPath等多个npm和PyPI包。攻击者通过篡改Claude Code和VS Code配置文件实现持久化，即使删除恶意包也可能重新执行。Guardrails AI的0.10.1包被攻陷后约2小时内隔离。建议开启blockExoticSubdeps、使用secrets manager等措施。
> 相关链接：攻击报道｜Guardrails AI确认｜缓解建议