AI 新闻摘要 2026-05-13

发布于 2026年05月17日

模型与能力

多项前沿基准发布:数学、医学、编程和语音评测再升级

Soohak发布了由64位数学家从头编写的439道研究级数学题,难度超过奥赛;SophontAI的Medmarks v1.0将医学基准从20个扩到30个、模型从46个扩到61个;ProgramBench第一个任务被GPT-5.5 high/xhigh拿下,xhigh各项指标超过Opus 4.7;Artificial Analysis的τ-Voice基准显示,最好的语音模型(Grok Voice Think Fast 1.0)也只解决了约一半的客服场景。旧基准饱和问题被再次提出。
> 相关链接:Soohak数学题Medmarks v1.0ProgramBenchτ-Voice基准

Claude Opus 4.7 推出快速模式:速度快2.5倍,价格贵6倍

Anthropic上线了Claude Opus 4.7 fast mode,API和Claude Code都可以用。Cursor实测速度提升2.5倍,但成本也翻到6倍,给不同场景多了一个性价比选择。
> 相关链接:Anthropic发布Cursor成本对比

Qwen 3.6 本地评测:35B A3B最强,27B能处理10万行代码

Reddit用户对比了Qwen 3.6 35B A3B、27B、Gemma 4 26B等模型在论文理解、长上下文代码重构上的表现。35B A3B被认为最强,但思考模式啰嗦缓慢;27B配合强模型启动后能处理10万+行项目。MTP(多Token预测)的GGUF支持还不稳定。
> 相关链接:本地评测帖子MTP GGUF问题

Jina嵌入v5和Meta Sapiens2:多模态嵌入与人形视觉模型发布

Jina发布jina-embeddings-v5-omni,支持文本、图像、音频、视频的统一嵌入,有1.57B和0.95B两个版本,支持Matryoshka裁剪。Meta悄悄放出Sapiens2,一系列高分辨率人形ViT模型(0.1B~5B参数),用于姿态估计、分割、法线和点图。
> 相关链接:Jina v5Sapiens2


Agent 与工具链

Stanford Shepherd:把Agent执行变成Git式版本控制

Shepherd将Agent任务、副作用、轨迹视为一等对象,支持精确回放、分支、回滚,并在Lean中给出形式化保证。在CooperBench上,实时监督准确率从28.8%涨到54.7%,还能加速反事实优化和树RL推理。
> 相关链接:介绍推文

OpenAI 预告 Symphony 和 Codex 电脑操控功能

OpenAI展示了Symphony系统:每个打开的任务都会自动跑一个Codex Agent;同时Codex新增电脑操控能力,能在多个应用间操作而不需完全接管屏幕。
> 相关链接:Symphony预告Computer use for Codex

LangChain 重新开源 Chat LangChain,LangGraph 引入增量快照

LangChain把大改后的Chat LangChain应用重新开源,声称每天处理近2万亿token的Q&A流量。LangGraph推出DeltaChannel快照,替代全量检查点实现可扩展的持久化执行,并已用于deepagents v0.6的消息历史与文件存储。
> 相关链接:Chat LangChain开源LangGraph DeltaChannel

26M参数的Needle:从Gemini蒸馏的轻量工具调用模型

Cactus Compute发布Needle,只有26M参数,专做单次工具调用。预填充速度达6000 tok/s,解码1200 tok/s,可在消费级设备运行。它没有MLP层,只用注意力+门控,作者声称在单次函数调用上超过0.6B级模型。适合用作路由器。
> 相关链接:发布帖模型权重


基础设施与硬件

Perplexity 公布 GB200 上跑 Qwen3 235B 的实测数据

Perplexity详细测试了在NVIDIA GB200 NVL72上服务微调后的Qwen3 235B。GB200相比H200,NVLS all-reduce延迟从586µs降到313µs,MoE prefill组合延迟从730µs降到438µs,解码吞吐更高。Aravind Srinivas称这改变了大型MoE的prefill/decode分离方式。
> 相关链接:Perplexity博客Aravind评论

Modal发文认为推理需要独立的调度栈(计算管理、缓存、CRIU、GPU检查点等),Perceptron立刻背书,称其Mk1模型的全部推理都在Modal上跑,因为视频、结构化输出、混合推理带来了特殊的冷启动和扩缩容需求。
> 相关链接:Modal观点Perceptron确认

SemiAnalysis:B200 多机集群 + PD分离可提升每GPU吞吐7倍

报告指出,将多个B200 8-GPU机器通过RoCEv2 CX-7组网,配合prefill/decode分离,可使每GPU的token吞吐量提升最多7倍,折算下来每token成本大幅下降。
> 相关链接:SemiAnalysis报告

用 Intel Optane 持久内存本地跑1万亿参数模型,约4 tok/s

一位用户用768GB Optane PMem(DDR4作缓存)+ RTX 3060 12GB,通过llama.cpp混合推理跑Kimi K2.5(~1T参数MoE),达到约4 tok/s。虽然慢,但证明了超大模型可以不上云。成本约2000-2500美元。
> 相关链接:帖子详情


研究与方法

AI 做数学和物理研究:Co-Mathematician 和 physics-intern 分别刷新基准

Google DeepMind发布AI Co-Mathematician,一个异步、有状态的研究工作台,在FrontierMath Tier 4上达到48%;另有一个physics-intern系统,通过将CritPt分解为多个专门Agent,将Gemini 3.1 Pro的成绩从17.7%提升到31.4%。两者都展示了AI在科学发现中的潜力。
> 相关链接:Co-Mathematicianphysics-intern

优化器新进展:SOAP-Muon 和 Lean4 超级优化器

Modded-NanoGPT社区使用SOAP-Muon以3150步刷新记录(比之前少60步);同时一个基于Lean4的张量程序超级优化器可以自动发现FlashAttention2等内核,在A100上获得约1.8倍几何平均加速,还能联合搜索核、优化器、超参数传递规则和缩放定律。
> 相关链接:SOAP-Muon超级优化器

缩放定律老说法受质疑:应该用字节而不是 token 算

@che_shr_cat指出经典的“20 tokens每参数”说法依赖tokenizer选择,建议用字节衡量缩放规模。@JJitsev则强调缩放定律不仅用于预测,还能作为比较不同学习过程的系统基础。
> 相关链接:字节论缩放定律价值

训练时效率技巧:Lighthouse Attention 和 Renderers

Nous的Lighthouse Attention在训练阶段用次二次复杂度的注意力包裹,训练后期可移除,恢复标准推理。Prime Intellect的Renderers解决RL训练与Agent环境之间的token/消息不匹配问题,在热门开源模型上实现3倍以上吞吐。
> 相关链接:LighthouseRenderers


产品与应用落地

Perceptron Mk1 发布:原生视频推理模型

Perceptron Mk1定位为前沿视频和具身推理模型,原生支持2 FPS视频、时间定位、多模态上下文学习,还能输出点、框、多边形等结构化空间结果。32k多模态上下文,不走通用VLM路线,而是物理世界推理栈。
> 相关链接:发布推文OpenRouter概括

Google 和 Meta 同时强化多模态交互:AI指针和语音对话

Google DeepMind演示了AI鼠标指针,与Gemini联动,用户点屏幕上内容并语音指令即可操作。Meta宣布Meta AI语音对话由Muse Spark驱动,支持打断、语言切换、图像生成和摄像头交互。两者都在把AI从聊天窗口移到系统级交互。
> 相关链接:Google AI指针Meta Muse Spark


行业与公司动态

OpenAI 停用微调 API,微调时代可能结束

OpenAI正式废弃微调API,曾被视为AI工程师重要工具的微调功能被砍。业界认为这可能是因为算力紧张,也反映了行业趋势:长提示词和RL后训练正在取代微调。但开源模型微调(如Cursor和Cognition)反而在增加。
> 相关链接:原文讨论

Anthropic 估值可能首次反超 OpenAI

市场消息显示Anthropic正在洽谈新一轮融资,估值有望超过OpenAI,这将是历史上首次。同时Cognition被曝以250亿美元估值融资。AI初创公司的估值竞赛继续升温。
> 相关链接:估值讨论Cognition融资

Isomorphic Labs 获 21 亿美元融资,AI 制药吸金

Demis Hassabis宣布Isomorphic Labs获得21亿美元新融资,用于AI驱动药物发现,这是本次数据集中最大的一笔直接应用于AI平台的资本承诺。
> 相关链接:融资宣布


政策、治理与安全

Mini Shai-Hulud 供应链攻击扩散,针对 AI 开发者工具

攻击从TanStack扩展到OpenSearch、Mistral AI、Guardrails AI、UiPath等多个npm和PyPI包。攻击者通过篡改Claude Code和VS Code配置文件实现持久化,即使删除恶意包也可能重新执行。Guardrails AI的0.10.1包被攻陷后约2小时内隔离。建议开启blockExoticSubdeps、使用secrets manager等措施。
> 相关链接:攻击报道Guardrails AI确认缓解建议




评论