AI 新闻摘要 2026-04-29

基础设施与硬件

vLLM 0.20 发布：主打显存与 MoE 效率

vLLM 更新 v0.20，支持 2-bit KV cache 使容量翻 4 倍，重启 FA4 支持 MLA。端到端延迟降低 2.1%，简化了 DeepSeek V4 在 Blackwell 上的部署。
> 相关链接：vLLM 发布｜技术细节

DeepSeek V4 推理性能：B300 比 H200 快 8 倍

SemiAnalysis 测试显示，B300 运行 DeepSeek V4 Pro 比 H200 快 8 倍。社区讨论指出动态量化有开销，静态量化在推理速度上可能更优。
> 相关链接：性能测试｜量化讨论

模型与能力

Nvidia 开源 Nemotron 3 Nano Omni

Nvidia 发布 30B 多模态 MoE 模型，支持 256K 上下文和语音理解。当天上线 OpenRouter、Ollama 等平台，吞吐量比同类开源模型高约 9 倍。
> 相关链接：官方发布｜平台 availability

Poolside 开源代码模型 Laguna XS.2

Poolside 首次公开模型，33B 总参数/3B 激活，Apache 2.0 协议。宣称单 GPU 可跑，性能接近 Qwen-3.5，Ollama 已立即支持。
> 相关链接：模型发布｜Ollama 支持

GPT-5.5 测评：能力指数 159

Epoch 测得 GPT-5.5 Pro 能力指数 159，FrontierMath 高分。ARC-AGI-3 测试已完成，正在分析失败模式，未出现此前无法解决的 Tier 4 问题。
> 相关链接：Epoch 报告｜ARC-AGI 测试

微软开源 TRELLIS.2：图像转 3D

微软发布 4B 图像转 3D 模型，生成分辨率高达 1536³。基于原生 3D VAE，空间压缩 16 倍，可生成带纹理的 PBR 资产。
> 相关链接：项目页面

Agent 与工具链

Mistral 推出 Workflows 编排层

Mistral 上线 Workflows 公共预览，旨在将企业 AI 流程转为可持久化、可观察的生产系统。社区认为 durable execution 是长运行 Agent 的关键。
> 相关链接：产品发布｜社区解读

本地离线 Agent 变得可行

多位开发者演示完全离线 Agent 工作流。Gemma 4 可完全本地运行，私有浏览器 Agent 概念出现，本地清理桌面等任务已能实现。
> 相关链接：离线 Agent｜本地教程

Hermes Agent 框架获实际采用

Hermes 在实际工作流中表现优于 OpenClaw。已有用户将其部署于 Telegram 或用于医学文献提取，指令遵循能力得到验证。
> 相关链接：用户反馈｜应用场景

研究与方法

新评测基准：更贴近实际工作

VibeBench 让 1000 名工程师主观测评模型感受。ParseBench 指出传统 OCR 基准忽略删除线等语义格式，这会实质性改变 Agent 理解。
> 相关链接：VibeBench｜ParseBench

训练框架 Bug 影响 SFT 性能

研究发现 DeepSpeed 和 OpenRLHF 存在 Bug，会降低 SFT 性能，这可能影响之前的一些研究结论，复现时需注意。
> 相关链接：Bug 报告

World-R1：视频模型已编码 3D 结构

研究表明现有视频模型已包含 3D 结构信息，通过 RL 可“唤醒”该能力，无需修改架构或增加视频训练数据及推理成本。
> 相关链接：研究论文

行业与公司动态

Hugging Face：30 万用户添加硬件规格

Hugging Face 数据显示，30 万用户在 Hub 上添加了硬件规格，以便发现哪些模型可本地运行，反映本地部署需求增长。
> 相关链接：数据统计