基础设施与硬件
vLLM 0.20 发布:主打显存与 MoE 效率
vLLM 更新 v0.20,支持 2-bit KV cache 使容量翻 4 倍,重启 FA4 支持 MLA。端到端延迟降低 2.1%,简化了 DeepSeek V4 在 Blackwell 上的部署。
> 相关链接:vLLM 发布|技术细节
DeepSeek V4 推理性能:B300 比 H200 快 8 倍
SemiAnalysis 测试显示,B300 运行 DeepSeek V4 Pro 比 H200 快 8 倍。社区讨论指出动态量化有开销,静态量化在推理速度上可能更优。
> 相关链接:性能测试|量化讨论
模型与能力
Nvidia 开源 Nemotron 3 Nano Omni
Nvidia 发布 30B 多模态 MoE 模型,支持 256K 上下文和语音理解。当天上线 OpenRouter、Ollama 等平台,吞吐量比同类开源模型高约 9 倍。
> 相关链接:官方发布|平台 availability
Poolside 开源代码模型 Laguna XS.2
Poolside 首次公开模型,33B 总参数/3B 激活,Apache 2.0 协议。宣称单 GPU 可跑,性能接近 Qwen-3.5,Ollama 已立即支持。
> 相关链接:模型发布|Ollama 支持
GPT-5.5 测评:能力指数 159
Epoch 测得 GPT-5.5 Pro 能力指数 159,FrontierMath 高分。ARC-AGI-3 测试已完成,正在分析失败模式,未出现此前无法解决的 Tier 4 问题。
> 相关链接:Epoch 报告|ARC-AGI 测试
微软开源 TRELLIS.2:图像转 3D
微软发布 4B 图像转 3D 模型,生成分辨率高达 1536³。基于原生 3D VAE,空间压缩 16 倍,可生成带纹理的 PBR 资产。
> 相关链接:项目页面
Agent 与工具链
Mistral 推出 Workflows 编排层
Mistral 上线 Workflows 公共预览,旨在将企业 AI 流程转为可持久化、可观察的生产系统。社区认为 durable execution 是长运行 Agent 的关键。
> 相关链接:产品发布|社区解读
本地离线 Agent 变得可行
多位开发者演示完全离线 Agent 工作流。Gemma 4 可完全本地运行,私有浏览器 Agent 概念出现,本地清理桌面等任务已能实现。
> 相关链接:离线 Agent|本地教程
Hermes Agent 框架获实际采用
Hermes 在实际工作流中表现优于 OpenClaw。已有用户将其部署于 Telegram 或用于医学文献提取,指令遵循能力得到验证。
> 相关链接:用户反馈|应用场景
研究与方法
新评测基准:更贴近实际工作
VibeBench 让 1000 名工程师主观测评模型感受。ParseBench 指出传统 OCR 基准忽略删除线等语义格式,这会实质性改变 Agent 理解。
> 相关链接:VibeBench|ParseBench
训练框架 Bug 影响 SFT 性能
研究发现 DeepSpeed 和 OpenRLHF 存在 Bug,会降低 SFT 性能,这可能影响之前的一些研究结论,复现时需注意。
> 相关链接:Bug 报告
World-R1:视频模型已编码 3D 结构
研究表明现有视频模型已包含 3D 结构信息,通过 RL 可“唤醒”该能力,无需修改架构或增加视频训练数据及推理成本。
> 相关链接:研究论文
行业与公司动态
Hugging Face:30 万用户添加硬件规格
Hugging Face 数据显示,30 万用户在 Hub 上添加了硬件规格,以便发现哪些模型可本地运行,反映本地部署需求增长。
> 相关链接:数据统计