AI 新闻摘要 2026-06-02

模型与能力

NVIDIA 发布 Cosmos 3：开源多模态世界模型，语言/图像/视频/音频/动作全统一

Cosmos 3 采用 Mixture-of-Transformers 架构（自回归推理器 + 扩散生成器），提供 Nano（16B）和 Super（64B）两个尺寸。文本转图像、图像转视频能力在开源模型中达到新 SOTA。NVIDIA 还联合 Runway 等成立了 Cosmos Coalition 生态联盟。
> 相关链接：发布公告｜人工分析排行榜｜NVIDIA 生态解读

NVIDIA 开源 Nemotron 3 Ultra：550B MoE 大模型，速度超 300 tok/s

Nemotron 3 Ultra 是 550B 参数、约 55B 活跃参数的 MoE 模型，被社区称为美国目前最强的开源模型。推理速度极快（部分测试超 300 tok/s），而活跃度（~10%）比 DeepSeek/Kimi 等更高，可能影响推理成本。
> 相关链接：官方发布｜社区讨论

MiniMax M3 发布：号称首个开源三栖模型（编码+多模态+长上下文），但实际使用有坑

M3 支持 1M 上下文（512K 保证），在 SWE-Bench 等 Agent 基准上表现亮眼，但社区反映其 token 消耗高、自检循环多，且目前尚未完全公开权重。多家基础设施（Novita、Vercel 等）已第一时间支持。
> 相关链接：官方公告｜知乎评测（高 token 问题）

Qwen3.7-Plus 发布：阿里开源多模态 Agent 模型，统一 GUI/CLI 操作

Qwen3.7-Plus 是阿里推出的多模态交互 Agent，支持视觉推理、编程、搜索增强问答，可同时操作图形界面和命令行。已通过阿里云 API 提供，Cline 等工具迅速集成。
> 相关链接：阿里云发布

JetBrains Mellum2：12B MoE 低延迟小模型，专为 IDE 和 Agent 路由设计

Mellum2 总参 12B，活跃 2.5B，用 11T 令牌训练并经过 RLVR 强化。主打超低延迟，可用于 RAG、子 Agent 和 IDE 辅助，已第一时间适配 vLLM。
> 相关链接：官方发布

Claude Opus 4.8 在 ARC-AGI-3 上创下新 SOTA（1.5%）

虽然绝对分数仍然很小，但这标志着该基准上的一个有意义跃升。
> 相关链接：ARC 官方

Agent 与工具链

Perplexity 推出”Search as Code”：让模型用 Python 写搜索，效果翻倍

不同于传统工具调用，模型直接调用搜索 SDK 写代码，实现自定义排序、批处理、聚合。WANDR 基准分从 0.152 跳到 0.386，token 开销更低。
> 相关链接：Perplexity 公告

Google Gemini API 推出 Managed Agents：一个 API 调用即可启动完整 Agent

该 Agent 能推理、写代码、运行代码、管理文件，在托管 Linux 沙箱中运行。大大简化了开发流程。
> 相关链接：Google 发布

LangChain 发布 Deep Agents、Context Hub 和 Sandbox 引擎

LangChain 进一步整合 Agent 生命周期工具，强调持久上下文、自动化故障排查和沙箱隔离，面向企业级部署。
> 相关链接：LangChain 官方

OpenAI Codex 登录 AWS Bedrock，并发布 Python SDK

OpenAI 的 Codex 和前沿模型现可通过 Amazon Bedrock 使用，面向企业安全合规场景。同时发布了 Python SDK，支持线程、流式、恢复、图像和沙箱控制。
> 相关链接：OpenAI 公告

Claude Code 出现速率限制事故：Opus 4.8 并行子 Agent 导致超量消耗

Anthropic 修复了漏洞后重置了 Pro 和 Max 用户的 5 小时及周限制。提醒人们 Agent 编排质量比模型智商更影响用户体验。
> 相关链接：Anthropic 公告

基础设施与硬件

NVIDIA 发布 RTX Spark：个人 AI 超级计算机，1 PFLOP FP4

基于 Grace + Blackwell 架构，配 128GB 统一内存，定位本地 AI 工作站，与微软合作。意味着 NVIDIA 不再只卖加速卡，开始卖整机。
> 相关链接：发布详情

Lambda 率先部署 NVIDIA Quantum-X InfiniBand 光交换机 Q3450-LD

采用共封装光学技术，降低网络功耗和故障率，提升大规模集群效率。
> 相关链接：Lambda 公告

OpenAI 公布星门密歇根数据中心：1GW 规模，闭环冷却

规划容量达 1 吉瓦，采用闭环冷却技术，并承诺配套当地就业和教育投入。
> 相关链接：OpenAI 新闻室

MLX-VLM v0.6.0 发布：将 Apple 设备变成”本地 Agent 机器”

新增推测解码、工具调用、Anthropic/response 风格 API 支持，以及多种多模态模型。本地推理能力大幅提升。
> 相关链接：发布说明

行业与公司动态

Anthropic 秘密提交 IPO 申请

Anthropic 已向 SEC 提交了 S-1 草案，标志着其正式启动上市进程，目前等待审核。
> 相关链接：Anthropic 官方

OpenAI 将 Codex 和前沿模型带到 AWS Bedrock

企业用户可以在 AWS 的安全合规框架内使用 OpenAI 模型，无需额外迁移。
> 相关链接：OpenAI 公告

政策、治理与安全

npm 供应链遭大规模攻击：90+ Red Hat 云包被投毒，窃取凭证

攻击者通过自传播蠕虫窃取 npm/GitHub/AWS/SSH 凭据。微软安全情报发出警告，提醒企业对 Agent 使用沙箱隔离和运行时安全。
> 相关链接：微软安全公告