AI 新闻摘要 2026-06-02

发布于 2026年06月02日

模型与能力

NVIDIA 发布 Cosmos 3:开源多模态世界模型,语言/图像/视频/音频/动作全统一

Cosmos 3 采用 Mixture-of-Transformers 架构(自回归推理器 + 扩散生成器),提供 Nano(16B)和 Super(64B)两个尺寸。文本转图像、图像转视频能力在开源模型中达到新 SOTA。NVIDIA 还联合 Runway 等成立了 Cosmos Coalition 生态联盟。
> 相关链接:发布公告人工分析排行榜NVIDIA 生态解读

NVIDIA 开源 Nemotron 3 Ultra:550B MoE 大模型,速度超 300 tok/s

Nemotron 3 Ultra 是 550B 参数、约 55B 活跃参数的 MoE 模型,被社区称为美国目前最强的开源模型。推理速度极快(部分测试超 300 tok/s),而活跃度(~10%)比 DeepSeek/Kimi 等更高,可能影响推理成本。
> 相关链接:官方发布社区讨论

MiniMax M3 发布:号称首个开源三栖模型(编码+多模态+长上下文),但实际使用有坑

M3 支持 1M 上下文(512K 保证),在 SWE-Bench 等 Agent 基准上表现亮眼,但社区反映其 token 消耗高、自检循环多,且目前尚未完全公开权重。多家基础设施(Novita、Vercel 等)已第一时间支持。
> 相关链接:官方公告知乎评测(高 token 问题)

Qwen3.7-Plus 发布:阿里开源多模态 Agent 模型,统一 GUI/CLI 操作

Qwen3.7-Plus 是阿里推出的多模态交互 Agent,支持视觉推理、编程、搜索增强问答,可同时操作图形界面和命令行。已通过阿里云 API 提供,Cline 等工具迅速集成。
> 相关链接:阿里云发布

JetBrains Mellum2:12B MoE 低延迟小模型,专为 IDE 和 Agent 路由设计

Mellum2 总参 12B,活跃 2.5B,用 11T 令牌训练并经过 RLVR 强化。主打超低延迟,可用于 RAG、子 Agent 和 IDE 辅助,已第一时间适配 vLLM。
> 相关链接:官方发布

Claude Opus 4.8 在 ARC-AGI-3 上创下新 SOTA(1.5%)

虽然绝对分数仍然很小,但这标志着该基准上的一个有意义跃升。
> 相关链接:ARC 官方


Agent 与工具链

Perplexity 推出”Search as Code”:让模型用 Python 写搜索,效果翻倍

不同于传统工具调用,模型直接调用搜索 SDK 写代码,实现自定义排序、批处理、聚合。WANDR 基准分从 0.152 跳到 0.386,token 开销更低。
> 相关链接:Perplexity 公告

Google Gemini API 推出 Managed Agents:一个 API 调用即可启动完整 Agent

该 Agent 能推理、写代码、运行代码、管理文件,在托管 Linux 沙箱中运行。大大简化了开发流程。
> 相关链接:Google 发布

LangChain 发布 Deep Agents、Context Hub 和 Sandbox 引擎

LangChain 进一步整合 Agent 生命周期工具,强调持久上下文、自动化故障排查和沙箱隔离,面向企业级部署。
> 相关链接:LangChain 官方

OpenAI Codex 登录 AWS Bedrock,并发布 Python SDK

OpenAI 的 Codex 和前沿模型现可通过 Amazon Bedrock 使用,面向企业安全合规场景。同时发布了 Python SDK,支持线程、流式、恢复、图像和沙箱控制。
> 相关链接:OpenAI 公告

Claude Code 出现速率限制事故:Opus 4.8 并行子 Agent 导致超量消耗

Anthropic 修复了漏洞后重置了 Pro 和 Max 用户的 5 小时及周限制。提醒人们 Agent 编排质量比模型智商更影响用户体验。
> 相关链接:Anthropic 公告


基础设施与硬件

NVIDIA 发布 RTX Spark:个人 AI 超级计算机,1 PFLOP FP4

基于 Grace + Blackwell 架构,配 128GB 统一内存,定位本地 AI 工作站,与微软合作。意味着 NVIDIA 不再只卖加速卡,开始卖整机。
> 相关链接:发布详情

Lambda 率先部署 NVIDIA Quantum-X InfiniBand 光交换机 Q3450-LD

采用共封装光学技术,降低网络功耗和故障率,提升大规模集群效率。
> 相关链接:Lambda 公告

OpenAI 公布星门密歇根数据中心:1GW 规模,闭环冷却

规划容量达 1 吉瓦,采用闭环冷却技术,并承诺配套当地就业和教育投入。
> 相关链接:OpenAI 新闻室

MLX-VLM v0.6.0 发布:将 Apple 设备变成”本地 Agent 机器”

新增推测解码、工具调用、Anthropic/response 风格 API 支持,以及多种多模态模型。本地推理能力大幅提升。
> 相关链接:发布说明


行业与公司动态

Anthropic 秘密提交 IPO 申请

Anthropic 已向 SEC 提交了 S-1 草案,标志着其正式启动上市进程,目前等待审核。
> 相关链接:Anthropic 官方

OpenAI 将 Codex 和前沿模型带到 AWS Bedrock

企业用户可以在 AWS 的安全合规框架内使用 OpenAI 模型,无需额外迁移。
> 相关链接:OpenAI 公告


政策、治理与安全

npm 供应链遭大规模攻击:90+ Red Hat 云包被投毒,窃取凭证

攻击者通过自传播蠕虫窃取 npm/GitHub/AWS/SSH 凭据。微软安全情报发出警告,提醒企业对 Agent 使用沙箱隔离和运行时安全。
> 相关链接:微软安全公告




评论