AI 新闻摘要 2026-06-04

模型与能力

Microsoft 发布 MAI-Thinking-1 技术报告

微软公开了 MAI-Thinking-1 模型的技术报告，透露训练未使用第三方蒸馏或合成数据，AIME 2025 达 97%，SWE-Bench Pro 53%，人类偏好盲评超 Sonnet 4.6。报告透明地分享了训练栈（SGLang、dspy.GEPA）、数据配比和缩放配方。
> 相关链接：技术报告｜@eliebakouch 解读｜@mustafasuleyman 宣布｜训练细节补充

Google 开源 Gemma 4 12B 多模态模型

Google 发布 Gemma 4 12B，Apache 2.0 协议，16GB VRAM 可本地运行。采用无编码器设计（图像和音频直接映射到文本空间）。社区立即支持 vLLM、Ollama、llama.cpp、Unsloth 等框架。量化后仅需 8GB 内存。
> 相关链接：Google 发布博文｜技术介绍｜vLLM 支持｜Ollama 支持

Ideogram 4.0 开源权重，成为最强开源图像模型

Ideogram 从闭源转向开放权重，声称最佳开源图像模型。在 Artificial Analysis 图片竞技场排名第 8 总榜、第1开源模型，文字渲染和品牌设计尤其强。支持 fal 和 Hugging Face 部署。
> 相关链接：@ideogram_ai 宣布｜通过 fal 部署｜Hugging Face 模型｜Arena 排名

Miso One 开源 TTS：8B 参数，一次语音克隆

Miso One 发布 8B 开源 TTS 模型，支持一次语音克隆，延迟仅 110ms，适合表达丰富的语音合成。
> 相关链接：发布公告

阿里 Fun-Realtime-TTS 登顶语音竞技场

阿里巴巴的 Fun-Realtime-TTS 在 Artificial Analysis 语音竞技场以 1219 ELO 取得第一（超过 Gemini 3.1 Flash TTS），价格 $27.59/百万字符。
> 相关链接：成绩公布

Google Magenta RealTime 2：开源连续音乐生成器

Google 发布 Magenta RealTime 2，一款开源、低延迟的连续音乐生成模型，适合本地设备运行。
> 相关链接：项目介绍

基础设施与硬件

Microsoft 发布 Surface Laptop Ultra：1 PFLOP AI 算力

全新 Surface Laptop Ultra 主打 AI 工作负载，最高 1 PFLOP 算力、128GB 统一内存、RTX GPU，专为本地 AI 开发设计。
> 相关链接：产品发布

Agent 与工具链

CMU/LTI 提出 MACU：多 Agent DAG 提升计算机使用能力

MACU 将计算机使用任务分解为 DAG，由管理器调度并行子 Agent。在多个基准上提升 4.7%-25.5%，任务完成速度提升 1.5 倍。
> 相关链接：论文介绍｜@kohjingyu 解读

Perplexity 推出 Personal Computer：Windows 上的本地 Agent 调度器

Perplexity 发布了面向 Windows 的个人电脑版，一个本地 Agent 编排器，可操控应用和文件，实现自动化任务。
> 相关链接：产品发布

Nous Hermes Agent 更新：远程连接修复、面板重做

Nous 发布了 Hermes Agent 的多次更新，包括修复远程连接、更新远程使用指南、并完全重建了仪表盘。
> 相关链接：远程连接修复｜远程指南更新｜仪表盘重做

LangChain 推出 Gateway 花费追踪和沙箱/可观测性文档

LangChain/LangSmith 升级 Gateway 支持花费追踪，并发布了沙箱、网关和可观测性文档，以及 Deep Agents 和 LangSmith 的案例研究。
> 相关链接：Gateway 花费追踪｜文档与案例｜Deep Agents 案例

Microsoft SkillOpt：Agent 技能自动化优化工具

微软 SkillOpt 可自动优化 Agent 技能，插到编排器后使多模态提取技能从 0.73 提升到 0.93。
> 相关链接：@omarsar0 验证

产品与应用落地

OpenAI 发布 GPT-Rosalind 更新：为生命科学定制

OpenAI 推出 GPT-Rosalind，一个针对生命科学领域的垂直模型，用于辅助科研。
> 相关链接：更新公告

Harvey 实测：混合开源模型 + 前沿模型，成本降低 60%，准确率更高

法律 AI 公司 Harvey 发布测试：GLM 5.1 作为主力 + Opus 4.7 顾问，通过率 18%（纯 Opus 14%），成本 $368 vs $954。SFT 后的 Kimi 2.6 以 1/11 成本超越 Opus。
> 相关链接：Harvey 发布结果

Microsoft 发布 MAI-Image-2.5 和 MAI-Code-1-Flash

连同 MAI-Thinking-1，微软推出 MAI-Image-2.5（文本到图像#3，图像到图像#2）和 MAI-Code-1-Flash，并部署到 OneDrive Photos 等产品。
> 相关链接：MAI-Image-2.5 介绍｜MAI-Code-1-Flash 发布

微软 Frontier Tuning：用 RL 环境为特定工作流调优模型

微软推广 Frontier Tuning 服务，基于强化学习环境进行工作流定制。内部 Excel 定制的 MAI 模型在相关任务上可达 GPT-5.4 级别，同时效率高 10 倍。
> 相关链接：@mustafasuleyman 介绍

行业与公司动态

Uber 限制编码 Agent 支出：每人每月上限 $1500

据报道 Uber 为每位员工每款编码 Agent 工具设定每月 $1500 的花费上限，引发对成本管控的讨论。LangChain 趁势推广其 Gateway 作为成本管理方案。
> 相关链接：@simonw 报道｜LangChain 应对

模型路由是否靠谱？业内激烈辩论

@levie 认为模型路由是必然趋势，但 @scottastevenson 反驳路由大多“蛇油”，因为前沿模型本身更快更便宜；路由还可能导致系统不稳定、API 内部套利。
> 相关链接：@levie 观点｜@scottastevenson 反驳｜补充观点