AI 新闻摘要 2026-06-04

发布于 2026年06月04日

模型与能力

Microsoft 发布 MAI-Thinking-1 技术报告

微软公开了 MAI-Thinking-1 模型的技术报告,透露训练未使用第三方蒸馏或合成数据,AIME 2025 达 97%,SWE-Bench Pro 53%,人类偏好盲评超 Sonnet 4.6。报告透明地分享了训练栈(SGLang、dspy.GEPA)、数据配比和缩放配方。
> 相关链接:技术报告@eliebakouch 解读@mustafasuleyman 宣布训练细节补充

Google 开源 Gemma 4 12B 多模态模型

Google 发布 Gemma 4 12B,Apache 2.0 协议,16GB VRAM 可本地运行。采用无编码器设计(图像和音频直接映射到文本空间)。社区立即支持 vLLM、Ollama、llama.cpp、Unsloth 等框架。量化后仅需 8GB 内存。
> 相关链接:Google 发布博文技术介绍vLLM 支持Ollama 支持

Ideogram 4.0 开源权重,成为最强开源图像模型

Ideogram 从闭源转向开放权重,声称最佳开源图像模型。在 Artificial Analysis 图片竞技场排名第 8 总榜、第1开源模型,文字渲染和品牌设计尤其强。支持 fal 和 Hugging Face 部署。
> 相关链接:@ideogram_ai 宣布通过 fal 部署Hugging Face 模型Arena 排名

Miso One 开源 TTS:8B 参数,一次语音克隆

Miso One 发布 8B 开源 TTS 模型,支持一次语音克隆,延迟仅 110ms,适合表达丰富的语音合成。
> 相关链接:发布公告

阿里 Fun-Realtime-TTS 登顶语音竞技场

阿里巴巴的 Fun-Realtime-TTS 在 Artificial Analysis 语音竞技场以 1219 ELO 取得第一(超过 Gemini 3.1 Flash TTS),价格 $27.59/百万字符。
> 相关链接:成绩公布

Google Magenta RealTime 2:开源连续音乐生成器

Google 发布 Magenta RealTime 2,一款开源、低延迟的连续音乐生成模型,适合本地设备运行。
> 相关链接:项目介绍


基础设施与硬件

Microsoft 发布 Surface Laptop Ultra:1 PFLOP AI 算力

全新 Surface Laptop Ultra 主打 AI 工作负载,最高 1 PFLOP 算力、128GB 统一内存、RTX GPU,专为本地 AI 开发设计。
> 相关链接:产品发布


Agent 与工具链

CMU/LTI 提出 MACU:多 Agent DAG 提升计算机使用能力

MACU 将计算机使用任务分解为 DAG,由管理器调度并行子 Agent。在多个基准上提升 4.7%-25.5%,任务完成速度提升 1.5 倍。
> 相关链接:论文介绍@kohjingyu 解读

Perplexity 推出 Personal Computer:Windows 上的本地 Agent 调度器

Perplexity 发布了面向 Windows 的个人电脑版,一个本地 Agent 编排器,可操控应用和文件,实现自动化任务。
> 相关链接:产品发布

Nous Hermes Agent 更新:远程连接修复、面板重做

Nous 发布了 Hermes Agent 的多次更新,包括修复远程连接、更新远程使用指南、并完全重建了仪表盘。
> 相关链接:远程连接修复远程指南更新仪表盘重做

LangChain 推出 Gateway 花费追踪和沙箱/可观测性文档

LangChain/LangSmith 升级 Gateway 支持花费追踪,并发布了沙箱、网关和可观测性文档,以及 Deep Agents 和 LangSmith 的案例研究。
> 相关链接:Gateway 花费追踪文档与案例Deep Agents 案例

Microsoft SkillOpt:Agent 技能自动化优化工具

微软 SkillOpt 可自动优化 Agent 技能,插到编排器后使多模态提取技能从 0.73 提升到 0.93。
> 相关链接:@omarsar0 验证


产品与应用落地

OpenAI 发布 GPT-Rosalind 更新:为生命科学定制

OpenAI 推出 GPT-Rosalind,一个针对生命科学领域的垂直模型,用于辅助科研。
> 相关链接:更新公告

Harvey 实测:混合开源模型 + 前沿模型,成本降低 60%,准确率更高

法律 AI 公司 Harvey 发布测试:GLM 5.1 作为主力 + Opus 4.7 顾问,通过率 18%(纯 Opus 14%),成本 $368 vs $954。SFT 后的 Kimi 2.6 以 1/11 成本超越 Opus。
> 相关链接:Harvey 发布结果

Microsoft 发布 MAI-Image-2.5 和 MAI-Code-1-Flash

连同 MAI-Thinking-1,微软推出 MAI-Image-2.5(文本到图像#3,图像到图像#2)和 MAI-Code-1-Flash,并部署到 OneDrive Photos 等产品。
> 相关链接:MAI-Image-2.5 介绍MAI-Code-1-Flash 发布

微软 Frontier Tuning:用 RL 环境为特定工作流调优模型

微软推广 Frontier Tuning 服务,基于强化学习环境进行工作流定制。内部 Excel 定制的 MAI 模型在相关任务上可达 GPT-5.4 级别,同时效率高 10 倍。
> 相关链接:@mustafasuleyman 介绍


行业与公司动态

Uber 限制编码 Agent 支出:每人每月上限 $1500

据报道 Uber 为每位员工每款编码 Agent 工具设定每月 $1500 的花费上限,引发对成本管控的讨论。LangChain 趁势推广其 Gateway 作为成本管理方案。
> 相关链接:@simonw 报道LangChain 应对

模型路由是否靠谱?业内激烈辩论

@levie 认为模型路由是必然趋势,但 @scottastevenson 反驳路由大多“蛇油”,因为前沿模型本身更快更便宜;路由还可能导致系统不稳定、API 内部套利。
> 相关链接:@levie 观点@scottastevenson 反驳补充观点




评论