模型与能力
Microsoft 发布 MAI-Thinking-1 技术报告
微软公开了 MAI-Thinking-1 模型的技术报告,透露训练未使用第三方蒸馏或合成数据,AIME 2025 达 97%,SWE-Bench Pro 53%,人类偏好盲评超 Sonnet 4.6。报告透明地分享了训练栈(SGLang、dspy.GEPA)、数据配比和缩放配方。
> 相关链接:技术报告|@eliebakouch 解读|@mustafasuleyman 宣布|训练细节补充
Google 开源 Gemma 4 12B 多模态模型
Google 发布 Gemma 4 12B,Apache 2.0 协议,16GB VRAM 可本地运行。采用无编码器设计(图像和音频直接映射到文本空间)。社区立即支持 vLLM、Ollama、llama.cpp、Unsloth 等框架。量化后仅需 8GB 内存。
> 相关链接:Google 发布博文|技术介绍|vLLM 支持|Ollama 支持
Ideogram 4.0 开源权重,成为最强开源图像模型
Ideogram 从闭源转向开放权重,声称最佳开源图像模型。在 Artificial Analysis 图片竞技场排名第 8 总榜、第1开源模型,文字渲染和品牌设计尤其强。支持 fal 和 Hugging Face 部署。
> 相关链接:@ideogram_ai 宣布|通过 fal 部署|Hugging Face 模型|Arena 排名
Miso One 开源 TTS:8B 参数,一次语音克隆
Miso One 发布 8B 开源 TTS 模型,支持一次语音克隆,延迟仅 110ms,适合表达丰富的语音合成。
> 相关链接:发布公告
阿里 Fun-Realtime-TTS 登顶语音竞技场
阿里巴巴的 Fun-Realtime-TTS 在 Artificial Analysis 语音竞技场以 1219 ELO 取得第一(超过 Gemini 3.1 Flash TTS),价格 $27.59/百万字符。
> 相关链接:成绩公布
Google Magenta RealTime 2:开源连续音乐生成器
Google 发布 Magenta RealTime 2,一款开源、低延迟的连续音乐生成模型,适合本地设备运行。
> 相关链接:项目介绍
基础设施与硬件
Microsoft 发布 Surface Laptop Ultra:1 PFLOP AI 算力
全新 Surface Laptop Ultra 主打 AI 工作负载,最高 1 PFLOP 算力、128GB 统一内存、RTX GPU,专为本地 AI 开发设计。
> 相关链接:产品发布
Agent 与工具链
CMU/LTI 提出 MACU:多 Agent DAG 提升计算机使用能力
MACU 将计算机使用任务分解为 DAG,由管理器调度并行子 Agent。在多个基准上提升 4.7%-25.5%,任务完成速度提升 1.5 倍。
> 相关链接:论文介绍|@kohjingyu 解读
Perplexity 推出 Personal Computer:Windows 上的本地 Agent 调度器
Perplexity 发布了面向 Windows 的个人电脑版,一个本地 Agent 编排器,可操控应用和文件,实现自动化任务。
> 相关链接:产品发布
Nous Hermes Agent 更新:远程连接修复、面板重做
Nous 发布了 Hermes Agent 的多次更新,包括修复远程连接、更新远程使用指南、并完全重建了仪表盘。
> 相关链接:远程连接修复|远程指南更新|仪表盘重做
LangChain 推出 Gateway 花费追踪和沙箱/可观测性文档
LangChain/LangSmith 升级 Gateway 支持花费追踪,并发布了沙箱、网关和可观测性文档,以及 Deep Agents 和 LangSmith 的案例研究。
> 相关链接:Gateway 花费追踪|文档与案例|Deep Agents 案例
Microsoft SkillOpt:Agent 技能自动化优化工具
微软 SkillOpt 可自动优化 Agent 技能,插到编排器后使多模态提取技能从 0.73 提升到 0.93。
> 相关链接:@omarsar0 验证
产品与应用落地
OpenAI 发布 GPT-Rosalind 更新:为生命科学定制
OpenAI 推出 GPT-Rosalind,一个针对生命科学领域的垂直模型,用于辅助科研。
> 相关链接:更新公告
Harvey 实测:混合开源模型 + 前沿模型,成本降低 60%,准确率更高
法律 AI 公司 Harvey 发布测试:GLM 5.1 作为主力 + Opus 4.7 顾问,通过率 18%(纯 Opus 14%),成本 $368 vs $954。SFT 后的 Kimi 2.6 以 1/11 成本超越 Opus。
> 相关链接:Harvey 发布结果
Microsoft 发布 MAI-Image-2.5 和 MAI-Code-1-Flash
连同 MAI-Thinking-1,微软推出 MAI-Image-2.5(文本到图像#3,图像到图像#2)和 MAI-Code-1-Flash,并部署到 OneDrive Photos 等产品。
> 相关链接:MAI-Image-2.5 介绍|MAI-Code-1-Flash 发布
微软 Frontier Tuning:用 RL 环境为特定工作流调优模型
微软推广 Frontier Tuning 服务,基于强化学习环境进行工作流定制。内部 Excel 定制的 MAI 模型在相关任务上可达 GPT-5.4 级别,同时效率高 10 倍。
> 相关链接:@mustafasuleyman 介绍
行业与公司动态
Uber 限制编码 Agent 支出:每人每月上限 $1500
据报道 Uber 为每位员工每款编码 Agent 工具设定每月 $1500 的花费上限,引发对成本管控的讨论。LangChain 趁势推广其 Gateway 作为成本管理方案。
> 相关链接:@simonw 报道|LangChain 应对
模型路由是否靠谱?业内激烈辩论
@levie 认为模型路由是必然趋势,但 @scottastevenson 反驳路由大多“蛇油”,因为前沿模型本身更快更便宜;路由还可能导致系统不稳定、API 内部套利。
> 相关链接:@levie 观点|@scottastevenson 反驳|补充观点