模型与能力
微软发布 MAI-Thinking-1:35B 活跃参数的推理模型
微软在 Build 大会上推出旗舰推理模型 MAI-Thinking-1,35B 活跃参数的 MoE,256K 上下文。AIME 2025 达 97%,SWE-Bench Pro 53%,盲测偏好超过 Sonnet 4.6。使用 8192 张 GB200 训练,声称零蒸馏、零合成数据,并发布 109 页技术报告。
> 相关链接:Mustafa 推文|技术报告|Scaling01 总结
MAI-Code-1-Flash、MAI-Image-2.5、MAI-Transcribe-1.5 等模型也来了
微软还发布了代码模型 MAI-Code-1-Flash(5B 参数量,SWE-Bench Pro 51%)、图像模型 MAI-Image-2.5(排行榜第二,超越 Nano Banana 2)、语音转写 MAI-Transcribe-1.5(276x 实时,43 种语言,$6/千分钟)以及语音模型 MAI-Voice-2。全部可通过 OpenRouter、fal 等平台使用。
> 相关链接:OpenRouter 上线|Transcribe 评测|图像排名
H Company 发布 Holo 3.1:本地计算机操控模型
H Company 推出 Holo 3.1 系列,基于 Qwen 架构,参数量从 0.8B 到 35B,支持 NVFP4、FP8 等格式。35B 模型在 AndroidWorld 上达到 79.3%,可用于本地设备操控,适合隐私敏感的计算机使用场景。
> 相关链接:官方推文|评测总结
OpenRouter 数据:开源模型占流量 69%,路由成为关键
OpenRouter 分享数据,开源权重模型占了 69.1% 的 token 流量,闭源只有 30.9%。多位业内人士(Clement Delangue、garrytan)认为模型路由将成为未来重要抽象层,但也有人指出企业生产环境下通用路由仍有难度。
> 相关链接:数据推文|讨论|反对观点
Agent 与工具链
GitHub Copilot 发布桌面 App,主打 agent 原生开发
GitHub 在 Build 上推出 Copilot 桌面应用,提供画布、跨设备连续性(CLI/移动/Web/本地/云),Copilot CLI 增加了终端 UI、语音输入、任务调度。微软强调 Copilot 将成为 agent 原生软件开发的家。
> 相关链接:产品发布|CLI 更新|行业反应
微软推出 Web IQ:面向 AI Agent 的搜索与 grounding API
微软发布 Web IQ,一套为 AI agent 设计的 grounding API,支持网页、新闻、图片、视频。架构从 Bing 重构,强调质量、低延迟和 token 效率。宣称已支撑 Copilot、ChatGPT 等绝大多数 AI 聊天和 agent。
> 相关链接:官方介绍
Windows 成为 Agent 运行时:Project Solara/Scout 概念硬件亮相
微软在 Build 上强调 Windows 作为 agent 的安全执行层。发布 Project Solara(agent 优先设备概念,含桌面伴侣和可穿戴徽章)和 Scout(全天候个人 agent)。同时推出 Surface RTX Spark Dev Box,可本地运行 120B 参数模型。
> 相关链接:Yusuf Mehdi 推文|TheTuringPost 分析|硬件细节
Anthropic 推出 Claude 平台 CLI 并升级 /fork 功能
Anthropic 发布了 Claude Platform 的命令行工具,并升级了 Claude Code 的 /fork 命令,可在后台运行 agent,准确传递上下文和使用 prompt cache,提升了开发者的 agent 编程体验。
> 相关链接:CLI 发布|/fork 更新
Harvey + LangChain 展示低成本验证器:成本降低 1000 倍
Harvey 和 LangChain 合作,用 DeepSeek V4 Flash 作为验证器,在合法 agent 任务中保持 94-96% 的 Agree 率,成本从 18000 美元降至 18 美元(批量模式)。可大幅降低 RL 训练中的验证开销。
> 相关链接:Harvey 推文|LangChain 推文|详细数据
W&B 发布 Weave 2.0:Agent 优先的可观测性工具
W&B 重新发布 Weave,聚焦 agent 观测,集成常见 agent 框架,自动检测失败模式(如循环、拒绝)。帮助开发者调试和优化 agent 行为,降低生产事故。
> 相关链接:W&B 推文|详细说明
基础设施与硬件
微软 MAIA 200 芯片:MAI 模型跑得更好更省电
微软介绍自研芯片 MAIA 200,运行 MAI 模型时性能/美元比 GB200 高 30%,性能/瓦特高 1.4 倍。Training 使用了 8192 张 GB200,但后续推理将优先用自研芯片,强调硬件与模型协同设计。
> 相关链接:Mustafa 推文|技术细节
Together 优化 MiniMax-M3:吞吐提升 81-125%
Together 发布 MiniMax-M3 服务优化,通过稀疏注意力(KV-block-major)、分页解码等改进,实现吞吐量提升 81-125%。MiniMax 自身也强调 MSA 机制将注意力解码时间占比从 30% 降至 5%。
> 相关链接:Together 推文|MiniMax 介绍
Prime-RL 集成 Mooncake Store,实现跨节点 KV 缓存复用
Prime-RL 将 Mooncake Store 与 vLLM 整合,支持跨节点的前缀/KV 缓存共享,大幅降低 agent 滚动推理的重复计算开销,对 RL 推理场景尤其有价值。
> 相关链接:推文
Westmag 融资 1100 万美元,制造美国机器人驱动器
Westmag 走出隐身模式,旨在制造美国本土的机器人执行器和无人机电机,由 a16z 领投,Founders Fund、Lux 等参投。代表硬件供应链回归趋势。
> 相关链接:融资消息|Packy 评论
研究与方法
MAI-Thinking-1 技术报告获好评:109 页,透明度极高
微软公开 109 页技术报告,披露无合成数据、无蒸馏的训练管线,数据源自 Common Crawl + 私有来源,使用 DSPy/GEPA 优化评分器。RL 从零推理能力起步(AIME 从 20% 冲到 95%)。研究者称其为”新时代教科书式报告”。
> 相关链接:报告链接|Eli Bakouch 解读|Nrehiew 评论
Google DeepMind 发布 Co-Scientist:多 Agent 科研助手
DeepMind 推出基于 Gemini 的多 agent 系统 Co-Scientist,用于自动生成科学假设。已在肝纤维化靶点、ALS 疗法、衰老基因等方面提供有意义的合作结果,展示 agent 在科研场景的潜力。
> 相关链接:官方推文|功能介绍
Tilde Research 提出 Wall Attention:无 RoPE,外推至 200K+
Tilde Research 发布 Wall Attention,一种不使用 RoPE 的注意力方法,通过对角遗忘门实现。在 4K 长度训练后可外推到 200K+ 令牌,并提供 Triton 内核,解码吞吐表现强劲。
> 相关链接:论文推文
多个新基准发布:图像编辑、视频跟踪、数据 Agent
PaintBench 评估精确图像编辑,当前最好模型仅 17.1%。VSTAT 测试视频状态跟踪,前沿多模态模型仍表现差。Data Agent Benchmark 关注企业数据工作流。这些基准暴露了现有模型的短板。
> 相关链接:PaintBench|VSTAT|Data Agent
产品与应用落地
OpenAI 推出 Sites in Codex:将想法一键变成内部网站
OpenAI 在 Codex 中新增 Sites 功能,让团队把文档、计划直接部署为可用的内部网站/应用,带认证和动态数据。先面向企业和商业用户,简化内部工具开发流程。
> 相关链接:OpenAI 推文|GDB 演示
Perplexity 发布混合推理模式:本地模型 + 云端模型协同
Perplexity Computer 推出混合 agent 推理,将敏感任务用本地模型处理,复杂推理交给前沿云模型,兼顾隐私和性能。标志着本地+云混合成为 agent 产品的新趋势。
> 相关链接:官方推文|Arav Srinivas 推文
Martin Scorsese 用 FLUX 做分镜:AI 辅助电影创作
Martin Scorsese 公开演示使用 Black Forest Labs 的 FLUX 模型进行故事板生成,强调仍以手绘为主,AI 为辅。这是知名导演首次展示 AI 在电影前期制作中的实际应用。
> 相关链接:Rob Rombach 推文|TheRundownAI 总结
Nous 发布 Hermes Desktop:本地 agent 桌面端
Nous Research 推出 Hermes Desktop,为 Hermes agent 提供本地原生桌面界面,支持 Tailscale/Ollama 集成,让用户本地运行 agent,无需依赖云端。
> 相关链接:Nous 推文|Tailscale 集成
Cognition 发布 Devin Desktop:agent 中立桌面管理
Cognition 推出 Devin Desktop,一个 agent 中立的桌面平台,可管理本地和云端 agent,支持本地规划与云端执行的切换,进一步推动 agent 工作流的桌面化。
> 相关链接:Cognition 推文|Scott Wu 推文
行业与公司动态
微软 Build 大会:从云到端的全栈 AI 平台押注
Satya Nadella 与 Mustafa Suleyman 将 Build 定位为生态转型,不再只做云和 API,而是模型、芯片、OS、应用全面自研。强调”人文主义超级智能”,并预测 AI 算力三年增长 1000 倍。
> 相关链接:Satya 采访|Mustafa 推文|算力预测
PyTorch 宣布 NVIDIA 采用 OpenMDW-1.1 开源模型许可框架
PyTorch 表示 NVIDIA 已在四个开源模型家族中采用 OpenMDW-1.1 许可框架,这是一种宽松的 AI 模型许可协议,有望推动行业标准化。
> 相关链接:PyTorch 推文
“Mythos FLOPs 泄露”乌龙:微软幻灯片引算力猜测
Build 上某幻灯片被解读为泄露 Anthropic Claude Mythos 的训练算力,引发数小时讨论。后经多方分析,该数字被证实为不准确估计,相关猜测已撤回。
> 相关链接:最初猜测|修正