AI 新闻摘要 2026-06-13

模型与能力

Moonshot 开源 Kimi-K2.7-Code：代码模型升级

Moonshot 发布开源的代码模型 Kimi-K2.7-Code，基于 K2.6 改进，1T 参数 MoE（32B 激活），256K 上下文。声称在多个代码基准上提升 10-30%，同时减少 30% 推理 token。社区反馈正面，但认为尚未达到顶级水平。
> 相关链接：官方发布｜Hugging Face 权重

MiniMax 开源 M3：多模态 MoE 模型

MiniMax 发布开源多模态模型 M3，428B 总参数（23B 激活），支持文本/图像/视频，1M 上下文。采用 MiniMax Sparse Attention 降低长文本推理成本。社区关注其许可协议：小公司免费商用，大公司需谈判。
> 相关链接：官方发布｜Hugging Face 权重

华为宣布开源 openPangu 2.0

华为宣布 openPangu 2.0 将于6月30日逐步开源，包含 Pro（505B/18B）和 Flash（92B/6B）两个 MoE 变体，支持 512K 上下文，宣称推理吞吐是主流开源模型的2倍。社区认为 Flash 版本适合本地部署。
> 相关链接：Reddit 讨论

DiffusionGemma NVFP4 量化版发布：速度快但准确率下降

NVIDIA 发布 DiffusionGemma 26B-A4B 的 NVFP4 量化版，宣称在 H100 上可达 1100+ tok/s。但社区测试显示，该扩散模型虽然比 Gemma4 快 3-4 倍，但事实准确率明显下降，更容易出错。
> 相关链接：Hugging Face NVFP4 模型｜性能对比讨论

Agent 与工具链

Claude Code 插件 Ponytail：开启“懒惰高级开发”模式

开源插件 Ponytail 为 Claude Code 添加“懒惰高级开发”模式，强制 agent 避免写新代码，尽量用现有库或一行代码解决。测试显示 token 减少 16%，代码量减少 6 倍，但社区指出可能影响正确性（如邮件验证）。
> 相关链接：GitHub 仓库｜Reddit 讨论

SkyPilot 推出 Sandboxes：在 K8s 上安全运行 LLM 生成代码

SkyPilot 发布 Sandboxes 功能，允许用户在自有 Kubernetes 集群上运行不可信的 LLM 生成代码，宣称亚秒级启动、单集群支持5万个沙箱，成本比托管服务低 4-10 倍。
> 相关链接：官方发布

Claude Managed Agents 支持客户控制沙箱

Anthropic 扩展了 Claude Managed Agents 文档，允许在多个云提供商的客户控制沙箱中运行 Agent。社区认为这是向可复现和可控 Agent 部署迈出的重要一步。
> 相关链接：ClaudeDevs 推文

基础设施与硬件

Artificial Analysis 推出 AA-AgentPerf 基准：衡量 Agent 推理能效

AA-AgentPerf 专注于 Agent 场景的长程推理，使用生产优化（KV 缓存复用、推测解码等），核心指标为 Agents per Megawatt。早期测试显示 DeepSeek V4 Pro 搭配 GB300/B300 比 Hopper 和 AMD 配置更优。
> 相关链接：发布推文

EAGLE3 推测解码加入 llama.cpp

llama.cpp 合并 PR #18039，支持 EAGLE3 推测解码。该方法利用目标模型中间特征来加速 Draft 模型，实测推理速度提升 2-3 倍，在 Gemma4 上效果明显。社区关注与 MTP（多 token 预测）的比较。
> 相关链接：发布讨论｜llama.cpp PR

研究与方法

Coding Agent 排行榜更新：SWE-Bench Pro 被 DeepSWE 替换

Artificial Analysis 用 Datacurve 的 DeepSWE 替换 SWE-Bench Pro，因为后者可被仓库历史泄露“作弊”。新排名：Claude Code + Fable 5（77分）领先，Codex + GPT-5.5（76分）紧随其后。讨论焦点：排行榜更多反映系统能力而非纯模型能力。
> 相关链接：Artificial Analysis 推文｜后续讨论

FrontierMath v2 发布：修复错误后分数提升

Epoch AI 发布 FrontierMath v2，修正了 42% 的题目错误。新版本下 GPT-5.5 的 Tier 4 分数大幅提升，Claude Fable 5 在 Tiers 1-4 达到 87-88%。显示数学基准正在快速饱和，静态数据集越来越脆弱。
> 相关链接：Epoch AI 发布｜Fable 5 分数

Google Research 发布 Gemini-SQL2：文本转 SQL 新 SOTA

Google 宣布 Gemini-SQL2 在 BIRD 基准上达到 SOTA。但社区质疑可能存在过拟合。同时，一篇 Nature Medicine 论文显示，通用前沿模型（Google/OpenAI/Anthropic）在临床评估中已超越专业医疗系统。
> 相关链接：Google Research 推文

产品与应用落地

Fable 5 一天反编译 1989 DOS 游戏，重现经典

一位开发者使用 Fable 5 和 Claude Code 在一天内反编译了整个《Midwinter》DOS 游戏的可执行文件，标注出 602 个函数，并重新实现了地形生成器（像素级匹配）。相比之前其他模型需要 6 个月。
> 相关链接：项目主页｜Reddit 讨论

用 Fable 5 两天“心流编程”做出 MMORPG

开发者用 Fable 5 在两天内“心流编程”打造了网页 MMORPG《World of ClaudeCraft》，包含在线角色、任务、物品、聊天等功能，代码已开源。社区惊叹于速度和完成度，但也质疑资产来源。
> 相关链接：GitHub 仓库｜Reddit 讨论

Claude Max 订阅经济学：200 美元换 8000 美元使用量？

Reddit 热帖对比 Claude Max 20x（200美元/月）和 OpenAI Pro 的 API 等效价值，认为订阅严重补贴用户。但社区反驳说 API 价不等于成本，且大部分用户不会用到上限，轻量用户补贴重度用户。
> 相关链接：Reddit 讨论

行业与公司动态

政策、治理与安全

美国政府迫使 Anthropic 暂停 Fable/Mythos 访问

美国政府以国家安全为由，指令 Anthropic 暂停所有用户的 Claude Fable 5 和 Mythos 5 访问。Anthropic 称该指令基于其不认可的能力报告，且类似能力在 GPT-5.5 等模型中广泛存在。事件导致下游产品（如 Devin、Agent Arena）紧急切换模型，并引发对闭源 API 依赖风险的讨论。
> 相关链接：Anthropic 官方声明｜ClaudeDevs 影响说明｜Reddit 讨论帖｜Reddit 精华帖