模型与能力
Moonshot 开源 Kimi-K2.7-Code:代码模型升级
Moonshot 发布开源的代码模型 Kimi-K2.7-Code,基于 K2.6 改进,1T 参数 MoE(32B 激活),256K 上下文。声称在多个代码基准上提升 10-30%,同时减少 30% 推理 token。社区反馈正面,但认为尚未达到顶级水平。
> 相关链接:官方发布|Hugging Face 权重
MiniMax 开源 M3:多模态 MoE 模型
MiniMax 发布开源多模态模型 M3,428B 总参数(23B 激活),支持文本/图像/视频,1M 上下文。采用 MiniMax Sparse Attention 降低长文本推理成本。社区关注其许可协议:小公司免费商用,大公司需谈判。
> 相关链接:官方发布|Hugging Face 权重
华为宣布开源 openPangu 2.0
华为宣布 openPangu 2.0 将于6月30日逐步开源,包含 Pro(505B/18B)和 Flash(92B/6B)两个 MoE 变体,支持 512K 上下文,宣称推理吞吐是主流开源模型的2倍。社区认为 Flash 版本适合本地部署。
> 相关链接:Reddit 讨论
DiffusionGemma NVFP4 量化版发布:速度快但准确率下降
NVIDIA 发布 DiffusionGemma 26B-A4B 的 NVFP4 量化版,宣称在 H100 上可达 1100+ tok/s。但社区测试显示,该扩散模型虽然比 Gemma4 快 3-4 倍,但事实准确率明显下降,更容易出错。
> 相关链接:Hugging Face NVFP4 模型|性能对比讨论
Agent 与工具链
Claude Code 插件 Ponytail:开启“懒惰高级开发”模式
开源插件 Ponytail 为 Claude Code 添加“懒惰高级开发”模式,强制 agent 避免写新代码,尽量用现有库或一行代码解决。测试显示 token 减少 16%,代码量减少 6 倍,但社区指出可能影响正确性(如邮件验证)。
> 相关链接:GitHub 仓库|Reddit 讨论
SkyPilot 推出 Sandboxes:在 K8s 上安全运行 LLM 生成代码
SkyPilot 发布 Sandboxes 功能,允许用户在自有 Kubernetes 集群上运行不可信的 LLM 生成代码,宣称亚秒级启动、单集群支持5万个沙箱,成本比托管服务低 4-10 倍。
> 相关链接:官方发布
Claude Managed Agents 支持客户控制沙箱
Anthropic 扩展了 Claude Managed Agents 文档,允许在多个云提供商的客户控制沙箱中运行 Agent。社区认为这是向可复现和可控 Agent 部署迈出的重要一步。
> 相关链接:ClaudeDevs 推文
基础设施与硬件
Artificial Analysis 推出 AA-AgentPerf 基准:衡量 Agent 推理能效
AA-AgentPerf 专注于 Agent 场景的长程推理,使用生产优化(KV 缓存复用、推测解码等),核心指标为 Agents per Megawatt。早期测试显示 DeepSeek V4 Pro 搭配 GB300/B300 比 Hopper 和 AMD 配置更优。
> 相关链接:发布推文
EAGLE3 推测解码加入 llama.cpp
llama.cpp 合并 PR #18039,支持 EAGLE3 推测解码。该方法利用目标模型中间特征来加速 Draft 模型,实测推理速度提升 2-3 倍,在 Gemma4 上效果明显。社区关注与 MTP(多 token 预测)的比较。
> 相关链接:发布讨论|llama.cpp PR
研究与方法
Coding Agent 排行榜更新:SWE-Bench Pro 被 DeepSWE 替换
Artificial Analysis 用 Datacurve 的 DeepSWE 替换 SWE-Bench Pro,因为后者可被仓库历史泄露“作弊”。新排名:Claude Code + Fable 5(77分)领先,Codex + GPT-5.5(76分)紧随其后。讨论焦点:排行榜更多反映系统能力而非纯模型能力。
> 相关链接:Artificial Analysis 推文|后续讨论
FrontierMath v2 发布:修复错误后分数提升
Epoch AI 发布 FrontierMath v2,修正了 42% 的题目错误。新版本下 GPT-5.5 的 Tier 4 分数大幅提升,Claude Fable 5 在 Tiers 1-4 达到 87-88%。显示数学基准正在快速饱和,静态数据集越来越脆弱。
> 相关链接:Epoch AI 发布|Fable 5 分数
Google Research 发布 Gemini-SQL2:文本转 SQL 新 SOTA
Google 宣布 Gemini-SQL2 在 BIRD 基准上达到 SOTA。但社区质疑可能存在过拟合。同时,一篇 Nature Medicine 论文显示,通用前沿模型(Google/OpenAI/Anthropic)在临床评估中已超越专业医疗系统。
> 相关链接:Google Research 推文
产品与应用落地
Fable 5 一天反编译 1989 DOS 游戏,重现经典
一位开发者使用 Fable 5 和 Claude Code 在一天内反编译了整个《Midwinter》DOS 游戏的可执行文件,标注出 602 个函数,并重新实现了地形生成器(像素级匹配)。相比之前其他模型需要 6 个月。
> 相关链接:项目主页|Reddit 讨论
用 Fable 5 两天“心流编程”做出 MMORPG
开发者用 Fable 5 在两天内“心流编程”打造了网页 MMORPG《World of ClaudeCraft》,包含在线角色、任务、物品、聊天等功能,代码已开源。社区惊叹于速度和完成度,但也质疑资产来源。
> 相关链接:GitHub 仓库|Reddit 讨论
Claude Max 订阅经济学:200 美元换 8000 美元使用量?
Reddit 热帖对比 Claude Max 20x(200美元/月)和 OpenAI Pro 的 API 等效价值,认为订阅严重补贴用户。但社区反驳说 API 价不等于成本,且大部分用户不会用到上限,轻量用户补贴重度用户。
> 相关链接:Reddit 讨论
行业与公司动态
政策、治理与安全
美国政府迫使 Anthropic 暂停 Fable/Mythos 访问
美国政府以国家安全为由,指令 Anthropic 暂停所有用户的 Claude Fable 5 和 Mythos 5 访问。Anthropic 称该指令基于其不认可的能力报告,且类似能力在 GPT-5.5 等模型中广泛存在。事件导致下游产品(如 Devin、Agent Arena)紧急切换模型,并引发对闭源 API 依赖风险的讨论。
> 相关链接:Anthropic 官方声明|ClaudeDevs 影响说明|Reddit 讨论帖|Reddit 精华帖