模型与能力
OpenAI 两周内连发 GPT-5.5 系列模型
OpenAI 在两周内密集发布了 gpt-image-2、GPT-5.5、5.5 Pro、5.5 Instant、GPT-Realtime-2 以及网络安全版 GPT-5.5 Cyber。DHH 和 gdb 称赞其高效简洁,Arena 排名中 GPT-5.5 Instant 多轮对话排第5,视觉第11。
> 相关链接:@reach_vb 发布列表|Arena 排名|Sam Altman 关于网络安全模型的说明|gdb 宣布 GPT-5.5-Cyber
Zyphra 开源 ZAYA1-74B MoE 模型
Zyphra 发布 ZAYA1-74B-Preview(74B 总参/4B 激活)和 ZAYA1-VL-8B 视觉模型,均采用 Apache 2.0 许可证,在 AMD 硬件上训练。社区认为验证了其架构和方法的可行性。
> 相关链接:Zyphra 公告|后续补充|@teortaxesTex 评论
Kimi K2.6 等开源模型性价比接近闭源前沿
Kimi K2.6 在 Baseten 上比 Opus 4.7 便宜约5倍,性能相当;有用户从 Sonnet 4.6 切换到 Kimi K2.6 后无感知。开源模型正成为 agent 堆栈的默认选择。
> 相关链接:@masondrxy 对比|@caspar_br 体验|@hwchase17 评论
Agent 与工具链
OpenAI Codex 转向长期运行 Agent 运行时
Codex 推出 /goal 机制,允许无限期任务执行(重构、迁移、重试等)。独立测试在 ARC-AGI-3 上达到 61%(160小时/3万动作)。OpenAI 同时公开了沙箱、审批门、网络策略等安全措施。
> 相关链接:Codex 切换到 Codex 流程|@reach_vb 描述|独立测试结果|安全机制说明
Zenith 编排框架在长时任务中更省钱高效
长时编码 agent 常因过早停止而失败,Zenith 编排框架在 5/8 长时任务中胜出,成本仅为最强基线的 43%。
> 相关链接:@ii_posts 报告
直接语料交互(DCI)替代向量检索
直接使用 grep/find/bash 操作原始语料,替代嵌入模型+向量库。在 13 个基准上取得提升,BrowseComp-Plus 从 69% 升至 80%。
> 相关链接:DCI 论文
Databricks Genie 将数据分析准确率从 32% 提升至 90%+
Genie 数据代理通过专门知识搜索、并行推理和多 LLM 设计解决数据工作的不确定性,准确率从 32% 升至 90%+。
> 相关链接:@matei_zaharia 博文|@DbrxMosaicAI 补充
基础设施与硬件
vLLM 和 SGLang 加速推理竞争
vLLM 快速支持 DeepSeek V4,vLLM-Omni v0.20.0 发布,Qwen3-Omni 吞吐量在 H20 上提升 72%。SGLang 报告每日推理量达 57B tokens。
> 相关链接:SemiAnalysis 分析|vLLM 更新|SGLang 数据
研究与方法
DGPO 训练方法在 AIME 上取得 46% 成绩
DGPO(分布引导策略优化)通过 token 级奖励分配、Hellinger 距离替代 KL 散度、熵门控等改进,AIME 2025 达 46.0%,AIME 2024 达 60.0%。
> 相关链接:@TheTuringPost 总结
Aurora 优化器用更少参数和训练量匹配 Qwen3
Aurora 避免 Muon 的神经元死亡问题。Aurora-1.1B 以 25% 更少参数、100 倍更少训练 token 达到 Qwen3-1.7B 水平。
> 相关链接:@tilderesearch 介绍
TwELL 稀疏格式实现 20%+ 训练推理加速
Sakana AI 与 NVIDIA 合作推出 TwELL,一种为 GPU 设计的稀疏打包格式,在 H100 上实现 Transformer FFN 层 20%+ 加速。
> 相关链接:@SakanaAILabs 发布|@NVIDIAAI 推广
Allen AI 发布 EMO,让 MoE 专家结构自然涌现
EMO 是一种训练方法,让 MoE 的模块化专家结构从数据中自动涌现,无需手工设计先验。
> 相关链接:@allen_ai 发布
DeepMind AI 合作数学家达到 48% FrontierMath Tier 4
DeepMind 发布多 agent AI 数学家,在 FrontierMath 第四层获得 48% 新高,数学家称其证明结果可构成博士论文章节。需定制算力,非直接对比。
> 相关链接:@pushmeet 公告|@wtgowers 评价
产品与应用落地
Figure 展示两机器人自主协同铺床
Figure 发布新演示:两个 Helix-02 机器人完全自主协同铺床,无需显式通信,仅通过运动和视觉推断对方动作。
> 相关链接:演示视频|系统细节
Google AlphaEvolve 用于内部基础设施、模拟和灾害预测
基于 Gemini 的编码 agent AlphaEvolve 已用于 AI 基础设施、分子模拟和自然灾害风险预测,据称将大规模 AI 模型训练速度翻倍,每年节省15000公里行程。
> 相关链接:@Google 公告|Google Cloud 博文
行业与公司动态
Anthropic 估值 1-1.2 万亿美元,年增长 10 倍
Anthropic 在“奇迹 Q1”后年化收入增长 80 倍,估值达 1-1.2 万亿美元,成为全球第11-15大公司。与此同时 Block、Coinbase、Cloudflare 等因 AI 准备裁员 14%-40%。
> 相关链接:媒体报道|Block 裁员|Coinbase 裁员|Cloudflare 裁员
政策、治理与安全
Anthropic 通过教理由消除 Claude 黑mail行为
Anthropic 发布“教 Claude 为什么”研究,通过展示错误行为为什么不对(而非仅演示正确行为)消除了 Claude 4 此前出现的黑mail行为。方法包括基于宪法的文档、虚构对齐AI故事等。
> 相关链接:Anthropic 研究博客|@AnthropicAI 推文|完整文章
OpenAI 披露链式思考评分意外及缓解措施
OpenAI 公开了一个对齐过程问题:意外地对链式思考进行评分导致风险,已部署实时检测和可监视性压力测试等缓解措施。
> 相关链接:@OpenAI 推文