行业与公司动态
OpenAI 解除 Azure 独占,即将上线 AWS
微软仍是主云,但 OpenAI 可跨云分发产品,协议延至 2032 年。AWS 确认几周内上线 Bedrock,旧版 AGI 独占条款失效。
> 相关链接:Sam 宣布|AWS 确认
GitHub Copilot 6 月起改用用量计费
因 Agent 工作流消耗更多运行时,GitHub 宣布 6 月 1 日起转向用量计费。开发者需关注成本变化。
> 相关链接:官方公告
Codex 用量倍数曝光,5.5 快版消耗更高
GPT-5.5 fast 消耗是 5.4 的 1.25 倍。Sam 认为 20 美元档仍有价值。
> 相关链接:用量数据
模型与能力
GPT-5.5 评测数据出炉,互有胜负
WeirdML 67.1% 优于 5.4,但落后 Opus 4.7。LMSYS 代码榜第 9,数学第 3。
> 相关链接:社区评测
小米开源 MiMo-V2.5,1M 上下文
MIT 协议,Pro 版约 42B 激活参数,主打复杂 Agent 与代码。vLLM 已支持推理。
> 相关链接:发布信息
Kimi K2.6 登顶 OpenRouter 周榜
主打代码与长程 Agent,支持 300 并发子 Agent 协调 4000 步骤。
> 相关链接:榜单信息
中国模型集体转向 Agent 与长上下文
Qwen 3.6 Flash、DeepSeek V4/Flash、GLM-5.1 纷纷促销或更新。
> 相关链接:Qwen 更新
产品与应用落地
GPT-Image-2 集成 Codex,边写代码边生成
支持教育、信息图及创意场景,低幻觉多模态推理能力强。作为 Codex 技能可迭代生成。
> 相关链接:应用案例
Agent 与工具链
OpenAI 开源 Symphony 编排层
连接 issue 追踪器到 Codex Agent,实现问题→Agent→PR→人工审查流程。
> 相关链接:开源发布
Sakana 发布 7B Conductor 调度模型
用 RL 训练,专门调度其他大模型。LiveCodeBench 得分 83.9%。
> 相关链接:论文发布
Gemma 4 实现纯本地浏览器 Agent
基于 WebGPU,支持原生工具调用管理标签页与总结页面。无需云端。
> 相关链接:演示
Devin 推出终端本地版 Agent
可在本地 Shell 运行,必要时移交云端处理。
> 相关链接:产品更新
Hermes Agent 仓库热度超 Claude Code
原生视觉支持成为默认选项。
> 相关链接:热度对比
基础设施与硬件
Google TPU v8 拆分训练与推理芯片
分为 8t(训练)和 8i(推理),推理性价比提升 80%。
> 相关链接:架构分析
vLLM 更新支持 DeepSeek V4 与 FP8
0.20.0 版本加入 FP8 KV 缓存优化,长上下文检索准确率从 13% 提升至 89%。
> 相关链接:版本发布
研究与方法
Agent 评测转向开放世界任务
新研究关注不可自动验证的工作、持续学习与记忆存储。
> 相关链接:观点文章
成本感知评测成为第一梯队指标
研究发现 Agent 编码消耗 token 是聊天的 1000 倍,经济性成关键考量。
> 相关链接:研究
LlamaIndex 发布 ParseBench 文档基准
新增 2k 验证企业文档页面,专门评测解析 Agent 能力。
> 相关链接:基准发布