行业与公司动态 OpenAI 解除 Azure 独占,即将上线 AWS 微软仍是主云,但 OpenAI 可跨云分发产品,协议延至 2032 年。AWS 确认几周内上线 Bedrock,旧版 AGI 独占条款失效。 > 相关链接:Sam 宣布|AWS 确认 GitHub Copilot 6 月起改用用
基础设施与硬件 vLLM 0.20 发布:主打显存与 MoE 效率 vLLM 更新 v0.20,支持 2-bit KV cache 使容量翻 4 倍,重启 FA4 支持 MLA。端到端延迟降低 2.1%,简化了 DeepSeek V4 在 Blackwell 上的部署。 > 相关链接:vLLM 发布
基础设施与硬件 CPU 算力需求被低估,可能出现短缺 Intel CEO 指出 CPU 更新周期遇上 AI 代理需求,预算全砸 GPU 导致 CPU 维护不足。Noam Brown 和 Sam Altman 也认为推理算力是战略资源,未来可能面临 CPU 短缺。 > 相关链接:Intel CEO 财
模型与能力 OpenAI 上线 GPT-5.5:更强代理能力与 1M 上下文 OpenAI 发布 GPT-5.5,API 价格$5/$30每百万 token,Pro 版$30/$180。支持 1M 上下文,终端基准测试 82.7%,SWE-Bench Pro 58.6%。token 效率比 5.4
#### **模型与能力** ##### **DeepSeek V4 发布:100 万上下文与 MIT 开源** DeepSeek 发布 V4 Pro 和 Flash 模型,支持 100 万 token 上下文,采用 MIT 许可。Pro 版性能接近 Opus 4.5,Flash 版价格极低。技术报
模型与能力 DeepSeek V4 发布:100 万上下文与 MIT 开源 DeepSeek 发布 V4 Pro 和 Flash 模型,支持 100 万 token 上下文,采用 MIT 许可。Pro 版性能接近 Opus 4.5,Flash 版价格极低。技术报告获高度评价,兼容华为昇腾芯片。 相关
模型与能力 GLM-5.1 代码能力跃升至第一梯队 GLM-5.1 在 Code Arena 冲上前 3,接近 Claude Sonnet 4.6,超过 Gemini 3.1 和 GPT-5.4 的部分表现。Z.ai 在开源模型里势头很强,Windsurf 等工具也开始快速接入。 Agent 与工具
行业与公司动态 Anthropic ARR 单月激增:190 亿至 300 亿美元 Anthropic 年收入从 3 月的 190 亿涨到 4 月的 300 亿美元,增速惊人。相比之下 OpenAI 为 240 亿且增长停滞,市场认为这是为 IPO 做的战略铺垫。 > 相关链接:3 月数据|
模型与能力 Gemma 4 首周下载破 200 万,端侧表现亮眼 Gemma 4 发布一周下载量达 200 万,登 HF 榜首。iPhone 17 Pro 上 MLX 推理可达 40 tok/s,Ollama Cloud 和 Red Hat 也迅速跟进支持。相比 Gemma 3 全年 670 万,这
模型与能力 Google 发布 Gemma 4:Apache 2.0 开源多模态模型 Google 推出 Gemma 4 系列(2B/4B/26B MoE/31B),支持图文音多模态及 256K 上下文。社区首日支持良好(vLLM/Ollama),但 llama.cpp 存在 tokenizer b