AI 新闻摘要 2026-04-30

基础设施与硬件

CPU 算力需求被低估，可能出现短缺

Intel CEO 指出 CPU 更新周期遇上 AI 代理需求，预算全砸 GPU 导致 CPU 维护不足。Noam Brown 和 Sam Altman 也认为推理算力是战略资源，未来可能面临 CPU 短缺。
> 相关链接：Intel CEO 财报会议｜Noam Brown 观点｜Sam Altman 观点

黄仁勋：推理拐点已至，算力需求涨万倍

NVIDIA GTC 上指出 AI 从训练转向推理，思考、行动、阅读都需要推理。过去两年计算需求增长约 1 万倍，用量增长百倍，产能决定收入上限。
> 相关链接：NVIDIA GTC 报道

GPU 负载重构：预填充/解码分离成常态

推理拐点导致 GPU 工作负载重塑，Prefill/Decode 分离架构成为标准。各大厂都在跟进类似 Cerebras 的 bandwagon 方案。
> 相关链接：架构分析

vLLM 适配 Blackwell，吞吐量夺冠

vLLM 在 DigitalOcean serverless 上跑 DeepSeek V3.2 达 230 tok/s，TTFT 0.96s。用了 NVFP4 量化、EAGLE3 speculative decoding 等优化。
> 相关链接：vLLM 项目｜SemiAnalysis 分析

Qwen 发布 FlashQLA 长上下文内核

阿里推出基于 TileLang 的高性能线性注意力内核，前向速度提升 2-3 倍，反向 2 倍。专为端侧代理 AI 和长上下文场景优化。
> 相关链接：Alibaba Qwen｜基准测试

智谱与大牛分享推理服务踩坑经验

智谱公开 GLM-5 服务复盘，修复 KV cache 竞争条件后预填充吞吐提升 132%。John Carmack 提醒 torch.linalg 在特定尺寸下有 10 倍性能回退。
> 相关链接：Zhipu AI｜John Carmack

行业与公司动态

大厂抢购推理芯片公司，生态重塑

Nvidia 收购 Groq，Intel 牵手 Sambanova，亚马逊跟进 Cerebras 方案。OpenAI 和 Cognition 此前也已布局，推理芯片赛道拥挤。
> 相关链接：行业动态

Agent 与工具链

OpenAI Codex 升级为通用工作台面

Codex 不再只是写代码，支持研究合成、表格和决策跟踪。新增 Supabase 集成和 Figma 插件，能把实现计划转成 FigJam 看板。
> 相关链接：OpenAI｜Figma 插件

Codex 企业席位免费，工作流提速 40%

符合条件的企业客户 6 月底前免席位费。改用 Responses API 的 WebSocket 模式保持状态温暖，减少重复工作，代理工作流速度提升。
> 相关链接：OpenAI Devs｜性能优化

Cursor 发布 SDK，转向可编程平台

Cursor SDK 暴露底层运行时和 Harness，可用于 CI/CD 和嵌入式代理。从 IDE 工具转向头式代理运行时，支持按使用量计费。
> 相关链接：Cursor AI｜社区讨论

VS Code 升级代理 Harness 能力

新增跨工作区语义索引、跨库搜索、聊天会话洞察。推出提示词/代理评估扩展，重点优化记忆、检索和工具编排，而非单纯模型智力。
> 相关链接：VS Code 更新｜评估扩展

Agent Harness 工程成优化关键

研究显示 Harness 进化可观察且可回滚，Terminal-Bench 通过率从 69.7% 升至 77.0%。HALO 项目通过 trace 分析自动修复 Harness 失败。
> 相关链接：Agentic Harness｜HALO 项目

LangChain 推 Deep Agents 部署方案

新增 Harness Profiles 支持按模型版本化提示词和工具。DeepAgents Deploy 允许用少量配置文件低代码部署，强调开源 Harness 和评估。
> 相关链接：LangChain｜部署方案

Cloudflare 允许代理成为客户

代理可直接创建账户、注册域名、启动付费计划并获取部署 Token。厂商开始直接向代理暴露业务工作流，而非仅作为副驾驶。
> 相关链接：Cloudflare｜官方公告

模型与能力

Mistral Medium 3.5 发布引发争议

被视为 128B 稠密模型，支持本地运行。有人批评其上下文和架构选择，也有人认为这是押注企业可靠性而非刷榜。
> 相关链接：社区讨论｜Unsloth 评测

IBM Granite 4.1 强调开源与效率

发布 30B/8B/3B 三个开源权重模型。8B 模型在评测中仅用 4M 输出 token 就得 61 分，主打企业边缘部署的成本和透明度。
> 相关链接：IBM 发布

开源模型竞争加剧，价格战开打

Ant OSS 发布 Ling-2.6 Flash (107B MoE)，腾讯开源离线翻译模型仅 440MB。Qwen 3.5 Plus 降至$3/M token，MiMo-V2.5 Pro 性价比突出。
> 相关链接：Ling-2.6｜腾讯混元｜价格讨论

研究与方法

知识探针显示模型大小与事实能力线性相关

IKP 研究分析 188 个模型，发现事实知识准确率与模型大小呈强对数线性关系 (R²=0.917)。反驳了“推理可压缩知识”的说法，可估算闭源模型大小。
> 相关链接：研究论文

产品与应用落地

代理直接消费云服务成趋势

Cloudflare 案例显示代理可自主购买服务。结合 Codex 和 Cursor 的平台化，代理正从辅助工具变为能独立执行商业流程的主体。
> 相关链接：Cloudflare 案例