AI 新闻摘要 2026-04-30

发布于 2026年04月30日

基础设施与硬件

CPU 算力需求被低估,可能出现短缺

Intel CEO 指出 CPU 更新周期遇上 AI 代理需求,预算全砸 GPU 导致 CPU 维护不足。Noam Brown 和 Sam Altman 也认为推理算力是战略资源,未来可能面临 CPU 短缺。
> 相关链接:Intel CEO 财报会议Noam Brown 观点Sam Altman 观点

黄仁勋:推理拐点已至,算力需求涨万倍

NVIDIA GTC 上指出 AI 从训练转向推理,思考、行动、阅读都需要推理。过去两年计算需求增长约 1 万倍,用量增长百倍,产能决定收入上限。
> 相关链接:NVIDIA GTC 报道

GPU 负载重构:预填充/解码分离成常态

推理拐点导致 GPU 工作负载重塑,Prefill/Decode 分离架构成为标准。各大厂都在跟进类似 Cerebras 的 bandwagon 方案。
> 相关链接:架构分析

vLLM 适配 Blackwell,吞吐量夺冠

vLLM 在 DigitalOcean serverless 上跑 DeepSeek V3.2 达 230 tok/s,TTFT 0.96s。用了 NVFP4 量化、EAGLE3 speculative decoding 等优化。
> 相关链接:vLLM 项目SemiAnalysis 分析

Qwen 发布 FlashQLA 长上下文内核

阿里推出基于 TileLang 的高性能线性注意力内核,前向速度提升 2-3 倍,反向 2 倍。专为端侧代理 AI 和长上下文场景优化。
> 相关链接:Alibaba Qwen基准测试

智谱与大牛分享推理服务踩坑经验

智谱公开 GLM-5 服务复盘,修复 KV cache 竞争条件后预填充吞吐提升 132%。John Carmack 提醒 torch.linalg 在特定尺寸下有 10 倍性能回退。
> 相关链接:Zhipu AIJohn Carmack


行业与公司动态

大厂抢购推理芯片公司,生态重塑

Nvidia 收购 Groq,Intel 牵手 Sambanova,亚马逊跟进 Cerebras 方案。OpenAI 和 Cognition 此前也已布局,推理芯片赛道拥挤。
> 相关链接:行业动态


Agent 与工具链

OpenAI Codex 升级为通用工作台面

Codex 不再只是写代码,支持研究合成、表格和决策跟踪。新增 Supabase 集成和 Figma 插件,能把实现计划转成 FigJam 看板。
> 相关链接:OpenAIFigma 插件

Codex 企业席位免费,工作流提速 40%

符合条件的企业客户 6 月底前免席位费。改用 Responses API 的 WebSocket 模式保持状态温暖,减少重复工作,代理工作流速度提升。
> 相关链接:OpenAI Devs性能优化

Cursor 发布 SDK,转向可编程平台

Cursor SDK 暴露底层运行时和 Harness,可用于 CI/CD 和嵌入式代理。从 IDE 工具转向头式代理运行时,支持按使用量计费。
> 相关链接:Cursor AI社区讨论

VS Code 升级代理 Harness 能力

新增跨工作区语义索引、跨库搜索、聊天会话洞察。推出提示词/代理评估扩展,重点优化记忆、检索和工具编排,而非单纯模型智力。
> 相关链接:VS Code 更新评估扩展

Agent Harness 工程成优化关键

研究显示 Harness 进化可观察且可回滚,Terminal-Bench 通过率从 69.7% 升至 77.0%。HALO 项目通过 trace 分析自动修复 Harness 失败。
> 相关链接:Agentic HarnessHALO 项目

LangChain 推 Deep Agents 部署方案

新增 Harness Profiles 支持按模型版本化提示词和工具。DeepAgents Deploy 允许用少量配置文件低代码部署,强调开源 Harness 和评估。
> 相关链接:LangChain部署方案

Cloudflare 允许代理成为客户

代理可直接创建账户、注册域名、启动付费计划并获取部署 Token。厂商开始直接向代理暴露业务工作流,而非仅作为副驾驶。
> 相关链接:Cloudflare官方公告


模型与能力

Mistral Medium 3.5 发布引发争议

被视为 128B 稠密模型,支持本地运行。有人批评其上下文和架构选择,也有人认为这是押注企业可靠性而非刷榜。
> 相关链接:社区讨论Unsloth 评测

IBM Granite 4.1 强调开源与效率

发布 30B/8B/3B 三个开源权重模型。8B 模型在评测中仅用 4M 输出 token 就得 61 分,主打企业边缘部署的成本和透明度。
> 相关链接:IBM 发布

开源模型竞争加剧,价格战开打

Ant OSS 发布 Ling-2.6 Flash (107B MoE),腾讯开源离线翻译模型仅 440MB。Qwen 3.5 Plus 降至$3/M token,MiMo-V2.5 Pro 性价比突出。
> 相关链接:Ling-2.6腾讯混元价格讨论


研究与方法

知识探针显示模型大小与事实能力线性相关

IKP 研究分析 188 个模型,发现事实知识准确率与模型大小呈强对数线性关系 (R²=0.917)。反驳了“推理可压缩知识”的说法,可估算闭源模型大小。
> 相关链接:研究论文


产品与应用落地

代理直接消费云服务成趋势

Cloudflare 案例显示代理可自主购买服务。结合 Codex 和 Cursor 的平台化,代理正从辅助工具变为能独立执行商业流程的主体。
> 相关链接:Cloudflare 案例




评论