AI 新闻摘要2026-05-04

模型与能力

Grok 4.3 发布：便宜了但幻觉多了

xAI 发布 Grok 4.3，输入降价 40% 输出降价 60%，智能指数升 4 点到 53。GDPval 任务表现强，但非幻觉准确率降了 8 个点，可靠性受质疑。
> 相关链接：基准分析｜社区讨论

DeepSeek V4 Pro：开源模型 Coding 能力追平闭源

实测在 Pi 助手里表现接近 Codex 或 Claude Code，支持 1M 上下文，KV 缓存减到 10%。基准测试显示开源模型智商指数 52-54，仍落后 GPT-5.5 的 60 分。
> 相关链接：实测报告｜基准对比

Qwen 3.6 与生态工具更新

开发者反馈 27B 模型写代码稳但不如 GPT-5.5 创意。官方开源 Qwen-Scope 可解释性工具，支持特征 steering。PFlash 技术宣称在 3090 上预填速度提 10 倍。
> 相关链接：Qwen-Scope｜PFlash 讨论

SenseNova-U1：不用扩散模型做多模态生成

商汤发布 8B 参数模型，直接把文本渲染进图像，支持 2048x2048 分辨率。不用 VAE 或扩散架构，擅长信息图和带标注 diagram，但 photorealistic 表现一般。
> 相关链接：GitHub｜模型介绍

Agent 与工具链

Codex 产品迭代：UX 和速度优于 Claude Code

OpenAI 给 Codex 加了设备栏、CI 状态显示和宠物系统。用户反馈比 Claude Code 更快更直接，但基准测试显示在特定 harness 下不如 Opus 4.7。
> 相关链接：功能更新｜用户对比

Agent 基础设施：LangChain 与 Cloudflare 更新

LangChain 推多用户部署和数据隔离功能，支持人工介入（HITL）。Cloudflare 宣布 Dynamic Workflows，给 Agent 加持久化执行能力，解决中断恢复问题。
> 相关链接：LangChain｜Cloudflare

新 Agent 框架：Devin 与 Flue

Devin 加 shell 快捷键访问。Flue 推 TypeScript 无头代理框架，可编程控制。趋势是从拼模型智商转向拼 Agent 运行时设计，如子代理和状态持久化。
> 相关链接：Devin｜Flue

基础设施与硬件

Google TPU 8t/8i：训练成本性能升 170%

新芯片训练成本性能提 170%，推理提 80%。数据中心带宽增 300%，推理延迟降 56%。预计用于 Gemini 3.1 Pro 及未来万亿参数模型训练。
> 相关链接：Google Cloud Blog｜技术细节

本地硬件搭建：Spark 集群与 AMD Halo

社区展示 16x Spark 集群方案，用 QSFP56 线缆连交换机。AMD Halo Box 配 128GB 内存，但用户吐槽带宽不足且缺高速聚类端口。
> 相关链接：Spark 集群｜AMD Halo

研究与方法

Agent 检索与记忆新论文

ReaLM-Retrieve 主张推理时检索，F1 提 10%。OCR-Memory 把轨迹存成图像带索引，在 Mind2Web 上达 SOTA。解决长程任务中上下文丢失问题。
> 相关链接：ReaLM｜OCR-Memory

递归多 Agent 系统：用潜在空间通信

新研究让 Agent 通过共享潜在递归计算通信，而不是自然语言。平均准确率提 8.3%，token 减少最多 75%。适合解决 Agent 间通信成本过高问题。
> 相关链接：研究总结

Meta FAIR：自我改进预训练方法

用强模型重写预训练后缀并向更安全方向引导。事实性相对提升 36.2%，安全性提 18.5%。生成质量胜率比标准预训练高 86%。
> 相关链接：论文解读

DeepSeek 空间推理：视觉原始思维框架

提出用坐标点和边界框作为思维最小单位，模型边想边指。解决计数和迷宫任务中的参考差距。代码曾短暂开源后转私有。
> 相关链接：框架介绍｜技术细节

产品与应用落地

本地模型应用：代码审查省 60% API 费

用户用本地 Qwen 做代码初审，catches 60% 错误后再调 API。监控显示本地模型吞吐量稳定，适合做数据过滤和初步处理，降低成本。
> 相关链接：使用案例

Sulphur 2：开源无审查视频生成模型

基于 LTX-2.3 架构，训练 12.5 万条视频。只过滤非法内容，支持自然语言 caption。一周内将在 Hugging Face 发布，提供 Discord 测试。
> 相关链接：模型信息｜Discord

行业与公司动态

AIE 大会征稿：新增 Autoresearch 等赛道

夏季大会开放演讲申请，新增自动研究、记忆、世界模型等轨道。提供机器人演示区，创始人可参加 Startup Battlefield 路演。
> 相关链接：报名链接｜赛道详情

OpenAI 营收：GPT-5.5 与 Codex 增长快

OpenAI 称 GPT-5.5 是最强发布，API 收入增速是前作的 2 倍。Codex 上线不到七天收入翻倍。显示开发者工具商业化速度快。
> 相关链接：营收数据

OpenAI 解释”Goblin”隐喻来源

官方发文称 GPT-5.1 爱用”goblin”是因为 RL 奖励创意语言。这种行为被后续模型学去了。已调整训练协议，退休了”Nerdy”人格。
> 相关链接：官方文章｜社区讨论

政策、治理与安全

美国国防部：与 7 家 AI 公司合作

国防部 CTO 宣布与 7 家前沿 AI 和基建公司达成协议，将在机密网络上部署能力。显示政府端 AI 落地加速。
> 相关链接：合作公告

ARC 基准测试：顶尖模型分数仍低

ARC Prize 报告显示 GPT-5.5 得 0.43%，Opus 4.7 得 0.18%。显示在复杂推理任务上模型仍有很大失败空间，需分析失败模式。
> 相关链接：基准报告