AI 新闻摘要2026-05-04

发布于 2026年05月05日

模型与能力

Grok 4.3 发布:便宜了但幻觉多了

xAI 发布 Grok 4.3,输入降价 40% 输出降价 60%,智能指数升 4 点到 53。GDPval 任务表现强,但非幻觉准确率降了 8 个点,可靠性受质疑。
> 相关链接:基准分析社区讨论

DeepSeek V4 Pro:开源模型 Coding 能力追平闭源

实测在 Pi 助手里表现接近 Codex 或 Claude Code,支持 1M 上下文,KV 缓存减到 10%。基准测试显示开源模型智商指数 52-54,仍落后 GPT-5.5 的 60 分。
> 相关链接:实测报告基准对比

Qwen 3.6 与生态工具更新

开发者反馈 27B 模型写代码稳但不如 GPT-5.5 创意。官方开源 Qwen-Scope 可解释性工具,支持特征 steering。PFlash 技术宣称在 3090 上预填速度提 10 倍。
> 相关链接:Qwen-ScopePFlash 讨论

SenseNova-U1:不用扩散模型做多模态生成

商汤发布 8B 参数模型,直接把文本渲染进图像,支持 2048x2048 分辨率。不用 VAE 或扩散架构,擅长信息图和带标注 diagram,但 photorealistic 表现一般。
> 相关链接:GitHub模型介绍


Agent 与工具链

Codex 产品迭代:UX 和速度优于 Claude Code

OpenAI 给 Codex 加了设备栏、CI 状态显示和宠物系统。用户反馈比 Claude Code 更快更直接,但基准测试显示在特定 harness 下不如 Opus 4.7。
> 相关链接:功能更新用户对比

Agent 基础设施:LangChain 与 Cloudflare 更新

LangChain 推多用户部署和数据隔离功能,支持人工介入(HITL)。Cloudflare 宣布 Dynamic Workflows,给 Agent 加持久化执行能力,解决中断恢复问题。
> 相关链接:LangChainCloudflare

新 Agent 框架:Devin 与 Flue

Devin 加 shell 快捷键访问。Flue 推 TypeScript 无头代理框架,可编程控制。趋势是从拼模型智商转向拼 Agent 运行时设计,如子代理和状态持久化。
> 相关链接:DevinFlue


基础设施与硬件

Google TPU 8t/8i:训练成本性能升 170%

新芯片训练成本性能提 170%,推理提 80%。数据中心带宽增 300%,推理延迟降 56%。预计用于 Gemini 3.1 Pro 及未来万亿参数模型训练。
> 相关链接:Google Cloud Blog技术细节

本地硬件搭建:Spark 集群与 AMD Halo

社区展示 16x Spark 集群方案,用 QSFP56 线缆连交换机。AMD Halo Box 配 128GB 内存,但用户吐槽带宽不足且缺高速聚类端口。
> 相关链接:Spark 集群AMD Halo


研究与方法

Agent 检索与记忆新论文

ReaLM-Retrieve 主张推理时检索,F1 提 10%。OCR-Memory 把轨迹存成图像带索引,在 Mind2Web 上达 SOTA。解决长程任务中上下文丢失问题。
> 相关链接:ReaLMOCR-Memory

递归多 Agent 系统:用潜在空间通信

新研究让 Agent 通过共享潜在递归计算通信,而不是自然语言。平均准确率提 8.3%,token 减少最多 75%。适合解决 Agent 间通信成本过高问题。
> 相关链接:研究总结

Meta FAIR:自我改进预训练方法

用强模型重写预训练后缀并向更安全方向引导。事实性相对提升 36.2%,安全性提 18.5%。生成质量胜率比标准预训练高 86%。
> 相关链接:论文解读

DeepSeek 空间推理:视觉原始思维框架

提出用坐标点和边界框作为思维最小单位,模型边想边指。解决计数和迷宫任务中的参考差距。代码曾短暂开源后转私有。
> 相关链接:框架介绍技术细节


产品与应用落地

本地模型应用:代码审查省 60% API 费

用户用本地 Qwen 做代码初审,catches 60% 错误后再调 API。监控显示本地模型吞吐量稳定,适合做数据过滤和初步处理,降低成本。
> 相关链接:使用案例

Sulphur 2:开源无审查视频生成模型

基于 LTX-2.3 架构,训练 12.5 万条视频。只过滤非法内容,支持自然语言 caption。一周内将在 Hugging Face 发布,提供 Discord 测试。
> 相关链接:模型信息Discord


行业与公司动态

AIE 大会征稿:新增 Autoresearch 等赛道

夏季大会开放演讲申请,新增自动研究、记忆、世界模型等轨道。提供机器人演示区,创始人可参加 Startup Battlefield 路演。
> 相关链接:报名链接赛道详情

OpenAI 营收:GPT-5.5 与 Codex 增长快

OpenAI 称 GPT-5.5 是最强发布,API 收入增速是前作的 2 倍。Codex 上线不到七天收入翻倍。显示开发者工具商业化速度快。
> 相关链接:营收数据

OpenAI 解释”Goblin”隐喻来源

官方发文称 GPT-5.1 爱用”goblin”是因为 RL 奖励创意语言。这种行为被后续模型学去了。已调整训练协议,退休了”Nerdy”人格。
> 相关链接:官方文章社区讨论


政策、治理与安全

美国国防部:与 7 家 AI 公司合作

国防部 CTO 宣布与 7 家前沿 AI 和基建公司达成协议,将在机密网络上部署能力。显示政府端 AI 落地加速。
> 相关链接:合作公告

ARC 基准测试:顶尖模型分数仍低

ARC Prize 报告显示 GPT-5.5 得 0.43%,Opus 4.7 得 0.18%。显示在复杂推理任务上模型仍有很大失败空间,需分析失败模式。
> 相关链接:基准报告




评论