模型与能力
Claude Opus 4.8 发布:增量改进,更合作但价格仍是槽点
多个独立评测显示 Opus 4.8 进步不大但使用体验更好,编码时更少过度代理、更合作。Anthropic 同时支持对话中修改系统指令且不破坏缓存,对长会话很有用。不过 API 价格依然偏高,用户吐槽没便宜下来。
> 相关链接:@arena 多维度评测|@jeremyphoward 发现更合作
StepFun 3.7 Flash 发布:196B MoE 本地能跑,性能惊人
多模态 MoE 模型,196B 总参、11B 活跃,内置 1.8B ViT。SWE-Bench Pro 56.26%,DeepSearchQA F1 92.82%,本地需要 ~128GB 内存。提供 BF16、FP8、NVFP4、GGUF 等多种量化,llama.cpp 当天就支持。推理速度可达 400 TPS。
> 相关链接:Hugging Face 模型页|Reddit 讨论
OpenAI 更新 gpt-5.5 instant:改善 sycophancy 和多语言
OpenAI 对 gpt-5.5 instant 做了小更新,重点改进了迎合用户、事实性和多语言表现。具体细节较少,但影响面广。
> 相关链接:@michpokrass 推文
Agent 与工具链
多轮 RL 训练有隐藏 bug:Token-In, Token-Out 规则被提出
Hugging Face 发现很多工具调用的多轮 RL 训练实际是错的——重新 tokenize 更新后的对话会让梯度作用到模型没见过的序列上。修正方案:永远不要重新编码采样出的 token,跨轮保持同一个 token 缓冲区。这个发现也带出了 harness 设计和 EFC 指标的重要性。
> 相关链接:@ClementDelangue 推文
LangChain Deep Agents v0.6:用 harness 配置撬动低成本高性能
Deep Agents v0.6 把 harness profile 作为一等公民,通过为不同模型定制 prompts/tools,用 Qwen/Kimi/DeepSeek 等开源模型达到比前沿 API 20 倍以上的性价比。同时强调 harness 质量比粗暴的 token 数更重要。
> 相关链接:@LangChain 推文
基础设施与硬件
vLLM 新增权重同步 API 和 fastokens Rust 分词器
vLLM 发布原生权重同步 API 并改进了异步 RL 的暂停/恢复功能;同时推出 fastokens,一个用 Rust 写的 BPE 分词器,能显著降低长上下文和 agent 场景下的 CPU 瓶颈。
> 相关链接:@vllm_project 推文
llama.app 上线:llama.cpp 有了官方网站和安装程序
ggerganov 推出 llama.app,为 llama.cpp 提供统一安装器、单一 llama 入口点,让本地部署和第三方 agent 集成更简单。标志性里程碑,之前社区只能靠命令行。
> 相关链接:@ggerganov 推文
Hugging Face 基础设施向企业级靠拢:Jobs 替代 GitHub Runners,私有模型占比 50%
Hugging Face Jobs 开始替代 GitHub Runners 做 CPU/无服务器 GPU CI;同时平台上约一半的模型和数据集已变成私有,反映 HF 从纯公开 OSS 向企业存储服务转变。
> 相关链接:@abidlabs 推文|@ClementDelangue 数据
研究与方法
BES:双向进化搜索,小模型推理翻倍
哈佛/MIT 提出 Bidirectional Evolutionary Search,结合前向搜索、反向分解和进化算子。在 Llama-3.2-3B-Instruct 上,MuSiQue 基准从 4.0% 提升到 7.0%,效果显著。
> 相关链接:@TheTuringPost 报道
BeliefTrack:信念状态管理让长程推理失败率降 70%+
新方法 BeliefTrack 通过优化智能体的信念状态管理,大幅减少长周期推理中的错误。同时有学者指出持续学习领域过于关注干扰而忽略了正向迁移。
> 相关链接:@HuggingPapers 摘要
NVIDIA 发布 γ-World 和 minWM:实时世界模型
γ-World 是一个生成式多智能体世界模型,能以 24 FPS 实时流式生成;minWM 是一个实时交互式视频世界模型框架。两者都面向模拟和机器人领域。
> 相关链接:γ-World 推文|minWM 推文
Qwen-VLA 和时序图编码器:机器人控制与主动感知
Qwen-VLA 是面向机器人视觉-语言-动作的多模态模型;另一项工作用时序图编码器(220MiB)替代 LLM 做主动唤醒决策,F1 提升 16.7 且速度快 4~83 倍。
> 相关链接:Qwen-VLA|时序图编码器
产品与应用落地
OpenAI Codex 新增 Windows 计算机使用和手机远程控制
Codex 现在可以操控 Windows 桌面,并且能从 ChatGPT 手机应用远程控制。同时增加了后台 agent 的稳定标识和跨对话搜索功能,让多人协作更清晰。
> 相关链接:@OpenAI 公告|@OpenAIDevs 详情
Google 推出 Gemini Spark 和 Managed Agents:一站式沙箱代理
Gemini Spark 是 24/7 个人代理,已向美国 AI Ultra 用户开放。同时 Google 在 Gemini API 中推出 Managed Agents,一次调用就提供一个含代码执行、网络访问和文件 I/O 的沙箱 Linux 环境。
> 相关链接:@GeminiApp Spark 公告|@_philschmid Managed Agent 演示
Google Flow Agent:面向视频/电影创作的 AI 工作流
Google 发布 Flow Agent,专注于创意视频制作流程,帮助完成从脚本到剪辑的各个环节。与 Gemini Omni 的多模态生成能力同步推进。
> 相关链接:产品讨论帖
Cursor 增加自动审查模式:子代理审批路由
Cursor 新增自动审查模式,通过子代理对代码修改进行审批路由,提升多人协作场景下的安全性和可控性。
> 相关链接:Cursor 推文
行业与公司动态
开源模型采用率提升:1/3 团队已在使用,平均落后前沿 4 个月
LangChain 调查显示 2026 年 4 月有 1/3 的 AI 团队运行过开源模型(9 个月前仅 1/5)。EpochAI 估计开源模型目前约落后前沿闭源模型 4 个月,差距在缩小。
> 相关链接:@LangChain 数据|@EpochAIResearch 统计
NVIDIA 将四个模型系列迁至 Linux Foundation OpenMDW-1.1 许可
NVIDIA 为了减少法律碎片化,把其四个开放模型家族(权重、代码、文档、数据)统一放在 Linux Foundation 的 OpenMDW-1.1 许可下,更易于商用。
> 相关链接:@kimmonismus 推文
DSPy 重设计文档,即将发布 4.0
DSPy 团队重新设计了文档首页和入门教程,重点转向可编程 AI 系统而非纯提示工程,为即将到来的 4.0 大版本做准备。
> 相关链接:@DSPyOSS 推文
政策、治理与安全
OpenAI 发布 Rosalind Biodefense:用于生物防御的受控工具
OpenAI 推出 Rosalind Biodefense,提供可信访问的生物学工具,旨在支持公共卫生和生物防御。强调在生物安全领域的使用控制。
> 相关链接:@OpenAI 公告