模型与能力
Zyphra 发布 ZAYA1-8B-Diffusion-Preview:解码快 4.6–7.7 倍
这是扩散语言模型,解码速度比自回归生成快很多,质量损失不大,适合低成本部署和多样生成模式。
> 相关链接:Zyphra 公告
Datadog 开源 Toto 2.0 时间序列模型,多项基准第一
发布 5 个开源模型(4M~2.5B 参数),在 BOOM、GIFT-Eval、TIME 上排第一,说明时间序列基础模型的缩放定律可能成立。
> 相关链接:Datadog 发布|@atalwalkar 评论
Kimi K2.6 获得开源金融 Agent 基准第一
Moonshot AI 的 Kimi K2.6 在 Finance Agent Benchmark V2 上成为排名第一的开源模型。
> 相关链接:Moonshot AI 推文
Ring-2.6-1T 发布当天即获 vLLM 支持
开源大模型 Ring-2.6-1T 发布当天 vLLM 就提供了推理支持,方便大家直接部署。
> 相关链接:vLLM 公告
Agent 与工具链
OpenAI 推出 Codex 移动端:手机遥控电脑跑代码
在 ChatGPT 移动应用里可以直接启动、审查、批准和执行代码,Codex 在后台电脑上跑。同时 Remote SSH 正式上线,还加了 hooks 和访问令牌用于企业自动化。
> 相关链接:OpenAI 公告|Remote SSH|Hooks/Tokens
GitHub 推出 Copilot App 桌面版:Agent 优先的并行工作环境
技术预览版,支持多个并行工作流、仓库/PR 管理、灵活切换模型,专为 Agent 优先的开发者设计。
> 相关链接:GitHub 公告|@adrianmg 评论|@OrenMe 评论
VS Code 发布新 Agents 窗口:多代理、多项目、浏览器也支持
新增专门窗口管理多个 Agent 和项目,支持 vscode.dev/agents 在浏览器/手机端使用,改进了 BYOK,还加了终端压缩省 Token。
> 相关链接:VS Code 公告|浏览器/移动支持|BYOK 更新
Nous/Hermes Agent 集成 Codex 运行时
开源 Hermes Agent 现在可以用 Codex CLI/App-Server 执行 OpenAI 支持的回合,复用 ChatGPT 订阅额度在 Hermes 会话里跑。
> 相关链接:Nous Research|@Teknium
Kimi Web Bridge:浏览器扩展让 Codex/Claude Code 等模拟人类上网
Moonshot AI 发布的浏览器扩展,让 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes 等工具能像人一样和网页交互。
> 相关链接:Moonshot AI 公告
LangChain 发布 Engine 和 SmithDB:让 Agent 跟踪数据自动修复错误
SmithDB 是专为 Agent 跟踪数据设计的数据库,Engine 则自动分析失败、定位代码问题并提出修复方案,把日志监控变成自动改进循环。
> 相关链接:@hwchase17 介绍|@caspar_br 分析 Engine|SmithDB 架构讨论
基础设施与硬件
CoreWeave 与 W&B 推出 Sandboxes:安全跑 RL 和工具调用
提供隔离执行环境,专门给强化学习、工具使用和评测用,甚至测试了 rm -rf / 这种破坏性命令,保证不搞坏系统。
> 相关链接:Weights & Biases 公告
Qwen 3.6 本地推理加速:MTP + TurboQuant 提速 62%
社区 fork 的 llama.cpp 加了多 Token 预测和 TurboQuant 量化,在 MacBook Pro M5 Max 上从 21 tok/s 提升到 34 tok/s,不过有用户反映 TurboQuant 在某些场景下反而更慢,推荐纯 MTP 或标准量化为佳。
> 相关链接:Reddit 讨论
研究与方法
LangChain 成立研究实验室:让 Agent 在运行中自我进化
LangChain Labs 做持续学习的应用研究,想把生产环境里的跟踪数据变成训练信号、评测用例和能力改进来源,让 Agent 越用越聪明。
> 相关链接:LangChain 公告|Prime Intellect 合作
Goodfire 揭示 Llama 数学机制:像几何旋转计算器
通过激活操控发现 Llama 做算术时内部使用类似傅里叶特征的“形状旋转”机制,不只是事后解释,还能直接干预行为。
> 相关链接:GoodfireAI 文章|后续讨论
RL 研究新方向:从 PPO 转向“展开工程”,自动优化器逼近人类水平
一篇综述把 LLM 强化学习归纳为生成/过滤/控制/重放四个阶段。同时新方法“教学 RL”用特权信息主动找有用的展开,Prime Intellect 的自动化搜索在 nanoGPT 基准上跑了 1 万次,结果接近人类设计的优化器。
> 相关链接:RL 综述|教学 RL 论文|Prime Intellect 优化器搜索
产品与应用落地
Figure 人形机器人 24/7 分拣直播:自主运行超过 24 小时无故障
Figure 直播展示一台人形机器人连续 24 小时以上自主分拣小包裹,吞吐量接近人类,全程由 Helix-02 机载模型控制,声称无远程操控。
> 相关链接:CEO 确认|24 小时更新|Day 2 直播
行业与公司动态
Anthropic 限制 Claude Code 使用量,开发者激烈反弹
开发者 Theo 称 T3 Code 等第三方工具遭遇大幅限速,尽管经过官方集成路径。他带头取消订阅并号召转向开源。多位知名工程师批评 Anthropic 切断了开源社区的便宜 Token 通道,认为厂商锁定风险增大,必须做模型/提供商抽象。
> 相关链接:Theo 初始抱怨|取消订阅|其他开发者响应