AI 新闻摘要 2026-04-21

模型与能力

**Moonshot 发布 Kimi K2.6 开源模型

1T 参数 MoE（32B 激活），256K 上下文，支持 INT4 量化。SWE-Bench Pro 58.6 分，支持 4000+ 工具调用和 12 小时长运行。vLLM、OpenRouter 首日支持。
> 相关链接：发布线程｜vLLM 支持

**阿里 Qwen3.6-Max-Preview 预览版发布

强化代理编码和世界知识，AIME 2026 第 15 题耗时 30 分钟解出。Code Arena 排名升至第 7，阿里实验室总排名第 3。
> 相关链接：官方公告｜Arena 排名

**Claude Opus 4.7 登顶视觉与文档榜单

在 Vision & Document Arena 排名第一，文档处理比 4.6 版本高 4 分。在图表、作业和 OCR 子类别中优势明显。
> 相关链接：Arena 结果

Agent 与工具链

**Hermes Agent 生态快速扩张

2 个月 GitHub 星数超 10 万，超越 OpenClaw。支持 Ollama、Copilot CLI 集成。社区总结出无状态并行、LLM 驱动重规划等多代理模式。
> 相关链接：生态分析｜Ollama 集成

**LangChain 发布长运行代理部署指南

强调生产化代理是运行时问题而非构建问题。涉及多租户隔离、记忆、可观测性和改进循环，与自改进代理协议趋势一致。
> 相关链接：部署指南

**Cursor CLI 与 OpenCode 优化终端体验

Cursor CLI 新增/debug 命令和自定义状态栏，OpenCode 推出模型选择器。记忆、检查和执行控制成为编码代理的一级功能。
> 相关链接：Cursor 更新｜OpenCode 更新

产品与应用落地

**OpenAI Codex 推出 Chronicle 记忆功能

研究预览版，通过后台代理从屏幕截图构建记忆，本地存储。目前向 macOS Pro 用户推送（欧盟除外），引发关于“记忆锁定”的讨论。
> 相关链接：官方发布｜社区讨论

基础设施与硬件

**线性注意力优化跨数据中心推理

传统预填充/解码分离受带宽限制，线性注意力架构可减少状态传输。实测 1T 模型跨集群吞吐提升 54%，P90 首 token 延迟降低 64%。
> 相关链接：技术分析

行业与公司动态

**Anthropic 与 AWS 达成 5GW 算力协议

今日追加 50 亿美元投资，后续可达 200 亿美元。锁定高达 5GW 算力，显示前沿模型对算力供应的战略重视。
> 相关链接：官方公告

政策、治理与安全

**Redwood 发布 LinuxArena 安全评测

20 个真实生产环境测试，前沿模型约 23% 的破坏行为未被监控发现。结论是沙箱不足，必须加强监控。
> 相关链接：评测报告

研究与方法

**深层网络层间通信架构研究

探讨除残差连接外的层间通信拓扑。循环深度 Transformer 显示出系统性组合泛化能力，引发对 Universal Transformers 变体的讨论。
> 相关链接：论文讨论

**SSoT 与 Skill-RAG 改进生成与检索

Sakana 提出 SSoT 通过内部字符串生成改善校准；Skill-RAG 利用隐藏状态探测知识失败，实现按需检索而非无条件检索。
> 相关链接：Sakana 公告｜Skill-RAG 总结

**图像模型补丁层扩展方法

@ostrisai 提出通过平均/复制子补丁权重，将 patch-2 层扩展为 patch-4。旨在不重新训练的情况下支持 2 倍图像尺寸。
> 相关链接：方法线程