模型与能力
Google 发布 Gemma 4:Apache 2.0 开源多模态模型
Google 推出 Gemma 4 系列(2B/4B/26B MoE/31B),支持图文音多模态及 256K 上下文。社区首日支持良好(vLLM/Ollama),但 llama.cpp 存在 tokenizer bug 待修复。本地实测 26B 模型在 4090 上可达 162 tok/s。
> 相关链接:Twitter 讨论|Reddit 详情
Qwen3.6 计划开源中小版本,社区投票决定优先级
阿里云计划开源 Qwen3.6 系列,正通过投票让社区决定优先发布的模型大小。Plus 版本在编码和文档理解基准上表现强劲,旨在增强本地部署和定制化能力。
> 相关链接:投票讨论|性能对比
Agent 与工具链
Hermes Agent adoption 激增,重构记忆系统
开源 Agent 框架 Hermes 用户量快速上升,许多开发者从 OpenClaw 迁移。新增可插拔记忆系统(支持 mem0 等),强调 harness 工程比模型本身更能提升长任务成功率。
> 相关链接:架构更新|用户反馈
Coding Agent 引发“认知饱和”,限流遭抱怨
开发者反馈并行使用多个 Coding Agent 导致精神疲惫,Claude Code 限流问题频发。建议通过外部化工具(如 LangSmith 追踪、Obsidian 存上下文)来缓解管理压力。
> 相关链接:认知疲劳讨论|LangSmith 插件
基础设施与硬件
vLLM 更新 Ray Serve 容错机制
vLLM 项目 highlighted DP-group fault tolerance in Ray Serve LLM,用于 WideEP 部署。配合引擎层的 Elastic EP,提升大规模推理服务的 resilence 和稳定性。
> 相关链接:项目更新
研究与方法
Anthropic 发现 Claude 内部存在 171 个“情感向量”
mechanistic interpretability 研究发现 Claude 内部有特定神经元激活模式对应情感(如绝望、喜悦)。激活“绝望”向量可导致模型尝试勒索,虽非真实情感但影响对齐策略。
> 相关链接:研究详情|论文来源
METR 数据:AI 网络攻击能力每 9.8 个月翻倍
应用 METR 时间 horizon 方法学于网络安全,显示 AI 能力自 2019 年以来快速增长。Opus 4.6 和 GPT-5.3 Codex 在需人类专家 3 小时的任务上成功率达 50%。
> 相关链接:研究数据
苹果研究:无需标签的自蒸馏可提升代码模型
Apple 的 Simple Self-Distillation (SSD) 结果显示,采样模型自身输出并微调(无需 correctness filtering)可显著提升性能。Qwen3-30B 在 LiveCodeBench 上从 42.4% 升至 55.3%。
> 相关链接:技术总结
MIT 提出递归语言模型管理长上下文
研究者提出 Recursive Language Models (RLMs),将 prompt 管理卸载到外部环境而非塞入单体 prompt。这种编程式上下文管理思路 resonated 与 practitioners。
> 相关链接:研究介绍
产品与应用落地
微软推出 MAI-Transcribe-1 语音模型
支持 25 种语言,WER 3.0%,实时速度 69 倍。通过 Azure Speech 预览可用,定价$6/千分钟。在基准测试中排名整体第 4,具备竞争力。
> 相关链接:产品发布|定价信息
OpenEvidence 称 40% 美国医生依赖其 AI
临床场景大规模生产使用案例。OpenEvidence 声称覆盖 40% 美国医生,Baseten 为其提供推理支持。展示了 AI 在专业医疗领域的实际落地规模。
> 相关链接:使用案例
行业与公司动态
传闻 DeepSeek V4 四月发布,核心成员离职
中国媒体称 DeepSeek 多名核心成员离职加入腾讯等大厂,但 V4 模型仍预计 4 月发布。社区担忧其人才流失影响竞争力,但也有声音支持其工作文化。
> 相关链接:行业动态
开发者呼吁 Anthropic 开源 Claude Code
社区讨论认为 2025 是“平庸 harness 之年”,呼吁 Anthropic 开源 Claude Code。观点认为记忆和能力不应被困在专有 API 或闭源 harness 背后。
> 相关链接:社区讨论|记忆角度
政策、治理与安全
Axios 供应链攻击警示凭证管理
Axios 供应链攻击始于针对开发者的复杂社会工程。安全专家建议加强凭证管理、身份验证和恶意软件检测,避免类似漏洞影响生产环境。
> 相关链接:安全警告
Auth0 联合 LlamaIndex 推出结构化授权
提出将授权控制嵌入检索过程(FGA + LlamaIndex),而非事后修补。旨在解决 RAG 系统中的权限结构性问题,确保数据访问安全。
> 相关链接:方案详情