模型与能力
OpenAI 发布 GPT-Image-2,文字渲染大升级
正式上线 API 和 ChatGPT,分思考和非思考版本。文字细节和一致性很强,Arena 榜单全类别第一。Figma、Canva 等已集成。传闻 Sora 团队为此解散。
> 相关链接:发布信息|Arena 榜单
Kimi K2.6 开源,长程编码能力对标 Opus
1 万亿参数,支持 300 个子代理并行。社区测试显示能替代 Opus 4.7 约 85% 任务,成本更低。已在 Hugging Face 开源,修改版 MIT 协议。
> 相关链接:模型发布|社区讨论
Qwen 3.6 Max 预览版上线,中文模型评分第一
在 Qwen Chat 网站开放,AA-Intelligence 指数 52 分。参数量推测 600-700B,暂不开源。用户偏好中小模型以便本地运行。
> 相关链接:模型上线|评分详情
LightOn 开源 1.49 亿参数检索模型
发布 LateOn 和 DenseOn,Apache 2.0 协议。BEIR 榜单表现优于大 4 倍的模型。同时开源 14 亿查询 - 文档对数据集。
> 相关链接:模型发布|数据集
Gemma 4 视觉能力调整与量化 benchmark
调整 vision token 预算可提升 OCR 效果。Unsloth 量化版本在 22 种尺寸中 21 种性能最优。新量化格式可 fit 进 16GB 显存。
> 相关链接:视觉调整|量化测试
Agent 与工具链
Hugging Face 开源 ml-intern 科研代理
自动化读论文、收集数据、训练和评估。10 小时内将 GPQA 推理能力从 10% 提升到 32%。支持自动发布成果到 Hub。
> 相关链接:发布公告|示例运行
Hermes 代理框架支持递归子代理
新增 macOS 图形界面 Scarf。支持更深的层级分解和并行 spawn。正从单聊天循环转向多进程编排系统。
> 相关链接:新手指南|技术更新
DSPy 3.2 改进优化器链
发布 RLM 改进版,支持优化器链和 LiteLLM 解耦。社区认为这让 Notebook 重新成为有效的 REPL 评估接口。
> 相关链接:版本发布|社区讨论
LangChain 增加自定义认证
支持 deepagents 部署的自定义 auth。社区共识认为代理系统的核心价值在于运行时逻辑而非基座模型。
> 相关链接:更新日志|系统逻辑讨论
基础设施与硬件
Moonshot 开源 FlashKDA 注意力内核
基于 CUTLASS,H20 上预填充速度提升 1.7-2.2 倍。MI300X 上吞吐量提升 5.6 倍。可作為 flash-linear-attention 的后端替换。
> 相关链接:内核发布|性能测试
vLLM 重写部署文档网站
recipes.vllm.ai 提供可运行的部署配方。支持 NVIDIA 和 AMD,涵盖多种并行策略。暴露 JSON API 供代理调用。
> 相关链接:新网站
Gemma 4 本地并发性能测试
M4 Max 上处理 10+ 并发请求,每请求约 18 tok/s。为本地服务经济性提供了有用数据点。
> 相关链接:测试推文
产品与应用落地
Google 升级 Deep Research API,支持 MCP 和多模态
基于 Gemini 3.1 Pro,能规划、搜索、执行代码并生成图表。DeepSearchQA 得分 93.3%。旨在自动化尽职调查和研报生成。
> 相关链接:Google 公告|CEO 博文
研究与方法
ParseBench 测试文档内图表理解
LlamaIndex 发布新评测集,专注企业文档中的图表解析。填补了现有基准在复杂视觉数据上的空白。
> 相关链接:评测介绍|细节讨论
研究发现代理常忽略环境线索
新论文显示即使解决方案就在文件或端点中,代理也常忽略。Google 提出 ReasoningBank 从失败轨迹中学习。
> 相关链接:论文线程|ReasoningBank
行业与公司动态
Cursor 传闻 600 亿美元收购 Xai
纯财务新闻,市场分析动机各异。未影响技术产品线。
> 相关链接:交易分析|动机分析
Claude Code 功能从 Pro 计划移除
用户反馈 Pro 计划不再包含 Code 功能,引发不满。部分用户转向 Kimi 或本地模型。官方页面信息更新滞后。
> 相关链接:Reddit 讨论
政策、治理与安全
Gemma-4-E2B 安全过滤过于严格
紧急生存场景(如急救、净水)下拒绝回答。社区建议离线部署时配合 Wikipedia 备份使用。
> 相关链接:用户反馈
Hugging Face CEO 警告开源限制游说
Clement Delangue 指出又有新一轮游说试图限制开源 AI。对开发者生态有直接负面影响。
> 相关链接:警告推文