Agent 与工具链
OpenAI 开源 Agents SDK 架构
OpenAI 将 Agent 编排框架开源,计算与存储分离。支持第三方沙箱执行,不再绑定 OpenAI 基础设施,方便复用 Codex 风格 Agent。
> 相关链接:官方发布|开发者讨论
Cloudflare 发布 Agent 全家桶
推出 Project Think SDK 支持持久会话与沙箱代码执行;上线 Agent Lee 实现 dashboard 语音操作;更新 Browser Run 支持人工介入与录制。
> 相关链接:Project Think|Agent Lee
Hermes Agent 支持技能自进化
Hermes 可将完成的工作流自动保存为可复用技能。社区实测其能自主修复 Gemma 4 库 instability 问题并上传 Hugging Face。
> 相关链接:功能对比|实战案例
产品与应用落地
Gemini 原生 Mac 应用上线
Google 发布 Gemini Mac 原生应用,支持 Option+Space 唤起、屏幕共享及本地文件上下文,采用 Swift 开发,macOS 全面可用。
> 相关链接:产品发布|CEO announcement
Google 个人智能全球开放
Gemini 与 Chrome 集成个人智能功能,用户可授权连接 Gmail、Photos 等信号,强调透明性与用户可控的应用连接权限。
> 相关链接:功能详情
模型与能力
Gemini 3.1 Flash TTS 发布
Google 推出可控性更强的 TTS 模型,支持 Audio Tags、70+ 语言、非语言线索及多说话人,独立评测排名 Speech Arena 第二。
> 相关链接:DeepMind 发布|评测排名
NVIDIA 发布 Nemotron 3 Super
开源 120B 混合 Mamba-Attention MoE 模型,激活参数 12B,支持 1M 上下文,吞吐量比 GPT-OSS-120B 高 2.2 倍。
> 相关链接:模型摘要
Nucleus-Image 稀疏扩散模型开源
首个稀疏 MoE 扩散模型,17B 总参数仅 2B 激活,Apache 2.0 协议,提供权重、训练代码及数据集配方,diffusers 已支持。
> 相关链接:发布详情
NVIDIA Lyra 2.0 生成 3D 世界
框架可生成持久可探索的 3D 世界,维持每帧 3D 几何结构,使用自增强训练减少时间漂移,适合长期场景生成。
> 相关链接:技术介绍
主流模型榜单更新
Document Arena 显示 Claude Opus 4.6 Thinking 排名第一,Kimi-K2.5 Thinking 为最佳开源模型;METR 预估 Gemini 3.1 Pro 软件任务耗时约 6.4 小时。
> 相关链接:榜单详情|METR 评估
webAI-ColVec1 开源检索模型
声称在 ViDoRe V3 文档检索任务中表现最佳,无需 OCR 或预处理,适合多模态检索场景。
> 相关链接:开源地址
Google 开源 TIPS v2 编码器
发布基础文本 - 图像编码器,Apache 2.0 协议,包含新预训练配方,增强多模态理解能力。
> 相关链接:开源信息
研究与方法
AI 首次完成 Erdős 数学证明
GPT-5.4 Pro 给出 Erdős 问题#1196 证明,拒绝传统假设路径,利用 von Mangoldt 函数找到反直觉解法,获数学家认可。
> 相关链接:证明详情|专家讨论
Parcae 提出循环 Transformer 架构
通过层循环稳定化公式,在固定参数预算下恢复 2 倍大小模型的质量,FLOPs 可通过循环而非仅靠参数扩展。
> 相关链接:论文解读
Anthropic 发表潜意识学习论文
Nature 论文揭示模型可通过训练数据传递隐藏特征,引发对数据污染与隐性知识传输的关注。
> 相关链接:Nature 论文
长周期 Agent 研究进展
AiScientist 展示通过文件总线协调专用 Agent;Pioneer Agent 实现小模型持续改进循环;Meta-Harness 开源鲁棒编排框架。
> 相关链接:研究汇总|Meta-Harness
43B Token SEC 数据开放
TeraflopAI 发布 43B Token 的 SEC EDGAR 金融数据,推动开放数据集与基础设施构建。
> 相关链接:数据发布
行业与公司动态
GitHub 首次允许关闭 Pull Request
生成式 AI 改变代码协作模式,GitHub 历史首次允许开源仓库禁用 PR 功能。社区讨论未来可能转向 Prompt Request 模式。
> 相关链接:功能更新|行业讨论