模型与能力
Qwen3.6-27B 开源:小模型超越大模型
阿里发布 Qwen3.6-27B,Apache 2.0 开源。编码能力超越更大的 397B 模型,SWE-bench Verified 得分 77.2。支持思考/非思考模式及多模态,vLLM、Ollama 已首日支持。
> 相关链接:官方发布|基准对比
OpenAI 开源隐私过滤模型
OpenAI quietly 发布 Privacy Filter,1.5B 参数 MoE 模型,专用于 PII 检测和脱敏。支持 128k 上下文,适合企业日志低成本预处理。
> 相关链接:模型介绍
小米发布 MiMo-V2.5 代理模型
小米推出 MiMo-V2.5-Pro,主打软件工程和长程代理能力。SWE-bench Pro 得分 57.2,支持 1000+ 自主工具调用。非 Pro 版支持 1M 上下文及全模态。
> 相关链接:产品公告
基础设施与硬件
Google 发布 TPU v8:训推分离
Google Cloud Next 发布 TPU v8,分训练 (8t) 和推理 (8i) 两款。8t 算力较 Ironwood 提升 3 倍,单集群可扩展至百万 TPU;8i 专为低延迟多代理负载设计。
> 相关链接:官方公告
Cohere 集成 W4A8 推理加速
Cohere 在 vLLM 中集成生产级 W4A8 推理,首 token 延迟降低 58%,生成速度提升 45%。
> 相关链接:技术博客
Agent 与工具链
Google 推出 Gemini 企业代理平台
Google 将 Vertex AI 升级为 Gemini Enterprise Agent Platform,含 Agent Studio 及 200+ 模型接入。
> 相关链接:平台发布
OpenAI 上线 Workspace 共享代理
OpenAI 为商业/教育用户推出 Workspace Agents,基于 Codex 驱动。支持团队共享上下文。
> 相关链接:功能发布
研究与方法
Perplexity 公开后训练流水线
Perplexity 分享搜索增强 SFT+RL pipeline,提升事实性及引用质量。
> 相关链接:技术细节
编码模型过度编辑问题被量化
新基准研究发现 GPT-5.4 过度编辑最严重,Opus 4.6 最少。
> 相关链接:研究论文
产品与应用落地
Google Workspace Intelligence 正式可用
Google 推出 Workspace Intelligence GA,作为文档/表格/邮件的语义层。
> 相关链接:产品公告
Flipbook 原型:模型直接渲染 UI
社区展示 Flipbook 原型,屏幕像素直接由模型生成。
> 相关链接:原型演示
行业与公司动态
AI 领导层转向深度 Token 利用
AIE 会议热点 Tokenmaxxing,领导层希望团队多用 AI 但避免浪费。
> 相关链接:会议总结