模型与能力 OpenAI 通用推理模型破解数学难题 OpenAI 内部模型用 125 页推理推翻了一个 1946 年的 Erdős 单位距离猜想。不是专门的数学系统,而是通用 LLM,数学家 Timothy Gowers 认为这是 AI 解决开放数学问题的最早明确案例。模型并非极限版,未来计划公开。
模型与能力 Gemini 3.5 Flash 正式上线 Google 在 I/O 上发布了 Gemini 3.5 Flash,宣称是最强的代理/编码模型。支持 1M 上下文、65k 输出、4 级思考,并保留跨轮思考。价格 $1.5/$9 每百万 token,比前代 Flash 贵不少,但速度和智能在
模型与能力 Cursor 发布 Composer 2.5 并披露更大模型训练计划 Cursor 推出 Composer 2.5,是其最强模型,擅长长任务和指令跟随。同时透露正在用 SpaceXAI 训练一个比过去大 10 倍的新模型,使用 Colossus 2 集群(百万 H100)。社区认为性价比
模型与能力 传闻 xAI 即将发布 1.5 万亿参数模型 X 上有人爆料,xAI 准备推一个 1.5T 的超大模型。如果属实,算力需求又要涨一波。 > 相关链接:scaling01 爆料 Claude Mythos 被吹爆,有人说比 GPT-5.5 还强 多位推友实测 Claude Mythos,觉
模型与能力 Zyphra 发布 ZAYA1-8B-Diffusion-Preview:解码快 4.6–7.7 倍 这是扩散语言模型,解码速度比自回归生成快很多,质量损失不大,适合低成本部署和多样生成模式。 > 相关链接:Zyphra 公告 Datadog 开源 Toto 2.0 时间序列模型,多项基
Agent 与工具链 Cline 开源全新 SDK,打造可复用编码 Agent 底层 Cline 发布完全重构的开源 SDK,附带 CLI/TUI、Agent 团队、定时任务和连接器,让开发者能基于它构建自定义编码 Agent,定位为可复用的编程助手基础框架。 > 相关链接:Cline SDK 发布
模型与能力 多项前沿基准发布:数学、医学、编程和语音评测再升级 Soohak发布了由64位数学家从头编写的439道研究级数学题,难度超过奥赛;SophontAI的Medmarks v1.0将医学基准从20个扩到30个、模型从46个扩到61个;ProgramBench第一个任务被GPT-5.5 hig
模型与能力 Thinking Machines 发布交互模型 TML-Interaction-Small 这家公司推出了 276B 参数(12B 激活)的 MoE 模型,专门为实时语音和视频交互设计。它能同时听、看、说、思考,200ms 内做出反应,还支持打断和主动提醒(比如“你开始驼背了”),在多
模型与能力 OpenAI 两周内连发 GPT-5.5 系列模型 OpenAI 在两周内密集发布了 gpt-image-2、GPT-5.5、5.5 Pro、5.5 Instant、GPT-Realtime-2 以及网络安全版 GPT-5.5 Cyber。DHH 和 gdb 称赞其高效简洁,Arena
行业与公司动态 模型厂扎堆搞服务公司:Anthropic 与 OpenAI 新动作 Anthropic 联合黑石等成立合资公司(融资 15 亿),OpenAI 成立 The Deployment Company(融资 40 亿)。两家都发现光卖模型不够,得下场帮企业做落地部署和定制,赚最后一公里的服