模型与能力
Claude Opus 4.7 正式发布
Anthropic 上线最强模型 Opus 4.7,主打长任务、代码和指令遵循。平台与 App 已立即可用,API 同步开放。
> 相关链接:正式发布|上线状态
定价不变,用户额度提升
维持$5/$25 每百万 token 定价。因新 tokenizer 可能导致用量波动,Anthropic 提高了所有订阅者的额度作为补偿。
> 相关链接:价格讨论|额度调整
性能分级全面超越 4.6
4.7-low 胜过 4.6-medium,4.7-medium 胜过 4.6-high,4.7-high 胜过 4.6-max。新增 xhigh 层级供重度任务使用。
> 相关链接:性能对比|分级详情
视觉分辨率提升 3 倍
支持长边 2,576 像素(约 3.75MP),是之前的 3 倍多。不再自动压缩高清图,适合处理密集截图和复杂图表。
> 相关链接:视觉升级|不再压缩
Tokenizer 变更影响用量
换新 tokenizer,同样内容可能多耗 35% token,但推理效率提升,总用量反而最多省 50%。
> 相关链接:Tokenizer 分析|用量讨论
SWE-Bench 代码能力大涨
SWE-Bench Pro 达 64.3%(+11 分),Verified 达 87.6%(+7 分)。写代码能力确实变强,默认 Claude Code 也受益。
> 相关链接:基准数据|对比分析
多榜单登顶,包括 GDPval
GDPval-AA 得分 1753 Elo 排第一,对 GPT-5.4 胜率约 60%。文档推理能力从 57.1% 升到 80.6%。
> 相关链接:GDPval 排名|文档推理
Agent 与工具链
Claude Code 默认开启 xhigh
Claude Code 首日支持 4.7,默认推理努力程度设为 xhigh。适合更复杂的自主任务循环。
> 相关链接:默认配置|努力层级
任务预算与 Ultrareview 公测
上线任务预算(task budgets)和/ultrareview 功能公测。Max 用户可获得更广泛的 Auto 模式访问权限。
> 相关链接:新功能
使用建议:当工程师用,别微操
官方建议把任务目标、约束和验收标准一次给清楚。让它自己验证修改,别像管初级程序员那样盯着每一步。
> 相关链接:工作流建议|验收标准
产品与应用落地
Cursor 内部测试效率提升
Cursor 内部基准从 58% 跳到 70%。开发者处理高复杂度任务多了 68%,不过这是整体模型趋势。
> 相关链接:Cursor 数据|任务复杂度
Notion 与 GitHub 反馈积极
Notion 内部评估提升 14%,工具错误减少三分之一。GitHub 也有类似改进,但未公布具体数字。
> 相关链接:Notion 评估|GitHub 反馈
LlamaIndex 文档测试细节
图表识别大涨(13.5%→55.8%),但布局识别倒退。表格和内容识别略有提升,表现不均。
> 相关链接:ParseBench 对比
文档处理成本偏高
Jerry Liu 指出做 OCR 类任务成本约 7 美分/页,比代理模式贵。适合高 fidelity 需求,普通任务可能不划算。
> 相关链接:成本分析
研究与方法
长上下文指标引发争议
用户觉得长文本(MRCR)表现变差。有人质疑模型在长上下文检索上倒退了。
> 相关链接:用户反馈|指标质疑
Anthropic 回应改用 Graphwalks
官方说 MRCR 指标有问题,改用 Graphwalks。数据显示该指标从 38.7% 升到 58.6%,实际推理更强。
> 相关链接:官方回应|新指标数据
模型架构猜测:是 Mythos 蒸馏版?
社区讨论 4.7 是新基座还是蒸馏版。有人说是 Mythos 的蒸馏版本,也有人因为 tokenizer 变了认为是新基座。
> 相关链接:架构讨论|基座猜测
政策、治理与安全
安全卡片:网络能力被限制
系统卡片透露训练时特意降低了网络攻击能力。这是为了安全对齐做的差异化处理。
> 相关链接:系统卡片
漏洞利用评分仍高于 4.6
尽管有限制,评测显示它在 Firefox shell 利用等测试上分数仍比 4.6 高,提示注入鲁棒性接近 Mythos。
> 相关链接:利用评测|鲁棒性
模型与能力
社区吐槽:非 coding 任务变笨
部分用户反馈非代码任务回复变差,觉得系统提示词把模型“阉割”了。Web 版也没有强制推理开关。
> 相关链接:用户吐槽|开关缺失
行业与公司动态
OpenAI 同期发布略显失色
同天 OpenAI 发了 GPT-Rosalind 和新 Codex,也有电脑使用功能,但风头基本被 Claude Opus 4.7 盖过。
> 相关链接:OpenAI 动态|新 Codex