AI 新闻摘要 2026-04-17

模型与能力

Claude Opus 4.7 正式发布

Anthropic 上线最强模型 Opus 4.7，主打长任务、代码和指令遵循。平台与 App 已立即可用，API 同步开放。
> 相关链接：正式发布｜上线状态

定价不变，用户额度提升

维持$5/$25 每百万 token 定价。因新 tokenizer 可能导致用量波动，Anthropic 提高了所有订阅者的额度作为补偿。
> 相关链接：价格讨论｜额度调整

性能分级全面超越 4.6

4.7-low 胜过 4.6-medium，4.7-medium 胜过 4.6-high，4.7-high 胜过 4.6-max。新增 xhigh 层级供重度任务使用。
> 相关链接：性能对比｜分级详情

视觉分辨率提升 3 倍

支持长边 2,576 像素（约 3.75MP），是之前的 3 倍多。不再自动压缩高清图，适合处理密集截图和复杂图表。
> 相关链接：视觉升级｜不再压缩

Tokenizer 变更影响用量

换新 tokenizer，同样内容可能多耗 35% token，但推理效率提升，总用量反而最多省 50%。
> 相关链接：Tokenizer 分析｜用量讨论

SWE-Bench 代码能力大涨

SWE-Bench Pro 达 64.3%（+11 分），Verified 达 87.6%（+7 分）。写代码能力确实变强，默认 Claude Code 也受益。
> 相关链接：基准数据｜对比分析

多榜单登顶，包括 GDPval

GDPval-AA 得分 1753 Elo 排第一，对 GPT-5.4 胜率约 60%。文档推理能力从 57.1% 升到 80.6%。
> 相关链接：GDPval 排名｜文档推理

Agent 与工具链

Claude Code 默认开启 xhigh

Claude Code 首日支持 4.7，默认推理努力程度设为 xhigh。适合更复杂的自主任务循环。
> 相关链接：默认配置｜努力层级

任务预算与 Ultrareview 公测

上线任务预算（task budgets）和/ultrareview 功能公测。Max 用户可获得更广泛的 Auto 模式访问权限。
> 相关链接：新功能

使用建议：当工程师用，别微操

官方建议把任务目标、约束和验收标准一次给清楚。让它自己验证修改，别像管初级程序员那样盯着每一步。
> 相关链接：工作流建议｜验收标准

产品与应用落地

Cursor 内部测试效率提升

Cursor 内部基准从 58% 跳到 70%。开发者处理高复杂度任务多了 68%，不过这是整体模型趋势。
> 相关链接：Cursor 数据｜任务复杂度

Notion 与 GitHub 反馈积极

Notion 内部评估提升 14%，工具错误减少三分之一。GitHub 也有类似改进，但未公布具体数字。
> 相关链接：Notion 评估｜GitHub 反馈

LlamaIndex 文档测试细节

图表识别大涨（13.5%→55.8%），但布局识别倒退。表格和内容识别略有提升，表现不均。
> 相关链接：ParseBench 对比

文档处理成本偏高

Jerry Liu 指出做 OCR 类任务成本约 7 美分/页，比代理模式贵。适合高 fidelity 需求，普通任务可能不划算。
> 相关链接：成本分析

研究与方法

长上下文指标引发争议

用户觉得长文本（MRCR）表现变差。有人质疑模型在长上下文检索上倒退了。
> 相关链接：用户反馈｜指标质疑

Anthropic 回应改用 Graphwalks

官方说 MRCR 指标有问题，改用 Graphwalks。数据显示该指标从 38.7% 升到 58.6%，实际推理更强。
> 相关链接：官方回应｜新指标数据

模型架构猜测：是 Mythos 蒸馏版？

社区讨论 4.7 是新基座还是蒸馏版。有人说是 Mythos 的蒸馏版本，也有人因为 tokenizer 变了认为是新基座。
> 相关链接：架构讨论｜基座猜测

政策、治理与安全

安全卡片：网络能力被限制

系统卡片透露训练时特意降低了网络攻击能力。这是为了安全对齐做的差异化处理。
> 相关链接：系统卡片

漏洞利用评分仍高于 4.6

尽管有限制，评测显示它在 Firefox shell 利用等测试上分数仍比 4.6 高，提示注入鲁棒性接近 Mythos。
> 相关链接：利用评测｜鲁棒性

模型与能力

社区吐槽：非 coding 任务变笨

部分用户反馈非代码任务回复变差，觉得系统提示词把模型“阉割”了。Web 版也没有强制推理开关。
> 相关链接：用户吐槽｜开关缺失

行业与公司动态

OpenAI 同期发布略显失色

同天 OpenAI 发了 GPT-Rosalind 和新 Codex，也有电脑使用功能，但风头基本被 Claude Opus 4.7 盖过。
> 相关链接：OpenAI 动态｜新 Codex

模型与能力

Claude Opus 4.7 正式发布

定价不变，用户额度提升

性能分级全面超越 4.6

视觉分辨率提升 3 倍

Tokenizer 变更影响用量

SWE-Bench 代码能力大涨

多榜单登顶，包括 GDPval

Agent 与工具链

Claude Code 默认开启 xhigh

任务预算与 Ultrareview 公测

使用建议：当工程师用，别微操

产品与应用落地

Cursor 内部测试效率提升

Notion 与 GitHub 反馈积极

LlamaIndex 文档测试细节

文档处理成本偏高

研究与方法

长上下文指标引发争议

Anthropic 回应改用 Graphwalks

模型架构猜测：是 Mythos 蒸馏版？

政策、治理与安全

安全卡片：网络能力被限制

漏洞利用评分仍高于 4.6

模型与能力

社区吐槽：非 coding 任务变笨

行业与公司动态

OpenAI 同期发布略显失色

评论