AI 新闻摘要 2026-04-17

发布于 2026年04月30日

模型与能力

Claude Opus 4.7 正式发布

Anthropic 上线最强模型 Opus 4.7,主打长任务、代码和指令遵循。平台与 App 已立即可用,API 同步开放。
> 相关链接:正式发布上线状态

定价不变,用户额度提升

维持$5/$25 每百万 token 定价。因新 tokenizer 可能导致用量波动,Anthropic 提高了所有订阅者的额度作为补偿。
> 相关链接:价格讨论额度调整

性能分级全面超越 4.6

4.7-low 胜过 4.6-medium,4.7-medium 胜过 4.6-high,4.7-high 胜过 4.6-max。新增 xhigh 层级供重度任务使用。
> 相关链接:性能对比分级详情

视觉分辨率提升 3 倍

支持长边 2,576 像素(约 3.75MP),是之前的 3 倍多。不再自动压缩高清图,适合处理密集截图和复杂图表。
> 相关链接:视觉升级不再压缩

Tokenizer 变更影响用量

换新 tokenizer,同样内容可能多耗 35% token,但推理效率提升,总用量反而最多省 50%。
> 相关链接:Tokenizer 分析用量讨论

SWE-Bench 代码能力大涨

SWE-Bench Pro 达 64.3%(+11 分),Verified 达 87.6%(+7 分)。写代码能力确实变强,默认 Claude Code 也受益。
> 相关链接:基准数据对比分析

多榜单登顶,包括 GDPval

GDPval-AA 得分 1753 Elo 排第一,对 GPT-5.4 胜率约 60%。文档推理能力从 57.1% 升到 80.6%。
> 相关链接:GDPval 排名文档推理


Agent 与工具链

Claude Code 默认开启 xhigh

Claude Code 首日支持 4.7,默认推理努力程度设为 xhigh。适合更复杂的自主任务循环。
> 相关链接:默认配置努力层级

任务预算与 Ultrareview 公测

上线任务预算(task budgets)和/ultrareview 功能公测。Max 用户可获得更广泛的 Auto 模式访问权限。
> 相关链接:新功能

使用建议:当工程师用,别微操

官方建议把任务目标、约束和验收标准一次给清楚。让它自己验证修改,别像管初级程序员那样盯着每一步。
> 相关链接:工作流建议验收标准


产品与应用落地

Cursor 内部测试效率提升

Cursor 内部基准从 58% 跳到 70%。开发者处理高复杂度任务多了 68%,不过这是整体模型趋势。
> 相关链接:Cursor 数据任务复杂度

Notion 与 GitHub 反馈积极

Notion 内部评估提升 14%,工具错误减少三分之一。GitHub 也有类似改进,但未公布具体数字。
> 相关链接:Notion 评估GitHub 反馈

LlamaIndex 文档测试细节

图表识别大涨(13.5%→55.8%),但布局识别倒退。表格和内容识别略有提升,表现不均。
> 相关链接:ParseBench 对比

文档处理成本偏高

Jerry Liu 指出做 OCR 类任务成本约 7 美分/页,比代理模式贵。适合高 fidelity 需求,普通任务可能不划算。
> 相关链接:成本分析


研究与方法

长上下文指标引发争议

用户觉得长文本(MRCR)表现变差。有人质疑模型在长上下文检索上倒退了。
> 相关链接:用户反馈指标质疑

Anthropic 回应改用 Graphwalks

官方说 MRCR 指标有问题,改用 Graphwalks。数据显示该指标从 38.7% 升到 58.6%,实际推理更强。
> 相关链接:官方回应新指标数据

模型架构猜测:是 Mythos 蒸馏版?

社区讨论 4.7 是新基座还是蒸馏版。有人说是 Mythos 的蒸馏版本,也有人因为 tokenizer 变了认为是新基座。
> 相关链接:架构讨论基座猜测


政策、治理与安全

安全卡片:网络能力被限制

系统卡片透露训练时特意降低了网络攻击能力。这是为了安全对齐做的差异化处理。
> 相关链接:系统卡片

漏洞利用评分仍高于 4.6

尽管有限制,评测显示它在 Firefox shell 利用等测试上分数仍比 4.6 高,提示注入鲁棒性接近 Mythos。
> 相关链接:利用评测鲁棒性


模型与能力

社区吐槽:非 coding 任务变笨

部分用户反馈非代码任务回复变差,觉得系统提示词把模型“阉割”了。Web 版也没有强制推理开关。
> 相关链接:用户吐槽开关缺失


行业与公司动态

OpenAI 同期发布略显失色

同天 OpenAI 发了 GPT-Rosalind 和新 Codex,也有电脑使用功能,但风头基本被 Claude Opus 4.7 盖过。
> 相关链接:OpenAI 动态新 Codex




评论