深度评测 · 2026 年 5 月 12 日 · 作者 @zayuerweb-dev
Claude Opus 4.7 深度评测:SWE-bench 87.6%、价格不变、谁该升级
Anthropic 在 2026 年 4 月 16 日发布的 Claude Opus 4.7,是过去一年 Claude 家族最实质的版本升级。SWE-bench Pro 单次跳了 10.9 分、幻觉率从 61% 砍到 36%、高分辨率图像支持上线、价格不变(但 tokenizer 改了导致隐性涨 0-35%)。这篇用 Anthropic 官方文档、Vellum 实测、Artificial Analysis 数据,把 Opus 4.7 跟 4.6、GPT-5.4、Gemini 3.1 Pro、Sonnet 4.6 一次性摆清楚——你看完就知道该不该升、怎么升、什么场景反而不该升。
30 秒结论
- Agent 编程 / 长 agentic loop:必升。SWE-bench Pro 64.3% 全行业第一。
- Computer use / 截图理解:必升。OSWorld 78%,2576px 高清图像支持。
- 知识工作(doc / ppt / 图表):升。CharXiv 视觉 82.1%(+13 分)。
- Web research / 长链接调用:不必。GPT-5.4 Pro BrowseComp 89.3% 仍领先。
- 终端代码(CLI heavy):不必。GPT-5.5 Terminal-Bench 82.7% 显著高于 Opus 4.7 的 69.4%。
- 成本敏感批量任务:千万别。$5/$25 是 DeepSeek R1 的 9 倍,Sonnet 4.6 的 1.67 倍。
- 纠结时:主力 Opus 4.7 跑硬任务,Sonnet 4.6 兜底常规调用,DeepSeek R1 做批量。
核心规格
| 项目 | Claude Opus 4.7 |
|---|---|
| API model ID | claude-opus-4-7 |
| 发布日 | 2026-04-16 |
| 上下文窗口 | 1,000,000 token |
| 最大输出 | 128,000 token |
| 输入价 | $5.00 / 百万 token |
| 输出价 | $25.00 / 百万 token |
| Cache 命中 | 输入价 × 0.1(省 90%) |
| Batch API | 输入/输出半价 |
| 高分辨率图像 | 2576px / 3.75MP(上一代 1568px / 1.15MP) |
| 渠道 | Anthropic API、AWS Bedrock、Azure、Google Vertex |
关键跑分 vs 上一代和竞品
| 基准 | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified(agent 编程) | 87.6% | 80.8% | — | 80.6% |
| SWE-bench Pro(更难) | 64.3% | 53.4% | 57.7% | 54.2% |
| Terminal-Bench 2.0(CLI) | 69.4% | 65.4% | 82.7%(GPT-5.5) | 68.5% |
| MCP-Atlas(多工具调用) | 77.3% | 75.8% | 68.1% | 73.9% |
| Finance Agent v1.1 | 64.4% | 60.1% | 61.5%(Pro) | 59.7% |
| OSWorld-Verified(computer use) | 78.0% | 72.7% | 75.0% | — |
| BrowseComp(web research) | 79.3% | 83.7% | 89.3%(Pro) | 85.9% |
| GPQA Diamond(科学推理) | 94.2% | 91.3% | 94.4%(Pro) | 94.3% |
| CharXiv(视觉推理) | 82.1% | 69.1% | — | — |
| 幻觉率(越低越好) | 36% | 61% | — | — |
数据来自 Anthropic 官方文档、Vellum 评测、Artificial Analysis Intelligence Index,截至 2026 年 5 月。"—"表示该机构未公布对应数字。GPT-5.4 Pro 是 OpenAI 的更高 effort 版本,价格更高。
5 个真正重要的变化
1. SWE-bench Pro +10.9 分:agent 编程的拐点
SWE-bench Verified 已经卷到 80%+ 没人在乎了。SWE-bench Pro 才是 2026 年真正的 agent 编程基准——更难、需要多步规划、跨文件协调。Opus 4.6 → 4.7 单次跳 10.9 分(53.4% → 64.3%)是过去一年所有前沿模型里的最大单次跳跃,把 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2% 远远抛开。
实战意义:原来 Claude Code 跑大型重构 60% 一次成功率,现在 75%+。少一次重试就回本。
2. 幻觉率从 61% 砍到 36%
这是 Anthropic 官方公布最戏剧性的数字——同一套测试 Opus 4.6 幻觉 61%,4.7 只有 36%。机制是模型更愿意"我不知道"而不是硬编。对生产环境意味着:自动化客服 / 法律 RAG / 医疗辅助这类错答比不答还贵的场景,4.7 是必升项。
3. 高分辨率图像支持(computer use 真正可用了)
图像上限从 1568px / 1.15MP 提到 2576px / 3.75MP。坐标 1:1 像素映射不再需要 scale-factor 换算。对三类场景是质变:
- Computer use:截整屏不糊,定位按钮准了一大截
- 文档 / 表单理解:PDF 扫描件、合同截图可读性大幅上升
- Artifact / 图表分析:CharXiv 视觉跑分 69.1% → 82.1%(+13)
4. Tokenizer 改了:账单可能涨 0-35%
价目表写 $5/$25 不变,但同一段中文 / 代码 / 数据,4.7 用 1.0 到 1.35 倍的 token。意思是:
- 纯英文短文本:基本无差
- 中文、代码、数据:可能多花 20-35%
- 实际效果可能被 Opus 4.7 更少的输出(35% fewer output tokens 在 Artificial Analysis 同套 benchmark)抵消
最佳实践:升级前用自己真实流量跑 100-500 次测一下账单变化,别直接相信"价格不变"宣传。
5. xhigh effort + task budgets(agent 工作流的新工具)
Anthropic 新增 xhigh effort 等级(比 high 更"卷",token 花得更多但更稳)。新增 task_budget beta header,给 agent 一个 token 总预算让它自己分配——模型能看到倒计时,会自己优先级排序、按时收尾。
对独立开发者意义不大,对企业 agent 工作流(CI/CD 集成、自动化 PR review)是质变。
三个破坏性 API 变更,升级前必看
- extended thinking 删了。设
thinking: {"type": "enabled", "budget_tokens": N}直接 400。改用thinking: {"type": "adaptive"}+effort: "high"。 - temperature / top_p / top_k 全删了。设非默认值直接 400。靠 prompt 控制行为。
- thinking 内容默认不返回。UI 流式展示推理过程的产品会看到长时间空白。需要把
display: "summarized"显式打开。
同时 adaptive thinking 默认关——不主动设置就完全不思考。这是和 4.6 行为最大差异。Claude Code、Cursor、Cline 这些工具已经更新适配,自己写 SDK 接的要改。
谁该升、谁不该升、谁该跳过
🟢 必升
- 用 Opus 4.6 做 Claude Code、agent 编程、长 agentic loop
- 跑 computer use、screenshot 理解、文档抽取
- 做 RAG / 客服,需要"宁可不答也别答错"
- 使用 multi-tool agent(MCP-Atlas 77.3% 全行业第一)
🟡 可以升,但先 A/B 测
- 用 Sonnet 4.6 想升级体验的——Opus 是 1.67 倍价格,要看任务复杂度是否值
- Web research / 多次搜索类应用——GPT-5.4 Pro BrowseComp 89.3% 仍领先
- 对中文流量重的业务——tokenizer 变化对中文影响 +20-35%,要算账
🔴 别折腾
- 用 DeepSeek R1 / Qwen3 / GLM-4.6 做 cost-sensitive 批量——Opus 是它们 5-10 倍价
- 纯 终端 CLI 重度场景——GPT-5.5 Terminal-Bench 82.7% 大幅领先
- 已经在 GPT-5.4 Pro 上做 web research / 深度搜索——同代际,没必要换
真实成本估算(跑同样工作量)
假设场景:每月 500 个 PR 的 code review agent,每个 PR 平均输入 40K token、输出 4K token、3 次工具调用。
| 模型 | 月成本 | SWE-bench Pro | 建议 |
|---|---|---|---|
| Opus 4.7 | ~$150 | 64.3% | 关键 PR + 复杂重构 |
| Opus 4.6 | ~$130 | 53.4% | 已无理由用,升 4.7 |
| Sonnet 4.6 | ~$90 | ~50% | 常规 PR、性价比之选 |
| GPT-5.4 | ~$75 | 57.7% | CLI / 终端任务 |
| DeepSeek R1 | ~$15 | ~52% | cost-sensitive 批量 |
估算仅供参考,未计入 prompt cache 和 batch 折扣。Cache 重度复用可让 Opus 4.7 实际成本下降 40-60%。
未来 6 个月观察点
- Sonnet 4.7 何时来。历史规律:Opus 发布 2-4 个月后跟 Sonnet 版本。预计 2026 Q3。
- Gemini 3.5 / GPT-6 是否会反超。三家在 SWE-bench Verified 已经聚到 80%+,下一轮跳跃要看谁先突破 90%。
- 价格战。DeepSeek R2 预计 Q3,可能再次拉大 1:9 的性价比差。
- Task budget / xhigh 是否成行业标准。如果 OpenAI / Google 跟进,agent 工作流会标准化。
- Tokenizer "暗涨" 是否成新常态。账面价格不变、token 用得更多——其他厂商可能学。
相关阅读
FAQ
Opus 4.7 什么时候发布?2026 年 4 月 16 日。API ID claude-opus-4-7。
价格变了吗?表面不变($5/$25),但新 tokenizer 让中文/代码多耗 1-1.35× token,实际账单可能涨 0-35%。
必须升级吗?做 agent 编程 / computer use / RAG 必升。做批量低价值任务、CLI 重度场景不必。
对比 GPT-5.4?SWE-bench Pro Opus 强(64.3% vs 57.7%),BrowseComp GPT 强(89.3% vs 79.3%)。GPQA 三家几乎并列。
升级要改代码吗?要。extended thinking budget、temperature/top_p/top_k 全删了。thinking 内容默认不返回。
1M 上下文要加钱吗?不要。1M 上下文是标准定价,没有 long-context 溢价。