Claude Opus 4.7 什么时候发布的？

2026 年 4 月 16 日发布。API model ID 是 claude-opus-4-7，通过 Anthropic 官方 API、AWS Bedrock、Azure、Google Vertex 四个渠道同时上线。这是截至 2026 年 5 月 Anthropic 公开的最强模型。

Claude Opus 4.7 价格是多少？

$5 每百万输入 token、$25 每百万输出 token，与 Opus 4.6 持平。prompt cache 命中可省 90%，batch API 半价。但 4.7 用了新 tokenizer，同样的文本会多消耗 1.0 到 1.35 倍的 token，所以实际账单可能涨 0-35%。Anthropic 官方在 artificialanalysis 跑同一套 benchmark 时反而省了 11%（$4,406 vs $4,970），说明效率提升能部分抵消 tokenizer 涨价。

Opus 4.7 比 Opus 4.6 强多少？

SWE-bench Verified 87.6% vs 80.8%（+6.8 分）、SWE-bench Pro 64.3% vs 53.4%（+10.9 分，最大跳跃）、Terminal-Bench 69.4% vs 65.4%、OSWorld 78% vs 72.7%、CharXiv 视觉 82.1% vs 69.1%（+13 分）、幻觉率 36% vs 61%（重要改进）。Agent / 视觉 / 长时间任务三个方向都明显提升。

Opus 4.7 比 GPT-5.4 和 Gemini 3.1 Pro 强吗？

看场景。Agent 编程：Opus 4.7 SWE-bench Pro 64.3% 领先（GPT-5.4 是 57.7%、Gemini 3.1 Pro 54.2%）。终端代码：GPT-5.5 在 Terminal-Bench 2.0 拿 82.7%，明显高于 Opus 4.7 的 69.4%。Web research：GPT-5.4 Pro 拿 89.3% 大幅领先 Opus 4.7 的 79.3%。科学推理 GPQA：三家几乎并列 94%。一句话：Opus 4.7 是 agent 编程 + 长时间工作流之王，但单项跑分并非样样第一。

Opus 4.7 有哪些新功能？

四个：（1）高分辨率图像支持，最大 2576px / 3.75MP，对 computer use、截图理解、文档处理是大改进；（2）新的 xhigh effort 等级，给编程和 agent 场景用；（3）task budgets（beta），给 agent 一个 token 预算让它自己分配；（4）adaptive thinking 成唯一推理模式，删除了 extended thinking 的 budget_tokens 配置。temperature / top_p / top_k 也不能再设。

我应该升级到 Opus 4.7 吗？

用 Opus 4.6 在做 agent 编程 / computer use / 长 agentic loop 的：必须升级，SWE-bench Pro +10.9 分质变。用 Sonnet 4.6 但成本不敏感的：可以试，质量明显上一档。用 GPT-5.4 Pro 做 Web research 重度场景的：不用换，那块 GPT 更强。用 DeepSeek R1 / Qwen 省成本的：不用换，Opus 4.7 是 $5/$25，DeepSeek 是 $0.55/$2.19，差 9 倍。

深度评测 · 2026 年 5 月 12 日 · 作者 @zayuerweb-dev

Claude Opus 4.7 深度评测：SWE-bench 87.6%、价格不变、谁该升级

Anthropic 在 2026 年 4 月 16 日发布的 Claude Opus 4.7，是过去一年 Claude 家族最实质的版本升级。SWE-bench Pro 单次跳了 10.9 分、幻觉率从 61% 砍到 36%、高分辨率图像支持上线、价格不变（但 tokenizer 改了导致隐性涨 0-35%）。这篇用 Anthropic 官方文档、Vellum 实测、Artificial Analysis 数据，把 Opus 4.7 跟 4.6、GPT-5.4、Gemini 3.1 Pro、Sonnet 4.6 一次性摆清楚——你看完就知道该不该升、怎么升、什么场景反而不该升。

30 秒结论

Agent 编程 / 长 agentic loop：必升。SWE-bench Pro 64.3% 全行业第一。
Computer use / 截图理解：必升。OSWorld 78%，2576px 高清图像支持。
知识工作（doc / ppt / 图表）：升。CharXiv 视觉 82.1%（+13 分）。
Web research / 长链接调用：不必。GPT-5.4 Pro BrowseComp 89.3% 仍领先。
终端代码（CLI heavy）：不必。GPT-5.5 Terminal-Bench 82.7% 显著高于 Opus 4.7 的 69.4%。
成本敏感批量任务：千万别。$5/$25 是 DeepSeek R1 的 9 倍，Sonnet 4.6 的 1.67 倍。
纠结时：主力 Opus 4.7 跑硬任务，Sonnet 4.6 兜底常规调用，DeepSeek R1 做批量。

在 Check.AI 实时对比所有模型 →

核心规格

项目	Claude Opus 4.7
API model ID	`claude-opus-4-7`
发布日	2026-04-16
上下文窗口	1,000,000 token
最大输出	128,000 token
输入价	$5.00 / 百万 token
输出价	$25.00 / 百万 token
Cache 命中	输入价 × 0.1（省 90%）
Batch API	输入/输出半价
高分辨率图像	2576px / 3.75MP（上一代 1568px / 1.15MP）
渠道	Anthropic API、AWS Bedrock、Azure、Google Vertex

关键跑分 vs 上一代和竞品

基准	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified（agent 编程）	87.6%	80.8%	—	80.6%
SWE-bench Pro（更难）	64.3%	53.4%	57.7%	54.2%
Terminal-Bench 2.0（CLI）	69.4%	65.4%	82.7%（GPT-5.5）	68.5%
MCP-Atlas（多工具调用）	77.3%	75.8%	68.1%	73.9%
Finance Agent v1.1	64.4%	60.1%	61.5%（Pro）	59.7%
OSWorld-Verified（computer use）	78.0%	72.7%	75.0%	—
BrowseComp（web research）	79.3%	83.7%	89.3%（Pro）	85.9%
GPQA Diamond（科学推理）	94.2%	91.3%	94.4%（Pro）	94.3%
CharXiv（视觉推理）	82.1%	69.1%	—	—
幻觉率（越低越好）	36%	61%	—	—

数据来自 Anthropic 官方文档、Vellum 评测、Artificial Analysis Intelligence Index，截至 2026 年 5 月。"—"表示该机构未公布对应数字。GPT-5.4 Pro 是 OpenAI 的更高 effort 版本，价格更高。

5 个真正重要的变化

1. SWE-bench Pro +10.9 分：agent 编程的拐点

SWE-bench Verified 已经卷到 80%+ 没人在乎了。SWE-bench Pro 才是 2026 年真正的 agent 编程基准——更难、需要多步规划、跨文件协调。Opus 4.6 → 4.7 单次跳 10.9 分（53.4% → 64.3%）是过去一年所有前沿模型里的最大单次跳跃，把 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2% 远远抛开。

实战意义：原来 Claude Code 跑大型重构 60% 一次成功率，现在 75%+。少一次重试就回本。

2. 幻觉率从 61% 砍到 36%

这是 Anthropic 官方公布最戏剧性的数字——同一套测试 Opus 4.6 幻觉 61%，4.7 只有 36%。机制是模型更愿意"我不知道"而不是硬编。对生产环境意味着：自动化客服 / 法律 RAG / 医疗辅助这类错答比不答还贵的场景，4.7 是必升项。

3. 高分辨率图像支持（computer use 真正可用了）

图像上限从 1568px / 1.15MP 提到 2576px / 3.75MP。坐标 1:1 像素映射不再需要 scale-factor 换算。对三类场景是质变：

Computer use：截整屏不糊，定位按钮准了一大截
文档 / 表单理解：PDF 扫描件、合同截图可读性大幅上升
Artifact / 图表分析：CharXiv 视觉跑分 69.1% → 82.1%（+13）

4. Tokenizer 改了：账单可能涨 0-35%

价目表写 $5/$25 不变，但同一段中文 / 代码 / 数据，4.7 用 1.0 到 1.35 倍的 token。意思是：

纯英文短文本：基本无差
中文、代码、数据：可能多花 20-35%
实际效果可能被 Opus 4.7 更少的输出（35% fewer output tokens 在 Artificial Analysis 同套 benchmark）抵消

最佳实践：升级前用自己真实流量跑 100-500 次测一下账单变化，别直接相信"价格不变"宣传。

5. xhigh effort + task budgets（agent 工作流的新工具）

Anthropic 新增 xhigh effort 等级（比 high 更"卷"，token 花得更多但更稳）。新增 task_budget beta header，给 agent 一个 token 总预算让它自己分配——模型能看到倒计时，会自己优先级排序、按时收尾。

对独立开发者意义不大，对企业 agent 工作流（CI/CD 集成、自动化 PR review）是质变。

三个破坏性 API 变更，升级前必看

extended thinking 删了。设 thinking: {"type": "enabled", "budget_tokens": N} 直接 400。改用 thinking: {"type": "adaptive"} + effort: "high"。
temperature / top_p / top_k 全删了。设非默认值直接 400。靠 prompt 控制行为。
thinking 内容默认不返回。UI 流式展示推理过程的产品会看到长时间空白。需要把 display: "summarized" 显式打开。

同时 adaptive thinking 默认关——不主动设置就完全不思考。这是和 4.6 行为最大差异。Claude Code、Cursor、Cline 这些工具已经更新适配，自己写 SDK 接的要改。

谁该升、谁不该升、谁该跳过

🟢 必升

用 Opus 4.6 做 Claude Code、agent 编程、长 agentic loop
跑 computer use、screenshot 理解、文档抽取
做 RAG / 客服，需要"宁可不答也别答错"
使用 multi-tool agent（MCP-Atlas 77.3% 全行业第一）

🟡 可以升，但先 A/B 测

用 Sonnet 4.6 想升级体验的——Opus 是 1.67 倍价格，要看任务复杂度是否值
Web research / 多次搜索类应用——GPT-5.4 Pro BrowseComp 89.3% 仍领先
对中文流量重的业务——tokenizer 变化对中文影响 +20-35%，要算账

🔴 别折腾

用 DeepSeek R1 / Qwen3 / GLM-4.6 做 cost-sensitive 批量——Opus 是它们 5-10 倍价
纯 终端 CLI 重度场景——GPT-5.5 Terminal-Bench 82.7% 大幅领先
已经在 GPT-5.4 Pro 上做 web research / 深度搜索——同代际，没必要换

真实成本估算（跑同样工作量）

假设场景：每月 500 个 PR 的 code review agent，每个 PR 平均输入 40K token、输出 4K token、3 次工具调用。

模型	月成本	SWE-bench Pro	建议
Opus 4.7	~$150	64.3%	关键 PR + 复杂重构
Opus 4.6	~$130	53.4%	已无理由用，升 4.7
Sonnet 4.6	~$90	~50%	常规 PR、性价比之选
GPT-5.4	~$75	57.7%	CLI / 终端任务
DeepSeek R1	~$15	~52%	cost-sensitive 批量

估算仅供参考，未计入 prompt cache 和 batch 折扣。Cache 重度复用可让 Opus 4.7 实际成本下降 40-60%。

未来 6 个月观察点

Sonnet 4.7 何时来。历史规律：Opus 发布 2-4 个月后跟 Sonnet 版本。预计 2026 Q3。
Gemini 3.5 / GPT-6 是否会反超。三家在 SWE-bench Verified 已经聚到 80%+，下一轮跳跃要看谁先突破 90%。
价格战。DeepSeek R2 预计 Q3，可能再次拉大 1:9 的性价比差。
Task budget / xhigh 是否成行业标准。如果 OpenAI / Google 跟进，agent 工作流会标准化。
Tokenizer "暗涨" 是否成新常态。账面价格不变、token 用得更多——其他厂商可能学。

FAQ

Opus 4.7 什么时候发布？2026 年 4 月 16 日。API ID claude-opus-4-7。

价格变了吗？表面不变（$5/$25），但新 tokenizer 让中文/代码多耗 1-1.35× token，实际账单可能涨 0-35%。

必须升级吗？做 agent 编程 / computer use / RAG 必升。做批量低价值任务、CLI 重度场景不必。

对比 GPT-5.4？SWE-bench Pro Opus 强（64.3% vs 57.7%），BrowseComp GPT 强（89.3% vs 79.3%）。GPQA 三家几乎并列。

升级要改代码吗？要。extended thinking budget、temperature/top_p/top_k 全删了。thinking 内容默认不返回。

1M 上下文要加钱吗？不要。1M 上下文是标准定价，没有 long-context 溢价。

→ 在 Check.AI 实时对比 Opus 4.7 vs 其他模型