深度对比 · 2026 年 5 月
GPT-5 vs Claude Sonnet 4.6:写代码到底选哪个
认真写代码的 AI 就两家选:OpenAI 的 GPT-5(含 Pro),Anthropic 的 Claude Sonnet 4.6。我把它们都接进 Cursor 跑了一周,对照 SWE-bench 数字和官方价格——这篇直接告诉你什么场景用哪个。不是"两个都很棒"那种废话。
30 秒结论
- 日常 agent 编程(Cursor / Cline / Aider):Claude Sonnet 4.6 → 工具调用稳、不乱改、SWE-bench 第一。
- 系统设计、算法难题、模糊需求:GPT-5 / GPT-5 Pro → 提问能力和推理深度领先。
- 预算紧或调用量大:GPT-5(便宜 30-40%)或更进一步用 Claude Haiku 4.5 / DeepSeek R1。
- 整库塞进去问问题:都不是最优,选 Gemini 2.5 Pro(200 万上下文)。
- 纠结到底用哪个:主力 Claude,硬骨头切到 GPT-5 Pro。
核心规格对比
| 维度 | Claude Sonnet 4.6 | GPT-5 |
|---|---|---|
| 输入价(每 1M token) | $3.00 | $2.50 |
| 输出价 | $15.00 | $10.00 |
| 上下文窗口 | 200K(1M beta) | 400K |
| SWE-bench Verified | ~70% | ~65% |
| HumanEval | ~94% | ~96% |
| LiveCodeBench | ~72% | ~78% |
| 工具调用稳定性 | 最强 | 非常好 |
| Cursor 默认 | 是 | 备选 |
数据来源:Anthropic / OpenAI 官方价格页、SWE-bench Verified、LiveCodeBench、Vellum 公开评测,截至 2026 年 5 月。
真实场景一:用 Cursor 改一个跨文件的 bug
同一个任务:"登录失败时不显示错误消息,请定位并修复"。涉及前端组件、API 路由、错误处理 middleware 三个文件。
Claude Sonnet 4.6 的表现:读了 3 个相关文件、定位到 middleware 里的错误吞掉,给出 patch、运行类型检查通过、只改了必要的行。一次完成。
GPT-5 的表现:读了同样的文件,找到了相同的根因,但顺手"优化"了 middleware 里两个无关的早期 return 风格。代码本身正确,但 diff 比 Claude 大 3 倍。需要人工挑掉无关改动。
结论:agent 模式下 Claude 更克制。这是 Cursor / Cline / Aider 把它设成默认的原因。代码库越大、PR 评审越多人,这点越值钱。
真实场景二:算法题/系统设计
"设计一个支持 100 万 QPS 的 URL 短链服务,含一致性、容量估算、降级方案。"
GPT-5 Pro:主动反问 — "读多还是写多?预算如何?是否需要分析自定义后缀?" 然后给出三种方案并标注每种的取舍。
Claude Sonnet 4.6:直接给出一个完整方案,质量也好,但反问意识弱。
结论:开放问题、系统设计、面试题——GPT-5 Pro 明显更稳。"会反问"才是真正的推理优势,不是把结果写得多漂亮。
真实场景三:性价比
同一个 100 文件的 monorepo 让 AI 跑一遍代码 review。预估总 token 输入 800K、输出 200K。
- Claude Sonnet 4.6:$3 × 0.8 + $15 × 0.2 = $5.40 一次。
- GPT-5:$2.50 × 0.8 + $10 × 0.2 = $4.00 一次。
- 开 prompt caching 后 Claude:~$1.50。
- 开 batch 后 GPT-5:~$2.00。
GPT-5 标价便宜,但 Claude 的 prompt caching 折扣更激进。如果是反复使用同一份 system prompt 的产品,Claude 实际成本可能反超 GPT-5。请用自己数据测一次。
什么时候 GPT-5 反而更合适
- 需要"会反问"的代理。例如让模型读 spec 再写代码,GPT-5 Pro 提问质量明显更高。
- 算法竞赛、LeetCode。HumanEval 和 LiveCodeBench 上 GPT-5 略胜。
- 同时要做图片理解。GPT-5 多模态能力略强。
- 已经在 OpenAI 生态。用了 Assistants API、文件搜索、Code Interpreter,迁移成本高。
- 预算敏感。token 单价便宜 30-40%。
什么时候必选 Claude
- 用 Cursor / Windsurf / Cline / Aider。所有主流 agent 工具都对 Claude 调优最深。
- 多文件重构。不乱改、保持代码风格一致。
- 结构化输出。表格、对比、规范化文档 Claude 更稳。
- 长 agent 循环(10+ 工具调用)。Claude 漂移率明显更低。
- 对代码风格挑剔的团队。Claude 默认遵循既有约定,GPT-5 偶尔自作主张。
怎么"两个都用"
2026 年最常见的工程师 setup:
- Cursor 默认 Claude Sonnet 4.6 处理日常编辑、补全、重构。
- 遇到硬骨头切到 GPT-5 Pro(Cursor 内置切换),让它先问清楚、再给方案。
- 批量、低价值任务(lint、文档生成、commit message)切到 DeepSeek R1 或 Claude Haiku 4.5,省钱。
- 整库问答切到 Gemini 2.5 Pro,2M 上下文整个项目塞进去。
别押单一模型。前沿这帮每 3-6 个月就换一次老大。能切就切,别给自己挖坑。
用一个 API key 同时调用两者
如果你在写自己的工具或 agent,OpenRouter 提供一个 OpenAI 兼容接口,同时路由到 GPT-5、Claude、DeepSeek、Gemini,方便切换和 A/B 测试。注:OpenRouter 没有公开的推广返佣计划,下面是普通推荐链接。
一句话总结
主力 Claude Sonnet 4.6,硬骨头切 GPT-5 Pro,批量任务切 DeepSeek R1。整库问答用 Gemini。不要试图押一个模型 — 切换才是 2026 年的最佳实践。