GPT-5 和 Claude Sonnet 4.6 写代码哪个强？

agent 编程（Cursor、Cline、Aider、SWE-bench）Claude Sonnet 4.6 更强；单点推理和算法题、HumanEval 类跑分 GPT-5 更强。日常工程师 2026 年大多偏好 Claude，因为它工具调用更稳、不乱改无关代码。

两个模型价格差多少？

Claude Sonnet 4.6 约 $3 输入 / $15 输出每百万 token。GPT-5 约 $2.50 / $10。GPT-5 整体便宜 30-40%，Claude Haiku 4.5 比两者都便宜很多（$0.80 / $4）。

哪个更适合 Cursor？

Claude Sonnet 4.6 是 Cursor 默认推荐，多文件编辑、工具调用、不破坏既有代码风格上更稳。GPT-5 在解释代码、重构思路、解决疑难杂症时是最佳备选。

上下文谁更长？

GPT-5 是 400K，Claude Sonnet 4.6 标准 200K（beta 1M）。两者 100K 内召回都很好，500K 之后 Claude 略稳。仓库规模超过 50 万 token 仍然建议用 Gemini 2.5 Pro。

深度对比 · 2026 年 5 月

GPT-5 vs Claude Sonnet 4.6：写代码到底选哪个

Q: 两个模型价格差多少？

Claude Sonnet 4.6 约 $3 输入 / $15 输出 每百万 token。GPT-5 约 $2.50 / $10。GPT-5 整体便宜 30-40%，Claude Haiku 4.5 比两者都便宜很多（$0.80 / $4）。

认真写代码的 AI 就两家选：OpenAI 的 GPT-5（含 Pro），Anthropic 的 Claude Sonnet 4.6。我把它们都接进 Cursor 跑了一周，对照 SWE-bench 数字和官方价格——这篇直接告诉你什么场景用哪个。不是"两个都很棒"那种废话。

30 秒结论

日常 agent 编程（Cursor / Cline / Aider）：Claude Sonnet 4.6 → 工具调用稳、不乱改、SWE-bench 第一。
系统设计、算法难题、模糊需求：GPT-5 / GPT-5 Pro → 提问能力和推理深度领先。
预算紧或调用量大：GPT-5（便宜 30-40%）或更进一步用 Claude Haiku 4.5 / DeepSeek R1。
整库塞进去问问题：都不是最优，选 Gemini 2.5 Pro（200 万上下文）。
纠结到底用哪个：主力 Claude，硬骨头切到 GPT-5 Pro。

核心规格对比

维度	Claude Sonnet 4.6	GPT-5
输入价（每 1M token）	$3.00	$2.50
输出价	$15.00	$10.00
上下文窗口	200K（1M beta）	400K
SWE-bench Verified	~70%	~65%
HumanEval	~94%	~96%
LiveCodeBench	~72%	~78%
工具调用稳定性	最强	非常好
Cursor 默认	是	备选

数据来源：Anthropic / OpenAI 官方价格页、SWE-bench Verified、LiveCodeBench、Vellum 公开评测，截至 2026 年 5 月。

真实场景一：用 Cursor 改一个跨文件的 bug

同一个任务："登录失败时不显示错误消息，请定位并修复"。涉及前端组件、API 路由、错误处理 middleware 三个文件。

Claude Sonnet 4.6 的表现：读了 3 个相关文件、定位到 middleware 里的错误吞掉，给出 patch、运行类型检查通过、只改了必要的行。一次完成。

GPT-5 的表现：读了同样的文件，找到了相同的根因，但顺手"优化"了 middleware 里两个无关的早期 return 风格。代码本身正确，但 diff 比 Claude 大 3 倍。需要人工挑掉无关改动。

结论：agent 模式下 Claude 更克制。这是 Cursor / Cline / Aider 把它设成默认的原因。代码库越大、PR 评审越多人，这点越值钱。

真实场景二：算法题/系统设计

"设计一个支持 100 万 QPS 的 URL 短链服务，含一致性、容量估算、降级方案。"

GPT-5 Pro：主动反问 — "读多还是写多？预算如何？是否需要分析自定义后缀？" 然后给出三种方案并标注每种的取舍。

Claude Sonnet 4.6：直接给出一个完整方案，质量也好，但反问意识弱。

结论：开放问题、系统设计、面试题——GPT-5 Pro 明显更稳。"会反问"才是真正的推理优势，不是把结果写得多漂亮。

真实场景三：性价比

同一个 100 文件的 monorepo 让 AI 跑一遍代码 review。预估总 token 输入 800K、输出 200K。

Claude Sonnet 4.6：$3 × 0.8 + $15 × 0.2 = $5.40 一次。
GPT-5：$2.50 × 0.8 + $10 × 0.2 = $4.00 一次。
开 prompt caching 后 Claude：~$1.50。
开 batch 后 GPT-5：~$2.00。

GPT-5 标价便宜，但 Claude 的 prompt caching 折扣更激进。如果是反复使用同一份 system prompt 的产品，Claude 实际成本可能反超 GPT-5。请用自己数据测一次。

什么时候 GPT-5 反而更合适

需要"会反问"的代理。例如让模型读 spec 再写代码，GPT-5 Pro 提问质量明显更高。
算法竞赛、LeetCode。HumanEval 和 LiveCodeBench 上 GPT-5 略胜。
同时要做图片理解。GPT-5 多模态能力略强。
已经在 OpenAI 生态。用了 Assistants API、文件搜索、Code Interpreter，迁移成本高。
预算敏感。token 单价便宜 30-40%。

什么时候必选 Claude

用 Cursor / Windsurf / Cline / Aider。所有主流 agent 工具都对 Claude 调优最深。
多文件重构。不乱改、保持代码风格一致。
结构化输出。表格、对比、规范化文档 Claude 更稳。
长 agent 循环（10+ 工具调用）。Claude 漂移率明显更低。
对代码风格挑剔的团队。Claude 默认遵循既有约定，GPT-5 偶尔自作主张。

怎么"两个都用"

2026 年最常见的工程师 setup：

Cursor 默认 Claude Sonnet 4.6 处理日常编辑、补全、重构。
遇到硬骨头切到 GPT-5 Pro（Cursor 内置切换），让它先问清楚、再给方案。
批量、低价值任务（lint、文档生成、commit message）切到 DeepSeek R1 或 Claude Haiku 4.5，省钱。
整库问答切到 Gemini 2.5 Pro，2M 上下文整个项目塞进去。

别押单一模型。前沿这帮每 3-6 个月就换一次老大。能切就切，别给自己挖坑。

用一个 API key 同时调用两者

如果你在写自己的工具或 agent，OpenRouter 提供一个 OpenAI 兼容接口，同时路由到 GPT-5、Claude、DeepSeek、Gemini，方便切换和 A/B 测试。注：OpenRouter 没有公开的推广返佣计划，下面是普通推荐链接。

前往 OpenRouter →

一句话总结

主力 Claude Sonnet 4.6，硬骨头切 GPT-5 Pro，批量任务切 DeepSeek R1。整库问答用 Gemini。不要试图押一个模型 — 切换才是 2026 年的最佳实践。

→ 在 Check.AI 并排对比所有模型