记一次简单需求的 Claude Code 与 Codex 实现效果对比

前言

2022年11月，ChatGPT 横空出世，AI 发展迅速，后续各种大模型如雨后春笋般出现。2023年3月，Claude 发布。一直没机会比较谁家代码能力强，这次刚好有个小需求，使用了3种模型来实现，正好做一个对比。

在相当长的一段时间里，Claude 的模型在代码领域一直领先，我日常使用 Sonnet ，复杂需求使用 Opus。而 ChatGPT 作为日常非代码领域的帮手。2026年2月5日，Anthropic 发布 Cluade Opus 4.6，20分钟后，OpenAI 也发布了 GPT 5.3 Codex。各家 AI 订阅都是 $20，而我一直都只是 Claude 用户，未曾有机会比较他们之间的差别。最近 Codex App 发布，可以免费使用 GPT 5.3 Codex 到3月2日。
本次测试复制了同一个项目然后用相同的初始prompt，在 Claude Code 与 Codex 里一共使用了3种模型：Opus 4.5、GPT 5.3 Codex 以及 Opus 4.6。

Opus 4.5

1
2
3

我： This is a project about xxx, Now I wanna add xxx. Minimize changes to the original files and codes.

Claude： Plan mode...

在 Claude 制定好计划并且经过我修改后，开始放手让其开始工作。完成后我直接测试，然后贴出报错日志，它再修改，然后又报错。如此3、4次以后，功能还是未能完成。我暂时搁置了，切换到了 Codex App 里使用 GPT 5.3 Codex 来实现。在 Codex 完成后，我又继续让它参照 Codex 的代码继续修改，最终测试通过。
花费 Token：119.7k

GPT 5.3 Codex

Codex App 我不太熟悉，只是给了默认的权限。在发送给它初始的 prompt 后，就直接开始工作。初次完成后，我测试，贴了报错日志给它，它修复，我测试通过。两次就完成了这次需求。
花费 Token：82k

Opus 4.6

我一般是不太追新的，总觉的新模型会不太稳定。而且 Opus 比较贵，也耗费 token。第一次用的 4.5 是几个月前的模型了，因此我升级到了最新的 4.6 然后进行了最后一次测试。过程仍和第一次一样，使用 plan mode 来进行先规划后编程。结果跟 GPT 5.3 Codex 一样，第一次报错，第二次修复后测试通过。
花费 Token：59.6k

写在最后

本次只是简单测试了一下，未发现后两个新发布的模型编程能力有太大差别，也许后面有复杂的需求可以再进行更深度的能力验证。

不得不感慨现在 AI 发展太快、太强了。以后遇到问题要尝试多种模型，可能会有意想不到的结果。