0%

记一次简单需求的 Claude Code 与 Codex 实现效果对比

前言

2022年11月,ChatGPT 横空出世,AI 发展迅速,后续各种大模型如雨后春笋般出现。2023年3月,Claude 发布。一直没机会比较谁家代码能力强,这次刚好有个小需求,使用了3种模型来实现,正好做一个对比。

在相当长的一段时间里,Claude 的模型在代码领域一直领先,我日常使用 Sonnet ,复杂需求使用 Opus。而 ChatGPT 作为日常非代码领域的帮手。2026年2月5日,Anthropic 发布 Cluade Opus 4.6,20分钟后,OpenAI 也发布了 GPT 5.3 Codex。各家 AI 订阅都是 $20,而我一直都只是 Claude 用户,未曾有机会比较他们之间的差别。最近 Codex App 发布,可以免费使用 GPT 5.3 Codex 到3月2日。
本次测试复制了同一个项目然后用相同的初始prompt,在 Claude Code 与 Codex 里一共使用了3种模型:Opus 4.5、GPT 5.3 Codex 以及 Opus 4.6。

Opus 4.5

1
2
3
我: This is a project about xxx, Now I wanna add xxx. Minimize changes to the original files and codes.

Claude: Plan mode...

在 Claude 制定好计划并且经过我修改后,开始放手让其开始工作。完成后我直接测试,然后贴出报错日志,它再修改,然后又报错。如此3、4次以后,功能还是未能完成。我暂时搁置了,切换到了 Codex App 里使用 GPT 5.3 Codex 来实现。在 Codex 完成后,我又继续让它参照 Codex 的代码继续修改,最终测试通过。
花费 Token:119.7k

GPT 5.3 Codex

Codex App 我不太熟悉,只是给了默认的权限。在发送给它初始的 prompt 后,就直接开始工作。初次完成后,我测试,贴了报错日志给它,它修复,我测试通过。两次就完成了这次需求。
花费 Token:82k

Opus 4.6

我一般是不太追新的,总觉的新模型会不太稳定。而且 Opus 比较贵,也耗费 token。第一次用的 4.5 是几个月前的模型了,因此我升级到了最新的 4.6 然后进行了最后一次测试。过程仍和第一次一样,使用 plan mode 来进行先规划后编程。结果跟 GPT 5.3 Codex 一样,第一次报错,第二次修复后测试通过。
花费 Token:59.6k

写在最后

本次只是简单测试了一下,未发现后两个新发布的模型编程能力有太大差别,也许后面有复杂的需求可以再进行更深度的能力验证。

不得不感慨现在 AI 发展太快、太强了。以后遇到问题要尝试多种模型,可能会有意想不到的结果。