GPT-4 vs Claude 成本：怎么选更划算

用“工作流的总计费 tokens”来决定选 GPT-4 还是 Claude，而不是只看单价。

The problem

真正省钱的模型，往往不是“按 token 最便宜”的那个，而是能用更少的 billed tokens 完成任务的那个。

关键的成本分解

比较两件事：(1) 每次调用的 tokens (2) 每次用户操作触发的调用次数。如果一个模型需要更少的 refinement passes，它可能总成本更低。

写作流程：模型 A 只需 1 次就完成；模型 B 需要 2 次 refine 才能达到目标。用调用次数乘以 tokens 就能看出差异。

复杂度路由：简单步骤用更便宜模型，最终生成用更高质量模型。

限制 retries 并给每个 agent 设置预算，避免成本突刺失控。