GPT-4 と Claude のコスト:選び方の基準
ワークフローの請求トークン使用量を基準に、GPT-4 と Claude の選び方を整理。
The problem
“1 トークンあたりが安い”モデルが、常に全体コストも最安とは限りません。請求トークンが少ない方が結果的に安くなります。
本当に重要なコスト分解
比べるのは 2 つです:(1) 1 回あたりの tokens、(2) 1 ユーザー操作あたりの呼び出し回数。 必要な改善回数が少ないモデルは、レートが高くてもトータルで安くなることがあります。
現実的な例
下書きのワークフローでは、モデル A が 1 回で完了するのに対し、モデル B が 2 回の洗練を必要とするケースがあります。呼び出し回数で比較します。
最適化アイデア(モデルルーティング)
難易度で分けましょう。抽出・分類は安価なモデル、最終品質の生成だけプレミアムモデル。
ガードレール
リトライを上限化し、エージェント別に予算を設定してスパイクを抑えます。
Next
あなたのワークフローで比較する