なぜ AI API はこんなに高いの?(無駄を止める方法)
AI API コストは tokens の無駄、リトライ/ツールチェーン、エージェントのループで増えます。実際の原因を測り、暴走を止めましょう。
The problem
多くのチームは“急に AI を使い始めた”わけではありません。失敗時のリトライや収束しないループで、余計な tokens と余計な呼び出しが増え始めます。
コストが増え続ける 3 つの理由
- トークンの無駄:長すぎる文脈、重複する指示、verbose なツール出力
- 呼び出しの増幅:リトライ、フォールバック、ツール連鎖でリクエスト数が増える
- ループの力学:収束シグナルがないまま、エージェントが延々と改善を続ける
重要なのは“実際に請求される tokens”
コストは主に、すべてのモデル呼び出しにおける billed tokens の合計で決まります。だから改善の方向性はシンプルで、tokens を減らすか、呼び出し回数を減らすか、両方です。
“ランダムに見える”現実の例
サポートエージェントがツール呼び出し→中途結果→同じ手順をリトライ、という流れになると、平均は大きく変わらなくても“リトライ頻度”が月次のスパイクを作ります。
分解して直す(まずは簡単→深い改善→護栏)
- まずは:max output tokens を上限化、system prompt を短く、ツール結果を削る
- 深く:単純ステップは安価なモデルにルーティング、必要なところにキャッシュ
- 護栏:エージェント別の予算、リトライ上限、「done なら停止」ルールを追加
すぐできるチェック
- エージェント/Run ごとに tokens と call volume を追う
- retries と tool calls に上限を設ける
- スパイク前にアラートを設定
Next
AI 使用コストを見積もる