AI Cost Save
AICostSave

为什么 AI API 这么贵?(以及如何止住浪费)

AI API 成本上涨通常来自 token 浪费、重试/工具链放大,以及 agent 循环。学会定位真实成本驱动,并用护栏防止暴走。

The problem

大多数团队并不是“突然用得更多”。而是当工具失败或循环无法收敛时,你的工作流开始发送更多无效 tokens,并触发更多调用次数。

账单持续变贵的 3 个原因

  • token 浪费:上下文太长、重复指令、工具输出过于冗长
  • 调用次数放大:重试(retries)、回退(fallbacks)和工具链会乘以请求量
  • 循环机制:agent 没有收敛信号时,会继续“优化又优化”

真正决定成本的等式

你的成本主要来自所有模型调用中 计费 tokens 的总量,再加上不确定性下工作流触发的额外调用。 所以降本的核心是:减少 tokens、减少调用次数,或同时做到两者。

一个“看起来很随机”的真实场景

支持型 agent 会先调用工具得到部分结果,然后因为失败而重复同一段步骤。平均每次调用的 tokens 可能没太大变化,但重试频率会让你每个月都出现“突刺”。

分层修复(快赢→深挖→护栏)

  • 快速:限制 max output tokens、缩短 system prompt、截断工具输出
  • 深度:把简单步骤路由到更便宜的模型,并在合适的位置加入缓存
  • 护栏:给 agent 设置预算、重试上限,以及“做完就停”的停止规则

快速检查清单

  • 按 agent/run 追踪 tokens 和 call volume
  • 给 retries 和 tool calls 设置上限
  • 在花费突刺前就先配告警