如何降低 LLM 的 Token 使用量
用更少上下文、更短输出和可控的流程,减少 token 消耗并避免提示词失控。
The problem
当你的应用每轮都发送过多上下文,或者 agent 在循环里不断追加文本,token 使用量就会涨得很快。
Tokens 在“看不见的地方”翻倍
- 每一轮都把完整聊天历史重新发一遍
- 工具返回内容太长(verbose)
- 自我反省步骤重复了同一件事
成本分解:tokens → usage
token 不只是“字数”。每次 prompt、每次工具调用、每次重试都会产生计费 tokens。
例子
内容生成如果每次都塞入 20 段旧内容,就会吞掉输入 tokens。改成摘要 + 选择相关片段(chunk selection)能在不明显降质的情况下省钱。
优化思路(按优先级)
- 压缩上下文:摘要、检索、只引用必要片段。
- 控制输出:设置 max output tokens 和 stop 序列。
- 给 agent 加护栏:限制深度、重试次数与工具调用次数。
快速清单
- 每轮少发上下文
- 缩短工具输出
- 代码侧上限 + 监控侧预算两手都要
Next
估算你的 token 支出