如何降低 LLM 的 Token 使用量

用更少上下文、更短输出和可控的流程，减少 token 消耗并避免提示词失控。

The problem

当你的应用每轮都发送过多上下文，或者 agent 在循环里不断追加文本，token 使用量就会涨得很快。

Tokens 在“看不见的地方”翻倍

每一轮都把完整聊天历史重新发一遍
工具返回内容太长（verbose）
自我反省步骤重复了同一件事

成本分解：tokens → usage

token 不只是“字数”。每次 prompt、每次工具调用、每次重试都会产生计费 tokens。

例子

内容生成如果每次都塞入 20 段旧内容，就会吞掉输入 tokens。改成摘要 + 选择相关片段（chunk selection）能在不明显降质的情况下省钱。

优化思路（按优先级）

压缩上下文：摘要、检索、只引用必要片段。
控制输出：设置 max output tokens 和 stop 序列。
给 agent 加护栏：限制深度、重试次数与工具调用次数。

快速清单

每轮少发上下文
缩短工具输出
代码侧上限 + 监控侧预算两手都要

Next

估算你的 token 支出