LLM Token-Nutzung reduzieren
Weniger Tokens durch weniger Kontext, kürzere Antworten und sichere Grenzen gegen Runaway-Prompts.
The problem
Token steigen, wenn ihr mehr Kontext sendet als nötig oder wenn Agent-Loops immer weiter Text anhängen.
Wo Tokens sich vervielfachen
- Voller Chat-Context bei jedem Turn
- Zu ausführliche Tool-Ergebnisse
- Self-Reflection-Schritte, die wiederholen
Kostenaufteilung: Tokens → Usage
Tokens sind nicht nur „Wörter“: Jeder Prompt, jeder Tool-Call und jeder Retry zählt.
Beispiel
Ein Content-Generator sendet jedes Mal 20 Absätze. Mit Zusammenfassungen + Chunk-Auswahl sinken Input-Tokens bei gleicher Qualität.
Optimierungsideen
- Kontext komprimieren: Summaries, Retrieval, gezielte Zitate.
- Outputs steuern: max output tokens + stop sequences.
- Für Agents: Tiefe, Retries und Tool-Calls deckeln.
Checkliste
- Weniger Kontext pro Turn
- Tool-Outputs kürzen
- Limits im Code + Budgets im Monitoring
