LLM Token-Nutzung reduzieren

Weniger Tokens durch weniger Kontext, kürzere Antworten und sichere Grenzen gegen Runaway-Prompts.

The problem

Token steigen, wenn ihr mehr Kontext sendet als nötig oder wenn Agent-Loops immer weiter Text anhängen.

Wo Tokens sich vervielfachen

Voller Chat-Context bei jedem Turn
Zu ausführliche Tool-Ergebnisse
Self-Reflection-Schritte, die wiederholen

Kostenaufteilung: Tokens → Usage

Tokens sind nicht nur „Wörter“: Jeder Prompt, jeder Tool-Call und jeder Retry zählt.

Beispiel

Ein Content-Generator sendet jedes Mal 20 Absätze. Mit Zusammenfassungen + Chunk-Auswahl sinken Input-Tokens bei gleicher Qualität.

Optimierungsideen

Kontext komprimieren: Summaries, Retrieval, gezielte Zitate.
Outputs steuern: max output tokens + stop sequences.
Für Agents: Tiefe, Retries und Tool-Calls deckeln.

Checkliste

Weniger Kontext pro Turn
Tool-Outputs kürzen
Limits im Code + Budgets im Monitoring

Next

Token-Ausgaben schätzen