AI Cost Save
AICostSave

LLM Token-Nutzung reduzieren

Weniger Tokens durch weniger Kontext, kürzere Antworten und sichere Grenzen gegen Runaway-Prompts.

The problem

Token steigen, wenn ihr mehr Kontext sendet als nötig oder wenn Agent-Loops immer weiter Text anhängen.

Wo Tokens sich vervielfachen

  • Voller Chat-Context bei jedem Turn
  • Zu ausführliche Tool-Ergebnisse
  • Self-Reflection-Schritte, die wiederholen

Kostenaufteilung: Tokens → Usage

Tokens sind nicht nur „Wörter“: Jeder Prompt, jeder Tool-Call und jeder Retry zählt.

Beispiel

Ein Content-Generator sendet jedes Mal 20 Absätze. Mit Zusammenfassungen + Chunk-Auswahl sinken Input-Tokens bei gleicher Qualität.

Optimierungsideen

  • Kontext komprimieren: Summaries, Retrieval, gezielte Zitate.
  • Outputs steuern: max output tokens + stop sequences.
  • Für Agents: Tiefe, Retries und Tool-Calls deckeln.

Checkliste

  • Weniger Kontext pro Turn
  • Tool-Outputs kürzen
  • Limits im Code + Budgets im Monitoring