AI Cost Save
AICostSave

Ridurre l’uso dei token nei LLM

Riduci token con meno contesto, risposte più brevi e limiti anti-loop.

The problem

L’uso dei token cresce quando invii più contesto del necessario o quando gli agent impilano testo in loop.

Dove i token si moltiplicano

  • Storia completa inviata a ogni turno
  • Tool output troppo verbosi
  • Self-reflection che ripete lavoro

Breakdown: tokens → usage

Ogni prompt, ogni tool call e ogni retry genera token fatturati.

Esempio

Un generatore invia 20 paragrafi a ogni draft. Con riassunti e chunk selection, riduci l’input.

Idee di ottimizzazione

  • Compatta il contesto: summary, retrieval, citazioni mirate.
  • Controlla l’output: max output tokens + stop sequences.
  • Per agent: cap su depth, retries, tool calls.

Checklist

  • Meno contesto per turno
  • Output tool più corto
  • Limiti nel codice + budget nel monitoring