Ridurre l’uso dei token nei LLM
Riduci token con meno contesto, risposte più brevi e limiti anti-loop.
The problem
L’uso dei token cresce quando invii più contesto del necessario o quando gli agent impilano testo in loop.
Dove i token si moltiplicano
- Storia completa inviata a ogni turno
- Tool output troppo verbosi
- Self-reflection che ripete lavoro
Breakdown: tokens → usage
Ogni prompt, ogni tool call e ogni retry genera token fatturati.
Esempio
Un generatore invia 20 paragrafi a ogni draft. Con riassunti e chunk selection, riduci l’input.
Idee di ottimizzazione
- Compatta il contesto: summary, retrieval, citazioni mirate.
- Controlla l’output: max output tokens + stop sequences.
- Per agent: cap su depth, retries, tool calls.
Checklist
- Meno contesto per turno
- Output tool più corto
- Limiti nel codice + budget nel monitoring
