Ridurre l’uso dei token nei LLM

Riduci token con meno contesto, risposte più brevi e limiti anti-loop.

The problem

L’uso dei token cresce quando invii più contesto del necessario o quando gli agent impilano testo in loop.

Dove i token si moltiplicano

Storia completa inviata a ogni turno
Tool output troppo verbosi
Self-reflection che ripete lavoro

Breakdown: tokens → usage

Ogni prompt, ogni tool call e ogni retry genera token fatturati.

Esempio

Un generatore invia 20 paragrafi a ogni draft. Con riassunti e chunk selection, riduci l’input.

Idee di ottimizzazione

Compatta il contesto: summary, retrieval, citazioni mirate.
Controlla l’output: max output tokens + stop sequences.
Per agent: cap su depth, retries, tool calls.

Checklist

Meno contesto per turno
Output tool più corto
Limiti nel codice + budget nel monitoring

Next

Stimare la spesa token