Perché l’API AI costa così tanto? (E come fermare lo spreco)
I costi dell’API AI crescono per spreco di token, retry/catene di tool e loop degli agent. Misura le cause reali e limita la parte runaway.
The problem
La maggior parte dei team non usa “più AI” all’improvviso. Il workflow inizia a inviare token extra e ad attivare più chiamate quando gli strumenti falliscono o i loop non convergono.
Le 3 ragioni principali
- Spreco di token: contesto troppo lungo, istruzioni ripetute, output tool verbosi
- Amplificazione delle chiamate: retry, fallback e tool chains che moltiplicano le richieste
- Dinamica dei loop: gli agent continuano a rifinire senza un segnale di convergenza
L’equazione che conta davvero
Il costo dipende soprattutto dai token fatturati su tutte le chiamate ai modelli — più le chiamate extra che il workflow genera sotto incertezza. Per ridurre i costi: meno token, meno chiamate, o entrambi.
Un esempio reale (che sembra casuale)
Un agente di supporto chiama tool, ottiene risultati parziali e ripete gli stessi passi via retry. Le medie per call possono sembrare stabili, ma la frequenza dei retry crea picchi mensili.
Fix a livelli (quick → deep → guardrails)
- Quick wins: cap max output tokens, istruzioni più corte, output tool più snelli
- Deep changes: routing dei step semplici verso modelli più economici + caching
- Guardrails: budget per agent, retry caps e regole “stop quando fatto”
Checklist
- Traccia token + volume chiamate per agent/run
- Cap su retries e tool calls
- Alert prima degli spike
