Perché l’API AI costa così tanto? (E come fermare lo spreco)

I costi dell’API AI crescono per spreco di token, retry/catene di tool e loop degli agent. Misura le cause reali e limita la parte runaway.

The problem

La maggior parte dei team non usa “più AI” all’improvviso. Il workflow inizia a inviare token extra e ad attivare più chiamate quando gli strumenti falliscono o i loop non convergono.

Le 3 ragioni principali

Spreco di token: contesto troppo lungo, istruzioni ripetute, output tool verbosi
Amplificazione delle chiamate: retry, fallback e tool chains che moltiplicano le richieste
Dinamica dei loop: gli agent continuano a rifinire senza un segnale di convergenza

L’equazione che conta davvero

Il costo dipende soprattutto dai token fatturati su tutte le chiamate ai modelli — più le chiamate extra che il workflow genera sotto incertezza. Per ridurre i costi: meno token, meno chiamate, o entrambi.

Un esempio reale (che sembra casuale)

Un agente di supporto chiama tool, ottiene risultati parziali e ripete gli stessi passi via retry. Le medie per call possono sembrare stabili, ma la frequenza dei retry crea picchi mensili.

Fix a livelli (quick → deep → guardrails)

Quick wins: cap max output tokens, istruzioni più corte, output tool più snelli
Deep changes: routing dei step semplici verso modelli più economici + caching
Guardrails: budget per agent, retry caps e regole “stop quando fatto”

Checklist

Traccia token + volume chiamate per agent/run
Cap su retries e tool calls
Alert prima degli spike

Stimare la tua spesa AI