Ridurre il costo di GPT
Riduci GPT cost con cap max tokens, scelta del modello e stop ai picchi.
The problem
Gli spike arrivano spesso da output lunghi e loop di revisione che “continuano”.
Dove si nasconde la spesa GPT
- Output lunghi (draft → revise)
- Richieste ripetute dopo errori tool
- Modelli premium per step semplici
Cosa misurare
Track (1) tokens fatturati per call e (2) quante call crea il workflow per azione utente.
Esempio
Una pagina prodotto drafta e fa 2 rewrite. Riducendo le passate e limitando max output tokens, tagli la spesa.
Piano
- Scegli modello giusto per step
- Cap retries + max output tokens
- Stop più presto quando qualità basta
Checklist
- max tokens + stop sequences
- meno rewrite pass
- budget guardrails per agent
