GPT-4 vs Claude: come scegliere
Un framework per scegliere in base ai token totali fatturati dal workflow.
The problem
Il modello “più economico per token” non è sempre il più economico nel totale. Conta come finisci il lavoro con meno billed tokens.
Breakdown utile
Confronta (1) tokens per call e (2) calls per azione utente. Meno passaggi di refinement può rendere un modello più conveniente anche con rate più alti.
Esempio
Draft workflow: Modello A in 1 call, Modello B in 2 refinement calls.
Idea di ottimizzazione (routing)
Router: modelli economici per estrazione, premium solo per qualità finale.
Guardrails
Cap retries e budget per agent.
