AI Cost Save
AICostSave

Réduire l’usage de tokens des LLM

Moins de tokens via moins de contexte, des réponses plus courtes et des garde-fous contre les boucles.

The problem

Les tokens explosent quand l’app envoie plus de contexte que nécessaire ou quand un agent empile des étapes en boucle.

Où les tokens se multiplient

  • Historique complet renvoyé à chaque tour
  • Résultats d’outils trop verbeux
  • Étapes de “self-reflection” qui répètent le même travail

Décomposition : tokens → usage

Chaque prompt, chaque appel d’outil et chaque retry génèrent des tokens facturés.

Exemple

Un générateur de contenu envoie 20 paragraphes à chaque draft. En passant à des résumés + sélection de chunks, vous réduisez les tokens d’entrée.

Idées d’optimisation

  • Compresser le contexte : résumés, retrieval, citations ciblées.
  • Contrôler les sorties : max output tokens + stop sequences.
  • Pour les agents : plafonner profondeur, retries, appels d’outils.

Checklist

  • Envoyer moins de contexte
  • Raccourcir les outputs d’outils
  • Limites côté code + budgets côté monitoring