Aller au contenu principal

Gestion des tokens et des coûts

Statut

Document de doctrine IA — version initiale.

Objectif

Les usages IA doivent être économiquement viables.

Chaque appel IA consomme des ressources : tokens, temps provider, stockage de logs, monitoring et support. DMV doit donc mesurer, limiter et optimiser les coûts dès la conception.

Principes

  • Mesurer avant d'optimiser.
  • Estimer le coût avant exécution quand c'est possible.
  • Refuser ou réduire une demande trop coûteuse.
  • Utiliser des modèles low-cost pour les tâches simples.
  • Réserver les modèles avancés aux tâches qui le justifient.
  • Relier les usages intensifs aux quotas, crédits ou offres premium.

Données à suivre

MesureUtilité
Tokens entréeComprendre le poids du contexte.
Tokens sortieComprendre le coût de génération.
ProviderComparer coûts et qualité.
ModèleSuivre les usages par modèle.
Cas d'usageSavoir quelles fonctions coûtent le plus.
Utilisateur / acteur / communeRattacher les coûts au bon périmètre, avec prudence RGPD.
LatenceMesurer l'expérience utilisateur.
RésultatSuccès, erreur, fallback, refus quota.

Leviers d'optimisation

  • réduire le contexte ;
  • limiter la longueur des réponses ;
  • mettre en cache certains résultats non sensibles ;
  • utiliser des templates de prompts compacts ;
  • router vers des modèles adaptés ;
  • éviter les appels répétés pour la même action ;
  • proposer des brouillons courts avant versions longues ;
  • différencier aperçu gratuit et génération complète premium.

Coûts et offres

Le coût IA doit être lié au modèle économique :

  • gratuit : usages très limités ou low-cost ;
  • standard : quotas raisonnables pour les usages courants ;
  • pro : capacité plus élevée et assistants avancés ;
  • mairie : usages adaptés aux alertes, services et communication publique ;
  • crédits supplémentaires : capacité additionnelle sans changer d'offre.

Les seuils exacts ne sont pas définis dans ce document.

Alertes coût

Le système cible doit prévoir :

  • alerte en cas de consommation anormale ;
  • blocage si quota dépassé ;
  • fallback vers modèle moins coûteux si acceptable ;
  • suivi par application et cas d'usage ;
  • rapports simples pour piloter le modèle économique.

État actuel

Aucun système IA de mesure tokens/coûts n'est confirmé dans le code inspecté. Cette page définit la doctrine cible pour une future implémentation.