Gestion des tokens et des coûts
Statut
Document de doctrine IA — version initiale.
Objectif
Les usages IA doivent être économiquement viables.
Chaque appel IA consomme des ressources : tokens, temps provider, stockage de logs, monitoring et support. DMV doit donc mesurer, limiter et optimiser les coûts dès la conception.
Principes
- Mesurer avant d'optimiser.
- Estimer le coût avant exécution quand c'est possible.
- Refuser ou réduire une demande trop coûteuse.
- Utiliser des modèles low-cost pour les tâches simples.
- Réserver les modèles avancés aux tâches qui le justifient.
- Relier les usages intensifs aux quotas, crédits ou offres premium.
Données à suivre
| Mesure | Utilité |
|---|---|
| Tokens entrée | Comprendre le poids du contexte. |
| Tokens sortie | Comprendre le coût de génération. |
| Provider | Comparer coûts et qualité. |
| Modèle | Suivre les usages par modèle. |
| Cas d'usage | Savoir quelles fonctions coûtent le plus. |
| Utilisateur / acteur / commune | Rattacher les coûts au bon périmètre, avec prudence RGPD. |
| Latence | Mesurer l'expérience utilisateur. |
| Résultat | Succès, erreur, fallback, refus quota. |
Leviers d'optimisation
- réduire le contexte ;
- limiter la longueur des réponses ;
- mettre en cache certains résultats non sensibles ;
- utiliser des templates de prompts compacts ;
- router vers des modèles adaptés ;
- éviter les appels répétés pour la même action ;
- proposer des brouillons courts avant versions longues ;
- différencier aperçu gratuit et génération complète premium.
Coûts et offres
Le coût IA doit être lié au modèle économique :
- gratuit : usages très limités ou low-cost ;
- standard : quotas raisonnables pour les usages courants ;
- pro : capacité plus élevée et assistants avancés ;
- mairie : usages adaptés aux alertes, services et communication publique ;
- crédits supplémentaires : capacité additionnelle sans changer d'offre.
Les seuils exacts ne sont pas définis dans ce document.
Alertes coût
Le système cible doit prévoir :
- alerte en cas de consommation anormale ;
- blocage si quota dépassé ;
- fallback vers modèle moins coûteux si acceptable ;
- suivi par application et cas d'usage ;
- rapports simples pour piloter le modèle économique.
État actuel
Aucun système IA de mesure tokens/coûts n'est confirmé dans le code inspecté. Cette page définit la doctrine cible pour une future implémentation.