Routing des modèles
Statut
Document de doctrine IA — version initiale.
Objectif
Le routing des modèles doit choisir le bon modèle IA selon la tâche, le coût, la qualité attendue, la sensibilité et les quotas de l'utilisateur.
DMV ne doit pas dépendre d'un seul modèle pour tous les usages. Certaines tâches simples doivent utiliser des modèles low-cost ; d'autres peuvent justifier Claude, GPT ou un modèle plus avancé.
Critères de décision
| Critère | Impact |
|---|---|
| Type de tâche | Recherche, rédaction, résumé, classification, génération multi-format, modération. |
| Niveau de sensibilité | Plus le risque est élevé, plus le contrôle et la qualité attendue augmentent. |
| Coût estimé | Le modèle doit rester cohérent avec l'offre, les crédits et la valeur produite. |
| Longueur du contexte | Certains modèles gèrent mieux les contextes longs. |
| Langue et ton | Les contenus DMV doivent être en français clair et local. |
| Latence | Certaines interactions doivent rester rapides. |
| Disponibilité provider | Le routing doit prévoir fallback ou dégradation contrôlée. |
Classes de modèles
| Classe | Usage cible |
|---|---|
| Modèles low-cost | Reformulation courte, tags, classification simple, suggestions rapides. |
| GPT | Rédaction structurée, recherche conversationnelle, assistants polyvalents. |
| Claude | Synthèse, rédaction longue, contexte plus riche, qualité éditoriale. |
| Modèles locaux futurs | Tâches simples, souveraineté, confidentialité, coût maîtrisé. |
Ces classes sont une doctrine cible, pas une liste d'intégrations confirmées.
Exemples de routing cible
| Tâche | Modèle probable | Justification |
|---|---|---|
| Suggestion de tags | Low-cost | Tâche courte, faible risque. |
| Reformulation d'une publication | Low-cost ou GPT | Qualité utile, coût à maîtriser. |
| Assistant mairie sur contenu sensible | GPT ou Claude | Besoin de clarté et supervision humaine. |
| Recherche conversationnelle locale | GPT, Claude ou modèle spécialisé | Compréhension d'intention et contexte local. |
| Pré-modération | Modèle fiable + règles métier | Risque de faux positifs, décision humaine finale. |
| Génération PlayLoop multi-format | GPT ou Claude | Structuration, adaptation écran, ton local. |
Règles de fallback
Le fallback doit être contrôlé :
- si le modèle principal échoue, utiliser un modèle compatible ;
- si aucun modèle fiable n'est disponible, retourner une erreur claire ;
- ne pas remplacer un modèle de modération par un modèle non adapté sans validation ;
- ne pas consommer les crédits si la requête échoue avant génération utile, selon règle à définir.
Gouvernance
Le routing doit être configurable sans modifier les interfaces applicatives.
Chaque cas d'usage doit définir :
- modèle principal ;
- modèle fallback ;
- coût maximal ;
- limite de tokens ;
- niveau de log ;
- politique de sécurité ;
- comportement en cas de quota dépassé.