Observabilité
Statut
Document de cadrage architecture — version initiale.
Objectif
L'observabilité doit permettre de comprendre l'état de l'écosystème DMV : disponibilité, erreurs, performance, jobs, sécurité, coûts IA et usages métier.
Elle doit aider à détecter les incidents, diagnostiquer rapidement et piloter les évolutions.
État actuel visible
Le workspace montre :
- logs Laravel ;
- Laravel Pail en dépendance dev ;
- logs Nginx configurés ;
- logs Supervisor pour workers ;
- crontab avec suppression de logs Laravel anciens ;
- health-check
/api/v1/health; - module
Analyticscôté API ; - migrations
stats_eventsvisibles côté Supabase.
Cela confirme des briques, pas une plateforme d'observabilité complète.
Domaines à observer
| Domaine | Mesures utiles |
|---|---|
| API | Latence, erreurs, volumes, endpoints lents. |
| Frontends | Web vitals, erreurs client, build, assets. |
| Jobs | Taille de file, âge des jobs, échecs, retries. |
| Base | Requêtes lentes, connexions, erreurs. |
| Notifications | Envois, erreurs, retries, désabonnements. |
| IA | Coûts, tokens, latence, erreurs provider, quotas. |
| Sécurité | Auth échouée, rate limits, accès refusés. |
| Métier | Publications, acteurs, alertes, favoris, recherches. |
Logs
Les logs doivent être :
- structurés autant que possible ;
- filtrés des secrets ;
- corrélables avec un identifiant de requête ;
- conservés selon une politique définie ;
- accessibles aux personnes autorisées.
Monitoring et alerting cible
Alertes à prévoir :
- API indisponible ;
- taux d'erreur élevé ;
- queue bloquée ;
- workers arrêtés ;
- webhook Stripe en échec ;
- alertes mairie non expirées ou jobs en erreur ;
- consommation IA anormale ;
- stockage média proche limite ;
- erreurs auth ou rate limit inhabituels.
Observabilité métier
L'observabilité ne doit pas se limiter à l'infrastructure.
Elle doit aussi aider à suivre :
- communes actives ;
- acteurs complets ou incomplets ;
- publications en attente ;
- signalements ;
- usage des favoris ;
- recherche sans résultat ;
- alertes mairie ;
- diffusion PlayLoop ;
- consommation IA par cas d'usage.
Risques et points à clarifier
- Outil central de monitoring à choisir.
- Politique de logs et rétention à formaliser.
- Corrélation front/back à mettre en place.
- Dashboards métier à définir.
- Alertes opérationnelles à prioriser.