Aller au contenu principal

Observabilité

Statut

Document de cadrage architecture — version initiale.

Objectif

L'observabilité doit permettre de comprendre l'état de l'écosystème DMV : disponibilité, erreurs, performance, jobs, sécurité, coûts IA et usages métier.

Elle doit aider à détecter les incidents, diagnostiquer rapidement et piloter les évolutions.

État actuel visible

Le workspace montre :

  • logs Laravel ;
  • Laravel Pail en dépendance dev ;
  • logs Nginx configurés ;
  • logs Supervisor pour workers ;
  • crontab avec suppression de logs Laravel anciens ;
  • health-check /api/v1/health ;
  • module Analytics côté API ;
  • migrations stats_events visibles côté Supabase.

Cela confirme des briques, pas une plateforme d'observabilité complète.

Domaines à observer

DomaineMesures utiles
APILatence, erreurs, volumes, endpoints lents.
FrontendsWeb vitals, erreurs client, build, assets.
JobsTaille de file, âge des jobs, échecs, retries.
BaseRequêtes lentes, connexions, erreurs.
NotificationsEnvois, erreurs, retries, désabonnements.
IACoûts, tokens, latence, erreurs provider, quotas.
SécuritéAuth échouée, rate limits, accès refusés.
MétierPublications, acteurs, alertes, favoris, recherches.

Logs

Les logs doivent être :

  • structurés autant que possible ;
  • filtrés des secrets ;
  • corrélables avec un identifiant de requête ;
  • conservés selon une politique définie ;
  • accessibles aux personnes autorisées.

Monitoring et alerting cible

Alertes à prévoir :

  • API indisponible ;
  • taux d'erreur élevé ;
  • queue bloquée ;
  • workers arrêtés ;
  • webhook Stripe en échec ;
  • alertes mairie non expirées ou jobs en erreur ;
  • consommation IA anormale ;
  • stockage média proche limite ;
  • erreurs auth ou rate limit inhabituels.

Observabilité métier

L'observabilité ne doit pas se limiter à l'infrastructure.

Elle doit aussi aider à suivre :

  • communes actives ;
  • acteurs complets ou incomplets ;
  • publications en attente ;
  • signalements ;
  • usage des favoris ;
  • recherche sans résultat ;
  • alertes mairie ;
  • diffusion PlayLoop ;
  • consommation IA par cas d'usage.

Risques et points à clarifier

  • Outil central de monitoring à choisir.
  • Politique de logs et rétention à formaliser.
  • Corrélation front/back à mettre en place.
  • Dashboards métier à définir.
  • Alertes opérationnelles à prioriser.