Aller au contenu principal

Monitoring

Statut

Document de cadrage DevOps — version initiale.

Objectif

Le monitoring doit détecter les problèmes avant qu'ils ne deviennent invisibles ou coûteux.

Il doit couvrir l'API, les frontends, les workers, les jobs, la base, le stockage, l'IA et les services externes.

État actuel visible

Le workspace confirme des briques de base :

  • health check /api/v1/health utilisé dans deployment/deploy.sh ;
  • logs Nginx dans deployment/nginx.conf ;
  • logs Supervisor dans deployment/supervisor.conf ;
  • logs Laravel quotidiens dans .env.production.example ;
  • suppression cron des logs Laravel anciens ;
  • Laravel Pail en dépendance de développement.

Cela ne constitue pas encore une plateforme complète de monitoring.

Domaines à surveiller

DomaineIndicateurs
APIDisponibilité, latence, taux d'erreur, endpoints lents.
FrontendsDisponibilité, erreurs client, performance mobile, build.
WorkersProcess actifs, jobs traités, erreurs, retries.
QueuesTaille, âge du plus vieux job, jobs échoués.
BaseConnexions, requêtes lentes, erreurs, stockage.
Redismémoire, connexions, latence, disponibilité.
Stockageespace disque, croissance médias, backups.
IAcoût, latence, erreurs provider, quotas.
Paiementswebhooks Stripe, erreurs, délais.

Monitoring minimal cible

  • uptime API ;
  • uptime frontends ;
  • health check interne ;
  • supervision disque ;
  • supervision workers ;
  • supervision queues ;
  • erreurs Laravel critiques ;
  • erreurs Nginx ;
  • échecs webhooks Stripe ;
  • sauvegardes récentes.

Outils possibles

Le choix d'outil n'est pas confirmé.

Options possibles en vision cible :

  • monitoring VPS du provider ;
  • Sentry pour erreurs applicatives ;
  • Uptime Kuma ou équivalent ;
  • Cloudflare analytics ;
  • logs centralisés ;
  • dashboards Laravel/queues si retenus.

Principes

  • Commencer par peu d'indicateurs fiables.
  • Surveiller les chemins critiques.
  • Documenter les seuils.
  • Relier chaque alerte à une action.
  • Ne pas générer trop de bruit.

Points à clarifier

  • Outil de monitoring retenu.
  • Responsable de surveillance.
  • Seuils d'alerte.
  • Dashboards prioritaires.
  • Rétention des métriques.
  • Monitoring des frontends.