Alerting

Statut

Document de cadrage DevOps — version initiale — v1.0 — relu le 2026-05-11.

L'alerting doit prévenir rapidement les incidents importants sans noyer l'équipe dans des notifications inutiles.

Une alerte doit être actionnable.

Aucun système d'alerting complet n'est confirmé dans le workspace inspecté.

Les fichiers de déploiement fournissent des points d'observation : logs Nginx, logs Supervisor, health check et cron.

Alerte	Criticité
API indisponible	Haute
Frontend public indisponible	Haute
Backoffice indisponible	Haute
Health check en erreur après déploiement	Haute
Workers Supervisor arrêtés	Haute
Queue bloquée ou trop ancienne	Haute
Webhook Stripe en échec	Haute
Disque presque plein	Haute
Certificat TLS proche expiration	Haute
Erreurs 5xx anormales	Haute
Coûts IA anormaux	Moyenne à haute selon volume
Stockage média proche limite	Moyenne

Les canaux ne sont pas confirmés.

Options possibles :

Les seuils doivent être définis par environnement.

Exemples de seuils à préciser :

Chaque alerte critique doit renvoyer vers une procédure :