Alerting
Statut
Document de cadrage DevOps — version initiale.
Objectif
L'alerting doit prévenir rapidement les incidents importants sans noyer l'équipe dans des notifications inutiles.
Une alerte doit être actionnable.
État actuel visible
Aucun système d'alerting complet n'est confirmé dans le workspace inspecté.
Les fichiers de déploiement fournissent des points d'observation : logs Nginx, logs Supervisor, health check et cron.
Alertes prioritaires
| Alerte | Criticité |
|---|---|
| API indisponible | Haute |
| Frontend public indisponible | Haute |
| Backoffice indisponible | Haute |
| Health check en erreur après déploiement | Haute |
| Workers Supervisor arrêtés | Haute |
| Queue bloquée ou trop ancienne | Haute |
| Webhook Stripe en échec | Haute |
| Disque presque plein | Haute |
| Certificat TLS proche expiration | Haute |
| Erreurs 5xx anormales | Haute |
| Coûts IA anormaux | Moyenne à haute selon volume |
| Stockage média proche limite | Moyenne |
Canaux possibles
Les canaux ne sont pas confirmés.
Options possibles :
- email technique ;
- Slack ou Teams ;
- SMS pour incidents critiques ;
- interface monitoring ;
- notifications GitHub Actions.
Seuils
Les seuils doivent être définis par environnement.
Exemples de seuils à préciser :
- nombre d'échecs health check consécutifs ;
- taux de 5xx ;
- âge maximal d'un job ;
- taille maximale de queue ;
- espace disque restant ;
- latence API ;
- consommation IA horaire ou quotidienne ;
- nombre d'échecs Stripe.
Principes
- Une alerte doit indiquer quoi vérifier.
- Les alertes critiques doivent avoir un propriétaire.
- Les faux positifs doivent être corrigés rapidement.
- Les alertes coût doivent exister pour l'IA et le cloud.
- Les environnements non production ne doivent pas réveiller inutilement.
Runbooks cible
Chaque alerte critique doit renvoyer vers une procédure :
- API down ;
- worker arrêté ;
- queue bloquée ;
- disque plein ;
- webhook Stripe en échec ;
- certificat expiré ;
- déploiement échoué ;
- coût IA anormal.
Points à clarifier
- Outil d'alerting.
- Astreinte ou responsable opérationnel.
- Canaux officiels.
- Seuils production.
- Procédures de réponse.
- Escalade en cas d'incident long.