Aller au contenu principal

Alerting

Statut

Document de cadrage DevOps — version initiale.

Objectif

L'alerting doit prévenir rapidement les incidents importants sans noyer l'équipe dans des notifications inutiles.

Une alerte doit être actionnable.

État actuel visible

Aucun système d'alerting complet n'est confirmé dans le workspace inspecté.

Les fichiers de déploiement fournissent des points d'observation : logs Nginx, logs Supervisor, health check et cron.

Alertes prioritaires

AlerteCriticité
API indisponibleHaute
Frontend public indisponibleHaute
Backoffice indisponibleHaute
Health check en erreur après déploiementHaute
Workers Supervisor arrêtésHaute
Queue bloquée ou trop ancienneHaute
Webhook Stripe en échecHaute
Disque presque pleinHaute
Certificat TLS proche expirationHaute
Erreurs 5xx anormalesHaute
Coûts IA anormauxMoyenne à haute selon volume
Stockage média proche limiteMoyenne

Canaux possibles

Les canaux ne sont pas confirmés.

Options possibles :

  • email technique ;
  • Slack ou Teams ;
  • SMS pour incidents critiques ;
  • interface monitoring ;
  • notifications GitHub Actions.

Seuils

Les seuils doivent être définis par environnement.

Exemples de seuils à préciser :

  • nombre d'échecs health check consécutifs ;
  • taux de 5xx ;
  • âge maximal d'un job ;
  • taille maximale de queue ;
  • espace disque restant ;
  • latence API ;
  • consommation IA horaire ou quotidienne ;
  • nombre d'échecs Stripe.

Principes

  • Une alerte doit indiquer quoi vérifier.
  • Les alertes critiques doivent avoir un propriétaire.
  • Les faux positifs doivent être corrigés rapidement.
  • Les alertes coût doivent exister pour l'IA et le cloud.
  • Les environnements non production ne doivent pas réveiller inutilement.

Runbooks cible

Chaque alerte critique doit renvoyer vers une procédure :

  • API down ;
  • worker arrêté ;
  • queue bloquée ;
  • disque plein ;
  • webhook Stripe en échec ;
  • certificat expiré ;
  • déploiement échoué ;
  • coût IA anormal.

Points à clarifier

  • Outil d'alerting.
  • Astreinte ou responsable opérationnel.
  • Canaux officiels.
  • Seuils production.
  • Procédures de réponse.
  • Escalade en cas d'incident long.