Gestion des incidents
Statut
Document de cadrage opérations — version initiale.
Objectif
La gestion des incidents doit permettre de réagir vite, communiquer clairement et restaurer le service sans improvisation.
Elle couvre les incidents techniques, sécurité, modération, paiement, mairie, IA et contenus.
Types d'incidents
| Type | Exemples |
|---|---|
| Technique | API indisponible, frontend hors ligne, queue bloquée. |
| Données | erreur de migration, données incohérentes, perte média. |
| Sécurité | accès non autorisé, secret exposé, abus automatisé. |
| Paiement | webhook Stripe en échec, abonnement incohérent. |
| Modération | contenu problématique viral, signalement sensible. |
| Mairie | alerte erronée ou information officielle incorrecte. |
| IA | génération inadaptée, coût anormal, provider indisponible. |
État actuel visible
Le workspace contient des éléments utiles :
- health check API ;
- logs Nginx ;
- logs Supervisor ;
- workers Laravel ;
- scheduler cron ;
- jobs d'expiration ;
- webhooks Stripe ;
- documentation DevOps et sécurité en cours de structuration.
Un processus d'incident complet n'est pas confirmé dans le repo.
Niveaux de gravité
| Niveau | Description |
|---|---|
| SEV1 | Service critique indisponible ou risque sécurité majeur. |
| SEV2 | Fonction importante dégradée : paiement, mairie, publication, auth. |
| SEV3 | Bug fonctionnel contournable ou impact limité. |
| SEV4 | Anomalie mineure ou demande d'amélioration. |
Processus incident
- Détecter ou recevoir l'alerte.
- Qualifier la gravité.
- Désigner un responsable incident.
- Stabiliser : mitigation, rollback, désactivation temporaire si nécessaire.
- Communiquer aux personnes concernées.
- Résoudre ou contourner.
- Vérifier le retour à la normale.
- Documenter la cause et les actions.
- Ajouter une action préventive si utile.
Communication
La communication doit rester factuelle :
- ce qui est affecté ;
- qui est concerné ;
- ce qui est fait ;
- contournement éventuel ;
- prochaine mise à jour ;
- résolution confirmée.
IA et incidents
L'IA peut aider à :
- résumer logs et chronologie ;
- classer un incident ;
- préparer une communication ;
- rapprocher incidents similaires.
Elle ne doit pas décider seule d'un rollback, d'une notification publique ou d'une action de sécurité.
Risques et points à clarifier
- Canal d'alerte officiel.
- Responsable incident.
- Procédure de rollback validée.
- Sauvegardes et restauration.
- Communication publique ou privée.
- Registre des incidents.