SALLE DE CONFERENCE 4 - Salon des Loges Sud

17h30 18h10

REX: Mise en place du Chaos Engineering: Tout à casser ou tout à construire

Méthodologie / Agilité / Conduite du changement

Robin Segura (Klanik pour Pôle Emploi) & Rémi Ziolkowsky (Klanik pour Pôle emploi)

Le Chaos Engineering est la discipline de l’expérimentation de la résilience d’un système dans son environnement de production. Les pionniers du domaine (Netflix) ont réfléchi à la mise en place de ce concept dès le début des années 2010’. Ils ont rapidement mis en place des programmes libres (open source) pour automatiser leurs tests. Depuis de nombreux autres outils libres ont vu le jour.

Ces derrières années la DSI de Pôle-Emploi est en pleine transformation Agile et DevOps. Cette transformation, autant technique, qu’organisationnelle et humaine, offre de nouvelles perspectives et nous permet de définir la trajectoire de demain.
En Septembre 2020 la DSI se lance dans un programme d'envergure: la création d’une démarche de Chaos Engineering dont le but final est de valider la résilience du Système d’Information en production

Depuis Janvier 2021, nous (Remi Z. et Robin S.) accompagnons la construction de cette démarche de chaos engineering sur le Site de la DSI de Castelnau Le Lez. Cette mouvance de Chaos Engineering est porteuse de changements autant sur le plan technique, qu’organisationnel. Notre rôle est de fournir les moyens de les déployer à l’échelle des enjeux du cloud d’aujourd’hui. C’est-à-dire que nos terrains de jeux sont les deux nouvelles plateformes CloudFoudry et Kubernetes mises à disposition pour tout nouveau produit faisant son entrée dans le SI. Ce REX vous présentera les étapes suivies au cours de cette année particulière pour coconstruire la démarche avec les équipes produits concernées.

Pourquoi cette démarche a-t-elle été envisagée ? Comment et quand injecter du Chaos en production ? Quels outils nous avons utilisés ? Comment s'intégrer à la démarche SRE ? Qui a participé à la construction de la démarche ? Comment réussir à onboarder des équipes qui ne voient le Chaos que comme le prétexte pour "casser" leur application difficilement mise en prod ? Comment nous améliorer et quels sont nos objectifs de demain ?

Nous allons répondre en détail à toutes ces questions en partant de la description du besoin jusqu’aux parties pratiques à travers une démo technique de notre principal outil et allié dans cette bataille chaotique: LitmusChaos de ChaosNative.