Le "Simian Army" l’armée des singes Open Source

Le "Simian Army" ça sonne un peu GEEK mais c'est du sérieux. 

C'est un ensemble d'outils développés par Netflix pour tester et renforcer la résilience de son infrastructure en nuage. Le nom "Simian Army" fait référence à une armée de "singes" automatisés qui peut provoquer intentionnellement des pannes et des problèmes dans l'infrastructure, simulant ainsi des conditions réelles pour vérifier à quel point l'infrastructure est résiliente.

Le "Simian Army" est composé de plusieurs outils, chacun ayant un objectif & rôles spécifiques :

  1. Chaos Monkey : Le Chaos Monkey est l'un des outils les plus célèbres de l'armée. Il provoque délibérément des pannes aléatoires dans l'infrastructure en éteignant des instances de serveurs dans le cloud. Cela permet de tester la résilience des services de Netflix en s'assurant qu'ils continuent à fonctionner même en cas de défaillance.
  2. Latency Monkey : Le Latency Monkey introduit des retards et des latences dans les services en cours d'exécution. Cela aide à tester la manière dont les services réagissent aux retards du réseau ou aux problèmes de latence.
  3. Conformity Monkey : Le Conformity Monkey vérifie que les instances et les services sont correctement configurés et conformes aux normes et aux bonnes pratiques de sécurité.
  4. Doctor Monkey : Le Doctor Monkey surveille l'état de santé des instances et signale celles qui ne répondent pas correctement. Il vise à identifier les problèmes potentiels.
  5. Janitor Monkey : Le Janitor Monkey recherche et élimine les ressources inutilisées ou orphelines, ce qui aide à réduire les coûts d'exploitation.

L'objectif de l'armée de singes de Netflix est de maintenir la résilience de son infrastructure en cloud. En provoquant délibérément des pannes et en résolvant les problèmes, Netflix s'assure que ses services restent disponibles et fiables, même dans un environnement cloud propice aux pannes et aux interruptions.

Cette approche s'inscrit dans la philosophie de l'ingénierie du chaos et de la gestion de la résilience des systèmes, qui encourage les entreprises à tester activement la résilience de leurs systèmes pour minimiser les interruptions de service et maintenir la continuité des opérations. 

Ici le lien vers les documentations Github