Chaos Monkey è uno strumento software sviluppato dagli ingegneri Netflix per testare la resilienza e la recuperabilità dei loro Amazon Web Services (AWS).
Il software simula gli errori di istanze di servizi in esecuzione all'interno di Auto Scaling Groups (ASG) spegnendo una o più macchine virtuali. Secondo gli sviluppatori, Chaos Monkey prende il nome dal modo in cui semina il caos come una scimmia selvaggia e armata scatenata in un data center.
Chaos Monkey funziona sul principio che il modo migliore per evitare gravi fallimenti è fallire costantemente. Tuttavia, a differenza dei guasti imprevisti, che sembrano verificarsi nei momenti peggiori possibili, il software è disattivato per impostazione predefinita. Può anche essere configurato per opt-in.
Chaos Monkey ha una pianificazione configurabile che consente il verificarsi di guasti simulati nei momenti in cui possono essere monitorati da vicino. In questo modo, è possibile prepararsi a grandi errori imprevisti piuttosto che aspettare solo che la catastrofe colpisca e vedere quanto bene puoi gestire.
Chaos Monkey era il membro originale del Simian Army di Netflix, una raccolta di strumenti software progettati per testare l'infrastruttura AWS. Il software è open source per consentire ad altri utenti di servizi cloud di adattarlo al loro utilizzo.
Altri membri dell'esercito di Simian sono stati aggiunti per creare guasti e verificare condizioni, configurazioni e problemi di sicurezza anomali. Chaos Gorilla, un altro membro dell'esercito di Simian, simula interruzioni per intere regioni.
Gli ingegneri di Netflix hanno in programma di aggiungere altre scimmie all'esercito, alcune basate sui suggerimenti della community.