Sommario:
Nonostante i nostri maggiori sforzi per evitarli, gli incidenti IT sono una parte inevitabile del lavoro e cercare di stare al passo con i tempi di inattività che incidono sul business sta diventando sempre più complicato. I sistemi oggi sono strettamente accoppiati e sempre più complessi, e con più parti in movimento arrivano maggiori opportunità che qualcosa vada storto.
Questo è uno dei motivi per cui sempre più organizzazioni si rivolgono ai microservizi per una maggiore disponibilità del servizio e una migliore resilienza ai guasti. Ma mentre queste sono ottime premesse per rompere le applicazioni monolitiche, possono anche potenzialmente aggravare il rischio di fallimento - a meno che non siano progettate espressamente pensando alla resilienza.
Prepararsi al fallimento
Data la natura intrinsecamente caotica dei sistemi distribuiti, i servizi dovrebbero essere sviluppati non solo per anticipare i guasti, ma per ripristinarli automaticamente in caso di guasti. Ciò significa istigare regolarmente guasti per garantire che i sistemi possano gestire il caos senza interrompere il servizio ai clienti finali. A tal fine, è necessario simulare il traffico simile alla produzione in ambienti di test.