D:
In che modo le aziende massimizzano i tempi di attività?
UN:Mantenere i servizi IT attivi e funzionanti è ovviamente importante. I produttori di sistemi hanno riflettuto molto sull'argomento. Alcuni computer finanziari critici funzionano continuamente da anni. C'è una storia su Internet su un computer Novell Netware 3 che è stato finalmente spento dopo 16 anni. Nel considerare il tempo di attività della rete, lo standard è per "Five 9s", ovvero la disponibilità del 99, 999%. Raggiungere il massimo tempo di attività è una considerazione importante per qualsiasi offerta di servizi IT.
Come si ottiene il massimo tempo di attività? Una buona gestione è la chiave. L'International Organization for Standardization (ISO) ha creato un framework per la gestione della rete chiamato FCAPS, che significa:
- Gestione dei guasti
- Gestione della configurazione
- Gestione contabile
- Gestione delle prestazioni
- Gestione della sicurezza
I problemi con i singoli componenti di rete vengono gestiti in modo proattivo e reattivo utilizzando questo modello. I guasti vengono monitorati mediante allarmi e notifiche di eventi. Questi vengono raccolti da agenti di protocolli come SNMP (protocollo di gestione della rete dei sistemi) o alcune altre soluzioni proprietarie. Le soglie personalizzabili possono attivare allarmi e persino generare automaticamente ticket che finiscono nelle code del personale di monitoraggio nei data center. Le reti di trasporto di grandi dimensioni possono avere dipartimenti separati per gestire i livelli principali, di distribuzione o di accesso della rete. L'analisi della causa principale tenta di isolare e definire i problemi critici dopo un evento grave.
Processi simili vengono utilizzati per la gestione del sistema. I provider di servizi Internet (ISP) e i centri di hosting gestiti impiegano gli amministratori di sistema per monitorare e gestire la fattibilità di server, sistemi di archiviazione o altri dispositivi. I singoli processi su macchine Windows o Linux, ad esempio, possono essere visualizzati e controllati attraverso i programmi di gestione dell'interfaccia utente grafica (GUI) allo stesso modo dei protocolli di rete.
La sorveglianza e la configurazione in remoto di componenti e sistemi di rete offrono funzionalità in tempo reale per massimizzare il tempo di attività del sistema. Ciò si estende alle modifiche alla configurazione, alla raccolta di indicatori chiave delle prestazioni o all'implementazione di miglioramenti della sicurezza.
Un modo per vedere i tempi di attività e la solidità di qualsiasi sistema è con il modello che IBM ha chiamato RAS: affidabilità, disponibilità e facilità di manutenzione. Per garantire la RAS, sono stati sviluppati molti metodi. Questi includono ridondanza, backup dei dati, gruppo di continuità (UPS), componenti sostituibili a caldo e aggiornamenti automatici. Le modifiche pianificate e le finestre di manutenzione offrono opportunità per correggere o migliorare i problemi noti senza affliggere l'utente.
Alla fine i sistemi e le reti falliranno. La ridondanza è una delle chiavi per la resilienza del sistema. Questo può applicarsi a hardware, software o dati. I responsabili della garanzia dell'affidabilità in una rete o in un sistema software cercheranno quello che può essere considerato un singolo punto di errore (SPOF). L'intera rete scorre attraverso un singolo switch o cavo? Tutti i processi si svolgono su un server solitario? Esiste una sola copia di un set di dati critici? Senza ridondanza, un'azienda può - in un istante - perdere ciò che potrebbe richiedere anni per svilupparsi.
Massimizzare i tempi di attività è uno sforzo "tutto quanto sopra". Le migliori pratiche sono state sviluppate attraverso decenni di esperienza e collaborazione. Nuove soluzioni vengono continuamente messe in atto, come reti autorigeneranti, virtualizzazione, analisi dei dati e architettura migliorata. Nessun singolo metodo risponderà a tutti i problemi che sorgono in sistemi complessi. Ogni azienda cerca di sfruttare al meglio le proprie risorse IT nel modo più efficiente possibile durante il ciclo di vita delle apparecchiature a sua disposizione.