Affidabilità, disponibilità e facilità di manutenzione (RAS)

Affidabilità, disponibilità e funzionalità (RAS) è un insieme di attributi correlati che devono essere considerati durante la progettazione, la produzione, l'acquisto o l'utilizzo di un prodotto o componente per computer. Il termine è stato utilizzato per la prima volta da IBM per definire le specifiche per i loro mainframe e originariamente applicato solo all'hardware. Oggi RAS è importante anche per il software e può essere applicato a reti, programmi applicativi, sistemi operativi (OS), personal computer (PC), server e supercomputer.

Il termine affidabilità si riferisce alla capacità di un componente hardware o software relativo al computer di funzionare in modo coerente secondo le sue specifiche. In teoria, un prodotto affidabile è totalmente privo di errori tecnici. In pratica, i fornitori esprimono comunemente l'affidabilità del prodotto come percentuale. L'Institute of Electrical and Electronics Engineers (IEEE) sponsorizza un'organizzazione dedicata all'affidabilità nell'ingegneria nota come IEEE Reliability Society (IEEE RS).

La disponibilità è il rapporto tra il tempo in cui un sistema o un componente è funzionale e il tempo totale per il quale è necessario o previsto per funzionare. Questo può essere espresso come proporzione diretta (ad esempio, 9/10 o 0.9) o come percentuale (ad esempio, 90%). Può anche essere espresso in termini di tempo di inattività medio per settimana, mese o anno o come tempo di inattività totale per una determinata settimana, mese o anno. A volte la disponibilità è espressa in termini qualitativi, indicando la misura in cui un sistema può continuare a funzionare quando un componente significativo o un insieme di componenti si interrompe.

La facilità di manutenzione è un'espressione della facilità con cui un componente, un dispositivo o un sistema può essere mantenuto e riparato. La diagnosi precoce di potenziali problemi è fondamentale a questo riguardo. Alcuni sistemi hanno la capacità di correggere i problemi automaticamente prima che si verifichino problemi seri; gli esempi includono funzionalità integrate di sistemi operativi come Microsoft Windows XP e software antivirus con protezione automatica e programmi di rilevamento e rimozione di spyware. Idealmente, le operazioni di manutenzione e riparazione dovrebbero causare il minor tempo possibile di inattività o interruzioni.

Alcuni degli elementi chiave di RAS sono:

  • Over-engineering, ovvero la progettazione di sistemi secondo le specifiche migliori dei requisiti minimi.
  • Duplicazione, che è un uso estensivo di sistemi e componenti ridondanti.
  • Recuperabilità, ovvero l'uso di metodi ingegneristici tolleranti ai guasti.
  • Aggiornamento automatico, che mantiene aggiornati i sistemi operativi e le applicazioni senza l'intervento dell'utente.
  • Backup dei dati, che impedisce la perdita catastrofica di informazioni critiche.
  • Archiviazione dei dati, che conserva ampie registrazioni dei dati in caso di controlli o altre esigenze di ripristino.
  • Sostituzione all'accensione, ovvero la capacità di sostituire a caldo componenti o periferiche.
  • L'uso di macchine virtuali, che riduce al minimo l'impatto degli errori del sistema operativo o del software.
  • Uso di soppressori di sovratensioni, che riducono al minimo il rischio di danni ai componenti derivanti da anomalie della linea di alimentazione.
  • L'alimentazione continua, ovvero l'uso di un gruppo di continuità, mantiene i sistemi operativi durante il passaggio dall'alimentazione commerciale all'alimentazione di riserva o ausiliaria.
  • Fonti di alimentazione di backup, che includono batterie e generatori per mantenere i sistemi operativi durante interruzioni prolungate dell'alimentazione commerciale.