Introducing G2.ai, the future of software buying.Try now

Perché la tua azienda ha bisogno di un Recovery Time Objective per sopravvivere

Luglio 14, 2022
da Keerthi Rangan

A volte le cose vanno storte. Nonostante tutta la pianificazione del mondo, le cose possono, e lo faranno, andare storte.

La chiave è prepararsi al fallimento. Ciò significa prevedere il disastro e pianificare in anticipo "cosa succederà quando colpirà?". Ma le tue strategie meglio pianificate e i meccanismi di failover durante un'interruzione potrebbero essere inutili se non sai quanto tempo i tuoi sistemi saranno inattivi o quali applicazioni sono più critiche per le operazioni aziendali continue.

Gli obiettivi di tempo di recupero (RTO) sono un passaggio essenziale nella definizione del tuo piano di continuità aziendale e di recupero di emergenza (BCDR). Gli RTO richiedono di analizzare attentamente le tue applicazioni e la loro importanza relativa per la tua azienda.

Scegliere software di disaster recovery as a service (DRaaS) consente alle aziende di implementare una soluzione semplice ma potente con un RTO basso per minimizzare la perdita di dati critici e l'impatto finanziario.

L'RTO è una metrica importante per quanto rapidamente ed efficientemente puoi recuperare le informazioni in caso di disastro. Sapere quanto tempo i tuoi dati devono sopravvivere può aiutarti a stabilire una strategia di backup efficiente e un piano complessivo di acquisto di hardware IT.

Per garantire un RTO appropriato, i dipartimenti IT utilizzano failover per prevenire i tempi di inattività e facilitare una transizione fluida tra i sistemi. Quando un disastro colpisce, la tua azienda dovrebbe essere preparata per un rapido recupero. Inoltre, il tuo team IT deve sviluppare piani di contingenza per sapere quali applicazioni recuperare e quanto rapidamente.

RTO timeline

I team IT garantiscono anche che le applicazioni abbiano un backup affidabile pronto per minimizzare i tempi di inattività. In questo modo, altri server possono subentrare e far funzionare la tua applicazione in pochi secondi in caso di disastro.

Puoi misurare gli RTO in secondi, minuti, ore e giorni. Tieni a mente queste unità mentre sviluppi un piano di recupero di emergenza (DRP).

Per facilitare un DRP efficace, gli amministratori possono scegliere le soluzioni di recupero di emergenza (DR) più adatte per un RTO stabilito. Ad esempio, se l'RTO di un'applicazione è di un'ora, il backup ridondante del database su sistemi remoti potrebbe essere la soluzione ideale. Il nastro o l'archiviazione cloud fuori sede è più fattibile se l'RTO è di cinque giorni.

Perché l'obiettivo di tempo di recupero è importante?

I tempi di inattività sono costosi. Il quarantaquattro percento delle aziende riferisce che il costo orario dei tempi di inattività, compreso il tempo del personale IT interno ed esterno, la perdita di produttività e la sostituzione del sistema IT supera facilmente $1M. Con così tanto che dipende dalla tua infrastruttura IT e dal tempo di attività, gli obiettivi di tempo di recupero assicurano che le aziende siano ben preparate per i tempi di inattività e il recupero.

Gli RTO ti consentono di pianificare quanto rapidamente puoi recuperare un'applicazione critica se fallisce. Gli RTO sono tipicamente misurati in secondi. Se un'applicazione non è disponibile per cinque secondi, pagare gli sviluppatori per ripristinare i dati al volo non ha senso. Invece, le applicazioni prioritarie dovrebbero avere sistemi di failover che iniziano il processo di ripristino prima che diventino inoperative.

Nell'improbabile caso di un prolungato tempo di inattività del server o di un evento di corruzione dei dati prolungato, non vorresti che gli sforzi di recupero costosi fossero sprecati cercando di recuperare i dati prima di esaurire tutti i backup disponibili. Gli RTO consentono alle organizzazioni di dare priorità ai loro investimenti e allocare i budget di conseguenza.

Per determinare un quadro pratico di RTO, separa le applicazioni ad alta priorità. Inizia impostando un processo che determini il rischio di perdita della tua organizzazione.

Puoi stabilire RTO appropriati con un processo di valutazione del rischio che identifichi i componenti a valore aggiunto e critici della tua operazione. Le applicazioni ad alta priorità di solito si occupano di conti clienti, servizio clienti e applicazioni mission-critical, come le operazioni di produzione o logistica che si basano fortemente sulla tecnologia.

Vuoi saperne di più su Soluzioni di Disaster Recovery as a Service (DRaaS)? Esplora i prodotti Ripristino di emergenza come servizio (DRaaS).

Come funziona l'obiettivo di tempo di recupero?

Gli obiettivi di tempo di recupero stabiliscono quanto tempo un'azienda può durare dopo un contrattempo prima di riprendersi completamente. Ad esempio, un'azienda aveva un RTO di 24 ore alcuni anni fa. In tal caso, può prosperare per almeno 24 ore senza accesso ai suoi dati e sistemi tipici prima di subire danni irreversibili.

Gli RTO non sono rigidi poiché non specificano una data di recupero. Ti permettono di concentrarti maggiormente sull'avvicinarti a un potenziale specifico tramite una pianificazione ed una valutazione rigorose piuttosto che sull'obiettivo finale.

Molti fattori influenzano i tempi di recupero, incluso il momento della giornata e della settimana in cui si è verificato l'incidente. Influenzano anche sia gli RTO che gli obiettivi di punto di recupero (RPO). Le applicazioni ad alta priorità richiedono obiettivi più rigorosi. Per tali applicazioni, il team IT deve organizzare la replica continua e a scatto.

Intervalli di esempio di RTO

L'RTO è un tempo di resistenza dopo che una minaccia è stata rilevata. La maggior parte delle aziende IT non può permettersi di raggiungere un RTO quasi zero. Tuttavia, possono ottimizzare applicazioni e servizi per avvicinarsi il più possibile a un obiettivo specifico. Per le app meno critiche, il valore RTO può richiedere periodi più lunghi del solito. I piani di RTO quasi zero per le app mission-critical necessitano di capacità di failover istantanea.

A seconda della gravità dell'interruzione, puoi impostare un obiettivo RTO realistico per il recupero dei dati. Tuttavia, il tempo di ripristino dipende anche dalle limitazioni di un'azienda. Ad esempio, se il ripristino di tutti i servizi e processi IT richiede tre ore, l'RTO deve essere di almeno tre ore.

L'orologio RTO inizia immediatamente quando inizia il processo di recupero di emergenza. Considera la seguente suddivisione delle categorie RTO quando calcoli l'RTO per le tue unità aziendali:

  • Un'ora: Utile per i processi che richiedono il backup di dati ridondanti su dischi rigidi esterni.
  • Cinque giorni: Il backup dei dati su un compact disc, nastro o archiviazione su disco remoto è il metodo più conveniente in caso di disastro.

Esempi di obiettivo di tempo di recupero

A seconda dell'analisi dell'impatto aziendale (BIA), l'obiettivo di tempo di recupero per un'interruzione di un'applicazione o servizio può essere leggermente diverso. Le applicazioni mission-critical, ad esempio, spesso hanno un RTO più basso. Al contrario, i servizi meno critici hanno un RTO più esteso, poiché la durata di un'interruzione e la tolleranza alla perdita correlata sono maggiori.

Ecco alcuni esempi di RTO:

  • Servizi finanziari: Questi sono servizi ad alta priorità, con RTO il più vicino possibile a zero.
  • Email: Sebbene l'email sia un servizio essenziale per molti, il tempo di recupero può richiedere fino a 4 ore. Le interruzioni delle email non sempre equivalgono direttamente a una perdita di entrate.
  • Servizi di stampa: È scomodo e talvolta costoso quando una stampante è inattiva o inutilizzabile. Queste perdite sono molto inferiori a quelle subite durante un'interruzione dei servizi finanziari o anche un'interruzione delle email. L'RTO per i server di stampa può raggiungere le 24 ore in circostanze estreme.

Fattori che influenzano l'obiettivo di tempo di recupero

Quando si determina il ritmo di recupero durante un backup a lungo intervallo, dovresti sempre impostare l'RTO in base ai tempi in cui l'applicazione o il sistema di sicurezza è in servizio. Poiché l'RTO è "sensibile al tempo" per le applicazioni comunemente utilizzate, devi tenere conto dei seguenti fattori durante il calcolo dell'RTO:

  • Analisi costi-benefici per i sistemi di recupero
  • Costi di interruzione e rimedio
  • Le sfide del processo di recupero
  • Gli sforzi dei team IT per riparare l'infrastruttura
  • Uso prioritario di sistemi e dati specifici

RTO nella pianificazione del recupero di emergenza

Il recupero di emergenza è un piano chiaro che aiuta un'azienda a riprendersi e riprendere le normali operazioni aziendali. Questo rende fondamentale definire l'RTO per un piano di continuità aziendale (BCP). Con un obiettivo di tempo di recupero come obiettivo principale, un'azienda può riallineare le sue strategie di backup dei dati e di failover e distribuire la quantità appropriata di nuovi servizi. Questo garantisce la velocità di recupero target.

Senza un RTO, un'azienda non ha idea di quanto rapidamente dovrebbe riprendersi da una grave minaccia o perdita di dati. La pianificazione del recupero di emergenza riguarda l'essere attrezzati per interruzioni impreviste. Per essere preparati, hai bisogno di un indizio o di un piano per stimare il tempo di recupero.

Le aziende dovrebbero stabilire un solido piano di continuità aziendale con obiettivi predefiniti come parte del processo di pianificazione del recupero di emergenza. Questi obiettivi dovrebbero includere l'RTO e l'RPO per garantire un tasso di recupero previsto.

RTO vs. RPO

Sebbene sia l'obiettivo di tempo di recupero che l'obiettivo di punto di recupero siano componenti essenziali della pianificazione del recupero di emergenza e della continuità aziendale, servono a scopi diversi. Questi scopi possono aiutare a selezionare una strategia di backup dei dati adeguata e fornire un quadro per identificare e valutare le soluzioni potenziali per riprendere le operazioni aziendali in un lasso di tempo vicino o uguale all'RPO e all'RTO.

RTO vs. RPO

Obiettivo di tempo di recupero si riferisce all'avere politiche e tecnologie in situ per un'azienda per recuperare in un dato tempo. In confronto, obiettivo di punto di recupero garantisce che le soluzioni di recupero e backup dei dati siano in atto in anticipo per minimizzare la quantità di dati persi durante un'emergenza.

RTO e RPO lavorano insieme per ripristinare le attività regolari di un'azienda. Determinano l'impatto aziendale considerando il tempo necessario per ripristinare i servizi e la tolleranza massima alla perdita di un'organizzazione.

Come calcolare l'obiettivo di tempo di recupero

Calcolare gli obiettivi di recupero è un processo a più fasi che coinvolge vari fattori, tra cui l'analisi dell'impatto aziendale, la strategia di recupero di emergenza e i piani di continuità. L'obiettivo principale di un RTO è valutare quanto tempo ci vuole per riprendersi da un grave disastro e ripristinare le normali operazioni aziendali.

Quando calcoli l'RTO, ricorda che avrai RTO unici per ciascun servizio o app. Ad esempio, la tua tolleranza per i tempi di inattività sul tuo server di posta dovrebbe essere significativamente inferiore rispetto a un server di file raramente utilizzato. Considera questi fattori in modo che la tua strategia di recupero di emergenza sia il più efficiente e di successo possibile.

Il primo passo nel calcolare un RTO è valutare a fondo tutti i sistemi, le applicazioni mission-critical, gli ambienti virtuali e i silos di dati. Non c'è modo di stabilire correttamente un RTO senza un audit completo.

Dopo aver completato la valutazione, il compito successivo è calcolare la qualità di ciascun servizio e app mission-critical in termini di come influenzano i processi aziendali. Questo valore dovrebbe essere calcolato in modo granulare e correlato al tempo. Il valore dell'app può essere legato a qualsiasi accordo sul livello di servizio (SLA) attuale che definisce quanto accessibile deve essere un servizio e può includere ripercussioni se determinati livelli di servizio non vengono soddisfatti.

Puoi stimare l'RTO valutando il valore di tutti i servizi e le app funzionanti. Tuttavia, tieni presente che i requisiti di RTO possono variare in base all'importanza di un servizio misurata dal valore che fornisce all'azienda.

Calcolare l'RTO implica determinare quanto rapidamente il processo per un particolare programma, servizio, sistema o dato dovrebbe riprendere dopo un incidente significativo. Questo si basa sulla tolleranza alla perdita dell'azienda come parte della sua BIA. Definire la tolleranza alla perdita aiuta a stabilire quanto tempo di attività un'azienda può permettersi di perdere durante un evento prima che le normali operazioni aziendali riprendano.

Inoltre, coinvolgi tutti i tuoi stakeholder aziendali nel processo. Sebbene l'impatto finanziario dei tempi di inattività sia probabilmente in cima alla tua lista di priorità, è fondamentale comprendere come i tempi di inattività influenzeranno ogni aspetto della tua azienda prima di sviluppare un piano che funzioni per tutti.

Le sfide dell'RTO

Spesso non è fattibile per un'azienda riprendere immediatamente tutte le operazioni dopo un contrattempo. L'RTO è il punto previsto in cui un'azienda deve ripristinare le sue funzioni per prevenire eventuali complicazioni legate agli obiettivi. Gli RTO differiscono per le diverse operazioni. Un processo cruciale potrebbe avere un RTO scaglionato per consentire alle operazioni di riprendere progressivamente. Ad esempio, un'attività potrebbe essere al 40% della capacità in tre giorni e al 100% in otto giorni.

Una delle sfide più complesse nella definizione degli RTO è la possibilità di minacce o crisi impreviste che interrompono i flussi di lavoro. Questi rischi includono il crollo di una struttura, interruzioni in un'area di elaborazione, guasti di connettività dovuti a disastri naturali e una carenza di dipendenti di elaborazione a causa di scioperi o problemi di trasporto.

Queste circostanze una tantum che influenzano negativamente i processi esistono al di fuori degli RTO stabiliti. Questo perché il tempo necessario per risolverli non può essere stimato o pianificato. In tali casi, evitare i rischi è preferibile a stabilire un RTO.

Ad esempio, un'azienda con eccellenti processi di sicurezza può evitare numerose violazioni della sicurezza. Il tasso di criminalità complessivo nella loro regione e le specifiche dell'azienda influenzano la sicurezza.

Non lasciare che i tempi di inattività distruggano il tuo successo

È fondamentale stabilire il tuo RTO e RPO e impostare i servizi che li supportano. Tuttavia, queste metriche sono prive di significato a meno che non testi regolarmente i tuoi sistemi e garantisci che le tecnologie di backup dei dati e di failover del sistema siano operative. Il test regolare è la chiave del successo.

Pianifica i disastri prima che accadano. Porta il tuo recupero di emergenza al livello successivo con DRaaS.

Keerthi Rangan
KR

Keerthi Rangan

Keerthi Rangan is a Senior SEO Specialist with a sharp focus on the IT management software market. Formerly a Content Marketing Specialist at G2, Keerthi crafts content that not only simplifies complex IT concepts but also guides organizations toward transformative software solutions. With a background in Python development, she brings a unique blend of technical expertise and strategic insight to her work. Her interests span network automation, blockchain, infrastructure as code (IaC), SaaS, and beyond—always exploring how technology reshapes businesses and how people work. Keerthi’s approach is thoughtful and driven by a quiet curiosity, always seeking the deeper connections between technology, strategy, and growth.