Introducing G2.ai, the future of software buying.Try now

Qu'est-ce que le basculement ? Son rôle unique dans la continuité des affaires

15 Novembre 2024
par Keerthi Rangan

Les pannes sont impitoyables et se produisent bien trop souvent.

Lorsqu'elles surviennent, c'est généralement aux moments les plus inattendus. Peut-être que quelqu'un trébuche sur un câble d'alimentation, qu'un problème de réseau se produit, ou que les ingénieurs déplacent un disque et qu'il se corrompt.

Quoi qu'il arrive, la panne frappe, et nous nous précipitons pour analyser ce qui a mal tourné et remettre les serveurs en marche dès que possible.

La disponibilité est primordiale. L'augmentation du temps d'indisponibilité des services peut avoir un impact négatif sur les revenus, la confiance de la marque, la perte de données et le classement dans les moteurs de recherche.

Une façon de gérer une défaillance soudaine est d'utiliser un composant de secours ou de basculement. Le basculement offre les moyens de réagir de manière proactive plutôt que réactive lorsque des pannes inattendues se produisent.

Avec les organisations se tournant vers la continuité des activités dans le cloud avec des logiciels de reprise après sinistre en tant que service (DRaaS), il est impératif de comprendre comment le basculement soutient les stratégies de reprise après sinistre (DR) et les plans de continuité des activités.

Le basculement est une partie intégrante du DRaaS pour la continuité des activités dans le cloud. Le logiciel DRaaS fournit cette capacité de basculement en offrant un transfert rapide de la charge de travail si un service tombe en panne.

Le basculement est mis en œuvre dans les systèmes critiques où l'intégrité des données et la disponibilité sont essentielles. En cas de défaillance, un système ou une solution alternative est immédiatement prêt à prendre le relais avec peu d'interruption du fonctionnement régulier.

En bref, le basculement est essentiel pour vous maintenir en ligne et en fonctionnement. Par exemple, lors d'une défaillance du centre de données principal, le basculement doit transférer le contrôle des systèmes critiques vers le centre de données secondaire avec un minimum de perturbations des services ou de perte de données.

Le basculement peut se produire dans n'importe quelle partie d'un système :

  • Un déclencheur matériel ou logiciel sur un ordinateur personnel ou un appareil mobile peut protéger l'appareil lorsqu'un composant, tel qu'un processeur ou une cellule de batterie, tombe en panne.
  • Le basculement peut s'appliquer à tout composant réseau individuel ou à un système de composants, tel qu'un canal de connexion, un périphérique de stockage ou un serveur web, à l'intérieur d'un réseau.
  • Le basculement permet à de nombreux serveurs locaux ou basés sur le cloud de maintenir une connexion constante et sécurisée avec peu ou pas d'interruption de service tout en utilisant une base de données ou une application web hébergée.

Les entreprises établissent une redondance en cas de défaillance inattendue en utilisant un ordinateur, un système ou un serveur de secours qui est toujours prêt à entrer en action automatiquement.

Les concepteurs de systèmes mettent en œuvre la fonctionnalité de basculement dans les serveurs, le support de base de données backend ou les réseaux qui nécessitent une disponibilité constante et une excellente fiabilité. Le basculement peut :

  • Protéger votre base de données pendant la maintenance ou une panne de système. Par exemple, si le serveur principal sur site tombe en panne en raison d'une défaillance matérielle, le serveur de secours (sur site ou dans le cloud) peut rapidement prendre en charge les tâches d'hébergement sans intervention administrative.
  • Il peut être adapté à vos configurations matérielles et réseau spécifiques. Lors de la gestion d'une base de données, un administrateur peut utiliser non seulement un système A ou B de deux serveurs fonctionnant en parallèle pour se protéger mutuellement, mais aussi un serveur cloud pour fournir un dépannage, une maintenance et des correctifs sur site complets, le tout sans affecter la connectivité.
  • Permettre aux opérations de maintenance de s'exécuter automatiquement sans surveillance. Un basculement automatique lors des mises à jour logicielles périodiques offre une protection transparente contre les risques de cybersécurité.

Le saviez-vous ? Un basculement manuel est essentiellement le même qu'un basculement ; cependant, contrairement à un basculement, il n'est pas automatisé et nécessite une interaction humaine. Les solutions de basculement automatisées protègent la plupart des systèmes.

Pourquoi le basculement est-il important ?

Se contenter de tolérer ou de supporter les temps d'arrêt ou les pannes n'est pas suffisant dans le marché mondial concurrentiel d'aujourd'hui. Grâce au basculement et à ses technologies, les clients peuvent être confiants qu'ils peuvent compter sur une connexion sécurisée sans interruptions inattendues.

L'intégration du basculement peut être un fardeau coûteux et indésirable, mais c'est une police d'assurance vitale qui garantit la sécurité et la sûreté.

Alors, quelle est la principale raison pour laquelle une entreprise dispose d'un système de basculement ? L'objectif principal du basculement est de prévenir ou de réduire la défaillance totale du système. Le basculement est un élément essentiel du plan de DR de chaque entreprise. Si l'architecture réseau est correctement configurée, le basculement et le retour en arrière fourniront une protection complète contre la plupart, sinon toutes, les interruptions de service.

Les véritables problèmes sont principalement causés par la quantité de données échangées, la bande passante disponible et la manière dont les données sont déplacées, mises en miroir ou copiées vers le deuxième site. La priorité d'un ingénieur système devrait être de réduire le transfert de données tout en améliorant la qualité de la synchronisation entre deux sites.

Après avoir assuré la qualité de la transmission des données, la prochaine question est de déterminer comment déclencher le basculement tout en minimisant le temps de changement.

Les administrateurs informatiques peuvent également déclencher un basculement pour faciliter la maintenance et la mise à niveau du système principal. Cela est connu sous le nom de basculement planifié.

Vous voulez en savoir plus sur Solutions de reprise après sinistre en tant que service (DRaaS) ? Découvrez les produits Récupération après sinistre en tant que service (DRaaS).

Comment fonctionne le basculement ?

Le basculement implique la restauration des données, les paramètres d'application et le support d'infrastructure vers un composant de système de secours. Pour l'utilisateur final, l'opération est transparente. Le fonctionnement normal se poursuit malgré les perturbations inévitables induites par les défaillances d'équipement grâce à la capacité de basculement automatisé.

Un système de basculement nécessite un lien direct avec le système principal pour fonctionner avec succès. Cela est connu sous le nom de "battement de cœur". Le battement de cœur envoie une impulsion du système principal au système de basculement toutes les quelques minutes. La solution de basculement restera inactive tant que l'impulsion reste stable.

Un système de battement de cœur est courant dans l'automatisation du basculement. Dans sa forme la plus basique, cette méthode relie deux sites soit physiquement via un câble, soit sans fil via un réseau. Lorsque la régularité du lien de battement de cœur est perturbée, le système de basculement s'active et prend en charge toutes les fonctions du système principal. Vous pouvez généralement concevoir vos solutions de basculement pour alerter immédiatement votre personnel informatique d'une défaillance afin qu'ils puissent travailler à restaurer le système principal aussi rapidement que possible.

Comment fonctionne le basculement

En fonction de la complexité du service, un système peut même avoir un troisième site exécutant les composants fondamentaux nécessaires pour éviter les temps d'arrêt lors du basculement. Plusieurs chemins, des composants redondants et un support distant ou basé sur le cloud fournissent un chemin sûr et toujours connecté.

La virtualisation réplique un environnement informatique en exécutant un logiciel hôte sur une machine virtuelle. Par conséquent, le mécanisme de basculement peut être indépendant du matériel.

Cette procédure est généralement effectuée par un logiciel ou un matériel particulier qui permet cette fonction complexe. Les meilleures solutions offrent l'automatisation et l'orchestration pour faciliter les processus de récupération. Ces systèmes peuvent également restaurer des données de moments plutôt que d'heures ou même de jours auparavant.

L'intégrité du service est essentielle pour minimiser les temps d'arrêt pendant le basculement. Vous aurez besoin d'une solution DRaaS qui connaît vos services et peut les restaurer dans leur ensemble (plutôt que simplement les composants), ce qui permet un retour plus rapide aux opérations informatiques normales.

Qu'est-ce qu'un cluster de basculement ?

Un cluster de basculement est un ensemble de serveurs informatiques qui travaillent ensemble pour offrir une disponibilité continue (CA), une tolérance aux pannes (FT) ou une haute disponibilité (HA). Les entreprises peuvent construire des topologies de réseau de cluster de basculement entièrement sur du matériel physique ou incorporer des machines virtuelles (VM).

Lorsqu'un des serveurs d'un cluster de basculement tombe en panne, le mécanisme de basculement est déclenché. Cela réduit les temps d'arrêt en transférant instantanément la charge de travail de l'élément défaillant à un autre nœud du cluster.

Disponibilité continue vs tolérance aux pannes vs haute disponibilité

  • La disponibilité continue est proactive. Elle met l'accent sur la redondance, la détection des pannes et la prévention des erreurs. Ces systèmes permettent la planification de la maintenance et les mises à jour pendant les heures de bureau normales sans perturber le service.
  • Un système tolérant aux pannes n'a pas d'interruption de service mais coûte légèrement plus cher. Il repose sur du matériel dédié qui détecte une panne et passe instantanément à un composant matériel redondant. Bien que la transition semble fluide et offre un service continu, un prix élevé est payé pour le coût et la performance du matériel. Cela est dû au fait que les composants redondants n'exécutent aucun traitement. Plus important encore, le paradigme FT ignore les erreurs logicielles, la cause la plus fréquente des temps d'arrêt.
  • Un système à haute disponibilité (HA) provoque une interruption de service minimale. HA combine des logiciels avec du matériel standard de l'industrie pour réduire les temps d'arrêt en restaurant les services lorsque les systèmes échouent. Ces systèmes sont une excellente solution pour les services qui doivent être rapidement restaurés et résister à une courte interruption lors d'une défaillance.

Le but principal d'un cluster de basculement est de fournir soit une HA, soit une CA pour les applications et les services. Les clusters CA, souvent appelés clusters tolérants aux pannes, réduisent les temps d'arrêt lorsqu'un système principal tombe en panne, permettant aux utilisateurs finaux de continuer à accéder aux services et aux applications sans interruption.

D'autre part, les clusters HA offrent une récupération automatisée, peu de temps d'arrêt et aucune perte de données malgré le risque d'une légère perturbation du fonctionnement. La plupart des solutions de cluster de basculement fournissent des outils de gestion de cluster de basculement qui permettent aux administrateurs de contrôler le processus.

Un cluster est généralement composé de deux serveurs ou nœuds ou plus qui sont généralement liés de manière programmatique et physique à l'aide de câbles. Certains systèmes de basculement utilisent des technologies de clustering supplémentaires, telles que l'équilibrage de charge, le traitement parallèle ou concurrent, et les solutions de stockage.

Qu'est-ce que le test de basculement ?

Le test de basculement confirme la capacité d'un système à consacrer des ressources adéquates à la récupération après une défaillance du système. En d'autres termes, le test de basculement évalue la capacité de basculement du système. Le test vérifiera si le système peut gérer des ressources supplémentaires et migrer les activités vers des systèmes de secours en cas de terminaison ou de défaillance inattendue.

Par exemple, les tests de basculement et de récupération vérifient la capacité du système à gérer et à alimenter un processeur supplémentaire ou plusieurs serveurs une fois qu'il atteint un seuil de performance qui est souvent dépassé lors de défaillances importantes. Cela souligne le lien critique entre le test de basculement, la résilience et la sécurité.

Le test de basculement est le processus de simulation d'une défaillance dans un serveur ou un système principal pour évaluer l'efficacité de ses mécanismes de basculement. Les aspects clés incluent :

  • Objectif : Vérifier que les systèmes de secours peuvent prendre le relais sans heurt lors de défaillances inattendues.
  • Scénarios : Implique de tester divers scénarios de défaillance tels que des pannes de serveur ou des pannes de réseau.
  • Automatisé vs manuel : Cela peut être fait manuellement ou avec des outils automatisés.
  • Objectif de temps de récupération (RTO) : Mesure la rapidité avec laquelle le système se rétablit
  • Intégrité des données : Assure que les données restent intactes pendant le processus de basculement.

Types de configurations de basculement

La technique du système de basculement utilise les technologies de clustering existantes pour permettre des exécutions redondantes, augmentant la fiabilité et l'accessibilité des ressources informatiques.

Il existe deux configurations de base pour les systèmes de basculement à haute disponibilité : actif-actif et actif-passif. Bien que les deux techniques de mise en œuvre améliorent la fiabilité, elles réalisent le basculement de différentes manières.

1. Configuration actif-actif

Une configuration de haute disponibilité actif-actif se compose généralement d'au moins deux nœuds qui exécutent activement et simultanément le même type de service. Le cluster actif-actif effectue un équilibrage de charge en répartissant les charges de travail de manière uniforme sur tous les nœuds, limitant ainsi la surcharge d'un nœud. À mesure que plus de nœuds sont disponibles, les temps de réponse et de débit s'améliorent.

Les configurations et spécifications des nœuds individuels doivent être identiques pour garantir que le cluster HA fonctionne sans problème et atteint la redondance. Les équilibreurs de charge attribuent les utilisateurs aux nœuds du cluster en fonction d'un algorithme. Par exemple, un algorithme de round-robin distribue les utilisateurs de manière égale aux serveurs en fonction de leur moment de connexion.

L'utilisation des deux nœuds est répartie à environ 50/50, même si chaque nœud peut gérer la charge entière de manière indépendante. Cependant, si un nœud de configuration actif-actif gère régulièrement plus de la moitié de la charge, la perte de nœud pourrait entraîner une diminution des performances.

Étant donné que les deux chemins sont actifs, le temps d'arrêt lors d'une défaillance est presque négligeable avec un système HA actif-actif.

2. Configuration actif-passif

Dans une configuration actif-passif, également connue sous le nom de configuration de veille active, il y a au moins deux nœuds, mais tous ne sont pas actifs. Dans une configuration à deux nœuds, le premier nœud est opérationnel, et le deuxième nœud reste passif ou en veille en tant que système de basculement.

Ce mode opérationnel de veille peut être sauvegardé si le nœud principal actif échoue. D'autre part, les utilisateurs ne se connectent qu'au serveur actif jusqu'à ce qu'une défaillance se produise. Le nœud inactif est déclenché pour prendre en charge le traitement d'une ressource informatique hors ligne, et la charge de travail associée est acheminée vers le nœud secondaire, qui prend en charge l'opération.

Le temps d'arrêt est plus long dans une configuration actif-passif car le système doit passer d'un nœud à un autre.

Basculement vs retour en arrière

Le basculement et le retour en arrière sont des éléments de continuité des activités qui permettent aux opérations numériques régulières de se poursuivre même si le site de production principal est indisponible. Considérez les procédures de basculement et de retour en arrière comme essentielles à un cadre solide de reprise après sinistre.

Basculement vs retour en arrière

Le processus de basculement déplace la production du site principal vers un site secondaire. Ce site de récupération contient généralement une copie répliquée de tous les systèmes et données de votre site de production principal. Pendant un basculement, toutes les mises à jour sont stockées virtuellement.

Le retour en arrière est une mesure de continuité des activités déployée lorsque le site de production principal est de nouveau opérationnel après qu'une catastrophe (ou un événement planifié) a été résolue. La production est restaurée sur son ancien (ou nouveau) site lors d'un retour en arrière, et toutes les modifications enregistrées dans le stockage virtuel sont synchronisées.

Avantages du basculement

Pour les entreprises centrées sur le web, la disponibilité des services est essentielle car elle impacte toutes les opérations. De la croissance organisationnelle à la fidélisation des clients et aux relations, la haute disponibilité est le critère essentiel que les entreprises ne peuvent ignorer. Les avantages des systèmes de basculement incluent :

  • Protection contre les temps d'arrêt : La mise en œuvre de systèmes de basculement efficaces pour les composants critiques de la pile informatique d'une organisation devrait réduire considérablement les temps d'arrêt causés par les pannes de service. Si même l'un des composants critiques du système échoue, cela empêchera le bon fonctionnement de chaque composant qui interagit avec lui.
  • Prévention de la perte de revenus : Si un outil commercial vital, tel que votre service de traitement des paiements, est indisponible pendant une longue période, la rentabilité de votre organisation en souffrira. Étant donné que les actions des consommateurs sont volatiles, même une mauvaise expérience peut amener les clients à cesser définitivement d'utiliser votre entreprise.

Défis du basculement

Trop souvent, le basculement est une réflexion après coup ou un dernier recours. Cependant, en planifiant et en testant les procédures de basculement à l'avance, les responsables informatiques peuvent prévenir les temps d'arrêt et atteindre des niveaux de qualité de service cohérents, surtout lorsque l'inattendu se produit.

Un processus de basculement bien huilé entraîne des coûts élevés et peut augmenter la probabilité d'erreur humaine en cas de défaillances. Cependant, la mise en œuvre de procédures efficaces peut réduire le risque de perte dans les systèmes critiques et minimiser les interruptions potentielles de la qualité du service.

Bien que le basculement semble être un sauveur dans toute sa splendeur, la mise en œuvre d'une stratégie de basculement présente des défis importants.

Coût accru

Mettre en place, maintenir et surveiller une stratégie de basculement fiable et protégée est coûteux. Cela est particulièrement vrai si vous souhaitez vous assurer que chaque composant d'un paysage complexe et interconnecté dispose de son propre mécanisme de basculement.

Pour construire des systèmes de basculement fiables qui fonctionnent automatiquement avec peu de temps d'arrêt, vous devez investir de l'argent dans des systèmes à haute bande passante capables de gérer des échanges de données synchrones. La plupart des dépenses globales pour les systèmes de basculement peuvent être attribuées à la dépendance à l'expertise de tiers pour installer et gérer les systèmes.

Processus de gestion de système et d'assurance qualité (QA) longs

Un système de basculement nécessite la même maintenance et validation QA que les systèmes principaux pour sécuriser efficacement la technologie de votre organisation. Exécuter vos systèmes principaux et de basculement sur des versions distinctes annule le fait d'avoir des systèmes identiques et synchronisés en premier lieu, nécessitant plus d'efforts pendant les périodes de maintenance serrées.

Vous devez également vous assurer que vos systèmes de basculement peuvent interagir fréquemment avec et s'engager avec les divers composants de votre environnement. Ces validations peuvent augmenter considérablement le temps alloué par votre personnel informatique pour les tests et la QA.

Cas d'utilisation du basculement

Le basculement peut se produire dans n'importe quelle partie d'un système, y compris un ordinateur, un réseau, un périphérique de stockage ou un serveur web. Voici quelques façons dont le basculement peut aider les organisations à créer une infrastructure résiliente.

  • Le basculement du serveur d'applications protège de nombreux serveurs qui exécutent des applications. Ces serveurs de basculement devraient idéalement fonctionner sur des hôtes distincts et devraient tous avoir des noms de domaine distincts.
  • Le basculement du système de noms de domaine (DNS) garantit que les services réseau ou les sites web restent disponibles pendant une panne. Il génère un enregistrement DNS pour un système qui inclut deux adresses IP ou plus ou des connexions de basculement. Cela permet aux utilisateurs de rediriger le trafic d'un système défaillant vers un site redondant en direct.
  • Le basculement du protocole de configuration dynamique d'hôte (DHCP) déploie deux serveurs DHCP ou plus pour gérer le même pool d'adresses. Cela permet à chaque serveur DHCP de sauvegarder l'autre en cas de perte de réseau. Ils partagent la responsabilité de l'attribution des baux pour ce groupe à tout moment.
  • Le basculement du serveur SQL élimine tout point de défaillance potentiel en utilisant un stockage de données partagé et de nombreuses connexions réseau via un stockage en réseau (NAS).

Basculez avec grâce

Bien que l'intégration du basculement puisse être coûteuse, considérez le coût énorme des temps d'arrêt. Pensez au basculement comme une police d'assurance essentielle pour la sécurité et la sûreté.

Le basculement devrait être un élément clé de votre stratégie de reprise après sinistre. Votre priorité devrait être de limiter les transferts de données pour éviter les goulots d'étranglement tout en maintenant une synchronisation de haute qualité entre les systèmes principaux et de secours d'un point de vue d'ingénierie des systèmes.

Découvrez comment créer un plan de reprise après sinistre robuste qui protège vos opérations et protège vos actifs précieux.

Cet article a été publié à l'origine en 2022. Il a été mis à jour avec de nouvelles informations.

Keerthi Rangan
KR

Keerthi Rangan

Keerthi Rangan is a Senior SEO Specialist with a sharp focus on the IT management software market. Formerly a Content Marketing Specialist at G2, Keerthi crafts content that not only simplifies complex IT concepts but also guides organizations toward transformative software solutions. With a background in Python development, she brings a unique blend of technical expertise and strategic insight to her work. Her interests span network automation, blockchain, infrastructure as code (IaC), SaaS, and beyond—always exploring how technology reshapes businesses and how people work. Keerthi’s approach is thoughtful and driven by a quiet curiosity, always seeking the deeper connections between technology, strategy, and growth.