Panne d’AWS : Un incident d’indisponibilité affecte les utilisateurs de l’un des principaux centres de données d’Amazon aux États-Unis.

Panne d'AWS : Un incident d'indisponibilité affecte les utilisateurs de l'un des principaux centres de données d'Amazon aux États-Unis.

Les utilisateurs d’Amazon Web Services (AWS) attendent une explication complète de la part du géant du cloud public sur la cause d’une panne prolongée dans l’un de ses principaux centres de données américains qui a débuté le mercredi 25 novembre 2020, heure américaine.

L’origine de l’incident est connue pour provenir de la région du centre de données US-East-1 de la société, et a été causée par un défaut dans l’interface de programmation d’application (API) de son service de flux de données en temps réel, Kinesis Data Streams (KDS).

On sait que le problème a empêché l’utilisation d’un certain nombre de services Internet de premier plan qui dépendent de KDS pendant l’incident, et beaucoup d’entre eux ont utilisé le site de réseautage social Twitter pour confirmer qu’ils étaient touchés par le problème de temps d’arrêt. L’un d’entre eux a déclaré :

« Une panne d’Amazon AWS a actuellement un impact sur Adobe Spark. Il se peut donc que vous rencontriez des problèmes pour accéder à vos projets ou les modifier. Nous travaillons activement avec AWS et nous vous informerons lorsque le problème sera résolu. https://t.co/uoHPf44HjL pour le statut actuel de Spark. Nous nous excusons pour tout désagrément ! – Adobe Spark (@AdobeSpark) Le 25 novembre 2020. »

La panne a également permis de mettre en évidence les interdépendances qui existent au sein du portefeuille AWS au sens large, car les problèmes rencontrés par l’API KDS sont connus pour avoir affecté négativement les performances d’un certain nombre d’autres services AWS qui en dépendent pour fonctionner.

Les pages d’état des services en nuage de la société font référence à d’autres « services dépendants » touchés par la panne, dont AWS a reconnu l’existence vers 2 heures du matin, heure française, le jeudi 26 novembre.

Par exemple, les personnes interrogées sur le fil Twitter de l’assistance AWS ont signalé des problèmes avec l’offre de création et de test de code, Code Pipeline, son service de surveillance de l’infrastructure, Amazon Cloudwatch, et – à un moment donné pendant la panne – la page d’état du service était également indisponible.

Au moment de la rédaction de cet article, le tableau de bord de l’état des services AWS a confirmé que la société avait résolu le problème et que le service avait été rétabli dans toutes les parties concernées du portefeuille AWS, mais aucun autre détail n’a été donné pour l’instant sur les circonstances qui ont conduit à la panne.

« Nous avons identifié la cause profonde de l’événement Kinesis Data Streams, et avons réalisé des actions immédiates pour éviter qu’il ne se reproduise. Kinesis et CloudWatch fonctionnent normalement », indique une déclaration sur la page d’état des services AWS, publiée juste après 9 heures GMT aujourd’hui.

Selon Liz Beavers, responsable de l’informatique chez SolarWinds, fournisseur de logiciels de surveillance informatique, l’ampleur de la panne suggère que les stratégies de gestion des pannes d’AWS laissent beaucoup à désirer.

« Sans stratégies solides de gestion des incidents et des problèmes, nous voyons des pannes généralisées à fort impact comme celle d’AWS aujourd’hui », a-t-elle déclaré. « Avec de nombreuses unités et clients différents interconnectés par la plateforme AWS, il est crucial que les partenaires d’Amazon disposent d’une stratégie de service informatique pour rationaliser et résoudre les incidents répétés, qui se produisent généralement lors d’une panne informatique de grande ampleur comme celle-ci ».

« Une partie de la réponse stratégique du service desk à une panne consiste également à doter les équipes informatiques d’un canal de communication unique pour faire connaître le problème connu dans toute l’organisation. Cela permet non seulement de contextualiser l’impact total du problème, mais aussi de dépanner plus efficacement et, dans certains cas, de publier de la documentation sur les solutions de contournement potentielles. »

Mike Kiersey, technologue principal chez Boomi, fournisseur de plate-forme d’intégration en tant que service (PaaS) appartenant à Dell Technologies, a déclaré que l’incident mettait en évidence la dépendance de larges pans de l’économie numérique à l’égard du besoin de données en continu en temps réel.

« Les problèmes affectant Kinesis soulignent la nécessité absolue de pouvoir traiter et gérer les données en temps réel », a-t-il déclaré. « Si le flux de données cesse de fonctionner, les retombées peuvent être énormes, notamment pour les fournisseurs de cloud.

« La gestion des données en temps réel se résume à une intégration et une surveillance efficaces, qui permettent une transition transparente vers un réseau de tissu de données plus modernisé. En disposant d’une plateforme intégrée réactive, les points de données deviennent plus accessibles, agiles et transparents pour comprendre comment les applications communiquent. »

Be the first to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée.


*