Le bug à l’origine de la dernière grande panne AWS

Suite à la panne géante d’un datacenter AWS mardi dernier, le fournisseur de services cloud revient sur la raison de l’interruption de cinq heures de certains services et sites web en Europe et aux Etats-Unis : un problème de réseau interne.

« Une activité automatisée visant à mettre à l’échelle la capacité de l’un des services AWS hébergés dans le réseau AWS principal a déclenché un comportement inattendu de la part d’un grand nombre de clients à l’intérieur du réseau interne », a indiqué AWS dans un post de blog. « La forte augmentation de l’activité de connexion a submergé les dispositifs de mise en réseau entre le réseau interne et le réseau AWS principal, entraînant des retards de communication entre ces réseaux. »

Si le réseau principal d’AWS n’a pas été affecté, les clients ont été touchés par les services d’AWS qui reposent sur son réseau interne : des services de calcul, de conteneurs et de distribution de contenu aux bases de données, aux postes de travail virtualisés et aux outils d’optimisation des réseaux.

La connexion entre les deux réseaux étant bloquée, l’équipe d’exploitation interne d’Amazon Web Services a perdu la visibilité de ses services de surveillance en temps réel et a été forcée de se fier uniquement aux journaux d’événements passés pour déterminer la cause du problème. Ce travail manuel a ralenti le temps de reprise et de restauration des services.

Après avoir identifié le pic d’erreurs DNS internes, l’équipe a détourné le trafic DNS interne. Elle craignait cependant qu’une modification des communications entre le réseau interne et le réseau principal ne perturbe d’autres services AWS orientés client qui n’étaient pas affectés : « Etant donné que de nombreux services AWS sur le réseau principal AWS et les applications des clients AWS fonctionnaient encore normalement, nous avons voulu être extrêmement prudents lors des modifications afin d’éviter d’avoir un impact sur les charges de travail en cours ».

Le travail de déblocage a duré deux heures. Pour autant, les services AWS affectés n’ont pas été rétablis de suite et la congestion des dispositifs NAT a duré trois heures supplémentaires avant de se débloquer.

Cet incident du mardi 7 décembre 2021 a un point en commun avec la panne majeure survenue l’année dernière à peu près à la même époque, à savoir que « la dégradation de nos systèmes de surveillance a retardé notre compréhension de cet événement, et la congestion du réseau a empêché notre outil Service Health Dashboard de basculer de manière appropriée vers notre région de secours ».

Amazon Web Services précise qu’il publiera en début 2022 une nouvelle version de son tableau de bord de santé des services qui fonctionnera dans plusieurs régions afin de « s’assurer que nous n’avons pas de retard dans la communication avec les clients ».