Caída de AWS en la Región US-EAST-1: causas, servicios afectados y recuperación progresiva

Amazon Web Services (AWS) enfrentó una interrupción significativa durante las primeras horas del 20 de octubre, afectando múltiples servicios en su región US-EAST-1 (Virginia del Norte), una de las más utilizadas a nivel global.
El incidente provocó altas tasas de error, lentitud en las respuestas (latencias elevadas) y fallos en servicios clave como DynamoDB, EC2, Lambda, RDS, ECS y CloudTrail, lo que impactó a empresas y plataformas que dependen de la nube de AWS para operar.

Contents

¿Qué ocurrió con AWS el 20 de octubre?
Servicios de AWS más afectados
Medidas de mitigación y progreso de recuperación
Impacto global y lecciones aprendidas

¿Qué ocurrió con AWS el 20 de octubre?

Todo comenzó alrededor de la medianoche (hora del Pacífico), cuando AWS detectó un aumento inusual en los errores y tiempos de respuesta.
Poco después, la compañía confirmó que el problema afectaba a múltiples servicios y que los usuarios podían experimentar dificultades para crear o actualizar casos de soporte a través de su portal.

A las 1:26 AM PDT, AWS identificó que el problema se centraba en DynamoDB, su base de datos NoSQL, y que este fallo se estaba extendiendo a otros servicios dependientes dentro de la misma región.

A las 2:01 AM, los ingenieros de AWS encontraron un problema de resolución DNS como posible causa raíz, lo que impedía que varios servicios se comunicaran correctamente entre sí.

Servicios de AWS más afectados

El fallo en US-EAST-1 provocó un efecto dominó que impactó a distintos servicios y herramientas dentro del ecosistema AWS:

DynamoDB: Fallas de conexión por problemas de DNS.
EC2: Errores en el lanzamiento de nuevas instancias, afectando también a ECS, RDS y Glue.
Lambda y SQS: Retrasos en la ejecución de funciones y procesamiento de colas.
CloudTrail y EventBridge: Acumulación de eventos pendientes por procesar.
IAM (gestión de identidades): Problemas para ejecutar actualizaciones globales.
AWS Support: Dificultades para crear o modificar casos de soporte.

Medidas de mitigación y progreso de recuperación

Entre las 2:30 y las 7:30 AM, AWS aplicó diversas acciones de mitigación en sus zonas de disponibilidad (AZs) para restaurar gradualmente la estabilidad del sistema.

Se priorizó la recuperación de DynamoDB y los servicios dependientes.
Se implementaron ajustes en la gestión de instancias EC2, recomendando a los usuarios no especificar una zona de disponibilidad concreta para permitir mayor flexibilidad en los lanzamientos.
Se normalizó el procesamiento de Lambda y SQS, que habían acumulado grandes volúmenes de mensajes pendientes.
Los servicios CloudTrail y EventBridge comenzaron a procesar correctamente los eventos atrasados.

Hacia las 7:29 AM PDT, AWS informó que la mayoría de los servicios estaban mostrando signos claros de recuperación, aunque continuaban investigando el origen exacto del fallo para evitar recurrencias.

Impacto global y lecciones aprendidas

Aunque el problema se limitó oficialmente a la región US-EAST-1, muchas plataformas globales se vieron afectadas debido a su dependencia centralizada de esta zona.
Casos como este refuerzan la importancia de una arquitectura multirregional, el uso de copias redundantes y estrategias de recuperación ante fallos (Disaster Recovery) para minimizar el impacto en aplicaciones críticas.

AWS aseguró que continuará mejorando sus mecanismos de supervisión y respuesta ante incidentes para garantizar una mayor resiliencia y disponibilidad de sus servicios en el futuro.

La caída de AWS en la región US-EAST-1 fue causada por un problema de resolución DNS que afectó la comunicación entre servicios internos.
Gracias a una rápida respuesta y múltiples mitigaciones, la mayoría de los servicios se recuperaron en pocas horas, aunque el impacto fue global debido a la relevancia de esta región para muchas empresas tecnológicas.

Puedes dar seguimiento al estado actual de los servicios en la página oficial de AWS