Las empresas necesitan replantearse las expectativas de fiabilidad en la nube

Según Sam Barker, vicepresidente de investigación de mercado de telecomunicaciones en Juniper Research, las empresas sobreestiman la fiabilidad de sus proveedores de nube y necesitan replantear su estrategia en la nube.

En un blog de la compañía, afirmó que las empresas dependen excesivamente de un único proveedor para sus servicios en la nube, aunque esto podría cambiar tras la interrupción de Amazon Web Services (AWS) el mes pasado, que afectó a un servicio clave de base de datos y provocó que muchos servicios que dependen de AWS también sufrieran interrupciones, como Disney+, Fortnite, HBO Max, Robinhood, Roblox, Slack, Venmo y Zoom.

«A pesar de la interrupción, las acciones de Amazon se mantuvieron relativamente estables, lo que sugiere que los inversores siguen confiando en el liderazgo de la compañía en el mercado a largo plazo», escribió Barker. «Sin embargo, el incidente podría acelerar la demanda de herramientas de orquestación multicloud, computación en el borde y servicios que aumenten la resiliencia general de los servicios en la nube».

«En general, esperamos que la interrupción impulse a las empresas a explorar nuevas soluciones o modelos de negocio para aumentar el tiempo de actividad de sus servicios», añadió.

Si bien las recientes interrupciones en AWS y Microsoft Azure provocaron una disminución del rendimiento y tiempos de inactividad para muchas organizaciones, Lydia Leong, vicepresidenta y analista de Gartner, señaló: «Estos eventos ponen de relieve una verdad importante: las interrupciones en la nube ocurren, pero no demuestran que la nube sea inherentemente poco fiable».

En un artículo publicado en el sitio web de Gartner, advirtió que trasladar las cargas de trabajo fuera de los proveedores hiperescalables (repatriación) o a nubes soberanas más pequeñas (geopatriación) no elimina el riesgo de interrupciones. «De hecho», escribió, «estas migraciones a menudo introducen nuevos riesgos e incluso pueden ralentizar la recuperación cuando surgen problemas».

«Es tentador pensar que la solución es la multinube», continuó. «Pero la investigación de Gartner demuestra que buscar la resiliencia multinube puede costar más de lo que ahorra, introduciendo complejidad técnica sin eliminar realmente el riesgo sistémico».

«Las interrupciones en la nube son noticia porque afectan a muchas personas a la vez, pero el contexto es fundamental», añadió. Todos los grandes proveedores han experimentado eventos similares, desde Microsoft Azure hasta Google Cloud Platform. El factor clave es la capacidad de la organización para planificar y recuperarse de las interrupciones inevitables.

El riesgo no se puede eliminar por completo.

Los últimos años han demostrado la fragilidad del mundo digital, según Shawn Michels, vicepresidente de gestión de productos de Akamai Technologies, proveedor de servicios de red de distribución de contenido con sede en Cambridge, Massachusetts. «Desde caídas de plataformas en la nube hasta cortes de cables submarinos, incluso los sistemas más sofisticados pueden sufrir fallos», declaró.

«Muchas organizaciones siguen asumiendo que, por el simple hecho de que algo se ejecute en la nube, es automáticamente resistente, pero no es así», afirmó. «Ni siquiera las nubes más grandes tienen un tiempo de actividad perfecto».

«Lo que distingue a los mejores es la capacidad de un sistema para reaccionar ante pequeños fallos y prevenir una interrupción mayor», continuó. «No se puede evitar que todos los componentes fallen, pero se pueden diseñar sistemas que se recuperen con tanta rapidez que los clientes apenas lo noten».

Añadió que las interrupciones nos recuerdan que no se puede eliminar todo riesgo mediante la ingeniería. «Las organizaciones más resilientes están replanteando sus arquitecturas mediante implementaciones por fases, capacidades de reversión automatizadas y observabilidad continua para garantizar que los problemas se detecten y contengan a tiempo», explicó. «La verdadera resiliencia tiene tanto que ver con la cultura como con la arquitectura técnica. Se trata de cómo las personas se preparan para el fracaso, responden bajo presión y aprenden de cada incidente».

Si bien los principales proveedores hiperescalables son extremadamente fiables, no lo son por igual, afirmó Rich Mogull, analista jefe de Cloud Security Alliance, una organización sin ánimo de lucro dedicada a las mejores prácticas en la nube. «Las empresas tienden a pasar por alto estas diferencias», dijo.

«Por ejemplo», continuó, «AWS rara vez sufre fallos entre regiones y, cuando los sufre, suelen ser limitados. Se puede planificar en gran medida teniendo en cuenta este potencial. Azure, en comparación, es más propenso a experimentar fallos globales debido al diseño de su infraestructura».

Sin inmunidad a las interrupciones.

Las empresas sobreestiman enormemente la fiabilidad de la nube, asumiendo a menudo que la infraestructura global en la nube es inherentemente inmune a las interrupciones debido a la redundancia, afirmó Ensar Seker, CISO de SOCRadar, una empresa de inteligencia de amenazas con sede en Newark, Delaware.

“En realidad, la redundancia mitiga el riesgo, pero no lo elimina”, declaró. “Incluso los hiperescaladores como AWS o Azure operan en una compleja red de dependencias entre regiones, zonas y servicios de terceros. Un problema en una capa —como la federación de identidades, la propagación de DNS o el enrutamiento del balanceador de carga— puede propagarse y afectar a funcionalidades críticas, incluso si los nodos de cómputo principales están operativos”.

“Lo fundamental que las empresas deben comprender es que las interrupciones en la nube son inevitables, no hipotéticas”, añadió. “La cuestión no es si ocurrirán, sino con qué frecuencia y cuán preparada está la organización”.

“La interrupción de AWS en junio de 2023, por ejemplo, afectó a todo, desde portales bancarios hasta sistemas hospitalarios, no porque AWS careciera de redundancia, sino porque las empresas no habían diseñado sus aplicaciones para soportar la degradación regional o específica de cada servicio”, añadió.

“El día en que existan nubes con un tiempo de actividad del 100% será el día en que se eliminen todos los problemas del mundo”, declaró John Strand, de Strand Consulting, una consultora danesa especializada en telecomunicaciones.

“Actualmente, todo el mundo —y especialmente los hiperescaladores— está construyendo miles de nuevos centros de datos en todo el mundo”, comentó. “El tamaño y la complejidad de estos centros están creciendo exponencialmente, y cuando eso sucede, aumenta el riesgo de que algo falle. Estoy seguro de que muchos de estos problemas se resolverán con el tiempo, aunque surgirán otros nuevos”.

Interpretación errónea del significado de fiabilidad.

Las empresas no sobreestiman la fiabilidad de la nube; Simplemente malinterpretaron su verdadero significado, afirmó Sergiy Balynsky, vicepresidente de ingeniería de Spin.AI, una empresa de ciberseguridad especializada en la protección de aplicaciones SaaS contra el ransomware, la pérdida de datos, las amenazas internas y los riesgos de cumplimiento normativo, con sede en Palo Alto, California. «La nube no es la panacea», declaró. «Es un modelo de responsabilidad compartida».

Señaló que la interrupción de AWS lo ilustra a la perfección. «Los proveedores de la nube ofrecen componentes altamente resilientes —regiones, zonas de disponibilidad, mecanismos de conmutación por error—, pero es responsabilidad de la empresa diseñar para la resiliencia y la continuidad», explicó Balynsky.

«Para eso precisamente sirven la planificación de la continuidad del negocio (BCP) y una arquitectura sólida o buenas prácticas de SRE. Los equipos de BCP y SRE planifican para los fallos, distribuyen el riesgo y mantienen los sistemas críticos en funcionamiento durante las interrupciones. Depender de una sola región o prescindir de la redundancia no es un fallo del proveedor, sino un descuido arquitectónico», concluyó.

Si un cliente está preocupado por la fiabilidad, puede mitigar sus preocupaciones replicando sus operaciones en otra región, señaló David Stone, director de la oficina del CISO de Google Cloud.

“Los clientes pueden diseñar una infraestructura resiliente utilizando diferentes centros de datos en otras regiones, implementándola en distintas zonas dentro de esas regiones y desarrollando ese marco arquitectónico, incluso hasta el punto de crear aplicaciones que abarquen entornos multicloud para garantizar la resiliencia”, declaró.

Srini Srinivasan, fundador y CTO de Aerospike, una empresa de bases de datos NoSQL en tiempo real con sede en Mountain View, California, añadió que los proveedores de la nube ofrecen diversas capacidades que permiten a cualquier empresa alcanzar una disponibilidad extremadamente alta. “Me refiero a una disponibilidad del 99,99%“.

«No hay razón para que una empresa no pueda lograrlo utilizando las funciones y capacidades que ofrecen los proveedores de servicios en la nube», afirmó. «El error que comete la gente es creer que el proveedor de servicios en la nube lo resolverá todo por ellos».

Escalabilidad no equivale a invulnerabilidad.

Sin embargo, Aykut Duman, socio de la práctica de análisis y digitalización de la consultora global de estrategia y gestión Kearney, señaló que durante la interrupción de AWS, a pesar de implementar cargas de trabajo en múltiples zonas de disponibilidad, las organizaciones experimentaron una inactividad total debido a un fallo en la resolución DNS que afectó a servicios esenciales como DynamoDB y EC2.

«Este incidente reveló que la fiabilidad depende tanto de la arquitectura y la distribución de las cargas de trabajo como de la infraestructura del proveedor», declaró. «Las empresas suelen asumir que la redundancia a nivel de proveedor garantiza la disponibilidad, pero la resiliencia debe diseñarse deliberadamente a nivel de aplicación». «Las empresas sobreestiman la fiabilidad de la nube, porque a menudo equiparan la escalabilidad con la invulnerabilidad», añadió. «Si bien los hiperescaladores como AWS, Microsoft y Google ofrecen una disponibilidad impresionante, ningún sistema es inmune a los fallos».

«Las empresas tienden a subestimar la complejidad de los servicios en la nube interdependientes y la rapidez con la que pueden producirse fallos en cascada en sistemas distribuidos», concluyó. “La fiabilidad es alta, pero no absoluta. La reciente interrupción del servicio de AWS puso de manifiesto la idea errónea de que lo nativo de la nube significa automáticamente resiliencia.”

John P. Mello Jr.

También podría gustarte

OpenAI presenta un avance de GPT-5, que llegará este verano

Bill Gurley dice que, en este momento, lo peor que puedes hacer por tu carrera es jugar a lo seguro

Cómo evitar que la IA nos vuelva estúpidos