Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Descubre cómo Reddit ha mejorado su infraestructura mediante Kubernetes, reduciendo errores y aumentando la eficiencia en la gestión de clústeres. Conoce los beneficios de esta transformación.
El 13 de marzo de 2022, Reddit sufrió una caída significativa que reveló la urgencia de mejorar su gestión de infraestructura. Este incidente, conocido como el apagón del “Día Pi”, destacó la ineficiencia en los procedimientos de actualización de Kubernetes, lo que llevó a la empresa a replantear su enfoque operativo. A medida que Reddit se expandía a nivel global y se preparaba para una oferta pública inicial (IPO), se hizo evidente que era necesario adoptar un nuevo modelo de abstracción de plataforma.
Tres años atrás, el equipo de ingenieros de infraestructura de Reddit pasaba la mayor parte de su tiempo resolviendo problemas en lugar de innovar. Karan Thukral, ingeniero de software, y Harvey Xia, también ingeniero en la empresa, presentaron en KubeCon+CloudNativeCon cómo un nuevo enfoque basado en Kubernetes les permitió cambiar de un modo reactivo a uno proactivo. “Hemos podido abordar problemas más desafiantes con menos personas”, afirmó Thukral, subrayando el impacto positivo de esta transformación.
En 2022, Reddit operaba 20 clústeres de producción con Kubernetes, pero el equipo de infraestructura contaba con solo 92 ingenieros, en comparación con los 706 dedicados al desarrollo de aplicaciones. La creación de nombres de espacio, un requisito para cada aplicación en Kubernetes, resultaba en errores frecuentes debido a la falta de experiencia de los desarrolladores en la redacción de especificaciones correctas. Esto, a su vez, alargaba el tiempo de revisión de aplicaciones y provocaba fallos en el proceso de integración continua.
Xia describió un ciclo de ineficiencia donde la configuración de los clústeres se desvirtuaba con el tiempo, creando lo que se conocía como infraestructura “embrujada”. Esto dificultaba a los ingenieros comprender cómo debían comportarse los clústeres y hacía los procesos de operación extremadamente peligrosos. “Este enfoque reactivo dificultaba la planificación de un futuro sostenible”, explicó Xia.
Reddit decidió implementar un conjunto de APIs declarativas respaldadas por procesos de control de Kubernetes, en lugar de herramientas de Infraestructura como Código (IaC). Esta decisión fue crucial para modelar flujos de trabajo complejos que IaC estándar no podía manejar. “Los controladores de Kubernetes garantizan que el estado actual siempre se dirija al estado deseado”, afirmó Xia.
Hoy en día, los ingenieros de infraestructura de Reddit pasan menos tiempo gestionando clústeres. Con un sistema que permite gestionar múltiples clústeres desde una única interfaz, la compañía ha mejorado significativamente su escalabilidad y seguridad. Ahora, establecer un nuevo clúster toma aproximadamente dos horas, y las actualizaciones se realizan en una hora. Gracias a la implementación de la SDK Achilles, la creación de controladores ahora es un proceso más ágil, permitiendo a los ingenieros enfocarse en resolver problemas más importantes.
Reddit sigue avanzando en su camino hacia la optimización de su infraestructura. La implementación de plataformas de abstracción ha permitido a los ingenieros enfocarse en problemas más significativos, transformando su operativa y preparándolos para enfrentar los desafíos futuros. ¿Cómo crees que otras empresas deberían aprender de la experiencia de Reddit para mejorar su gestión de infraestructura?
Source