Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Lär dig hur Reddit revolutionerar sin Kubernetes-infrastruktur för att öka effektiviteten och minska driftproblem, vilket förbättrar plattformens prestanda och framtida tillväxt.
Den 13 mars 2022 drabbades Reddit av ett omfattande driftstopp som varade i 314 minuter. Denna incident, känd som “Pi Day”-utfallet, visade på brister i företagets hantering av sin infrastruktur. Nu, nästan tre år senare, har Reddit implementerat en ny plattform för att effektivisera sin Kubernetes-infrastruktur och undvika liknande problem i framtiden.
Innan förändringen kämpade Reddit med flera ineffektiviteter. Företaget körde 20 produktionskluster som styrdes av Kubernetes, men hade endast 92 infrastrukturingenjörer för att stödja över 700 applikationsingenjörer. Detta ledde ofta till en överbelastning av supportärenden och en långsam hantering av namespaces, vilket fördröjde utvecklingsprocesser.
Varje applikation som körs på Kubernetes behöver en namespace. Problemet uppstod eftersom applikationsutvecklarna inte alltid var experter på att skapa dessa specifikationer, vilket ledde till att fel smög sig in i systemet. Enligt Karan Thukral, senior mjukvaruingenjör på Reddit, kunde det ta upp till en vecka att få en namespace godkänd på grund av tidszonskillnader och bristande kommunikation.
Infrastrukturteamet led av en “reaktiv brandbekämpningsmentalitet”, där de ständigt var tvungna att lösa akuta problem snarare än att kunna planera för framtiden. Enligt Harvey Xia, en annan ingenjör på Reddit, var det svårt att förutsäga hur klustren skulle bete sig, vilket gjorde livscykelhantering riskabel.
Reddit insåg att en ny plattform behövdes för att hantera sin snabbt växande infrastruktur. Istället för att använda traditionella verktyg för Infrastruktur som Kod (IaC) valde de att implementera Kubernetes-kontroller. Denna nya metod möjliggör en mer dynamisk och anpassningsbar hantering av resurser.
Genom att skapa en uppsättning deklarativa API:er som stöder Kubernetes-kontroller, kan Reddit nu hantera kluster via en “single pane of glass”. Detta gör att ingenjörerna kan fokusera på affärslogik istället för att bli experter på Kubernetes.
Sedan implementeringen av den nya plattformen har Reddit sett betydande förbättringar:
Reddit har gjort stora framsteg med sin Kubernetes-infrastruktur, vilket har lett till en mer hållbar och effektiv drift. Genom att investera i plattformsabstraktioner har företaget inte bara löst akuta problem utan också skapat en grund för framtida tillväxt. Hur kommer andra företag att följa i Reddits fotspår för att förbättra sina egna infrastrukturer?
Source