Reddit Förbättrar Sin Kubernetes-Infrastruktur för Bättre Effektivitet

Lär dig hur Reddit revolutionerar sin Kubernetes-infrastruktur för att öka effektiviteten och minska driftproblem, vilket förbättrar plattformens prestanda och framtida tillväxt.

Den 13 mars 2022 drabbades Reddit av ett omfattande driftstopp som varade i 314 minuter. Denna incident, känd som ”Pi Day”-utfallet, visade på brister i företagets hantering av sin infrastruktur. Nu, nästan tre år senare, har Reddit implementerat en ny plattform för att effektivisera sin Kubernetes-infrastruktur och undvika liknande problem i framtiden.

Utmaningar med Kubernetes

Innan förändringen kämpade Reddit med flera ineffektiviteter. Företaget körde 20 produktionskluster som styrdes av Kubernetes, men hade endast 92 infrastrukturingenjörer för att stödja över 700 applikationsingenjörer. Detta ledde ofta till en överbelastning av supportärenden och en långsam hantering av namespaces, vilket fördröjde utvecklingsprocesser.

Problem med Namespace-hantering

Varje applikation som körs på Kubernetes behöver en namespace. Problemet uppstod eftersom applikationsutvecklarna inte alltid var experter på att skapa dessa specifikationer, vilket ledde till att fel smög sig in i systemet. Enligt Karan Thukral, senior mjukvaruingenjör på Reddit, kunde det ta upp till en vecka att få en namespace godkänd på grund av tidszonskillnader och bristande kommunikation.

Driftstopp och ineffektivitet

Infrastrukturteamet led av en ”reaktiv brandbekämpningsmentalitet”, där de ständigt var tvungna att lösa akuta problem snarare än att kunna planera för framtiden. Enligt Harvey Xia, en annan ingenjör på Reddit, var det svårt att förutsäga hur klustren skulle bete sig, vilket gjorde livscykelhantering riskabel.

Lösningen: En Ny Plattform

Reddit insåg att en ny plattform behövdes för att hantera sin snabbt växande infrastruktur. Istället för att använda traditionella verktyg för Infrastruktur som Kod (IaC) valde de att implementera Kubernetes-kontroller. Denna nya metod möjliggör en mer dynamisk och anpassningsbar hantering av resurser.

Implementering av Kubernetes-kontroller

Genom att skapa en uppsättning deklarativa API:er som stöder Kubernetes-kontroller, kan Reddit nu hantera kluster via en ”single pane of glass”. Detta gör att ingenjörerna kan fokusera på affärslogik istället för att bli experter på Kubernetes.

Resultat och Framtid

Sedan implementeringen av den nya plattformen har Reddit sett betydande förbättringar:

  • Snabbare klusteruppsättning: Nu tar det endast två timmar att ställa upp ett nytt kluster.
  • Förbättrad säkerhet och enkelhet: Hanteringen av namespaces har blivit mer strömlinjeformad, vilket minskar risken för fel.
  • Ökad effektivitet: Antalet Kubernetes-kontroller i produktion har ökat från fyra till tolv på kort tid.

Slutsats

Reddit har gjort stora framsteg med sin Kubernetes-infrastruktur, vilket har lett till en mer hållbar och effektiv drift. Genom att investera i plattformsabstraktioner har företaget inte bara löst akuta problem utan också skapat en grund för framtida tillväxt. Hur kommer andra företag att följa i Reddits fotspår för att förbättra sina egna infrastrukturer?

Source

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *