Facebook: Fout in opdracht en audittool veroorzaakte de grote storing
datum: 05-10-2021Categorie: InternetBron: Tweakers
De urenlange storing bij Facebook en zijn diensten werd veroorzaakt door een verkeerde opdracht tijdens routine-onderhoud. De opdracht heeft onverwacht het hele backbone-netwerk offline gehaald, wat een ander probleem veroorzaakte met het border gateway-protocol.
De respectieve opdracht die tijdens regulier onderhoud wordt gegeven, had de "wereldwijde beschikbaarheid van de backbone" in kaart moeten brengen, legt Facebook uit in een blogpost . In plaats daarvan werd het hele backbone-netwerk per ongeluk offline gehaald, waardoor de datacenters van Facebook in wezen werden losgekoppeld van internet. "Onze systemen zijn ontworpen om dit soort foutieve commando's te blokkeren om dit soort fouten te voorkomen, maar een bug in de audittool verhinderde dat."
Vervolgens deed zich een tweede fout voor, in dat geval bij kleinere datacenters waar DNS-verzoeken worden verwerkt. "Om ervoor te zorgen dat ze betrouwbaar werken, zullen [de betrokken datacenters] BGP-advertenties intrekken als ze niet kunnen communiceren met onze datacenters." Door die BGP-advertenties kunnen andere netwerken de Facebook-diensten op internet vinden. Omdat het backbone-netwerk offline ging, waren de DNS-servers niet bereikbaar en werden de BGP-advertenties afgewezen. "Het eindresultaat was dat onze DNS-servers onbereikbaar werden, terwijl ze nog wel werkten."
Uiteindelijk kon de kettingreactie van technische problemen niet op tijd worden opgelost omdat medewerkers fysiek bij de servers moesten komen. Dit is extra lastig door fysieke en systeembeveiligingsmaatregelen in de datacenters van Facebook; zo wordt misbruik voorkomen. Ook het aanpassen van de routers, servers en andere systemen is om dezelfde reden extra moeilijk gemaakt, wat resulteerde in langere debugtijden.
Na de wereldwijde uitval van Facebook en zijn diensten is er veel gespeculeerd over de mogelijke onderliggende redenen. Kort daarna brachten de sociale media een relatief beknopte verklaring uit over wat er de avond ervoor was gebeurd. Tweakers publiceerde dinsdagavond een achtergrondartikel over de storing en de rol van het BGP-protocol, waarin de achterliggende technologie nader wordt besproken.
Update, 22 u00: Het oorspronkelijke artikel was 'grensgateway-protocol' herhaaldelijk onjuist afgekort als 'BPG. Dat is gecorrigeerd. Met dank aan mario963 en markvw .
Nieuws overzicht