5 sierpnia warstwa drugiego poziomu blockchaina Coinbase, Base, doświadczyła 33-minutowej przerwy w działaniu, gdy jej aktywny sekwencer nie nadążał za ciężkim ruchem w łańcuchu, co wywołało przełączenie awaryjne, które nie zadziałało zgodnie z zamierzeniami.
Moduł Conductor w OP Stack poprawnie zainicjował przejście na sekwencer zapasowy, jednak instancja zapasowa nie została w pełni przygotowana i w efekcie nie mogła generować bloków, co spowodowało zatrzymanie sieci do momentu interwencji inżynierów.
Incydent rozpoczął się o 06:07 UTC, wstrzymując porządkowanie transakcji i zatwierdzenia bloków do 06:40 UTC, kiedy to ręczne działania naprawcze przywróciły normalne działanie bez wywoływania reorganizacji łańcucha.
Base podkreśliło, że podczas awarii zespół skupił się na kontrolowanym przejęciu przywództwa, aby zmniejszyć ryzyko reorganizacji bloków, co przyczyniło się do czasu trwania przerwy w usługach.
Awaria uwydatnia operacyjną zależność od scentralizowanych węzłów sekwencera w sieciach drugiego poziomu oraz krytyczną potrzebę niezawodnych mechanizmów przełączenia awaryjnego.
W odpowiedzi inżynierowie Base planują usprawnić swoje procesy przygotowawcze, aby zapewnić pełną integrację wszystkich węzłów sekwencera z Conductor przed wydarzeniami wyborczymi.
Dodatkowe testy zostaną wprowadzone, aby zweryfikować logikę automatycznego przełączania awaryjnego w różnych scenariuszach obciążenia, co zmniejszy zależność od ręcznej interwencji w przyszłych incydentach.
Rekordowy ruch Base spowodowany nowymi emisjami tokenów i mintami NFT prawdopodobnie zwiększył obciążenie sekwencera, ujawniając lukę w protokołach redundancji.
Raport powypadkowy podkreśla znaczenie testów gotowości dla zapasowych sekwencerów oraz ulepszonego monitoringu w celu wykrywania problemów z przygotowaniem przed rozpoczęciem przełączenia awaryjnego.
Projekty warstwy drugiej w całym ekosystemie mogą przyjąć podobne strategie, aby wzmocnić odporność sekwencerów i zminimalizować ryzyko przestojów, zwłaszcza w miarę rosnących wolumenów transakcji.
Analitycy zauważają, że dostępność sieci i niezawodność przełączania awaryjnego są kluczowymi czynnikami dla instytucjonalnej adopcji rozwiązań rollup, a stabilność operacyjna wpływa na zaufanie deweloperów i użytkowników.
Planowane ulepszenia infrastruktury Base mają na celu wzmocnienie jego pozycji jako niezawodnej platformy drugiego poziomu w ekosystemie Ethereum.
Patrząc w przyszłość, Base podzieli się szczegółowymi aktualizacjami technicznymi na temat postępów oraz będzie współpracować z szerszą społecznością OP Stack, aby udoskonalić standardy i najlepsze praktyki przełączania awaryjnego.
Komentarze (0)