Renginiai 0
Lt
Renginiai 0
Paieškos rezultatas:
Ką Cloudflare daro, kad išvengtų didelio masto trikdžių pasikartojimo- vaizdas 1

Ką Cloudflare daro, kad išvengtų didelio masto trikdžių pasikartojimo

Dideli infrastruktūros incidentai įrodo, kad tradiciniai požiūriai į pokyčių diegimą nebeatitinka šiuolaikinio verslo griežtų reikalavimų. Programinės klaidos arba neteisingos konfigūracijos gali staiga paralyžiuoti pasaulines korporatyvines ekosistemas, todėl architektūrinis atsparumas tampa IT departamentų prioritetu. Cloudflare Code Orange iniciatyvos pabaiga demonstruoja perėjimą prie naujos „Fail Small“ paradigmos, kuri koncentruojasi į poveikio spindulio izoliaciją ir saugių procesų automatizavimą.

Ką Cloudflare daro, kad išvengtų didelio masto trikdžių pasikartojimo - vaizdas 1
PROBLEMA

Rizikos dėl tiesioginio globalių konfigūracijų taikymo

Šiuolaikiniai masteliniai tinklai pasirodė pažeidžiami kaskadinių gedimų, kai klaida viename faile iškart plinta į visus srauto apdorojimo mazgus.

Cloudflare infrastruktūros trikdžiai, įvykę 2025 m. lapkričio 18 d. ir gruodžio 5 d., turėjo bendrą priežastį: mechanizmų laipsniškam paslaugos degradavimui trūkumas. Didelis konfigūracijų pakeitimų leidimų greitis be atitinkamų atsargumo priemonių tiesiogiai kelia grėsmę įmonių operacinei veiklai. Šių incidentų analizė paskatino kūrėjus į gilią inžinerinę reformą ir naujų įrankių kūrimą sistemų būklės kontrolei (health-mediated deployments) bet kokių tinklo intervencijų metu.

PAKEITIMŲ DIEGIMAS

Laipsniškas paleidimas per Snapstone sistemą

Konfigūracijų valdymas reikalauja tarpinio patvirtinimo etapų, kad potencialiai pavojingi atnaujinimai nepasiektų gamybos aplinkos (production). Tam Cloudflare komanda sukūrė vidinę Snapstone sistemą, kuri pakuoja pakeitimus į izoliuotus vienetus ir leidžia jų laipsnišką diegimą, stebint veikimo tinkamumą realiu laiku. Anksčiau šis požiūris reikalavo didelių pastangų kiekvienai komandai atskirai, tačiau dabar jis tapo numatytuoju standartu. Jei nauja konfigūracija pasirodo esanti defektinė, sistema automatiškai sustabdo procesą ir grąžina nustatymus į paskutinę stabilią versiją, apsaugodama klientų srautą nuo trikdžių.

GEDIMŲ IZOLIACIJA

Srauto segmentacija ir dalinio degradavimo scenarijai

Svarbi „Fail Small“ koncepcijos dalis yra tinklo gebėjimas atlaikyti dalinius gedimus be visiško paslaugų sustabdymo. Kūrėjų komandos peržiūrėjo galimus gedimo vektorius ir panaikino nekritines vykdymo metu priklausomybes. Nuo šiol klaidos atveju sistema pagal nutylėjimą naudoja paskutinę žinomą veikiančią konfigūraciją („fail stale“ scenarijus), o jei tai neįmanoma, taiko „fail open“ arba „fail close“ principus, kad tęstų srauto maršrutizavimą sumažintu funkcionalumu.

Pavyzdžiui, mašininio mokymosi klasifikatorius dėl botų aptikimo dabar veikia izoliuotuose segmentuose, ir gedimo atveju jo poveikis apribojamas nedidele testinio srauto dalimi iki automatinio klaidingo kodo atšaukimo.

AVARINIS PRIEINAMUMAS

Atsarginės tinklo prieinamumo atkūrimo procedūros

Cloudflare architektūra susiduria su ciklinės priklausomybės paradoksu: kai Zero Trust saugumo priemonės saugo pačią Cloudflare vidinę tinklą, jos gedimas blokuoja tuos kelius, kurie reikalingi incidentui pašalinti. Siekdami išspręsti šią problemą, Cloudflare inžinieriai sukūrė atsarginius autorizacijos kelius 18 pagrindinių paslaugų ir sukūrė avarinius proxy prieigos scenarijus.

Per didelio masto mokymus, vykusius 2026 m. balandžio 7 d., daugiau nei 200 kompanijos ekspertų praktikavo šias procedūras, įgyjant būtinas darbo spaudimo sąlygomis įgūdžius. Tai ženkliai pagreitino reagavimo į incidentus ciklą net ir visiškos bazinės infrastruktūros matomumo praradimo sąlygomis.

INSTITUCINĖ ATMINTIS

Inžinerinio kodekso taisyklių automatizavimas

Norėdama išvengti praeities klaidų pasikartojimo, Cloudflare įdiegė vidinį Inžinerijos Kodeksą (Engineering Codex), kurio vykdymas kontroliuojamas dirbtinio intelekto visais kūrimo ciklo etapais.

Dirbtinio intelekto agentai automatiškai analizuoja kodą ir blokuoja užklausas sujungti, jei jos pažeidžia nustatytas taisykles — pavyzdžiui, .unwrap() funkcijos Rust kalboje naudojimas be klaidų apdorojimo arba kreipimasis į neegzistuojančius objektus Lua kalboje. Dėl to poveikio spindulys sumažėja nuo milijonų vartotojų iki vieno kūrėjo, kuris gauna atmestą užklausą ir išsamias rekomendacijas dėl savo kodo taisymo.

KOMUNIKACIJOS SKAIDRUMAS

Nauji informavimo partneriams standartai

Patikimumas apima ne tik technologinį stack’ą, bet ir sąveikos su klientais ir suinteresuotosiomis šalimis procesus. Code Orange iniciatyvos rėmuose kompanija įdiegė griežtus paslaugų lygio įsipareigojimus (SLO) visoms paslaugoms ir sukūrė atskirą komunikacijos komandą. Kritinių situacijų atveju klientai gauna numatytus pranešimus kas 30-60 minučių, tai leidžia vadovams planuoti savo operacinę veiklą remiantis faktais.

Apibendrinant Cloudflare Code Orange iniciatyvos rezultatus, galima išskirti keletą pagrindinių aspektų. Architektūrinis patikimumas kuriamas lokalizuojant trikdžius, automatizuota patvirtinimo ir srauto segmentavimo sistema efektyviai sumažina netikslių konfigūracijų riziką. Be to, patikimų avarinių procedūrų buvimas ir skaidri komunikacija sukuria tvirtą pasitikėjimą šiuolaikinėmis debesijos infrastruktūromis.

Įmonė iIT Distribution kaip Cloudflare sprendimų distributorius siūlo išsamią ekspertų pagalbą kuriant ir modernizuojant korporatyvines saugumo sistemas. iIT Distribution specialistų komanda glaudžiai dirba su partneriais visuose diegimo ir projekto priežiūros etapuose, pritaikydama pažangias pasaulines technologijas prie specifinių vietinio verslo poreikių, kad pasiektų maksimalų operacinės atsparumo lygį.

Naujienos

Dabartinės naujienos jūsų tema

Visos naujienos
Visos naujienos