Renginiai 0
Lt
Renginiai 0
Paieškos rezultatas:
Netiesioginės promptų injekcijos: dirbtinio intelekto auditorių pažeidžiamumai įmonių kode- vaizdas 1

Netiesioginės promptų injekcijos: dirbtinio intelekto auditorių pažeidžiamumai įmonių kode

Cloudforce One išanalizavo 18 400 API iškvietimų, siekdama nustatyti, kaip kibernetiniai nusikaltėliai pasitelkia lingvistinę apgaulę ir failų struktūrą automatizuotiems DI auditoriams apeiti. Paaiškėjo, kad išmaniosios kodo tikrinimo sistemos praranda gebėjimą aptikti grėsmes, kai manipuliaciniai komentarai sudaro mažiau nei 1 % failo arba kai pavojingas turinys paslepiamas didesniuose nei 3 MB masyvuose. Šis netiesioginis atakos mechanizmas apsaugos priemones paverčia pažeidžiama IT infrastruktūros grandimi ir reikalauja naujų duomenų išankstinio apdorojimo metodų.

Netiesioginės promptų injekcijos: dirbtinio intelekto auditorių pažeidžiamumai įmonių kode - vaizdas 1
Problematika

Sistemų lingvistinės apgaulės analitika

2026 m. kovą Cloudforce One tyrėjai (Cloudflare padalinys) užfiksavo bandymus manipuliuoti aptikimo sistemomis pasitelkiant netiesioginę kodo promptų injekciją (IDPI). Užuot naudojęs tradicinius eksploitus, kibernetinis nusikaltėlis įterpia paslėptas instrukcijas į išeities kodą, kad pakeistų didžiojo kalbos modelio veikimo logiką. Stebint Workers platformą buvo aptikti VPN ir proxy tuneliavimo scenarijai, kuriuose nustatyta neįprasta anomalija — tūkstančiai eilučių su daugiakalbėmis antraštėmis „Notice to AI“. Tai buvo natūralia kalba suformuluotos instrukcijos, skirtos įtikinti automatizuotą auditorių visišku sprendimo saugumu ir teisėtumu. Modeliai savo konteksto lange dažnai teikia prioritetą autoritetingai atrodančiam tekstui, ignoruodami savo pačių grėsmių aptikimo mokymą.

Mastas

Pažeidžiamumų testavimas su realiais duomenimis

Siekdama įvertinti tokių manipuliacijų poveikį, komanda atliko plataus masto eksperimentą, išanalizavusi 18 400 API iškvietimų, paremtų 100 patvirtintų kenkėjiškų scenarijų. Testavimas apėmė septynis skirtingus dirbtinio intelekto modelius, suskirstytus į flagmanines sistemas, pasižyminčias aukštu samprotavimo lygiu, ir bazinius didelės spartos sprendimus. Manipuliacinių intarpų apimtis buvo didinama nuo vieno komentaro iki tūkstančio viename scenarijuje, juos atsitiktinai paskirstant visame tekste. Tai leido imituoti realistišką kūrimo struktūrą ir nustatyti paslėptas ribas, po kurių DI auditorius pradeda klaidingai klasifikuoti pavojingus objektus kaip visiškai teisėtus.

Funkcionalumas

Apėjimo zona ir pasikartojimo trigeris

Tyrimas atskleidė vadinamąją U formos manipuliacijų efektyvumo kreivę, kurioje vidutinis komentarų kiekis sėkmingai mažina aptikimo lygį, o ekstremalios apimtys, priešingai, sustiprina sistemos dėmesį. Didžiausia rizika kyla „apėjimo zonoje“, kai tokie teiginiai sudaro mažiau nei 1 % bendro failo dydžio — šiame intervale vidutinis aptikimo rodiklis sumažėja nuo 67,3 % iki 53,3 %. Tuo tarpu daugiau nei 1000 komentarų integravimas veikia kaip būdingas sukčiavimo pėdsakas. Tokiais atvejais dauguma modelių teksto prisotinimą saugumo deklaracijomis atpažįsta kaip kenkėjiško ketinimo indikatorių, todėl blokavimo lygis išauga iki 99 %.

Obfuskacija

Konteksto nuovargis ir lingvistinės šališkumo apraiškos

Pavojingiausia išvada buvo ta, kad struktūrinis slėpimas pranoksta lingvistinę apgaulę. Pavojingos logikos patalpinimas didesniuose nei 3 MB failuose, kuriuose yra didelės apimties teisėtų bibliotekų, tokių kaip React SDK, perkrauna modelio konteksto langą ir sumažina grėsmių aptikimo efektyvumą iki 12–18 %. Be to, DI auditoriai demonstruoja specifines lingvistinio šališkumo apraiškas. Pavyzdžiui, komentarus rusų ar kinų kalbomis kai kurie modeliai suvokia kaip stiprų rizikos signalą ir reikšmingai padidina aptikimo lygį, o estų kalba kai kuriais atvejais netyčia sumažindavo analizuojamo scenarijaus įtartinumą.

Architektūra

Duomenų valymas prieš di analizę

Automatizuotų tikrinimo konvejerių apsauga reikalauja iš esmės pertvarkyti struktūrų parengimo procesus prieš perduodant jas analizei. Esminiu etapu tampa automatizuotas komentarų pašalinimas, kuris visiškai neutralizuoja lingvistinį poveikį DI modeliams. Papildomą apsaugą suteikia tikslingas standartinio trečiųjų šalių komponentų kodo atmetimas analizatorių veikimo metu, leidžiantis auditoriui koncentruotis išimtinai į paties kūrėjo logiką. Ekspertai taip pat pabrėžia būtinybę anonimizuoti kintamųjų pavadinimus, kad būtų išvengta „draugiškų“ ar neutralių vardų poveikio galutiniam sistemos verdiktui.

Evoliucija

Saugumo sistemų paralyžiaus rizikos

Be tiesioginio tikrinimų apėjimo, ekstremalios informacinio triukšmo apimtys gali sukelti struktūrinį flagmaninių DI modelių samprotavimo lūžį. Užuot klasifikavusi grėsmę, sistema atsisako formuoti atsaką ir generuoja nesuprantamą tekstą arba klaidas. Tai sukuria funkcinio paralyžiaus situaciją, kai automatizuotos kibernetinio saugumo priemonės paprasčiausiai nebegali išsiųsti komandos blokuoti objekto vykdymo. Taigi šiuolaikinėms organizacijoms nepakanka vien įdiegti DI galimybes — būtina jį integruoti į profesionaliai suprojektuotą analitikos procesą, išvalytą nuo bet kokio kontekstinio triukšmo.

Autonominių agentų integracija į kodo tikrinimo procesus atveria naujų galimybių technologijų verslui, tačiau kartu pačius modelius paverčia manipuliacijų taikiniais. Efektyvi apsauga pasiekiama taikant tinkamą architektūrą: pašalinant lingvistinius spąstus, sutelkiant dėmesį į tikslinius scenarijus ir užkertant kelią konteksto nuovargiui dėl perteklinės įvesties apimties.

Būdama oficiali Cloudflare sprendimų distributorė, iIT Distribution siūlo ekspertinę pagalbą diegiant šiuolaikines informacijos saugumo sistemas. iIT Distribution komanda lydi projektus visais etapais — nuo architektūrinių rizikų vertinimo iki grėsmių aptikimo platformų diegimo ir konfigūravimo, padėdama partneriams lanksčiai ir patikimai apsaugoti įmonių infrastruktūrą.

Naujienos

Dabartinės naujienos jūsų tema

Visos naujienos
Visos naujienos