Kas ir pretrunīgi uzbrukumi AI modeļiem un kā jūs varat tos apturēt?

AI modeļi ir tikai tik labi, cik tajos iekļautie dati. Tas padara šos datus par potenciālu uzbrukumu mērķi.

Mākslīgā intelekta sasniegumi ir būtiski ietekmējuši dažādas jomas. Tas ir radījis pamatu bažām diezgan daudziem tehnoloģiju entuziastiem. Tā kā šīs tehnoloģijas izvēršas dažādās lietojumprogrammās, tās var izraisīt pretinieku uzbrukumu pieaugumu.

Kas ir pretrunīgi uzbrukumi mākslīgajā intelektā?

Pretendējošie uzbrukumi izmanto AI modeļu specifikācijas un ievainojamības. Tie sabojā datus, no kuriem AI modeļi ir iemācījušies, un liek šiem modeļiem ģenerēt neprecīzus rezultātus.

Iedomājieties, ka palaidnis maina kā ananāsus sakārtotās ķemmēšanas flīzes, lai tās kļūtu par "ābolu". Tas ir līdzīgi tam, kas notiek pretinieku uzbrukumos.

Pirms dažiem gadiem dažu nepareizu atbilžu vai rezultātu saņemšana no AI modeļa bija norma. Tagad situācija ir pretēja, jo neprecizitātes ir kļuvušas par izņēmumu, jo AI lietotāji sagaida gandrīz ideālus rezultātus.

Lietojot šos AI modeļus reālās pasaules scenārijos, neprecizitātes var būt letālas, padarot pretinieku uzbrukumus ļoti bīstamus. Piemēram, uzlīmes uz ceļa zīmēm var sajaukt autonomu pašbraucošu automašīnu un likt tai iebraukt satiksmē vai tieši šķērslī.

instagram viewer

Sacensību uzbrukumu veidi

Ir dažādi pretrunīgu uzbrukumu veidi. Ar AI integrācijas palielināšana ikdienas lietojumprogrammās, šie uzbrukumi, iespējams, pasliktināsies un kļūs sarežģītāki.

Tomēr mēs varam aptuveni klasificēt pretrunīgos uzbrukumus divos veidos, pamatojoties uz to, cik daudz draudu dalībnieks zina par AI modeli.

1. Baltās kastes uzbrukumi

In baltās kastes uzbrukumi, draudu dalībniekiem ir pilnīgas zināšanas par AI modeļa iekšējo darbību. Viņi zina tā specifikācijas, apmācības datus, apstrādes metodes un parametrus. Šīs zināšanas ļauj viņiem izveidot pretinieku uzbrukumu tieši šim modelim.

Pirmais solis baltās kastes uzbrukumā ir mainīt sākotnējos treniņu datus, tos sabojājot pēc iespējas mazākā veidā. Modificētie dati joprojām būs ļoti līdzīgi oriģinālajiem, taču pietiekami nozīmīgi, lai AI modelis sniegtu neprecīzus rezultātus.

Tas vēl nav viss. Pēc uzbrukuma draudu aktieris novērtē modeļa efektivitāti, sniedzot tam pretrunīgus piemērus:izkropļotas ievades, kuru mērķis ir izraisīt modeļa kļūdas— un analizē rezultātu. Jo neprecīzāks rezultāts, jo veiksmīgāks uzbrukums.

2. Melnās kastes uzbrukumi

Atšķirībā no balto kastu uzbrukumiem, kur draudu aktieris zina par AI modeļa iekšējo darbību, vainīgie melnās kastes uzbrukumi nav ne jausmas, kā modelis darbojas. Viņi vienkārši novēro modeli no aklās zonas, uzraugot tā ievades un izvades vērtības.

Pirmais solis melnās kastes uzbrukumā ir atlasīt ievades mērķi, ko AI modelis vēlas klasificēt. Pēc tam draudu aktieris izveido ievades ļaunprātīgu versiju, pievienojot rūpīgi izstrādātu troksni, datu traucējumi, kas nav redzami cilvēka acij, bet spēj izraisīt AI modeli darbības traucējumi.

Ļaunprātīgā versija tiek ievadīta modelī, un tiek novērota izvade. Modeļa sniegtie rezultāti palīdz apdraudējuma dalībniekam turpināt modificēt versiju, līdz viņš ir pietiekami pārliecināts, ka tas nepareizi klasificēs visus tajā ievadītos datus.

Pretendentos uzbrukumos izmantotās metodes

Ļaunprātīgas struktūras var izmantot dažādas metodes, lai veiktu pretrunīgus uzbrukumus. Šeit ir daži no šiem paņēmieniem.

1. Saindēšanās

Uzbrucēji var manipulēt (saindēt) nelielu daļu no AI modeļa ievades datiem, lai apdraudētu tā apmācības datu kopas un precizitāti.

Ir vairāki saindēšanās veidi. Viens no izplatītākajiem tiek saukts par saindēšanos ar aizmugures durvīm, kad tiek ietekmēti ļoti maz treniņu dati. AI modelis turpina sniegt ļoti precīzus rezultātus, līdz tas tiek “aktivizēts”, lai pēc saskares ar konkrētiem trigeriem nedarbotos nepareizi.

2. Izvairīšanās

Šis paņēmiens ir diezgan letāls, jo tas ļauj izvairīties no atklāšanas, sekojot AI drošības sistēmai.

Lielākā daļa AI modeļu ir aprīkoti ar anomāliju noteikšanas sistēmām. Izvairīšanās no metodēm izmanto pretrunīgus piemērus, kas tieši seko šīm sistēmām.

Šī metode var būt īpaši bīstama klīniskām sistēmām, piemēram, autonomām automašīnām vai medicīniskās diagnostikas modeļiem. Tie ir lauki, kuros neprecizitātēm var būt smagas sekas.

3. Pārnesamība

Draudu dalībniekiem, kuri izmanto šo paņēmienu, nav vajadzīgas iepriekšējas zināšanas par AI modeļa parametriem. Viņi izmanto pretrunīgus uzbrukumus, kas iepriekš bijuši veiksmīgi pret citām modeļa versijām.

Piemēram, ja pretinieku uzbrukums liek attēlu klasifikatora modelim sajaukt bruņurupuci ar šauteni, precīza uzbrukuma rezultātā citi attēlu klasifikatora modeļi var pieļaut tādu pašu kļūdu. Pārējie modeļi varēja būt apmācīti citā datu kopā un pat tiem bija atšķirīga arhitektūra, taču tie joprojām var kļūt par uzbrukuma upuriem.

4. Surogācija

Tā vietā, lai sekotu modeļa drošības sistēmām, izmantojot izvairīšanās paņēmienus vai iepriekš sekmīgus uzbrukumus, draudu izpildītājs varētu izmantot aizstājēju modeli.

Izmantojot šo paņēmienu, draudu aktieris izveido identisku mērķa modeļa versiju, aizstājēju modeli. Surogāta rezultātiem, parametriem un uzvedībai ir jābūt identiskiem oriģinālajam modelim, kas ir kopēts.

Surogāts tagad tiks pakļauts dažādiem pretrunīgiem uzbrukumiem, līdz tas novedīs pie neprecīza rezultāta vai nepareizas klasifikācijas. Pēc tam šis uzbrukums tiks izmantots sākotnējam mērķa AI.

Kā apturēt pretinieku uzbrukumus

Aizsardzība pret pretinieku uzbrukumiem var būt sarežģīta un laikietilpīga, jo apdraudējuma dalībnieki izmanto dažādas formas un paņēmienus. Tomēr šādas darbības var novērst un apturēt pretinieku uzbrukumus.

1. Sacensību apmācība

Visefektīvākais solis, kas var novērst pretinieku uzbrukumus, ir sacīkstes apmācība, AI modeļu un mašīnu apmācība, izmantojot pretrunīgus piemērus. Tas uzlabo modeļa robustumu un ļauj tam būt noturīgam pret mazākajiem ievades traucējumiem.

2. Regulāra revīzija

Ir nepieciešams regulāri pārbaudīt, vai AI modeļa anomāliju noteikšanas sistēmā nav nepilnību. Tas ietver apzinātu modeļa pievienošanu pretrunīgiem piemēriem un modeļa uzvedības uzraudzību pret ļaunprātīgu ievadi.

3. Datu sanitizācija

Šī metode ietver pārbaudi, vai modelī netiek ievadīta ļaunprātīga ievade. Pēc to identificēšanas tie nekavējoties jānoņem.

Šos datus var identificēt, izmantojot ievades validāciju, kas ietver datu pārbaudi, lai atrastu iepriekš zināmu pretrunīgu piemēru modeļus vai parakstus.

4. Drošības atjauninājumi

Būtu grūti kļūdīties ar drošības atjauninājumiem un ielāpiem. Daudzslāņu drošība, piemēram, ugunsmūri, ļaunprātīgas programmatūras novēršanas programmas un ielaušanās atklāšanas un novēršanas sistēmas var palīdzēt bloķēt ārēju iejaukšanos no apdraudējuma dalībniekiem, kuri vēlas saindēt AI modeli.

Pretendenti uzbrukumi varētu būt cienīgs pretinieks

Sacensību uzbrukumu jēdziens rada problēmas progresīvām mācībām un mašīnmācībām.

Rezultātā mākslīgā intelekta modeļiem jābūt bruņotiem ar tādiem aizsardzības līdzekļiem kā sacīkstes apmācība, regulāra auditēšana, datu sanitārizācija un attiecīgie drošības atjauninājumi.

About Technology - denizatm.com