Šis lielais valodas modelis ir apmācīts tumšajā tīmeklī, lai novērtētu kiberdrošības draudus. Lūk, kas jums jāzina.
Lielo valodu modeļu (LLM) popularitāte strauji pieaug, un uz skatuves pastāvīgi parādās jauni modeļi. Šie modeļi, piemēram, ChatGPT, parasti tiek apmācīti dažādos interneta avotos, tostarp rakstos, vietnēs, grāmatās un sociālajos medijos.
Dienvidkorejas pētnieku komanda bezprecedenta veidā izstrādāja DarkBERT — LLM, kas apmācīta datu kopās, kas iegūtas tikai no tumšā tīmekļa. Viņu mērķis bija izveidot AI rīku, kas pārspēj esošos valodu modeļus un palīdz draudu pētniekiem, tiesībaizsardzības iestādēm un kiberdrošības speciālistiem cīnīties ar kiberdraudiem.
Kas ir DarkBERT?
DarkBERT ir uz transformatoriem balstīts kodētāja modelis, kura pamatā ir RoBERTa arhitektūra. LLM tika apmācīts par miljoniem tumšu tīmekļa lapu, tostarp datiem no hakeru forumiem, krāpnieciskām vietnēm un citiem tiešsaistes avotiem, kas saistīti ar nelikumīgām darbībām.
Termiņš "tumšais tīmeklis" attiecas uz slēptu interneta sadaļu
nav pieejams, izmantojot standarta tīmekļa pārlūkprogrammas. Apakšsadaļa ir slavena ar to, ka tajā atrodas anonīmas vietnes un tirgus, kas ir bēdīgi slaveni ar nelikumīgām darbībām, piemēram, zagtu datu, narkotiku un ieroču tirdzniecību.Lai apmācītu DarkBERT, pētnieki ieguva piekļuve tumšajam tīmeklim caur Tor tīklu un apkopoja neapstrādātus datus. Viņi rūpīgi filtrēja šos datus, izmantojot tādas metodes kā dublēšanas atcelšana, kategoriju līdzsvarošana un iepriekšēja apstrāde izveidot pilnveidotu tumšā tīmekļa datubāzi, kas pēc tam aptuveni 15 dienu laikā tika ievadīta RoBERTa, lai izveidotu DarkBERT.
Iespējamie DarkBERT lietojumi kiberdrošībā
DarkBERT izcili saprot kibernoziedznieku valodu, un tas ir izcils konkrētu potenciālo draudu pamanīšanā. Tas var izpētīt tumšo tīmekli un veiksmīgi identificēt un atzīmēt kiberdrošības draudus, piemēram, datu noplūdi un izspiedējvīrusu programmatūru, padarot to par potenciāli noderīgu rīku cīņā pret kiberdraudiem.
Lai novērtētu DarkBERT efektivitāti, pētnieki to salīdzināja ar diviem slaveniem NLP modeļiem, BERT un RoBERTa, novērtējot to veiktspēju trīs būtiskos ar kiberdrošību saistītos lietošanas gadījumos, pētījums, Publicēts arxiv.org, norāda.
1. Pārraugiet tumšos tīmekļa forumus, lai atklātu potenciāli kaitīgus pavedienus
Tumšā tīmekļa forumu uzraudzība, ko parasti izmanto nelikumīgas informācijas apmaiņai, ir ļoti svarīga, lai identificētu potenciāli bīstamus pavedienus. Tomēr manuāla to pārskatīšana var būt laikietilpīga, padarot procesa automatizāciju izdevīgu drošības ekspertiem.
Pētnieki koncentrējās uz potenciāli kaitīgām darbībām uzlaušanas forumos, izstrādājot anotācijas vadlīnijas ievērības cienīgiem pavedieniem, tostarp konfidenciālu datu kopīgošanai un kritiskas ļaunprātīgas programmatūras izplatīšanai vai ievainojamības.
DarkBERT pārspēja citus valodu modeļus precizitātes, atsaukšanas un F1 rezultāta ziņā, kļūstot par izcilāko izvēli ievērības cienīgu pavedienu identificēšanai tumšajā tīmeklī.
2. Atklājiet vietnes, kurās tiek glabāta konfidenciāla informācija
Hakeri un izspiedējvīrusu grupas izmanto tumšo tīmekli, lai izveidotu noplūdes vietnes, kurās publicē konfidenciālus datus, kas nozagti organizācijām, kuras atsakās izpildīt izpirkuma prasības. Citi kibernoziedznieki vienkārši augšupielādē nopludinātus sensitīvus datus, piemēram, paroles un finanšu informāciju, tumšajā tīmeklī, lai tos pārdotu.
Savā pētījumā pētnieki apkopoja datus no bēdīgi slavenās ransomware grupas un analizēja izspiedējvīrusu noplūdes vietnes, kas publicē organizāciju privātos datus. DarkBERT pārspēja citus valodu modeļus šādu vietņu identificēšanā un klasificēšanā, parādot savu izpratni par valodu, ko izmanto pazemes hakeru forumos tumšajā tīmeklī.
DarkBERT izmanto aizpildīšanas maskas funkciju, kas ir BERT ģimenes valodu modeļu raksturīgā iezīme, lai precīzi identificētu atslēgvārdus, kas saistīti ar nelikumīgām darbībām, tostarp narkotiku pārdošanu tumšajā tīmeklī.
Kad vārds "MDMA" tika maskēts zāļu pārdošanas lapā, DarkBERT ģenerēja ar narkotikām saistītus vārdus, savukārt citi modeļi ieteica vispārīgus vārdus un terminus, kas nav saistīti ar narkotikām, piemēram, dažādas profesijas.
DarkBERT spēja identificēt atslēgvārdus, kas saistīti ar nelikumīgām darbībām, var būt vērtīga, lai izsekotu un novērstu jaunus kiberdraudus.
Vai DarkBERT ir pieejams plašai sabiedrībai?
DarkBERT pašlaik nav pieejams sabiedrībai, taču pētnieki ir atvērti pieprasījumiem izmantot to akadēmiskiem nolūkiem.
Izmantojiet AI spēku draudu noteikšanai un novēršanai
DarkBERT ir iepriekš apmācīts par tumšā tīmekļa datiem un pārspēj esošos valodu modeļus vairākos kiberdrošības lietojuma gadījumos, pozicionējot sevi kā būtisku instrumentu tumšā tīmekļa izpētes veicināšanai.
Tumšajā tīmeklī apmācīto AI var izmantot dažādiem kiberdrošības uzdevumiem, tostarp tādu vietņu identificēšanai, kurās tiek pārdotas nopludinātas konfidenciālus datus, tumšā tīmekļa forumu uzraudzību, lai atklātu nelikumīgu informācijas koplietošanu, un ar kibernoziegumiem saistītu atslēgvārdu identificēšanu draudiem.
Taču vienmēr jāatceras, ka, tāpat kā citi LLM, DarkBERT ir nepabeigts darbs, un tā veiktspēju var uzlabot, nepārtraukti apmācot un pilnveidojot.