GPTBot, iespējams, nav tas, ko jūs domājat.
Key Takeaways
- OpenAI GPTBot ir tīmekļa rāpuļprogramma, kas paredzēta datu apkopošanai no publiskām vietnēm, ko pēc tam izmanto, lai apmācītu un uzlabotu AI modeļus, piemēram, GPT-4 un ChatGPT.
- Dažas no lielākajām tīmekļa vietnēm internetā bloķē GPTBot, jo tas piekļūst ar autortiesībām aizsargātam saturam un to izmanto bez atļaujas vai kompensācijas satura veidotājiem.
- Lai gan vietnes var izmantot tādus rīkus kā robots.txt, lai mēģinātu bloķēt GPTBot, nav garantijas, ka OpenAI ievēros noteikumus, ļaujot tām kontrolēt piekļuvi ar autortiesībām aizsargātiem datiem.
2023. gada augustā OpenAI, mākslīgā intelekta spēkstacija, kuras autors ir ChatGPT, paziņoja par GPTBot — tīmekļa rāpuļprogrammu, kas izstrādāta, lai šķērsotu tīmekli un apkopotu datus.
Neilgi pēc šī paziņojuma dažas no lielākajām tīmekļa vietnēm internetā bloķēja robota piekļuvi savai vietnei. Bet kāpēc? Kas ir OpenAI GPTBot? Kāpēc lielās vietnes no tā baidās un kāpēc tās cenšas to bloķēt?
Kas ir OpenAI GPTBot?
GPTBot ir tīmekļa rāpuļprogramma, ko izveidojis OpenAI, lai meklētu internetā un apkopotu informāciju OpenAI AI izstrādes mērķiem. Tas ir ieprogrammēts, lai pārmeklētu publiskas vietnes un nosūtītu datus atpakaļ uz OpenAI serveriem. Pēc tam OpenAI izmanto šos datus, lai apmācītu un uzlabotu savus AI modeļus, lai izveidotu arvien progresīvākas mākslīgā intelekta sistēmas. Lai izveidotu izsmalcinātus mākslīgā intelekta modeļus, piemēram, GPT-4 vai tā pakārtotos produktus, piemēram, ChatGPT, tīmekļa rāpuļprogrammas ir gandrīz neaizstājamas.
AI modeļa apmācībai ir nepieciešams milzīgs datu apjoms, un viens no efektīvākajiem veidiem, kā iegūt šos datus, ir tādu rīku izvietošana kā tīmekļa rāpuļprogrammas. Rāpuļprogrammas var sistemātiski pārlūkot tīmekli, sekot saitēm, lai rādītu lielu daudzumu tīmekļa lapu, un izvilkt galvenos datus, piemēram, tekstu, attēlus un metadatus, kas atbilst iepriekš noteiktam modelim.
Pēc tam šos datus var strukturēt un ievadīt AI modeļos, lai apmācītu viņu dabiskās valodas apstrādes spējas vai attēlu ģenerēšanas spējas vai apmācītu tos citiem AI uzdevumiem. Vārdu sakot, tīmekļa rāpuļprogrammas apkopo datus, kas ļauj tādiem rīkiem kā ChatGPT vai DALL-E darīt to, ko viņi dara.
Tīmekļa rāpuļprogrammas nav jauns jēdziens. Iespējams, ka miljoniem viņu pārmeklē miljardos internetā pieejamo vietņu mūsdienās. Un tie ir bijuši vismaz kopš 90. gadu sākuma. GPTBot ir tikai viena no šādām rāpuļprogrammām, kas pieder OpenAI. Tātad, kas izraisa strīdus par šo konkrēto tīmekļa rāpuļprogrammu?
Kāpēc Big Tech vietnes bloķē GPTBot?
Saskaņā ar Business Insider, dažas no lielākajām tīmekļa vietnēm savā vietnē aktīvi bloķē OpenAI rāpuļprogrammu. Tātad, ja GPTBot galvenais mērķis ir veicināt AI attīstību, kāpēc dažas no lielākajām vietnēm internetā, no kurām dažas ir guvušas labumu no AI, ir pret to?
Nu, lūk, lieta. Kopš ģeneratīvo AI tehnoloģiju atdzimšanas 2022. gadā ir notikušas daudzas diskusijas par AI uzņēmumu tiesībām gandrīz bez ierobežojumiem izmantot datus, kas iegūti no interneta, no kuriem ievērojama daļa ir likumīgi aizsargāta autortiesības. Nav skaidri likumi, kas reglamentē to, kā šie uzņēmumi vāc un izmanto datus savā labā.
Tātad būtībā rāpuļprogrammas, piemēram, GPTBot, pārmeklē tīmekli, satver cilvēku radošo darbu teksta, attēlu vai cita veida plašsaziņas līdzekļiem un izmantot to komerciāliem nolūkiem, nesaņemot atļauju, licenci vai nesniedzot kompensāciju par oriģinālu radītāji.
Tur valda mežonīgi rietumi, un mākslīgā intelekta uzņēmumi satver visu, ko vien var paņemt. Lielas vietnes, piemēram, Quora, CNN, New York Times, Business Insider un Amazon, nav ļoti apmierinātas ar to, ka viņu Šīs rāpuļprogrammas ievāc ar autortiesībām aizsargātu saturu, tāpēc OpenAI var gūt finansiālu labumu no tā savā vietā izdevumi.
Tāpēc šajās vietnēs tiek izmantots fails "robots.txt", kas ir gadu desmitiem veca metode, lai bloķētu tīmekļa rāpuļprogrammas. Saskaņā ar OpenAI, GPTBot ievēros norādījumus, lai pārmeklētu vietnes vai izvairītos no rāpuļprogrammas, pamatojoties uz kārtulām, kas iegultas failā robots.txt — nelielā teksta failā, kas norāda tīmekļa rāpuļprogrammām, kā vietnē rīkoties. Ja jums ir sava vietne un vēlaties neļaut GPTBot pārņemt jūsu datus, rīkojieties šādi: neļaujiet OpenAI rāpuļprogrammām nokasīt jūsu vietni.
Vai vietnes tiešām var apturēt GPTBot?
Lai gan rāpuļprogrammas, piemēram, GPTBot, ir neaizstājamas, lai savāktu milzīgu datu apjomu, kas nepieciešams apmācīt uzlabotas AI sistēmas, pastāv pamatotas bažas par autortiesībām un godīgu izmantošanu, kuras nevar būt ignorēts.
Protams, ir vienkārši rīki, piemēram, robots.txt, ko var izmantot, lai to novērstu, taču tas, vai GPTBot ievēro šajā failā sniegtos norādījumus, ir pilnībā atkarīgs no OpenAI ieskatiem. Nav garantijas, ka viņi to darīs, un nav tūlītēja droša veida, kā noteikt, vai viņi to ir izdarījuši. Cīņā par to, lai GPTBot neļautu piekļūt ar autortiesībām aizsargātiem datiem, OpenAI ir dūži, vismaz pagaidām.