Vai esat noraizējies par AI tērzēšanas robotiem, kas meklē jūsu vietnes saturu? Par laimi, jūs varat neļaut viņiem to darīt. Lūk, kā.

Pašreizējā situācijā AI tērzēšanas robotiem ir bezmaksas licence, lai notīrītu jūsu vietni un izmantotu tās saturu bez jūsu atļaujas. Vai esat noraizējies par to, ka jūsu saturs tiek iznīcināts ar šādiem rīkiem?

Labās ziņas ir tādas, ka jūs varat neļaut AI rīkiem piekļūt jūsu vietnei, taču ir daži brīdinājumi. Šeit mēs parādīsim, kā bloķēt robotprogrammatūras, izmantojot jūsu vietnes failu robots.txt, kā arī šīs darbības priekšrocības un trūkumus.

Kā AI tērzēšanas roboti piekļūst jūsu tīmekļa saturam?

AI tērzēšanas roboti tiek apmācīti, izmantojot vairākas datu kopas, no kurām dažas ir atvērtā pirmkoda un publiski pieejamas. Piemēram, GPT3 tika apmācīts, izmantojot piecas datu kopas, saskaņā ar OpenAI publicētais pētniecības darbs:

  1. Parastā rāpošana (60% svara treniņā)
  2. WebText2 (22% svars treniņā)
  3. Grāmatas1 (8% svars treniņā)
  4. Grāmatas2 (8% svars treniņā)
  5. Wikipedia (3% svara treniņā)

Kopējā rāpošana ietver petabaitus (tūkstošiem TB) datu no vietnēm, kas savākti kopš 2008. gada, līdzīgi tam, kā Google meklēšanas algoritms pārmeklē tīmekļa saturu. WebText2 ir OpenAI izveidota datu kopa, kurā ir aptuveni 45 miljoni tīmekļa lapu, uz kurām ir saites no Reddit ziņām ar vismaz trim pozitīvajiem balsojumiem.

Tātad ChatGPT gadījumā mākslīgā intelekta robots tieši nepiekļūst jūsu tīmekļa lapām un nepārmeklē tās — jebkurā gadījumā vēl ne. Lai gan, OpenAI paziņojums par ChatGPT mitinātu tīmekļa pārlūkprogrammu ir radījis bažas, ka tas varētu mainīties.

Tikmēr vietņu īpašniekiem vajadzētu sekot līdzi citiem AI tērzēšanas robotiem, jo ​​tirgū nokļūst arvien vairāk no tiem. Bards ir otrs lielais vārds šajā jomā, un par to ir zināms ļoti maz datu kopas, kas tiek izmantotas, lai to apmācītu. Acīmredzot mēs zinām, ka Google meklēšanas roboti nepārtraukti pārmeklē tīmekļa lapas, taču tas nebūt nenozīmē, ka Bardam ir piekļuve tiem pašiem datiem.

Kāpēc daži vietņu īpašnieki ir nobažījušies?

Lielākās bažas vietņu īpašniekiem rada tas, ka AI roboti, piemēram, ChatGPT, Bard un Bing Chat, devalvē to saturu. AI robotprogrammatūra izmanto esošo saturu, lai ģenerētu savas atbildes, bet arī samazina vajadzību lietotājiem piekļūt sākotnējam avotam. Tā vietā, lai lietotāji apmeklētu vietnes, lai piekļūtu informācijai, viņi var vienkārši panākt, lai Google vai Bing ģenerētu vajadzīgās informācijas kopsavilkumu.

Runājot par AI tērzēšanas robotiem meklēšanā, vietņu īpašniekiem lielas bažas rada trafika zaudēšana. Barda gadījumā AI robots ģeneratīvajās atbildēs reti iekļauj citātus, informējot lietotājus, no kurām lapām tā iegūst informāciju.

Tātad, ne tikai aizstājot vietņu apmeklējumus ar AI atbildēm, Bards novērš gandrīz visas iespējas, ka avota vietne saņems trafiku, pat ja lietotājs vēlas iegūt vairāk informācijas. Savukārt Bing Chat biežāk veido saites uz informācijas avotiem.

Citiem vārdiem sakot, pašreizējā ģeneratīvo AI rīku flote ir izmantojot satura veidotāju darbu sistemātiski aizstāt vajadzību pēc satura veidotājiem. Galu galā jums ir jājautā kādu stimulu tas atstāj vietņu īpašniekiem lai turpinātu satura publicēšanu. Un, paplašinot, kas notiek ar mākslīgā intelekta robotiem, kad vietnes pārstāj publicēt saturu, kura darbībai tās paļaujas?

Kā bloķēt AI robotus no jūsu vietnes

Ja nevēlaties, lai AI roboti izmantotu jūsu tīmekļa saturu, varat bloķēt tiem piekļuvi jūsu vietnei, izmantojot robots.txt failu. Diemžēl jums ir jābloķē katrs atsevišķs robots un jānorāda tie pēc nosaukuma.

Piemēram, Common Crawl robotu sauc CCBot, un jūs varat to bloķēt, pievienojot savam failam robots.txt šādu kodu:

Lietotāja aģents: CCBot
Neatļaut: /

Tas neļaus Common Crawl turpmāk pārmeklēt jūsu vietni, taču netiks noņemti dati, kas jau savākti no iepriekšējām rāpuļprogrammām.

Ja uztraucaties par to, ka ChatGPT jaunie spraudņi piekļūst jūsu tīmekļa saturam, OpenAI jau ir publicējis norādījumi par tā robota bloķēšanu. Šajā gadījumā ChatGPT robotprogrammatūra tiek saukta par ChatGPT-User, un jūs varat to bloķēt, pievienojot savam robots.txt failam šādu kodu:

Lietotāja aģents: ChatGPT-User
Neatļaut: /

Tomēr vēl viena problēma ir bloķēt meklētājprogrammu AI robotus, lai tie pārmeklētu jūsu saturu. Tā kā Google ir ļoti slepens attiecībā uz izmantotajiem apmācības datiem, nav iespējams noteikt, kuri roboti jums būs jābloķē un vai tie pat ievēros jūsu komandas. robots.txt failu (daudzas rāpuļprogrammas to nedara).

Cik efektīva ir šī metode?

AI robotu bloķēšana jūsu ierīcē robots.txt fails ir visefektīvākā pašlaik pieejamā metode, taču tā nav īpaši uzticama.

Pirmā problēma ir tā, ka jums ir jānorāda katrs robots, kuru vēlaties bloķēt, bet kurš var izsekot katram AI robotam, kas nonāk tirgū? Nākamā problēma ir tā, ka komandas jūsu robots.txt fails ir neobligāti norādījumi. Lai gan Common Crawl, ChatGPT un daudzi citi roboti ievēro šīs komandas, daudzi roboti to neievēro.

Otrs lielais brīdinājums ir tāds, ka jūs varat tikai bloķēt AI robotus, lai tie turpmāk veiktu rāpuļprogrammas. Jūs nevarat noņemt datus no iepriekšējām rāpuļprogrammām vai nosūtīt pieprasījumus tādiem uzņēmumiem kā OpenAI dzēst visus jūsu datus.

Diemžēl nav vienkārša veida, kā bloķēt visiem AI robotiem piekļuvi jūsu vietnei, un katra atsevišķa robota manuāla bloķēšana ir gandrīz neiespējama. Pat ja sekojat līdzi jaunākajiem AI robotiem, kas viesabonē tīmeklī, nav garantijas, ka tie visi izpildīs jūsu komandas. robots.txt failu.

Patiesais jautājums šeit ir par to, vai rezultāti ir pūļu vērti, un īsā atbilde ir (gandrīz noteikti) nē.

AI robotu bloķēšanai jūsu vietnē ir arī iespējamie trūkumi. Galvenais ir tas, ka jūs nevarēsit savākt nozīmīgus datus, lai pierādītu, vai tādi rīki kā Bard dod labumu vai kaitē jūsu meklēšanas mārketinga stratēģijai.

Jā, jūs varat pieņemt, ka citātu trūkums ir kaitīgs, taču jūs tikai uzminējat, ja jums trūkst datu, jo esat bloķējis AI robotu piekļuvi jūsu saturam. Tas bija līdzīgs stāsts, kad Google pirmo reizi ieviesa piedāvātie fragmenti Meklēt.

Atbilstošu vaicājumu gadījumā Google rezultātu lapā parāda tīmekļa lapu satura fragmentu, atbildot uz lietotāja jautājumu. Tas nozīmē, ka lietotājiem nav jāklikšķina, lai atvērtu vietni, lai saņemtu meklēto atbildi. Tas izraisīja paniku vietņu īpašnieku un SEO ekspertu vidū, kuri paļaujas uz trafika ģenerēšanu no meklēšanas vaicājumiem.

Tomēr vaicājumi, kas aktivizē piedāvātos fragmentus, parasti ir zemas vērtības meklēšanas vaicājumi, piemēram, “kas ir X” vai “kāds laikapstākļi ir Ņujorkā”. Ikviens, kurš vēlas padziļinātu informāciju vai visaptverošu laikapstākļu ziņojumu, joprojām noklikšķinās, un tie, kas to nevēlas, nekad nav bijuši tik vērtīgi.

Iespējams, ka tas ir līdzīgs stāsts ar ģeneratīvajiem AI rīkiem, taču jums būs nepieciešami dati, lai to pierādītu.

Nesteidzieties ar neko

Vietņu īpašnieki un izdevēji ir saprotams, ka ir nobažījušies par AI tehnoloģiju un ir neapmierināti ar ideju, ka roboti izmanto to saturu, lai radītu tūlītējas atbildes. Tomēr šis nav īstais laiks, lai steigtos ar pretuzbrukumiem. AI tehnoloģija ir strauji mainīga joma, un lietas turpinās strauji attīstīties. Izmantojiet šo iespēju, lai redzētu, kā viss notiek, un analizētu iespējamos draudus un iespējas, ko AI sniedz.

Pašreizējā sistēma, kas paļaujas uz satura veidotāju darbu, lai tos aizstātu, nav ilgtspējīga. Neatkarīgi no tā, vai uzņēmumi, piemēram, Google un OpenAI, maina savu pieeju vai valdības ievieš jaunus noteikumus, kaut kas ir jādara. Tajā pašā laikā arvien skaidrāk kļūst AI tērzēšanas robotu negatīvā ietekme uz satura veidošanu, ko vietņu īpašnieki un satura veidotāji var izmantot savā labā.