Tīmekļa nokasīšana ietver informācijas vākšanu datu veidā no vietnēm vai lapām. Lai gan jūsu rīcība, iespējams, nav apzināta rīcība, vācot informāciju, tā vai citādi esat nokasījis arī tīmekli. Bet tas parasti ir smalks.
Tīmekļa nokasīšana vai ekrāna nokasīšana parasti ir mērķtiecīga darbība, un profesionāļi automatizē dizainu, lai iegūtu milzīgus datus. Neatkarīgi no tā, vai manuāli kopējat tekstus vietnē, izmantojot īpašus rīkus vai rakstot tīmekļa nokasīšanas skriptus, tīmekļa skrāpji dažreiz spēcīgi skar vietni, vienlaikus iesniedzot vairākus pieprasījumus.
Bet, lai gan daudzi uzņēmumi tagad izmanto tīmekļa nokasīšanu, lai iegūtu konkurences priekšrocības, vai tas tiešām ir likumīgi?
Kuras vietnes vajadzētu un vai nevajadzētu nokasīt?
Internets ir informācijas kopa, kas cilvēkiem dod piekļuvi veciem un reāllaika datiem. Tīmekļa nokasīšana vai ekrāna nokasīšana pastāv jau kādu laiku. Bet cik daudz jums to vajadzētu izmantot, un kuras vietnes varat nokasīt?
Dažas vietnes ir stingras ar tīmekļa rāpuļprogrammām vai ekrāna skrāpjiem, un tās pilnībā bloķē. Tāpēc ir acīmredzami acīmredzams, ka jums nevajadzētu nokasīt šādas vietnes. Bet cilvēki joprojām to dara.
Diemžēl gandrīz neko citu šādas vietnes nevar darīt, lai to apturētu, izņemot to nepilnību aizlāpīšanu.
Ieteicams pirms vietnes nokasīšanas pārbaudīt, vai tā ļauj pārmeklēt. Parasti to varat uzzināt, pārbaudot vietnes robots.txt failu. To var izdarīt, ierakstot "[vietnes URL] /robots.txt".
Robots.txt parasti nosaka noteikumus dažādiem rāpuļiem vai lietotāju aģentiem. Tomēr šie noteikumi atšķiras atkarībā no iesaistītās vietnes. Lai gan dažas vietnes atļauj rāpot visās lapās, dažas norāda lapas, kuras robots var pārmeklēt, un dažas rāpuļprogrammas bloķē tieši.
Vietne, kas bloķē visu lietotāju aģentu pārmeklēšanu visās lapās, parasti nosaka šādus noteikumus:
lietotāja aģents: *
Neatļaut: /
Robots.txt fails, kas bloķē visu robotu rāpošanu noteiktos direktorijos vai lapās, parasti izskatās šādi:
lietotāja aģents: *
Neatļaut: / URL uz 1. lapu
Neatļaut: / URL uz 2. lapu
Ja robots.txt nav aizliegta lappuse, kuru vēlaties pārmeklēt, iespējams, to varat nokasīt. Pretējā gadījumā jums vajadzētu atkāpties vai lūgt administratora piekrišanu. Viņi var piešķirt jums piekļuvi.
Turklāt dažās vietnēs to lietošanas noteikumos ir skaidri norādīts, vai tās atļauj rāpot. Daži to pat norāda arī sava robots.txt augšdaļā. Vienmēr pārbaudiet to arī, lai pārliecinātos, ka rīkojaties pareizi.
Kā tiek ļaunprātīgi izmantota tīmekļa nokasīšana
Tātad, ja esat saņēmis surogātpasta e-pastus vai īsziņas no vietnēm vai cilvēkiem, kuriem nekad neesat sniedzis savu personisko informāciju, tad jūs, iespējams, kaut kā kaut kā esat nokasījis. Un galvenokārt tas notiek caur kādu no jūsu sociālo mediju rokturiem.
Tas nozīmē, ka tīmekļa nokasīšana dažkārt ir vairāk nekā tikai datu vākšana, kas tiek parādīti priekšējā galā. Ja to izmanto ļaunprātīgi, tas var izraisīt personiskas un klasificētas informācijas noplūdi.
Lai gan lielākā daļa sociālo mediju platformu par to sarauc pieri, rāpojošie roboti joprojām piekļūst cilvēku profiliem, un viņu kontaktinformācija tiek nopludināta un nokasīta.
Piemēram, ziņots, ka Facebook ir ievainojamība, kas iepriekš nopludināja lietotāju kontaktinformāciju, kaut arī lietotāji tos uztur privātus.
Tāpat LinkedIn nesen cieta drošības pārkāpums, kura rezultātā tika nopludināti personas dati kas pieder vairāk nekā 500 miljoniem kontu. Līdz ar to šī ievainojamība izraisīja daudzu e-pasta adrešu un tālruņu numuru koplietošanu bez profila īpašnieku piekrišanas.
Vai ir nelikumīgi nokasīt vietni?
Nekad nav bijis secinājums par tīmekļa nokasīšanas likumību. Tā vietā galvenā uzmanība tiek pievērsta tam, kā rāpuļprogramma darbojas katrā gadījumā atsevišķi un ko viņi izmanto savākto datu sasniegšanai.
Tātad, nevis secināt par tā likumību, skrāpēšana, ja tā tiek veikta ļaunprātīgi, ir nelikumīga. Bet, ja tas tiek darīts saprātīgi, tas nav nelikumīgi.
Bet, kā gaidīts, šķiet, ka ir stingrāka politika attiecībā uz sociālo mediju datu apkopošanu un izmantošanu, jo lietotāju privātums ir tik svarīgs. Tomēr tas viss joprojām ir atkarīgs no tā, kā cilvēki nokasa datus.
The Interneta un sociālo mediju likuma emuārs analizēja datu nokasīšanas uzņēmuma hiQ Labs gadījumu, kas 2019. gadā uzvarēja tiesas prāvā pret LinkedIn pēc tam, kad tas mēģināja bloķēt hiQ Labs nokasīt publiski pieejamus LinkedIn lietotāju datus.
Tā kā hiQ Labs apgalvo, ka Datu krāpšanas un ļaunprātīgas izmantošanas likums (CFAA) aizliedz tikai nesankcionētu piekļuvi, spriedums apstiprināja, ka LinkedIn dati bija publiski pieejami, tāpēc ikviens, kas tos nokasīja, to darīja tāpēc, ka ir pieejams.
Turklāt hiQ Labs izmantoja nokasītos datus tikai, lai sniegtu analīzes risinājumus uzņēmumiem, lai viņi varētu pieņemt labākus lēmumus par pieņemšanu darbā.
Turpretī Facebook nesen iesūdzēja Chrome paplašinājumu izstrādātājus kas nokasīja Facebook lietotāju profilus bez viņu piekrišanas.
Līdzīgi a kopiju vietni iesūdzēja Facebook vairāku Instagram lietotāju profila informācijas nokasīšanai un pēc tam to izmantošanai klonu izveidošanai. Saskaņā ar šo ziņojumu Facebook pēc tam devās tālāk, lai panāktu pastāvīgu tiesas rīkojumu pret likumpārkāpēju.
Šie ir daži gadījumi, kad cilvēki, iespējams, nelikumīgi izmantoja tīmekļa nokasīšanu. Minētie uzņēmumi viltoti, bez lietotāju piekrišanas, vāca Facebook lietotāju datus. Tātad tas pārkāpa privātuma politikas.
Tātad, kaut arī tīmekļa nokasīšana var sagraut vietni, no kuras tiek iegūti dati, neviens vispārīgs noteikums pašlaik neliedz cilvēkiem iegūt to, ko viņi vēlas, ja vien viņi nepārkāpj interneta likumus tieši.
Vai tīmekļa nokasīšana ir hakeru sinonīms?
Tīmekļa nokasīšanai ir daži mīti. Viens no tiem ir pārliecība, ka vietnes nokasīšana nozīmē, ka esat to uzlauzis. Lai arī uzlaušana galu galā var novest pie datu nokasīšanas, apgalvojums, ka pats termins nozīmē vietnes uzlaušanu, neatbilst patiesībai.
Tīmekļa nokasīšana var ietvert veltīti rāpošanas vai skrāpēšanas rīki, Lietojumprogrammu saskarnes (API) vai tīmekļa nokasīšanas skripti, lai iegūtu atveidotus datus no vietnes. Atšķirībā no uzlaušanas, tas neapdraud vietni, kuru tā nokasa, un neizjauc lietotāju pieredzi.
Saistīts: Kas ir tīmekļa nokasīšana? Kā apkopot datus no vietnēm
Tātad, lai arī uzlaušana ietver nesankcionētu piekļuvi, parasti vietnes datubāzē, tīmekļa nokasīšana mērķē tikai uz datiem, kas jau ir redzami priekšējā galā. Lai gan cilvēki var ļaunprātīgi izmantot tīmekļa nokasīšanu, tas joprojām nav hakeru sinonīms.
Papildus tam, atšķirībā no tīmekļa nokasīšanas, apzināta un neētiska uzlaušana ir nelikumīga.
Kādas ir tīmekļa nokasīšanas pozitīvās iespējas?
Tīmekļa nokasīšanai ir daudz pozitīvu aspektu, un pat daži tehnoloģiju uzņēmumi tagad savus datus piedāvā bez maksas, izmantojot API. Ar šo informāciju parasti nepietiek, lai novērtētu uzņēmējdarbības tendences un pieņemtu lēmumus.
Tātad uzņēmumi tagad iegūst vairāk datu, nokasot tīmekli, lai uzlabotu praksi un veicinātu pārdošanu. Turklāt datu zinātnieki baro mašīnmācīšanās algoritmus ar datiem, kas savākti, nokasot ekrānu.
Šādi dati var būt attēli, kurus izmanto attēlu atpazīšanai, vienkārši teksti noskaņojuma analīzei vai tiešie produktu dati tirgus izlūkošanai un patērētāju uzvedības analīzei.
Saistīts: Unikāli veidi, kā iegūt datu kopas mašīnmācīšanās projektam
Tātad tīmekļa kasīšana ir vēl noderīgāka, jo, ja jums ir piekļuve informācijai, kuras konkurentam nav, varat viņus pieveikt.
Kaut arī dažas vietnes sarauc pieri uz tīmekļa skrāpjiem, dažas, pat e-komercijas pakalpojumi, neinteresē, vai jūs nokasāt to datus vai nē. Tīmekļa giganti, piemēram, eBay un Salesforce, uzsāka savu API 2000. gadā, piedāvājot programmētājiem pirmo reizi piekļūt publiskajiem datiem.
Vai jums vajadzētu faktiski nokasīt tīmekli?
Mēs esam noskaidrojuši, ka tīmekļa nokasīšana nav nelikumīga, ja to veic pareizi. Bet bažas rada arī tas, ko jūs darāt ar nokasītajiem datiem. Tā vietā, lai to ļaunprātīgi izmantotu, izmantojiet to, lai iegūtu vairāk ieskatu, kas jums un citiem palīdzētu pieņemt apzinātus lēmumus.
Tomēr tīmekļa nokasīšana kā prasme ļauj piekļūt lieliem interneta datu gabaliem, kas var palīdzēt jums vai jūsu uzņēmumam atrasties virs biznesa nišas. Kā datu zinātnieks tas pat paplašina jūsu darbības jomu un uzlabo kodēšanas un tehniskās prasmes.
Piemēram, Python ir viena no programmēšanas valodām, kas palīdz jums viegli nokasīt vietni ar tās skaistu zupu bibliotēku vai izgriezumu sistēmu.
Vai jūs interesē tīmekļa nokasīšana? Lūk, kā nokopēt vietni saturam un daudz ko citu, izmantojot bibliotēku Beautiful Soup Python.
Lasiet Tālāk
- Drošība
- Programmēšana
- Tiešsaistes drošība
- Tīmekļa nokasīšana
Idowu aizrauj kaut ko gudru tehnoloģiju un produktivitāti. Brīvajā laikā viņš spēlējas ar kodēšanu un pāriet uz šaha galdiņu, kad viņam ir garlaicīgi, taču viņš mīl arī kādu laiku atrauties no rutīnas. Aizraušanās ar cilvēku parādīšanu mūsdienu tehnoloģijās motivē viņu rakstīt vairāk.
Abonējiet mūsu biļetenu
Pievienojieties mūsu informatīvajam izdevumam par tehniskiem padomiem, atsauksmēm, bezmaksas e-grāmatām un ekskluzīviem piedāvājumiem!
Vēl viens solis !!!
Lūdzu, apstipriniet savu e-pasta adresi e-pastā, kuru tikko nosūtījām.