Vai zinājāt, ka, izmantojot Google izklājlapas, ir iespējams iegūt datus no vietnes? Lūk, kā to var izdarīt.
Tīmekļa skrāpēšana ir spēcīgs paņēmiens informācijas iegūšanai no vietnēm un tās automātiskai analīzei. Lai gan to var izdarīt manuāli, tas var būt nogurdinošs un laikietilpīgs uzdevums. Tīmekļa skrāpēšanas rīki padara procesu ātrāku un efektīvāku, vienlaikus maksājot mazāk.
Interesanti, ka Google izklājlapas var kļūt par jūsu vienas pieturas tīmekļa izgriešanas rīku, pateicoties tās funkcijai IMPORTXML. Izmantojot IMPORTXML, varat viegli iegūt datus no tīmekļa lapām un izmantot to analīzei, pārskatu veidošanai vai citiem ar datiem pamatotiem uzdevumiem.
Funkcija IMPORTXML pakalpojumā Google izklājlapas
Google izklājlapas nodrošina iebūvētu funkciju IMPORTXML, kas ļauj importēt datus no tīmekļa formātiem, piemēram, XML, HTML, RSS un CSV. Šī funkcija var mainīt spēli, ja vēlaties apkopot datus no vietnēm, neizmantojot sarežģītu kodēšanu.
Šeit ir norādīta IMPORTXML pamata sintakse:
=IMPORTXML(url, xpath_query)
- url: tās tīmekļa lapas URL, no kuras vēlaties iegūt datus.
- xpath_query: XPath vaicājums, kas definē datus, kurus vēlaties iegūt.
XPath (XML ceļa valoda) ir valoda, ko izmanto, lai pārvietotos XML dokumentos, tostarp HTML, kas ļauj norādīt datu atrašanās vietu HTML struktūrā. XPath vaicājumu izpratne ir būtiska, lai pareizi izmantotu IMPORTXML.
XPath izpratne
XPath nodrošina dažādas funkcijas un izteiksmes, lai pārvietotos un filtrētu datus HTML dokumentā. Visaptveroša XML un XPath rokasgrāmata ir ārpus šī raksta darbības jomas, tāpēc mēs samierināsimies ar dažiem būtiskiem XPath jēdzieniem:
- Elementu izvēle: Varat atlasīt elementus, izmantojot / un // lai apzīmētu ceļus. Piemēram, /html/body/div atlasa visus div elementus dokumenta pamattekstā.
- Atribūtu izvēle: lai atlasītu atribūtus, varat izmantot @. Piemēram, //@href atlasa visu href atribūtus lapā.
- Predikātu filtri: Varat filtrēt elementus, izmantojot predikātus, kas ievietoti kvadrātiekavās ([ ]). Piemēram, /div[@class="container"] atlasa visu div elementi ar klasi konteiners.
- Funkcijas: XPath nodrošina dažādas funkcijas, piemēram satur (), sākas ar (), un teksts () lai veiktu noteiktas darbības, piemēram, pārbaudītu teksta saturu vai atribūtu vērtības.
Kā iegūt XPath no vietnes
Līdz šim jūs zināt IMPORTXML sintaksi, jūs zināt vietnes URL un zināt, kuru elementu vēlaties iegūt. Bet kā iegūt elementa XPath?
Lai iegūtu tās datus, izmantojot IMPORTXML, jums nav jāzina vietnes struktūra no galvas. Faktiski katrā pārlūkprogrammā ir jauks rīks, kas ļauj uzreiz kopēt jebkura elementa XPath.
Elementa pārbaudes rīks ļauj iegūt XPath no vietnes elementiem. Lūk, kā to izdarīt:
- Pārejiet uz tīmekļa lapu, kuru vēlaties nokasīt, izmantojot vēlamo tīmekļa pārlūkprogrammu.
- Atrodiet elementu, kuru vēlaties nokasīt.
- Ar peles labo pogu noklikšķiniet uz elementa.
- Izvēlieties Pārbaudiet elementu no labās pogas izvēlnes. Jūsu pārlūkprogramma atvērs paneli, kurā būs redzams tīmekļa lapas HTML kods. Kodā tiks izcelts attiecīgais HTML elements.
- Panelī Pārbaudīt elementu ar peles labo pogu noklikšķiniet uz iezīmētā elementa HTML kodā.
- Klikšķis Kopējiet XPath lai kopētu elementa XPath adresi starpliktuvē.
Tagad, kad jums ir viss nepieciešamais, ir pienācis laiks redzēt IMPORTXML darbībā un nokasīt dažas saites.
Varat izmantot IMPORTXML, lai no vietnēm iztīrītu visu veidu datus. Tas ietver saites, videoklipus, attēlus un gandrīz jebkuru vietnes elementu. Saites ir viens no svarīgākajiem tīmekļa analīzes elementiem, un jūs varat uzzināt daudz par vietni, vienkārši analizējot lapas, uz kurām tā novirza.
IMPORTXML ļauj ātri nokasīt saites pakalpojumā Google izklājlapas un pēc tam tās tālāk analizēt, izmantojot dažādas Google izklājlapu funkcijas.
Lai no tīmekļa lapas izņemtu visas saites, varat izmantot šādu formulu:
=IMPORTXML(url, "//a/@href")
Šis XPath vaicājums atlasa visus href atribūti a elementi, efektīvi izvelkot visas lapā esošās saites.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")
Iepriekš minētā formula noskrāpē visas saites Wikipedia rakstā.
Ieteicams atsevišķā šūnā ievadīt tīmekļa lapas URL un pēc tam atsaukties uz šo šūnu. Tas neļaus jūsu formulai kļūt pārāk garai un smagnējai. To pašu var izdarīt ar XPath vaicājumu.
2. Visu saišu tekstu nokasīšana
Lai izvilktu saišu tekstu kopā ar to vietrāžiem URL, varat izmantot:
=IMPORTXML(url, "//a")
Šis vaicājums atlasa visus elementus, un jūs varat izvilkt saites tekstu un URL no rezultātiem.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")
Iepriekš minētā formula iegūst saišu tekstus tajā pašā Wikipedia rakstā.
Dažreiz, pamatojoties uz kritērijiem, jums var būt nepieciešams nokasīt noteiktas saites. Piemēram, jūs varētu interesēt tādu saišu izvilkšana, kas satur noteiktu atslēgvārdu, vai saites, kas atrodas noteiktā lapas sadaļā.
Pareizi pārzinot XPath, varat precīzi noteikt jebkuru elementu, kuru meklējat.
Lai nokasītu saites, kurās ir noteikts atslēgvārds, varat izmantot funkciju include() XPath:
=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href")
Šis vaicājums atlasa elementu href atribūtus, kuros href satur norādīto atslēgvārdu.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")
Iepriekš minētā formula noskrāpē visas saites, kuru tekstā ir ietverts vārds ieraksts Wikipedia raksta paraugā.
Lai nokasītu saites no noteiktas lapas sadaļas, varat norādīt sadaļas XPath. Piemēram:
=IMPORTXML(url, "//div[@class='section']//a/@href")
Šis vaicājums atlasa elementu href atribūtus div elementos ar klasi "section".
Līdzīgi tālāk norādītā formula atlasa visas saites div klasē, kurām ir mw-content-container klase:
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")
Ir vērts atzīmēt, ka IMPORTXML varat izmantot ne tikai tīmekļa skrāpēšanai. Varat izmantot funkciju saimi IMPORT, lai importēt datu tabulas no vietnēm Google izklājlapās.
Lai gan Google izklājlapas un Excel koplieto lielāko daļu funkciju, funkciju saime IMPORT ir unikāla tikai Google izklājlapām. Jums būs jāapsver citas metodes importēt datus no vietnēm programmā Excel.
Vienkāršojiet tīmekļa skrāpēšanu, izmantojot Google izklājlapas
Tīmekļa skrāpēšana, izmantojot Google izklājlapas un funkciju IMPORTXML, ir daudzpusīgs un pieejams veids, kā vākt datus no vietnēm.
Apgūstot XPath un saprotot, kā izveidot efektīvus vaicājumus, varat pilnībā izmantot IMPORTXML potenciālu un iegūt vērtīgu ieskatu no tīmekļa resursiem. Tātad, sāciet skrāpēt un paceliet savu tīmekļa analīzi uz nākamo līmeni!