Nepietiekami dati bieži ir viena no galvenajām neveiksmēm lielākajā daļā datu zinātnes projektu. Tomēr zināt, kā apkopot datus par jebkuru projektu, kuru vēlaties uzsākt, ir svarīga prasme, kas jums jāiegūst kā datu zinātniekam.

Datu zinātnieki un mašīnmācīšanās inženieri tagad izmanto modernas datu vākšanas metodes, lai iegūtu vairāk datu apmācības algoritmiem. Ja plānojat sākt savu pirmo datu zinātnes vai mašīnmācīšanās projektu, jums jāspēj iegūt arī datus.

Kā jūs varat padarīt procesu vieglu sev? Apskatīsim dažas mūsdienu metodes, kuras varat izmantot datu vākšanai.

Kāpēc jūsu datu zinātnes projektam nepieciešami vairāk datu

Mašīnmācīšanās algoritmi ir atkarīgi no datiem, lai tie kļūtu precīzāki, precīzāki un paredzamāki. Šie algoritmi tiek apmācīti, izmantojot datu kopas. Apmācības process ir nedaudz līdzīgs tam, kā mazulim pirmo reizi iemācīt objekta vārdu, pēc tam ļaujot to identificēt vienatnē, kad nākamreiz to redz.

Cilvēkiem ir nepieciešami tikai daži piemēri, lai atpazītu jaunu objektu. Tas tā nav mašīnai, jo, lai iepazītos ar objektu, tai nepieciešami simtiem vai tūkstošiem līdzīgu piemēru.

instagram viewer

Šiem piemēriem vai mācību objektiem jābūt datu formā. Pēc tam šim datu kopumam, ko sauc par apmācību kopu, darbojas īpašs mašīnmācīšanās algoritms - un uzzina vairāk par to, lai kļūtu precīzāks.

Tas nozīmē, ka, ja neizdodas iesniegt pietiekami daudz datu, lai apmācītu algoritmu, projekta beigās jūs, iespējams, nesaņemsit pareizo rezultātu, jo iekārtai nav pietiekami daudz datu, no kuriem mācīties.

Tātad, lai uzlabotu rezultāta precizitāti, ir nepieciešams iegūt pietiekamus datus. Apskatīsim dažas mūsdienu stratēģijas, kuras varat izmantot, lai to sasniegtu.

1. Datu nokasīšana tieši no tīmekļa lapas

Tīmekļa nokasīšana ir automatizēts veids, kā iegūt datus no tīmekļa. Visvienkāršākajā veidā tīmekļa nokasīšana var ietvert vietnes elementu kopēšanu un ielīmēšanu vietējā failā.

Tomēr tīmekļa nokasīšana ietver arī īpašu skriptu rakstīšanu vai īpašu rīku izmantošanu, lai tieši nokasītu datus no tīmekļa lapas. Tas varētu ietvert arī padziļinātu datu vākšanu, izmantojot Lietojumprogrammu saskarnes (API), piemēram, Serpstack.

Izmantojot Serpstack API, iegūstiet noderīgus datus no meklēšanas rezultātiem

Izmantojot serpstack API, jūs varat viegli iegūt informāciju no Google un citu meklētājprogrammu rezultātu lapām.

Lai gan daži cilvēki uzskata, ka tīmekļa nokasīšana var izraisīt intelektuālā īpašuma zaudēšanu, tas var notikt tikai tad, kad cilvēki to dara ļaunprātīgi. Tīmekļa nokasīšana ir likumīga, un tā palīdz uzņēmumiem pieņemt labākus lēmumus, apkopojot publisku informāciju par saviem klientiem un konkurentiem.

Saistīts: Kas ir tīmekļa nokasīšana? Kā apkopot datus no vietnēm

Piemēram, jūs varat uzrakstīt skriptu, lai apkopotu datus no tiešsaistes veikaliem, lai salīdzinātu cenas un pieejamību. Lai gan tas varētu būt nedaudz tehniskāks, jūs varat arī tīmeklī apkopot neapstrādātus datu nesējus, piemēram, audio failus un attēlus.

Apskatiet zemāk redzamo koda piemēru, lai iegūtu ieskatu tīmekļa nokasīšanā ar Python's skaista zupa4 HTML parsētāja bibliotēka.

no bs4 importa BeautifulSoup
no urllib.request importēt urlopen
url = "Šeit ievadiet pilnu mērķa vietnes URL"
targetPage = urlopēns (url)
htmlReader = targetPage.read (). dekodēt ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
drukāt (webData.get_text ())

Pirms palaist koda paraugu, jums jāinstalē bibliotēka. Izveidojiet virtuālo vidi no komandrindas un instalējot bibliotēku, palaižot Pip instalēt beautifulsoup4.

2. Izmantojot tīmekļa veidlapas

Datu vākšanai varat izmantot arī tiešsaistes veidlapas. Tas ir visnoderīgāk, ja jums ir mērķa grupa cilvēku, no kuriem vēlaties apkopot datus.

Tīmekļa veidlapu izsūtīšanas trūkums ir tāds, ka jūs, iespējams, nesavācat tik daudz datu, cik vēlaties. Tas ir diezgan ērts maziem datu zinātnes projektiem vai apmācībām, taču, iespējams, nonākat ierobežojumos, mēģinot sasniegt lielu skaitu anonīmu cilvēku.

Lai arī pastāv apmaksāti tiešsaistes datu vākšanas pakalpojumi, tie nav ieteicami privātpersonām, jo ​​tie galvenokārt ir pārāk dārgi, izņemot gadījumus, ja jums nav iebildumu tērēt naudu projektam.

Datu vākšanai no cilvēkiem ir dažādas tīmekļa formas. Viens no tiem ir Google veidlapas, kurai varat piekļūt, dodoties uz forms.google.com. Jūs varat izmantojiet Google veidlapas, lai vāktu kontaktinformāciju, demogrāfiskie dati un cita personiskā informācija.

Kad esat izveidojis veidlapu, viss, kas jums jādara, ir nosūtīt saiti savai mērķauditorijai pa pastu, SMS vai jebkuru citu pieejamo līdzekli.

Tomēr Google veidlapas ir tikai viens populāru tīmekļa veidlapu piemērs. Tur ir daudz alternatīvu, kas arī lieliski veic datu vākšanu.

Datus var arī savākt, izmantojot sociālos medijus, piemēram, Facebook, LinkedIn, Instagram un Twitter. Datu iegūšana no sociālajiem medijiem ir mazliet tehniskāka nekā jebkura cita metode. Tas ir pilnībā automatizēts un ietver dažādu API rīku izmantošanu.

Sociālajos medijos var būt grūti iegūt datus, jo tie ir salīdzinoši neorganizēti, un to ir milzīgs daudzums. Pareizi organizēts šāda veida datu kopa var būt noderīga datu zinātnes projektos, kas saistīti ar tiešsaistes noskaņojumu analīzi, tirgus tendenču analīzi un tiešsaistes zīmolu veidošanu.

Piemēram, čivināt ir sociālo mediju datu avota piemērs, kurā varat savākt lielu datu kopu apjomu tweepy Python API pakotne, kuru varat instalēt ar instalējiet tweepy komandu.

Pamata piemērs ir tas, ka koda bloks Twitter mājaslapas Tweets iegūšanai izskatās šādi:

ievest tweepy
importa re
myAuth = tweepy. OAuthHandler (šeit ielīmējiet patērētāja atslēgu, šeit ielīmējiet atslēgu patērētāja noslēpums)
auth.set_access_token (šeit ielīmējiet piekļuves_token, šeit ielīmējiet piekļuves_token_secret)
autentificēt = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
mērķiem vietnē target_tweet:
drukāt (target.text)

Jūs varat apmeklēt docs.tweepy.org vietni, lai piekļūtu tweepy dokumentāciju, lai iegūtu sīkāku informāciju par tās izmantošanu. Lai izmantotu Twitter API, jums jāpiesakās izstrādātāja kontam, dodoties uz developer.twitter.com vietne.

Facebook ir vēl viena spēcīga sociālo mediju platforma datu vākšanai. Tas izmanto īpašu API galapunktu, ko sauc par Facebook Graph API. Šī API ļauj izstrādātājiem Facebook platformā apkopot datus par konkrētu lietotāju uzvedību. Jūs varat piekļūt Facebook Graph API dokumentācijai vietnē developers.facebook.com lai uzzinātu vairāk par to.

Detalizēts sociālo mediju datu vākšanas ar API skaidrojums ir ārpus šī raksta darbības jomas. Ja vēlaties uzzināt vairāk, varat iepazīties ar katras platformas dokumentāciju, lai iegūtu padziļinātas zināšanas par tām.

Papildus skriptu rakstīšanai, lai izveidotu savienojumu ar API galapunktu, sociālo mediju dati, kas vāc trešo pušu rīkus, piemēram, Skrāpēšanas eksperts un ir pieejami arī daudzi citi. Tomēr lielākajai daļai šo tīmekļa rīku ir sava cena.

4. Iepriekš eksistējošu datu kopu apkopošana no oficiālajiem avotiem

Varat arī apkopot jau esošas datu kopas no autoritatīviem avotiem. Šī metode ietver oficiālu datu banku apmeklēšanu un verificētu datu kopu lejupielādi no tām. Atšķirībā no tīmekļa nokasīšanas un citām opcijām šī opcija ir ātrāka un prasa maz tehnisko zināšanu vai tās vispār nav.

Šāda veida avotu datu kopas parasti ir pieejamas CSV, JSON, HTML vai Excel formātos. Daži autoritatīvu datu avotu piemēri ir Pasaules Banka, UNdatiun vairāki citi.

Daži datu avoti var padarīt pašreizējos datus privātus, lai liegtu sabiedrībai tiem piekļūt. Tomēr viņu arhīvi bieži ir pieejami lejupielādei.

Vairāk oficiālu datu kopas avotu jūsu mašīnmācīšanās projektam

Šis saraksts dod jums labu sākumpunktu, lai savos projektos iegūtu dažādu veidu datus.

  • ES atvērto datu portāls
  • Kaggle datu kopas
  • Google datu kopas meklēšana
  • Datu centrmezgls
  • Atklāto datu reģistrs AWS
  • Eiropas valdības aģentūra - dati un kartes
  • Microsoft Research atvērtie dati
  • Lielisks publisko datu kopu krātuve vietnē GitHub
  • Dati. Govs: ASV valdības atvērto datu vieta

Avotu ir daudz vairāk, un rūpīga meklēšana jūs apbalvos ar datiem, kas lieliski piemēroti jūsu pašu datu zinātnes projektiem.

Apvienojiet šos modernos paņēmienus, lai iegūtu labākus rezultātus

Datu vākšana var būt garlaicīga, ja uzdevumam pieejamie rīki ir ierobežoti vai grūti saprotami. Lai gan vecākas un parastās metodes joprojām darbojas labi, un dažos gadījumos tās nevar izvairīties, mūsdienu metodes ir ātrākas un uzticamākas.

Tomēr tā vietā, lai paļautos uz vienu metodi, šo moderno datu apkopošanas veidu kombinācija var dot labākus rezultātus.

E-pasts
5 datu analīzes programmatūras rīki, kurus varat ātri apgūt

Vai vēlaties iekļūt datu analīzē? Šeit ir daži rīki, kas jums jāapgūst.

Saistītās tēmas
  • Programmēšana
  • Python
  • Lielie dati
  • Mašīnmācība
  • Datu ievākšana
  • Datu analīze
Par autoru
Idowu Omisola (Publicēti 45 raksti)

Idowu aizrauj kaut ko viedo tehnoloģiju un produktivitāti. Brīvajā laikā viņš spēlējas ar kodēšanu un pāriet uz šaha galdiņu, kad viņam ir garlaicīgi, taču viņš mīl arī kādu laiku atrauties no rutīnas. Aizraušanās ar cilvēkiem parādīt moderno tehnoloģiju motivē rakstīt vairāk.

Vairāk no Idowu Omisola

Abonējiet mūsu biļetenu

Pievienojieties mūsu informatīvajam izdevumam par tehniskiem padomiem, atsauksmēm, bezmaksas e-grāmatām un ekskluzīviem piedāvājumiem!

Vēl viens solis !!!

Lūdzu, apstipriniet savu e-pasta adresi e-pastā, kuru tikko nosūtījām.

.