Lai analizētu datu kopu, vispirms ir jāsaprot dati. Dažreiz jums var nebūt priekšrocību zināšanu par datu kopu, kas neļauj jums iegūt visas tās priekšrocības. Kā datu analītiķis varat izmantot pētniecisko datu analīzi (EDA), lai pirms padziļinātas analīzes iegūtu zināšanas par savu datu kopu.
Izpētes datu analīze (EDA) pēta datu kopu, lai gūtu jēgpilnu ieskatu. EDA veikšanas process ietver informācijas vaicāšanu par datu kopas struktūru un saturu.
Gota pakotnes instalēšana
Gota pakotne ir vispopulārākā datu analīze in Go; tas ir kā Python Pandas pakotne bet par Go. Gota pakotnē ir iekļautas daudzas metodes datu kopu analīzei un JSON, CSV un HTML formātu lasīšanai.
Palaidiet šo komandu savā terminālī direktorijā, kurā inicializējāt Go moduļa failu:
aiziet get -u github.com/aiziet-gota/gota
Komanda instalēs Gota vietējā direktorijā, lai jūs varētu importēt pakotni, lai to izmantotu.
Tāpat kā Pandas, Gota atbalsta sēriju un datu kadru darbības. Gota pakotnē ir divas apakšpaketes: sērija un datu rāmja pakotne. Atkarībā no jūsu vajadzībām varat importēt vienu vai abus.
imports (
"github.com/aiziet-gota/gota/series"
"github.com/aiziet-gota/gota/dataframe"
)
Datu kopas lasīšana, izmantojot Gota pakotni
Varat izmantot jebkuru CSV failu, kas jums patīk, taču tālāk norādītajos piemēros ir parādīti rezultāti no Kaggle datu kopa, kas satur datus par klēpjdatora cenām.
Gota ļauj lasīt CSV, JSON un HTML failu formātus, lai izveidotu datu rāmjus, izmantojot Lasīt CSV, Lasīt JSON, un Lasīt HTML metodes. Lūk, kā ielādēt CSV failu datu rāmja objektā:
fails, err := os. Atvērt ("/path/to/csv-file.csv")
ja kļūda! = nulle {
fmt. Println("faila atvēršanas kļūda")
}
dataFrame := datu rāmis. Lasīt CSV(failu)
fmt. Println (dataFrame)
Jūs varat izmantot Atvērt metode os pakotni, lai atvērtu CSV failu. ReadCSV metode nolasa faila objektu un atgriež datu rāmja objektu.
Drukājot šo objektu, izvade ir tabulas formātā. Varat turpināt manipulēt ar datu rāmja objektu, izmantojot dažādas Gota piedāvātās metodes.
Objekts drukā tikai dažas kolonnas, ja datu kopā ir vairāk nekā iestatītā vērtība.
Datu kopas dimensijas iegūšana
Datu rāmja izmēri ir tajā ietverto rindu un kolonnu skaits. Šos izmērus varat iegūt, izmantojot Aptumšojas datu rāmja objekta metode.
var rindas, kolonnas = dataFrame. Aptumšojas ()
Aizstājiet vienu no mainīgajiem ar pasvītrojumu, lai iegūtu tikai otru kategoriju. Varat arī vaicāt rindu un kolonnu skaitu atsevišķi, izmantojot Nrow un Ncol metodes.
var rindas = dataFrame. Nrow()
var kolonnas = dataFrame. Ncol()
Kolonnu datu veidu iegūšana
Lai to analizētu, jums jāzina saliktie datu veidi datu kopas kolonnās. Jūs varat tos iegūt, izmantojot Veidi jūsu datu rāmja objekta metode:
var veidi = dataFrame. Veidi ()
fmt. Println (tipi)
Veidu metode atgriež sleju, kurā ir kolonnas datu tipi:
Kolonnu nosaukumu iegūšana
Lai atlasītu konkrētas kolonnas darbībām, jums būs nepieciešami kolonnu nosaukumi. Jūs varat izmantot Vārdi veids, kā tos iegūt.
var columnNames := dataFrame. Vārdi ()
fmt. Println (kolonnu nosaukumi)
Metode Names atgriež kolonnu nosaukumu daļu.
Trūkstošo vērtību pārbaude
Iespējams, jums ir datu kopa, kurā ir nulles vai vērtības, kas nav skaitliskas. Varat pārbaudīt šādas vērtības, izmantojot HasNaN un IsNaN sērijas objekta metodes:
aCol := dataFrame. Col("displeja_izmērs")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()
HasNan pārbauda, vai kolonnā ir nulles elementi. IsNaN atgriež Būla vērtību daļu, kas norāda, vai katra vērtība kolonnā ir skaitlis.
Aprakstošās statistiskās analīzes veikšana
Aprakstošā statistiskā analīze palīdz izprast skaitlisko kolonnu sadalījumu. Izmantojot Aprakstiet metodi, varat izveidot savas datu kopas aprakstošu statistisko analīzi:
apraksts := dataFrame. Aprakstiet ()
fmt. Println (apraksts)
Apraksta metode atgriež metriku, piemēram, vidējo, standarta novirzi un kolonnu maksimālās vērtības datu kopā. Tas apkopo tos tabulas formātā.
Varat arī būt precīzs un koncentrēties uz slejām un metriku, atlasot konkrētu kolonnu un pēc tam vaicājot vajadzīgo metriku. Vispirms ir jāiegūst sērija, kas pārstāv noteiktu kolonnu, un pēc tam izmantojiet tās metodes, piemēram:
aCol := dataFrame. Col("displeja_izmērs")
var vidējais = aCol. Vidēji ()
var mediāna = aCol. Mediāna()
var minimums = aCol. Min()
var standartnovirze = aCol. StdDev()
var maksimums = aCol. Max()
var quantiles25 = aCol. Kvantile(25.0)
Šīs metodes atspoguļo rezultātus no aprakstošās statistiskās analīzes, ko veic Describe.
Elementu iegūšana kolonnā
Viens no pēdējiem uzdevumiem, ko vēlaties veikt, ir pārbaudīt vērtības kolonnā, lai iegūtu vispārīgu pārskatu. Jūs varat izmantot Ieraksti metode, lai skatītu kolonnas vērtības.
aCol := dataFrame. Col ("zīmols")
fmt. Println (aCol. Ieraksti())
Šī metode atgriež virkņu daļu, kas satur vērtības jūsu atlasītajā kolonnā:
Gota datu rāmja eksportēšana uz failu
Ja izvēlaties iet tālāk un izmantot Gota pakotni pilnīgai datu analīzei, jums būs jāsaglabā dati failos. Jūs varat izmantot Rakstiet CSV un Rakstiet JSON datu rāmja metodes failu eksportēšanai. Metodes uzņem failu, kuru izveidosit, izmantojot os iepakojums Izveidot metodi.
Tālāk ir norādīts, kā varat eksportēt datu rāmi, izmantojot Gota pakotni.
dataFrame := datu rāmis. Lasīt CSV(failu)
outputFile, err := os. Izveidot("output.csv")ja kļūda! = nulle {
žurnāls. Liktenīga (kļūda)
}err = dataFrame. WriteCSV(izejas fails)
ja kļūda! = nulle {
žurnāls. Fatalln ("Radās kļūda, ierakstot datu rāmja saturu failā")
}
The dataFrame mainīgais ir datu rāmja attēlojums. Kad jūs izmantojat Izveidot metode os pakotni, tas izveido jaunu, tukšu failu ar norādīto nosaukumu un atgriež failu. WriteCSV metode uzņem faila gadījumu un atgriež kļūdu vai nulle ja nav kļūdu.
Izpētes datu analīze ir svarīga
Datu analītiķiem un mašīnmācīšanās speciālistiem ir būtiska izpratne par datiem un datu kopām. Tā ir būtiska darbība viņu darba ciklā, un izpētes datu analīze ir viena no metodēm, ko viņi izmanto, lai to panāktu.
Gota pakotnei ir vairāk. Varat to izmantot dažādām datu risināšanas funkcijām tāpat kā Python Pandas bibliotēku datu analīzei. Tomēr Gota neatbalsta tik daudz funkcionalitātes kā Pandas.