Pandas bibliotēka padara pitonu datu zinātni vienkāršu. Tā ir populāra Python bibliotēka datu lasīšanai, sapludināšanai, kārtošanai, tīrīšanai un citiem nolūkiem. Lai gan pandas ir viegli lietot un lietot datu kopās, tām ir jāapgūst daudzas datu manipulācijas funkcijas.
Jūs varētu izmantot pandas, taču pastāv liela iespēja, ka jūs to neizmantojat ar datiem saistīto problēmu risināšanai. Šeit ir mūsu saraksts ar vērtīgiem datiem, kas manipulē ar pandu funkcijām, kas būtu jāzina katram datu zinātniekam.
Instalējiet pandas savā virtuālajā vidē
Pirms turpināt, noteikti instalējiet pandas savā virtuālajā vidē, izmantojot pip:
pip instalēt pandas
Pēc instalēšanas importējiet pandas skripta augšdaļā, un turpināsim.
1. pandas. DataFrame
Jūs lietojat pandas. DataFrame() lai pandās izveidotu DataFrame. Ir divi veidi, kā izmantot šo funkciju.
Varat izveidot DataFrame kolonnu, ievadot vārdnīcu pandas. DataFrame() funkcija. Šeit katra atslēga ir kolonna, bet vērtības ir rindas:
importēt pandas
DataFrame = pandas. DataFrame ({"A": [1, 3, 4], "B": [5, 9, 12]})
drukāt (DataFrame)
Otra metode ir DataFrame veidošana pāri rindām. Bet šeit jūs atdalīsit vērtības (rindas vienumus) no kolonnām. Datu skaitam katrā sarakstā (rindas datiem) arī jāsakrīt ar kolonnu skaitu.
importēt pandas
DataFrame = pandas. DataFrame([[1, 4, 5], [7, 19, 13]], kolonnas = ["J", "K", "L"])
drukāt (DataFrame)
2. Lasiet no un rakstiet uz Excel vai CSV formātā pandas
Izmantojot pandas, varat lasīt vai rakstīt Excel vai CSV failos.
Excel vai CSV failu lasīšana
Lai lasītu Excel failu:
#Aizstāt example.xlsx ar sava Excel faila ceļu
DataFrame = DataFrame.read_excel("example.xlsx")
Lūk, kā lasīt CSV failu:
#Aizstāt example.csv ar sava CSV faila ceļu
DataFrame = DataFrame.read_csv("example.csv")
Rakstīšana Excel vai CSV formātā
Rakstīšana programmā Excel vai CSV ir plaši pazīstama pandu darbība. Un tas ir ērti, lai saglabātu tikko aprēķinātās tabulas atsevišķās datu lapās.
Lai rakstītu Excel lapā:
DataFrame.to_excel("pilns_galamērķa_mapes_ceļš/faila nosaukums.xlsx")
Ja vēlaties rakstīt CSV formātā:
DataFrame.to_csv("pilns_galamērķa_mapes_ceļš/faila nosaukums.csv")
Varat arī aprēķināt katras DataFrame kolonnas centrālās tendences, izmantojot pandas.
Tālāk ir norādīts, kā iegūt katras kolonnas vidējo vērtību.
DataFrame.mean()
Lai iegūtu vidējo vai režīma vērtību, nomainiet nozīmē () ar mediāna () vai režīms ().
4. DataFrame.transform
pandas DataFrame.transform() maina DataFrame vērtības. Tā pieņem funkciju kā argumentu.
Piemēram, tālāk norādītais kods reizina katru DataFrame vērtību ar trīs, izmantojot Python lambda funkcija:
DataFrame = DataFrame.transform (lambda y: y*3)
drukāt (DataFrame)
5. DataFrame.isnull
Šī funkcija atgriež Būla vērtību un atzīmē visas rindas, kurās ir nulles vērtības, kā Taisnība:
DataFrame.isnull()
Iepriekš minētā koda rezultātu var būt grūti nolasīt lielākām datu kopām. Tātad jūs varat izmantot isnull().sum() funkciju vietā. Tas atgriež visu trūkstošo vērtību kopsavilkumu katrai kolonnai:
DataFrame.isnull().sum()
6. Dataframe.info
The info() funkcija ir an būtiska pandas darbība. Tā vietā tas atgriež katras kolonnas netrūkstošo vērtību kopsavilkumu:
DataFrame.info()
7. DataFrame.aprakstiet
The aprakstīt () funkcija sniedz datu kopsavilkuma statistiku:
DataFrame.describe()
8. DataFrame.replace
Izmantojot DataFrame.replace() metodi pandās, jūs varat aizstāt atlasītās rindas ar citām vērtībām.
Piemēram, lai apmainītu nederīgās rindas ar Nan:
# Nodrošiniet, lai pip instalēšana būtu nevainojama, lai tas darbotos
importa numpy
importēt pandas
# Pievienojot ievietotu atslēgvārdu un iestatot to uz True, izmaiņas kļūst pastāvīgas:
DataFrame.replace([nederīgs_1, nederīgs_2], numpy.nan, inplace=true)
drukāt (DataFrame)
9. DataFrame.fillna
Šī funkcija ļauj aizpildīt tukšas rindas ar noteiktu vērtību. Jūs varat aizpildīt visu Nan rindas datu kopā ar vidējo vērtību, piemēram:
DataFrame.fillna (df.mean(), inplace = True)
drukāt (DataFrame)
Varat arī norādīt konkrētu kolonnu:
DataFrame['kolonnas_nosaukums'].fillna (df[kolonnas_nosaukums].mean(), inplace = True)
drukāt (DataFrame)
10. DataFrame.dropna
The dropna () metode noņem visas rindas, kurās ir nulles vērtības:
DataFrame.dropna (inplace = True)
drukāt (DataFrame)
11. DataFrame.insert
Jūs varat izmantot pandas ievietot () funkciju, lai DataFrame pievienotu jaunu kolonnu. Tā pieņem trīs atslēgvārdus, kolonnas nosaukums, tā datu saraksts un tā atrašanās vieta, kas ir kolonnas rādītājs.
Lūk, kā tas darbojas:
DataFrame.insert (kolonna = 'C', vērtība = [3, 4, 6, 7], loc=0)
drukāt (DataFrame)
Iepriekš minētais kods ievieto jauno kolonnu pie nulles kolonnas indeksa (tā kļūst par pirmo kolonnu).
12. DataFrame.loc
Tu vari izmantot loc lai atrastu elementus noteiktā rādītājā. Piemēram, lai skatītu visus trešās rindas vienumus:
DataFrame.loc[2]
13. DataFrame.pop
Šī funkcija ļauj noņemt norādīto kolonnu no pandas DataFrame.
Tā pieņem an lieta atslēgvārds, atgriež uznirstošo kolonnu un atdala to no pārējās DataFrame daļas:
DataFrame.pop (item= 'kolonnas_nosaukums')
drukāt (DataFrame)
14. DataFrame.max, min
Maksimālo un minimālo vērtību iegūšana, izmantojot pandas, ir vienkārša:
DataFrame.min()
Iepriekš minētais kods atgriež minimālo vērtību katrai kolonnai. Lai iegūtu maksimumu, nomainiet min ar maks.
15. DataFrame.join
The pievienoties () Pandas funkcija ļauj apvienot DataFrames ar dažādiem kolonnu nosaukumiem. Varat izmantot kreiso, labo, iekšējo vai ārējo savienojumu. Lai pa kreisi savienotu DataFrame ar diviem citiem:
#Pa kreisi savienojiet garākās kolonnas ar īsākām
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
drukāt (newDataFrame)
Lai pievienotos DataFrames ar līdzīgiem kolonnu nosaukumiem, varat tos atšķirt, iekļaujot sufiksu pa kreisi vai pa labi. Dariet to, iekļaujot lsufikss vai rsfikss atslēgvārds:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
drukāt (newDataFrame)
16. DataFrame.combine
The apvienot () funkcija ir noderīga, lai apvienotu divus DataFrame, kas satur līdzīgus kolonnu nosaukumus, pamatojoties uz iestatītajiem kritērijiem. Tā pieņem a funkcija atslēgvārds.
Piemēram, lai sapludinātu divus DataFrame ar līdzīgiem kolonnu nosaukumiem, pamatojoties tikai uz maksimālajām vērtībām:
newDataFrame = df.combine (df2, numpy.minimum)
drukāt (newDataFrame)
Piezīme: Varat arī definēt pielāgotu atlases funkciju un ievietot numpy.minimums.
17. DataFrame.astype
The astype() funkcija maina konkrētas kolonnas vai DataFrame datu tipu.
Piemēram, lai visas DataFrame vērtības mainītu uz virkni:
DataFrame.astype (str)
18. DataFrame.sum
The summa () funkcija pandas atgriež vērtību summu katrā kolonnā:
DataFrame.sum()
Varat arī atrast visu izmantoto vienumu kumulatīvo summu cumsum ():
DataFrame.cumsum()
19. DataFrame.drop
pandas piliens () funkcija dzēš noteiktas rindas vai kolonnas DataFrame. Lai to izmantotu, ir jānorāda kolonnu nosaukumi vai rindu indekss un ass.
Lai noņemtu noteiktas kolonnas, piemēram:
df.drop (columns=['colum1', 'column2'], axis=0)
Piemēram, lai nomestu rindas indeksā 1, 3 un 4:
df.drop([1, 3, 4], ass=0)
20. DataFrame.corr
Vai vēlaties atrast korelāciju starp veselu skaitļu vai peldošām kolonnām? pandas var palīdzēt jums to sasniegt, izmantojot korr() funkcija:
DataFrame.corr()
Iepriekš minētais kods atgriež jaunu DataFrame, kas satur korelācijas secību starp visām veselo skaitļu vai peldošām kolonnām.
21. DataFrame.add
The pievienot () funkcija ļauj pievienot noteiktu skaitli katrai DataFrame vērtībai. Tas darbojas, atkārtojot DataFrame un darbojoties ar katru vienumu.
Saistīts:Kā lietot cilpas programmā Python
Piemēram, lai pievienotu 20 katrai vērtībai konkrētā kolonnā, kurā ir veseli skaitļi vai peldošie skaitļi:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Tāpat kā saskaitīšanas funkcija, varat arī atņemt skaitli no katras vērtības DataFrame vai konkrētā kolonnā:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Šī ir pandu pievienošanas funkcijas reizināšanas versija:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Līdzīgi varat sadalīt katru datu punktu kolonnā vai DataFrame ar noteiktu skaitli:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Izmantojot std() funkcija, pandas arī ļauj aprēķināt standarta novirzi katrai DataFrame kolonnai. Tas darbojas, atkārtojot katru datu kopas kolonnu un aprēķinot standarta novirzi katrai:
DataFrame.std()
26. DataFrame.sort_values
Varat arī kārtot vērtības augošā vai dilstošā secībā, pamatojoties uz noteiktu kolonnu. Lai kārtotu DataFrame dilstošā secībā, piemēram:
newDataFrame = DataFrame.sort_values (pēc = "colmun_name", dilstošā = True)
27. DataFrame.melt
The izkausēt () funkcija pandās pārvērš kolonnas DataFrame atsevišķās rindās. Tas ir kā DataFrame anatomiju. Tādējādi tas ļauj skaidri skatīt katrai kolonnai piešķirto vērtību.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Šī funkcija atgriež kopējo vienumu skaitu katrā kolonnā:
DataFrame.count()
29. DataFrame.query
pandas vaicājums() ļauj izsaukt vienumus, izmantojot to indeksa numuru. Piemēram, lai iegūtu vienumus trešajā rindā:
DataFrame.query('4') # Izsauciet vaicājumu ceturtajā rādītājā
30. DataFrame.where
The kur () funkcija ir pandas vaicājums, kas pieņem nosacījumu konkrētu vērtību iegūšanai kolonnā. Piemēram, lai iegūtu visu vecumu, kas jaunāki par 30 gadiem, no an Vecums sleja:
DataFrame.where (DataFrame['Vecums'] < 30)
Iepriekš minētais kods izvada DataFrame, kas satur visus vecumus, kas jaunāki par 30, bet piešķir Nan rindām, kas neatbilst nosacījumam.
Rīkojieties ar datiem kā profesionālis ar pandām
pandas ir funkciju un metožu dārgumu krātuve mazu un liela mēroga datu kopu apstrādei ar Python. Bibliotēka ir noderīga arī datu tīrīšanai, apstiprināšanai un sagatavošanai analīzei vai mašīnmācībai.
Atvēlot laiku, lai to apgūtu, noteikti atvieglos jūsu kā datu zinātnieka dzīvi, un tas ir pūļu vērts. Tāpēc jūtieties brīvi izvēlēties visas funkcijas, ar kurām varat rīkoties.
Python standarta bibliotēkā ir daudzas funkcijas, kas palīdz veikt programmēšanas uzdevumus. Uzziniet par visnoderīgāko un izveidojiet stabilāku kodu.
Lasiet Tālāk
- Programmēšana
- Python
- Programmēšana
- datu bāze
Idowu aizraujas ar jebko viedo tehnoloģiju un produktivitāti. Brīvajā laikā viņš spēlējas ar kodēšanu un pārslēdzas uz šaha galdu, kad viņam ir garlaicīgi, taču viņam patīk arī ik pa laikam atrauties no rutīnas. Viņa aizraušanās parādīt cilvēkiem ceļu par modernajām tehnoloģijām motivē viņu rakstīt vairāk.
Abonējiet mūsu biļetenu
Pievienojieties mūsu informatīvajam izdevumam, lai saņemtu tehniskos padomus, pārskatus, bezmaksas e-grāmatas un ekskluzīvus piedāvājumus!
Noklikšķiniet šeit, lai abonētu