Pandas bibliotēka padara pitonu datu zinātni vienkāršu. Tā ir populāra Python bibliotēka datu lasīšanai, sapludināšanai, kārtošanai, tīrīšanai un citiem nolūkiem. Lai gan pandas ir viegli lietot un lietot datu kopās, tām ir jāapgūst daudzas datu manipulācijas funkcijas.

Jūs varētu izmantot pandas, taču pastāv liela iespēja, ka jūs to neizmantojat ar datiem saistīto problēmu risināšanai. Šeit ir mūsu saraksts ar vērtīgiem datiem, kas manipulē ar pandu funkcijām, kas būtu jāzina katram datu zinātniekam.

Instalējiet pandas savā virtuālajā vidē

Pirms turpināt, noteikti instalējiet pandas savā virtuālajā vidē, izmantojot pip:

pip instalēt pandas

Pēc instalēšanas importējiet pandas skripta augšdaļā, un turpināsim.

1. pandas. DataFrame

Jūs lietojat pandas. DataFrame() lai pandās izveidotu DataFrame. Ir divi veidi, kā izmantot šo funkciju.

Varat izveidot DataFrame kolonnu, ievadot vārdnīcu pandas. DataFrame() funkcija. Šeit katra atslēga ir kolonna, bet vērtības ir rindas:

importēt pandas
DataFrame = pandas. DataFrame ({"A": [1, 3, 4], "B": [5, 9, 12]})
drukāt (DataFrame)

Otra metode ir DataFrame veidošana pāri rindām. Bet šeit jūs atdalīsit vērtības (rindas vienumus) no kolonnām. Datu skaitam katrā sarakstā (rindas datiem) arī jāsakrīt ar kolonnu skaitu.

importēt pandas
DataFrame = pandas. DataFrame([[1, 4, 5], [7, 19, 13]], kolonnas = ["J", "K", "L"])
drukāt (DataFrame)

2. Lasiet no un rakstiet uz Excel vai CSV formātā pandas

Izmantojot pandas, varat lasīt vai rakstīt Excel vai CSV failos.

Excel vai CSV failu lasīšana

Lai lasītu Excel failu:

#Aizstāt example.xlsx ar sava Excel faila ceļu
DataFrame = DataFrame.read_excel("example.xlsx")

Lūk, kā lasīt CSV failu:

#Aizstāt example.csv ar sava CSV faila ceļu
DataFrame = DataFrame.read_csv("example.csv")

Rakstīšana Excel vai CSV formātā

Rakstīšana programmā Excel vai CSV ir plaši pazīstama pandu darbība. Un tas ir ērti, lai saglabātu tikko aprēķinātās tabulas atsevišķās datu lapās.

Lai rakstītu Excel lapā:

DataFrame.to_excel("pilns_galamērķa_mapes_ceļš/faila nosaukums.xlsx")

Ja vēlaties rakstīt CSV formātā:

DataFrame.to_csv("pilns_galamērķa_mapes_ceļš/faila nosaukums.csv")

Varat arī aprēķināt katras DataFrame kolonnas centrālās tendences, izmantojot pandas.

Tālāk ir norādīts, kā iegūt katras kolonnas vidējo vērtību.

DataFrame.mean()

Lai iegūtu vidējo vai režīma vērtību, nomainiet nozīmē () ar mediāna () vai režīms ().

4. DataFrame.transform

pandas DataFrame.transform() maina DataFrame vērtības. Tā pieņem funkciju kā argumentu.

Piemēram, tālāk norādītais kods reizina katru DataFrame vērtību ar trīs, izmantojot Python lambda funkcija:

DataFrame = DataFrame.transform (lambda y: y*3)
drukāt (DataFrame)

5. DataFrame.isnull

Šī funkcija atgriež Būla vērtību un atzīmē visas rindas, kurās ir nulles vērtības, kā Taisnība:

DataFrame.isnull()

Iepriekš minētā koda rezultātu var būt grūti nolasīt lielākām datu kopām. Tātad jūs varat izmantot isnull().sum() funkciju vietā. Tas atgriež visu trūkstošo vērtību kopsavilkumu katrai kolonnai:

DataFrame.isnull().sum()

6. Dataframe.info

The info() funkcija ir an būtiska pandas darbība. Tā vietā tas atgriež katras kolonnas netrūkstošo vērtību kopsavilkumu:

DataFrame.info()

7. DataFrame.aprakstiet

The aprakstīt () funkcija sniedz datu kopsavilkuma statistiku:

DataFrame.describe()

8. DataFrame.replace

Izmantojot DataFrame.replace() metodi pandās, jūs varat aizstāt atlasītās rindas ar citām vērtībām.

Piemēram, lai apmainītu nederīgās rindas ar Nan:

# Nodrošiniet, lai pip instalēšana būtu nevainojama, lai tas darbotos
importa numpy
importēt pandas
# Pievienojot ievietotu atslēgvārdu un iestatot to uz True, izmaiņas kļūst pastāvīgas:
DataFrame.replace([nederīgs_1, nederīgs_2], numpy.nan, inplace=true)
drukāt (DataFrame)

9. DataFrame.fillna

Šī funkcija ļauj aizpildīt tukšas rindas ar noteiktu vērtību. Jūs varat aizpildīt visu Nan rindas datu kopā ar vidējo vērtību, piemēram:

DataFrame.fillna (df.mean(), inplace = True)
drukāt (DataFrame)

Varat arī norādīt konkrētu kolonnu:

DataFrame['kolonnas_nosaukums'].fillna (df[kolonnas_nosaukums].mean(), inplace = True)
drukāt (DataFrame)

10. DataFrame.dropna

The dropna () metode noņem visas rindas, kurās ir nulles vērtības:

DataFrame.dropna (inplace = True)
drukāt (DataFrame)

11. DataFrame.insert

Jūs varat izmantot pandas ievietot () funkciju, lai DataFrame pievienotu jaunu kolonnu. Tā pieņem trīs atslēgvārdus, kolonnas nosaukums, tā datu saraksts un tā atrašanās vieta, kas ir kolonnas rādītājs.

Lūk, kā tas darbojas:

DataFrame.insert (kolonna = 'C', vērtība = [3, 4, 6, 7], loc=0)
drukāt (DataFrame)

Iepriekš minētais kods ievieto jauno kolonnu pie nulles kolonnas indeksa (tā kļūst par pirmo kolonnu).

12. DataFrame.loc

Tu vari izmantot loc lai atrastu elementus noteiktā rādītājā. Piemēram, lai skatītu visus trešās rindas vienumus:

DataFrame.loc[2]

13. DataFrame.pop

Šī funkcija ļauj noņemt norādīto kolonnu no pandas DataFrame.

Tā pieņem an lieta atslēgvārds, atgriež uznirstošo kolonnu un atdala to no pārējās DataFrame daļas:

DataFrame.pop (item= 'kolonnas_nosaukums')
drukāt (DataFrame)

14. DataFrame.max, min

Maksimālo un minimālo vērtību iegūšana, izmantojot pandas, ir vienkārša:

DataFrame.min()

Iepriekš minētais kods atgriež minimālo vērtību katrai kolonnai. Lai iegūtu maksimumu, nomainiet min ar maks.

15. DataFrame.join

The pievienoties () Pandas funkcija ļauj apvienot DataFrames ar dažādiem kolonnu nosaukumiem. Varat izmantot kreiso, labo, iekšējo vai ārējo savienojumu. Lai pa kreisi savienotu DataFrame ar diviem citiem:

#Pa kreisi savienojiet garākās kolonnas ar īsākām
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
drukāt (newDataFrame)

Lai pievienotos DataFrames ar līdzīgiem kolonnu nosaukumiem, varat tos atšķirt, iekļaujot sufiksu pa kreisi vai pa labi. Dariet to, iekļaujot lsufikss vai rsfikss atslēgvārds:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
drukāt (newDataFrame)

16. DataFrame.combine

The apvienot () funkcija ir noderīga, lai apvienotu divus DataFrame, kas satur līdzīgus kolonnu nosaukumus, pamatojoties uz iestatītajiem kritērijiem. Tā pieņem a funkcija atslēgvārds.

Piemēram, lai sapludinātu divus DataFrame ar līdzīgiem kolonnu nosaukumiem, pamatojoties tikai uz maksimālajām vērtībām:

newDataFrame = df.combine (df2, numpy.minimum)
drukāt (newDataFrame)

Piezīme: Varat arī definēt pielāgotu atlases funkciju un ievietot numpy.minimums.

17. DataFrame.astype

The astype() funkcija maina konkrētas kolonnas vai DataFrame datu tipu.

Piemēram, lai visas DataFrame vērtības mainītu uz virkni:

DataFrame.astype (str)

18. DataFrame.sum

The summa () funkcija pandas atgriež vērtību summu katrā kolonnā:

DataFrame.sum()

Varat arī atrast visu izmantoto vienumu kumulatīvo summu cumsum ():

DataFrame.cumsum()

19. DataFrame.drop

pandas piliens () funkcija dzēš noteiktas rindas vai kolonnas DataFrame. Lai to izmantotu, ir jānorāda kolonnu nosaukumi vai rindu indekss un ass.

Lai noņemtu noteiktas kolonnas, piemēram:

df.drop (columns=['colum1', 'column2'], axis=0)

Piemēram, lai nomestu rindas indeksā 1, 3 un 4:

df.drop([1, 3, 4], ass=0)

20. DataFrame.corr

Vai vēlaties atrast korelāciju starp veselu skaitļu vai peldošām kolonnām? pandas var palīdzēt jums to sasniegt, izmantojot korr() funkcija:

DataFrame.corr()

Iepriekš minētais kods atgriež jaunu DataFrame, kas satur korelācijas secību starp visām veselo skaitļu vai peldošām kolonnām.

21. DataFrame.add

The pievienot () funkcija ļauj pievienot noteiktu skaitli katrai DataFrame vērtībai. Tas darbojas, atkārtojot DataFrame un darbojoties ar katru vienumu.

Saistīts:Kā lietot cilpas programmā Python

Piemēram, lai pievienotu 20 katrai vērtībai konkrētā kolonnā, kurā ir veseli skaitļi vai peldošie skaitļi:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Tāpat kā saskaitīšanas funkcija, varat arī atņemt skaitli no katras vērtības DataFrame vai konkrētā kolonnā:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Šī ir pandu pievienošanas funkcijas reizināšanas versija:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Līdzīgi varat sadalīt katru datu punktu kolonnā vai DataFrame ar noteiktu skaitli:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Izmantojot std() funkcija, pandas arī ļauj aprēķināt standarta novirzi katrai DataFrame kolonnai. Tas darbojas, atkārtojot katru datu kopas kolonnu un aprēķinot standarta novirzi katrai:

DataFrame.std()

26. DataFrame.sort_values

Varat arī kārtot vērtības augošā vai dilstošā secībā, pamatojoties uz noteiktu kolonnu. Lai kārtotu DataFrame dilstošā secībā, piemēram:

newDataFrame = DataFrame.sort_values ​​(pēc = "colmun_name", dilstošā = True)

27. DataFrame.melt

The izkausēt () funkcija pandās pārvērš kolonnas DataFrame atsevišķās rindās. Tas ir kā DataFrame anatomiju. Tādējādi tas ļauj skaidri skatīt katrai kolonnai piešķirto vērtību.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Šī funkcija atgriež kopējo vienumu skaitu katrā kolonnā:

DataFrame.count()

29. DataFrame.query

pandas vaicājums() ļauj izsaukt vienumus, izmantojot to indeksa numuru. Piemēram, lai iegūtu vienumus trešajā rindā:

DataFrame.query('4') # Izsauciet vaicājumu ceturtajā rādītājā

30. DataFrame.where

The kur () funkcija ir pandas vaicājums, kas pieņem nosacījumu konkrētu vērtību iegūšanai kolonnā. Piemēram, lai iegūtu visu vecumu, kas jaunāki par 30 gadiem, no an Vecums sleja:

DataFrame.where (DataFrame['Vecums'] < 30)

Iepriekš minētais kods izvada DataFrame, kas satur visus vecumus, kas jaunāki par 30, bet piešķir Nan rindām, kas neatbilst nosacījumam.

Rīkojieties ar datiem kā profesionālis ar pandām

pandas ir funkciju un metožu dārgumu krātuve mazu un liela mēroga datu kopu apstrādei ar Python. Bibliotēka ir noderīga arī datu tīrīšanai, apstiprināšanai un sagatavošanai analīzei vai mašīnmācībai.

Atvēlot laiku, lai to apgūtu, noteikti atvieglos jūsu kā datu zinātnieka dzīvi, un tas ir pūļu vērts. Tāpēc jūtieties brīvi izvēlēties visas funkcijas, ar kurām varat rīkoties.

20 Python funkcijas, kas jums jāzina

Python standarta bibliotēkā ir daudzas funkcijas, kas palīdz veikt programmēšanas uzdevumus. Uzziniet par visnoderīgāko un izveidojiet stabilāku kodu.

Lasiet Tālāk

DalītiesČivinātE-pasts
Saistītās tēmas
  • Programmēšana
  • Python
  • Programmēšana
  • datu bāze
Par autoru
Idowu Omisola (Publicēti 123 raksti)

Idowu aizraujas ar jebko viedo tehnoloģiju un produktivitāti. Brīvajā laikā viņš spēlējas ar kodēšanu un pārslēdzas uz šaha galdu, kad viņam ir garlaicīgi, taču viņam patīk arī ik pa laikam atrauties no rutīnas. Viņa aizraušanās parādīt cilvēkiem ceļu par modernajām tehnoloģijām motivē viņu rakstīt vairāk.

Vairāk no Idowu Omisola

Abonējiet mūsu biļetenu

Pievienojieties mūsu informatīvajam izdevumam, lai saņemtu tehniskos padomus, pārskatus, bezmaksas e-grāmatas un ekskluzīvus piedāvājumus!

Noklikšķiniet šeit, lai abonētu