Ja izmantojat Python pat visvienkāršākajiem uzdevumiem, jūs, iespējams, apzināties tā trešo pušu bibliotēku nozīmi. Pandas bibliotēka ar izcilu DataFrames atbalstu ir viena no šādām bibliotēkām.
Python DataFrames varat importēt vairāku veidu failus un izveidot dažādas versijas dažādu datu kopu glabāšanai. Kad esat importējis savus datus, izmantojot DataFrames, varat tos apvienot, lai veiktu detalizētu analīzi.
Pamatu risināšana
Pirms sapludināšanas sākšanas jums ir nepieciešami datu rāmji, lai sapludinātu. Izstrādes nolūkos varat izveidot dažus fiktīvus datus, ar kuriem eksperimentēt.
Izveidojiet DataFrames programmā Python
Vispirms importējiet Pandas bibliotēku savā Python failā. Pandas ir trešās puses bibliotēka, kas apstrādā DataFrames programmā Python. Jūs varat izmantot imports paziņojums par bibliotēkas lietošanu:
imports pandas kā pd
Bibliotēkas nosaukumam varat piešķirt aizstājvārdu, lai saīsinātu koda atsauces.
Jums ir jāizveido vārdnīcas, kuras varat pārvērst par DataFrames. Lai iegūtu labākos rezultātus, izveidojiet divus vārdnīcas mainīgos —
dikti1 un dict2-lai saglabātu noteiktas informācijas daļas:dict1 = {"Lietotāja ID": ["001", "002", "003", "004", "005"],
"FNosaukums": ["Džons", "Breds", "Rons", "Roalds", "Kriss"],
"LNaukums": ["Harley", "Koens", "Dāls", "Haringtons", "Kers-Hislops"]}
dict2 = {"Lietotāja ID": ["001", "002", "003", "004"], "Vecums": [15, 28, 34, 24]}
Atcerieties, ka abās vārdnīcas vērtībās ir jābūt kopējam elementam, lai tas darbotos kā primārā atslēga datu rāmju apvienošanai vēlāk.
Pārvērtiet savas vārdnīcas DataFrames
Lai pārvērstu vārdnīcas vērtības DataFrames, varat izmantot šādu metodi:
df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)
Daži IDE ļauj pārbaudīt vērtības DataFrame, atsaucoties uz DataFrame funkciju un nospiežot Palaist/Izpildīt. Tur ir daudz Ar Python saderīgi IDE, lai jūs varētu izvēlēties un izvēlēties to, kas jums ir visvieglāk apgūstams.
Kad esat apmierināts ar DataFrames saturu, varat pāriet uz apvienošanas darbību.
Rāmju apvienošana ar sapludināšanas funkciju
Apvienošanas funkcija ir pirmā Python funkcija, ko varat izmantot, lai apvienotu divus DataFrame. Šī funkcija izmanto šādus noklusējuma argumentus:
pd.merge (DataFrame1, DataFrame2, how= veidsnosapludināt)
Kur:
- pd ir Pandas bibliotēkas aizstājvārds.
- sapludināt ir funkcija, kas apvieno DataFrames.
- DataFrame1 un DataFrame2 ir divi datu rāmji, kas jāapvieno.
- kā nosaka sapludināšanas veidu.
Ir pieejami daži papildu izvēles argumenti, kurus varat izmantot, ja jums ir sarežģīta datu struktūra.
Varat izmantot dažādas vērtības parametram how, lai definētu veicamās sapludināšanas veidu. Šie sapludināšanas veidi būs pazīstami, ja esat izmantoja SQL, lai savienotu datu bāzes tabulas.
Kreisā sapludināšana
Kreisais sapludināšanas veids saglabā pirmās DataFrame vērtības neskartas un izvelk atbilstošās vērtības no otrā DataFrame.
Labā sapludināšana
Pareizais sapludināšanas veids saglabā neskartas otrā DataFrame vērtības un iegūst atbilstošās vērtības no pirmā DataFrame.
Iekšējā sapludināšana
Iekšējais sapludināšanas veids saglabā atbilstošās vērtības no abiem datu rāmjiem un noņem neatbilstošās vērtības.
Ārējā sapludināšana
Ārējais sapludināšanas veids saglabā visas atbilstošās un neatbilstošās vērtības un konsolidē DataFrames kopā.
Kā lietot funkciju Concat
The concat funkcija ir elastīga iespēja salīdzinājumā ar dažām citām Python sapludināšanas funkcijām. Izmantojot concat funkciju, varat apvienot DataFrames vertikāli un horizontāli.
Tomēr šīs funkcijas izmantošanas trūkums ir tāds, ka tā pēc noklusējuma atmet visas neatbilstošās vērtības. Tāpat kā dažām citām saistītām funkcijām, šai funkcijai ir daži argumenti, no kuriem tikai daži ir būtiski veiksmīgai savienošanai.
concat (datu rāmji, ass = 0, pievienoties ='ārējā'/’iekšējais’)
Kur:
- concat ir funkcija, kas pievienojas DataFrames.
- datu rāmji ir datu rāmju secība, kas jāsavieno.
- ass apzīmē savienojuma virzienu, 0 ir horizontāls, 1 ir vertikāls.
- pievienoties norāda ārējo vai iekšējo savienojumu.
Izmantojot divus iepriekš minētos DataFrames, varat izmēģināt concat funkciju šādi:
# definējiet datu rāmjus saraksta formātā
df_merged_concat = pd.concat([df1, df2])
# izdrukājiet Concat funkcijas rezultātus
drukāt(df_merged_concat)
Ja iepriekš minētajā kodā nav ass un savienojuma argumentu, abas datu kopas tiek apvienotas. Rezultātā iegūtajā izvadē ir visi ieraksti neatkarīgi no atbilstības statusa.
Līdzīgi varat izmantot papildu argumentus, lai kontrolētu funkcijas concat virzienu un izvadi.
Lai kontrolētu izvadi ar visiem atbilstošajiem ierakstiem:
# Visu atbilstošo vērtību savienošana starp diviem datu kadriem, pamatojoties uz to kolonnām
df_merged_concat = pd.concat([df1, df2], ass=1, pievienoties = 'iekšējais')
drukāt(df_merged_concat)
Rezultātā ir visas atbilstošās vērtības tikai starp diviem DataFrame.
DataFrames sapludināšana ar Python
DataFrames ir neatņemama Python sastāvdaļa, ņemot vērā to elastību un funkcionalitāti. Ņemot vērā to daudzpusīgo pielietojumu, varat tos plaši izmantot, lai ļoti viegli veiktu dažādus uzdevumus.
Ja joprojām mācāties par Python DataFrames, mēģiniet importēt dažus Excel failus un pēc tam apvienot tos ar dažādām pieejām.