Lieli datu līdzekļi ir netīri, it īpaši, ja tie ir jāiegūst no vietnēm, serveriem vai citiem datu avotiem.

Uz interfeisu balstītas lietojumprogrammas, piemēram, MS Excel, ir piemērotas vienkāršu datu kopu apstrādei, taču tās var apgrūtināt, kad dati kļūst lielāki. Tas ir labs iemesls, lai pārietu uz Python, lai veiktu sarežģītākas uz datiem balstītas darbības.

Python trešās puses bibliotēka Pandas palīdz ātri kārtot esošās datu kopas. Ja vēlaties kārtot savus datus programmā Python, šajā rakstā ir aplūkoti daži veidi, kā veikt šo uzdevumu.

Priekšnosacījumi Python izmantošanai datu kārtošanai

Pirms datu kārtošanas Python, jums ir jāizpilda daži priekšnoteikumi:

  • Lejupielādējiet Python IDE. Jūs varat izmantot a Ar Python saderīgs IDE, piemēram, Jupyter Notebook, PyCharm un Spyder, cita starpā. Katrs no tiem ir saderīgs ar visām Python versijām.
  • Instalējiet pandas. Jums būs nepieciešama pandas pakotne, kuru varat instalēt, izmantojot PIP vai jūsu izvēlētā metode.
  • Datu kopas paraugs. Lejupielādēt a datu kopas paraugs praktizēt uzskaitītos kodus. Varat arī izmantot šīs procedūras saviem ekskluzīvajiem datiem.

Pandas bibliotēkas importēšana programmā Python

Pandas ir trešās puses Python bibliotēka, ko varat izmantot, lai apstrādātu Excel, CSV un citus datu formātus.

Lai strādātu ar Excel faila paraugu, sāciet ar pandas bibliotēkas importēšanu. Pēc tam jūs izmantosit importēšanas procedūra, lai Excel datus nolasītu programmā Python.

Lai importētu bibliotēku

imports pandas  pd

Izveidojiet jaunu datu rāmi, lai ielādētu Excel datus

fails = "Paraugs - Superstore.xls"
df = pd.read_excel (fails)
df.galva()

Kur:

  • df ir DataFrame objekts, kas glabā importētos datus.
  • pd ir Pandas bibliotēkas aizstājvārds.
  • lasīt_excel ir metode Excel faila lasīšanai programmā Python.
  • failu ir ceļš uz Excel failu.
  • galvu ir metode, kas atgriež pirmās piecas rindas no DataFrame.

Kad programma ir ielādējusi datus, varat izmantot daudzās pieejamās DataFrame metodes, lai tos kārtotu dažādos veidos.

1. Kārtošana pēc vienas kolonnas datu rāmī

Tā kā jūsu datos būs daudz rindu un kolonnu, jūs bieži vēlaties kārtot datus, pamatojoties uz noteiktu kolonnu vai kolonnām.

Python pēc noklusējuma kārto datus augošā secībā. Ja vēlaties mainīt kārtošanas secību, jums tas ir skaidri jānorāda savā kodā.

Kārtot pēc vienas kolonnas (augošā secībā)

df.sort_values ​​(pēc = "Klienta ID")

Kārtot pēc vienas kolonnas (dilstošā secībā)

Iestatiet augšupejoša parametrs uz Nepatiesi lai kārtotu kolonnu dilstošā secībā.

df.sort_values ​​(pēc = "Klienta ID", augošā=nepatiesa)

Kur:

  • df ir DataFrame objekts, kas satur datus.
  • kārtot_vērtības ir metode kārtošanai pēc datu vērtībām.
  • autors ir parametrs kolonnas nosaukuma noteikšanai.
  • augšupejoša ir parametrs kārtošanas secības noteikšanai.

2. Vairāku kolonnu kārtošana DataFrame

Ja jūsu prasības to prasa, varat arī kārtot savus DataFrame(-s), pamatojoties uz vairākām kolonnām vienlaikus. Šādā gadījumā kolonnu atsauces ir jādefinē sarakstā.

Kārtot pēc vairākām kolonnām augošā secībā

df.sort_values ​​(pēc = ["Klienta ID", "Pilsēta"])

Kārtot pēc vairākām kolonnām dilstošā secībā

Izmantojiet funkciju augošs = nepatiess lai kārtotu kolonnas dilstošā secībā. Atcerieties, ka sarakstā ir jānorāda kolonnu nosaukumi, lai tās kārtotu vienlaikus.

df.sort_values ​​(pēc = ["Klienta ID", "Pilsēta"], augošā secībā = False)

Kārtošana pēc vairākām kolonnām dažādos kārtošanas secībās

Kas notiek, ja vēlaties kārtot vienu kolonnu dilstošā secībā, bet otru augošā secībā? Lai iekļautu šīs prasības, kods ir nedaudz jāpielāgo.

Piemēram, lai kārtotu Novads un Pilsēta kolonnas attiecīgi dilstošā un augošā secībā:

df.sort_values ​​(pēc = ["Novads", "Pilsēta"], augošā secībā = [nepatiesi, patiesi])

Šī koda skaidrojums ir vienkāršs; jūs definējat DataFrame nosaukumu un nododat kārtot_vērtības funkciju kopā ar kolonnu nosaukumiem sarakstā. Jums vajadzētu izmantot Būla vērtības, lai norādītu kārtošanas secību.

Funkcijas izsaukšana šādi nozīmē, ka Python vispirms kārtos pēc DataFrame reģiona kolonnas dilstošā secībā. Pēc tam rindas ar identisku reģionu tiks kārtotas augošā secībā pēc kolonnas Pilsēta.

3. Kā kārtot kolonnas DataFrame pēc indeksa

Indeksa mainīgais ir noklusējuma vērtība, kas piešķirta katrai rindai Python Dataframe. Varat definēt indeksa vērtības vai ļaut Python iestatīt indeksa vērtību atsevišķi.

Lai kārtotu datus pēc to indeksa vērtības, varat izmantot šķirošanas_indekss funkciju. Šī funkcija kārto, pamatojoties uz indeksu, nevis uz vērtībām, kas ietvertas sākotnējā datu kopā.

df.sort_index()

Tāpat kā ar sort_values, varat nodot augšupejoša parametrs, lai norādītu kārtošanas virzienu. Piemēram, norādiet vērtību Nepatiesi lai kārtotu datus dilstošā secībā:

df.sort_index (augošā = Nepatiesi)

4. Kolonnu kārtošana datu rāmī, nevis rindu

Tā vietā, lai kārtotu rindas DataFrame, varat kārtot tā kolonnas. To var izdarīt, izsaucot metodi sort_index un nododot to ass parametrs ar vērtību 1:

df.sort_index (ass=1)

Šī darbība sakārto DataFrame pēc kolonnām augošā secībā. Lai kārtotu DataFrame kolonnas dilstošā secībā, kārtošanas solī varat norādīt kārtošanas secību.

df.sort_index (axis=1, augošs = Nepatiesi)

5. DataFrame modificēšana kārtošanas laikā

Abas kārtošanas metodes darbojas, atgriežot sākotnējo datu kopiju tā tikko sakārtotajā stāvoklī. Lai ietaupītu vietu krātuvē vai vienkārši rakstītu kodolīgāku kodu, varat modificēt sākotnējos DataFrame datus. Katra metode pieņem an vietā Būla parametrs, kas modificē datus, nevis atgriež modificētu kopiju.

df.sort_values ​​(pēc = ["Klienta ID", "Pilsēta"], augošs = nepatiess, vietā = patiess)

Mācīšanās kārtot datus programmā Python

Python atkārto daudzas Excel iebūvētās funkcijas ar dažām koda rindām. Sākot ar šķirošanas procedūrām un beidzot ar sarežģītu rakurstabulu izveidošanu saviem datiem, jūs to nosaucat, un to varat izdarīt programmā Python.

Ja jūs joprojām esat iesācējs Python un apgūstat virves, šīs darbības salīdzinoši viegli uzlabos jūsu kodēšanas prasmes.