Rakurstabulas joprojām ir viens no visvairāk cienītajiem un plaši izmantotajiem rīkiem programmā MS Excel. Neatkarīgi no tā, vai esat datu analītiķis, datu inženieris vai vienkārši parasts lietotājs, iespējams, ka jums jau ir piemērota vieta programmai MS Excel.

Neskatoties uz to, MS Excel rīkus un utilītas var replicēt, jo īpaši Python. Vai zinājāt, ka Python's DataFrames var izveidot plašas rakurstabulas ar dažām koda rindām?

Jā, tas ir pareizi; ja jūs interesē, lūk, kā to izdarīt.

Priekšnosacījumi rakurstabulu izveidei

Tāpat kā jebkurai citai programmēšanas valodai, pat Python ir jāizpilda daži priekšnoteikumi, lai varētu sākt kodēt.

Lai iegūtu maksimāli optimizētu pieredzi, veidojot savu pirmo rakurstabulu programmā Python, jums būs nepieciešams tālāk norādītais.

  • Python IDE: Lielākajai daļai Python kodu sistēmā ir iepriekš instalēta integrētā izstrādes vide (IDE). Ir vairāki Tirgū ar Python saderīgiem IDE, tostarp Jupyter Notebook, Spyder, PyCharm un daudzi citi.
  • Datu paraugi: Ilustrācijai šeit ir datu kopas paraugs, ar kuru varat strādāt. Varat arī pielāgot šos kodus tieši savos tiešraides datos.
    instagram viewer

Datu parauga saite:Lielveikala paraugs

Svarīgo bibliotēku importēšana

Tā kā Python strādā pie trešās puses bibliotēku koncepcijas, jums ir jāimportē Pandas bibliotēka rakursu izveidei.

Varat izmantot Pandas, lai importējiet Excel failu programmā Python un saglabājiet datus DataFrame. Lai importētu Pandas, izmantojiet imports komandu šādā veidā:

imports pandas  pd

Kā izveidot Pivots programmā Python

Tā kā bibliotēka tagad ir pieejama, jums ir jāimportē Excel fails programmā Python, kas ir pamats Python pivotu izveidei un pārbaudei. Saglabājiet importētos datus DataFrame ar šādu kodu:

# Izveidojiet jaunu DataFrame
# aizstājiet ar savu ceļu šeit
ceļš = "C://Lietotāji//lietotājs/OneDrive//Desktop//"
# šeit varat definēt faila nosaukumu
fails = "Paraugs - Superstore.xls"
df = pd.read_excel (ceļš + fails)
df.galva()

Kur:

  • df: Mainīgā nosaukums DataFrame datu glabāšanai
  • pd: Pandas bibliotēkas aizstājvārds
  • lasīt_excel(): Pandas funkcija, lai nolasītu Excel failu programmā Python
  • ceļš: Vieta, kur tiek glabāts Excel fails (Sample Superstore)
  • failu: importējamā faila nosaukums
  • galva (): Pēc noklusējuma parāda pirmās piecas DataFrame rindas

Iepriekš minētais kods importē Excel failu programmā Python un saglabā datus DataFrame. Visbeidzot, galvu funkcija parāda pirmās piecas datu rindas.

Šī funkcija ir ērta, lai nodrošinātu datu pareizu importēšanu Python.

Kuri rakurstabulas lauki pastāv programmā Python?

Tāpat kā Excel analogam, arī rakurstabulai Python ir līdzīga lauku kopa. Šeit ir daži lauki, kas jums jāzina:

  • Dati: Datu lauks attiecas uz datiem, kas tiek glabāti Python DataFrame
  • Vērtības: Rakursā izmantotie kolonnu dati
  • Indekss: Indeksa kolonna(-as) datu grupēšanai
  • Kolonnas: Kolonnas palīdz apkopot esošos datus DataFrame

Indeksa funkcijas izmantošanas mērķis

Tā kā indeksa funkcija ir rakurstabulas galvenais elements, tā atgriež datu pamata izkārtojumu. Citiem vārdiem sakot, varat grupēt savus datus ar rādītājs funkciju.

Pieņemsim, ka vēlaties skatīt dažas apkopotas vērtības produktiem, kas uzskaitīti sadaļā Segments kolonna. Varat aprēķināt iepriekš definētu agregātu (vidējo vērtību) programmā Python, definējot norādītās kolonnas anindeksa vērtību.

df.pivot_table (indekss = "Segments")

Kur:

  • df:DataFrame, kas satur datus
  • rakurstabula: Rakurstabulas funkcija programmā Python
  • rādītājs: iebūvēta funkcija kolonnas kā indeksa definēšanai
  • Segments: kolonna, ko izmantot kā indeksa vērtību

Python mainīgo nosaukumos ir reģistrjutīgi, tāpēc izvairieties no pārejas no šajā rokasgrāmatā norādītajiem iepriekš definētajiem mainīgo nosaukumiem.

Kā izmantot vairāku indeksu vērtības

Ja vēlaties izmantot vairākas indeksa kolonnas, kolonnu nosaukumus varat definēt sadaļā a sarakstu indeksa funkcijas ietvaros. Viss, kas jums jādara, ir norādīt kolonnu nosaukumus komplektā kvadrātiekavas ([ ]), kā parādīts zemāk:

df.pivot_table (indekss = ["Kategorija", "Apakškategorija"])

Rakursa funkcija izvadā ievieto indeksa kolonnas atkāpi. Python parāda nozīmē no visām skaitliskajām vērtībām pret katru indeksa vērtību.

Uzziniet, kā ierobežot izvades vērtības

Tā kā Python pēc noklusējuma izvēlas visas skaitliskās kolonnas, varat ierobežot vērtības, lai pielāgotu gala izvadē parādītos rezultātus. Izmantojiet vērtības funkciju, lai definētu kolonnas, kuras vēlaties redzēt.

df.pivot_table (indekss = ["Novads", "Kategorija", "Apakškategorija"], vērtības = "Pārdošana")

Galīgajā izvadā būs trīs indeksa kolonnas, un slejas Pārdošana vidējās vērtības ir salīdzinātas ar katru elementu.

Apkopoto funkciju definēšana rakurstabulā

Kas notiek, ja pēc noklusējuma nevēlaties aprēķināt vidējās vērtības? Rakurstabulai ir daudz citu funkciju, kas pārsniedz vienkārša vidējā aprēķināšanu.

Lūk, kā rakstīt kodu:

df.pivot_table (indekss = ["Kategorija"], vērtības = "Pārdošana", aggfunc = [summa, maks., min., len])

Kur:

  • summa: Aprēķina vērtību summu
  • maks.: Aprēķina maksimālo vērtību
  • min: Aprēķina maksimālo vērtību
  • len: Aprēķina vērtību skaitu

Varat arī definēt katru no šīm funkcijām atsevišķās koda rindās.

Kā pievienot kopsummas rakurstabulai

Neviens datu īpašums nav pilnīgs bez kopējām summām. Lai aprēķinātu un parādītu kopsummas katrai datu kolonnai, izmantojiet piemales un margins_name funkciju.

df.pivot_table (indekss = ["Kategorija"], vērtības = "Pārdošana", aggfunc = [summa, max, min, len], margins=True, margins_name='Lielās kopsummas')

Kur:

  • piemales: Funkcija kopējās summas aprēķināšanai
  • margins_name: Norādiet kategorijas nosaukumu indeksa kolonnā (piemēram, kopsummas)

Modificējiet un izmantojiet gala kodu

Šeit ir īss galīgais kods:

imports pandas  pd
# aizstājiet ar savu ceļu šeit
ceļš = "C://Lietotāji//lietotājs/OneDrive//Desktop//"
# šeit varat definēt faila nosaukumu
fails = "Paraugs - Superstore.xls"
df = pd.read_excel (ceļš + fails)
df.pivot_table (indekss = ["Novads", "Kategorija", "Apakškategorija"], vērtības = "Pārdošana",
aggfunc = [summa, maks., min., len],
piemales=Taisnība,
margins_name='Lielās kopsummas')

Rakurstabulu izveide programmā Python

Ja izmantojat rakurstabulas, iespēju ir vienkārši bezgalīgas. Python ļauj viegli apstrādāt plašus datu masīvus, neuztraucoties par datu neatbilstībām un sistēmas kavējumiem.

Tā kā Python funkcionalitāte neaprobežojas tikai ar datu sablīvēšanu rakursos, varat apvienot vairākas Excel darbgrāmatas un lapas, vienlaikus veicot vairākas saistītas funkcijas ar Python.

Izmantojot Python, pie apvāršņa vienmēr ir kaut kas jauns.