Izmantojiet PandasAI Python bibliotēku, lai izmantotu mākslīgā intelekta iespējas un lielus valodu modeļus datu analīzes uzdevumu veikšanai.

Pandas ir visizplatītākā bibliotēka datu kopu un datu rāmju manipulēšanai. Tā jau ilgu laiku ir bijusi norma. Taču līdz ar mākslīgā intelekta attīstību tiek izstrādāta jauna atvērtā pirmkoda bibliotēka PandasAI, kas Pandas pievieno ģeneratīvas AI iespējas.

PandasAI neaizstāj Pandas. Tā vietā tas sniedz ģeneratīvās AI iespējas. Tādā veidā varat veikt datu analīzi, tērzējot ar PandasAI. Pēc tam tas abstrahē fonā notiekošo un nodrošina jūsu vaicājuma izvadi.

PandasAI instalēšana

PandasAI ir pieejams, izmantojot PyPI (Python Package Index). Izveidojiet jaunu virtuālo vidi ja izmantojat vietējo IDE. Tad izmantojiet pip pakotņu pārvaldnieku lai to instalētu.

pip instalēt pandasai

Ja izmantojat Google Colab, var rasties atkarības konflikta kļūda, kas ir līdzīga tālāk redzamajai.

Nepazeminiet IPython versiju. Vienkārši restartējiet izpildlaiku un vēlreiz palaidiet koda bloku. Tas atrisinās problēmu.

instagram viewer

Pilns pirmkods ir pieejams a GitHub repozitorijs.

Izpratne par datu kopas paraugu

Datu kopas paraugs, ar kuru jūs manipulēsit ar PandasAI, ir Kalifornijas mājokļu cenu datu kopa no Kaggle. Šajā datu kopā ir ietverta informācija par mājokļiem no 1990. gada Kalifornijas tautas skaitīšanas. Tajā ir desmit kolonnas, kurās sniegta statistika par šīm mājām. Datu karte, kas palīdzēs uzzināt vairāk par šo datu kopu, ir pieejama vietnē Kaggle. Tālāk ir norādītas pirmās piecas datu kopas rindas.

Katra kolonna atspoguļo vienu mājas statistiku.

PandasAI savienošana ar lielo valodu modeli

Lai savienotu PandasAI ar a lielas valodas modelis (LLM) tāpat kā OpenAI, jums ir nepieciešama piekļuve tās API atslēgai. Lai to iegūtu, pārejiet uz OpenAI platforma. Pēc tam piesakieties savā kontā. Izvēlieties API zem opciju lapas, kas tiek parādīta nākamajā.

Pēc tam noklikšķiniet uz sava profila un atlasiet Skatīt API atslēgas opciju. Nākamajā lapā parādītajā noklikšķiniet uz Izveidojiet jaunu slepeno atslēgu pogu. Visbeidzot, nosauciet savu API atslēgu.

OpenAI ģenerēs jūsu API atslēgu. Kopējiet to, jo jums tas būs nepieciešams, savienojot PandasAI ar OpenAI. Noteikti paturiet atslēgu noslēpumā, jo ikviens, kam tai ir piekļuve, var jūsu vārdā piezvanīt OpenAI. Pēc tam OpenAI iekasēs maksu no jūsu konta par zvaniem.

Tagad, kad jums ir API atslēga, izveidojiet jaunu Python skriptu un ielīmējiet tālāk norādīto kodu. Jums šis kods nav jāmaina, jo lielāko daļu laika jūs to izmantosit.

imports pandas  pd
no pandasai imports PandasAI

# Aizstāt ar savu datu kopu vai datu rāmi
df = pd.read_csv("/content/housing.csv")

# Izveidojiet LLM
no pandasai.llm.openai imports OpenAI
llm = OpenAI(api_token="jūsu API pilnvara")

pandas_ai = PandasAI(llm)

Iepriekš minētais kods importē gan PandasAI, gan Pandas. Pēc tam tas nolasa datu kopu. Visbeidzot, tas veido OpenAI LLM.

Tagad esat gatavs sarunāties ar saviem datiem.

Vienkāršu uzdevumu veikšana, izmantojot PandasAI

Lai pieprasītu savus datus, nosūtiet savu datu rāmi un uzvedni PandasAI klases instancei. Sāciet, izdrukājot pirmās piecas datu kopas rindas.

pandas_ai (df, prompt="Kādas ir pirmās piecas datu kopas rindas?")

Iepriekš minētās uzvednes izvade ir šāda:

Šī izvade ir identiska iepriekšējai datu kopas pārskatam. Tas parāda, ka PandasAI sniedz pareizus rezultātus un ir uzticams.

Pēc tam pārbaudiet datu kopā esošo kolonnu skaitu.

pandas_ai (df, prompt=Cik kolonnu ir datu kopā? ')

Tas atgriež 10, kas ir pareizais kolonnu skaits Kalifornijas mājokļu datu kopā.

Pārbauda, ​​vai datu kopā trūkst vērtību.

pandas_ai (df, prompt="Vai datu kopā trūkst vērtību?")

PandasAI atgriež, ka kopējais_guļamistabu skaits kolonnā ir 207 trūkstošās vērtības, kas atkal ir pareizi.

Izmantojot PandasAI, varat veikt daudz vienkāršu uzdevumu, jūs neaprobežojaties ar iepriekš minētajiem.

Sarežģītu vaicājumu veikšana, izmantojot PandasAI

PandasAI atbalsta ne tikai vienkāršus uzdevumus. Varat arī to izmantot, lai veiktu sarežģītus datu kopas vaicājumus. Piemēram, mājokļu datu kopā, ja vēlaties noteikt māju skaitu, kas atrodas uz sala, kuru vērtība pārsniedz 100 000 dolāru, un tajā ir vairāk nekā 10 istabas, varat izmantot uzvedni zemāk.

pandas_ai (df, prompt= "Cik māju vērtība ir lielāka par 100 000"
"atrodas salā un kopējais guļamistabu skaits ir vairāk nekā 10?")

Pareizā izvade ir pieci. Tas ir tas pats rezultāts, ko izvada PandasAI.

Sarežģītu vaicājumu rakstīšana un atkļūdošana datu analītiķim var aizņemt kādu laiku. Iepriekš minētajai uzvednei ir vajadzīgas tikai divas dabiskās valodas rindas, lai veiktu vienu un to pašu uzdevumu. Jums tikai jāpadomā, ko tieši vēlaties paveikt, un PandasAI parūpēsies par pārējo.

Diagrammu zīmēšana, izmantojot PandasAI

Diagrammas ir būtiska jebkura datu analīzes procesa sastāvdaļa. Tas palīdz datu analītiķiem vizualizēt datus cilvēkiem draudzīgā veidā. PandasAI ir arī diagrammu zīmēšanas funkcija. Jums vienkārši jānodod datu rāmis un instrukcija.

Sāciet, izveidojot histogrammu katrai datu kopas kolonnai. Tas palīdzēs vizualizēt mainīgo lielumu sadalījumu.

pandas_ai (df, prompt= "Plot a histogram for every kolonn in the data")

Izvade ir šāda:

PandasAI varēja uzzīmēt visu kolonnu histogrammu, nenododot to nosaukumus uzvednē.

PandasAI var arī izveidot diagrammas, skaidri nenorādot, kuru diagrammu izmantot. Piemēram, iespējams, vēlēsities noskaidrot mājokļu datu kopas datu korelāciju. Lai to panāktu, varat nosūtīt šādu uzvedni:

pandas_ai (df, prompt= "Plot the korelation in the dataset")

PandasAI attēlo korelācijas matricu, kā parādīts zemāk:

Bibliotēka izvēlas siltuma karti un izveido korelācijas matricu.

Vairāku datu kadru nodošana PandasAI instancei

Darbs ar vairākiem datu kadriem var būt sarežģīts. Īpaši tiem, kam datu analīze ir iesācējs. PandasAI novērš šo plaisu, jo viss, kas jums jādara, ir jānodod abi datu rāmji un jāsāk izmantot uzvednes, lai manipulētu ar datiem.

Izveidojiet divus datu kadrus, izmantojot Pandas.

darbinieku_dati = {
'Darbinieka ID': [1, 2, 3, 4, 5],
'vārds': ['Džons', "Emma", 'Liams', 'Olīvija', "Viljams"],
'Nodaļa': ["HR", "Pārdošana", 'TĀ', "Mārketings", "Finanses"]
}

algu_dati = {
'Darbinieka ID': [1, 2, 3, 4, 5],
"Alga": [5000, 6000, 4500, 7000, 5500]
}

darbinieki_df = pd. DataFrame (darbinieku_dati)
algas_df = pd. DataFrame (algu_dati)

Varat uzdot PandasAI jautājumu, kas aptver abus datu kadrus. PandasAI instancei ir jānodod tikai abi datu rāmji.

pandas_ai([darbinieku_df, algas_df], "Kam darbiniekam ir vislielākā alga?")

Tas atgriežas Olīvija kas atkal ir pareizā atbilde.

Datu analīzes veikšana nekad nav bijusi tik vienkārša, PandasAI ļauj tērzēt ar saviem datiem un viegli tos analizēt.

Izpratne par tehnoloģiju, kas nodrošina PandasAI

PandasAI vienkāršo datu analīzes procesu, tādējādi ietaupot daudz laika datu analītiķiem. Bet tas abstrahē fonā notiekošo. Jums ir jāiepazīstas ar ģeneratīvo AI, lai jūs varētu gūt priekšstatu par to, kā PandasAI darbojas zem pārsega. Tas arī palīdzēs jums sekot līdzi jaunākajām inovācijām ģeneratīvā AI domēnā.