Tutorial Python Pandas: Apreneu Pandas per a l'anàlisi de dades



En aquest tutorial de Python Pandas, aprendreu les diverses operacions de Pandas. També inclou un cas d’ús, on podeu analitzar les dades mitjançant Pandas.

En aquest bloc, discutirem l’anàlisi de dades mitjançant Pandas a Python.Avui, és una gran experiència en la indústria que va superar PHP el 2017 i C # el 2018 en termes de popularitat i ús generals.Abans de parlar de pandes, cal entendre el concepte de matrius Numpy. Per què? Perquè Pandas és una biblioteca de programari de codi obert que es construeix a sobre . En aquest tutorial de Python Pandas, us explicaré els temes següents, que serviran de fonaments per als propers blocs:

Comencem. :-)





Què és Python Pandas?

Pandas s’utilitza per a la manipulació, anàlisi i neteja de dades. Els pandes Python són molt adequats per a diferents tipus de dades, com ara:

  • Dades tabulars amb columnes de tipus heterogeni
  • Dades de sèries temporals ordenades i no ordenades
  • Dades de matriu arbitrària amb etiquetes de fila i columna
  • Dades sense etiquetar
  • Qualsevol altra forma de conjunts de dades estadístiques i observacionals

Com instal·lar Pandas?

Per instal·lar Python Pandas, aneu a la vostra línia d’ordres / terminal i escriviu “pip install pandas” o bé, si teniu instal·lada una anaconda al vostre sistema, només cal que escriviu “conda install pandas”. Un cop finalitzada la instal·lació, aneu al vostre IDE (Jupyter, PyCharm, etc.) i simplement importeu-lo escrivint: 'import pandas as pd'



.trim () java

Avançant al tutorial de Python pandes, fem una ullada a algunes de les seves operacions:

Operacions de pandes Python

Utilitzant els pandes Python, podeu realitzar moltes operacions amb sèries, marcs de dades, dades que falten, agrupeu per, etc.



PandasOperations - Tutorial de Python Pandas - Edureka

Ara, entenem totes aquestes operacions una per una.

Tallar el marc de dades

Per poder tallar les dades, necessiteu un marc de dades. No us preocupeu, el marc de dades és una estructura de dades en dues dimensions i un objecte panda més comú. Per tant, primer, creem un marc de dades.

Consulteu el codi següent per a la seva implementació a PyCharm:

importa pandes com pd XYZ_web = {'Day': [1,2,3,4,5,6], 'Visitants': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Sortida :

Bounce_Rate Day Visitants 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

El codi anterior convertirà un diccionari en un marc de dades de pandes juntament amb un índex a l'esquerra. Ara, anem a tallar una columna particular d’aquest marc de dades. Consulteu la imatge següent:

imprimir (df.head (2))

Sortida:

Visitants del dia Bounce_Rate 0 20 1 1000 1 20 2 700

De la mateixa manera, si voleu les dues darreres files de les dades, escriviu l'ordre següent:

imprimir (df.tail (2))

Sortida:

Visitants del dia Bounce_Rate 4 10 5 400 5 34 6 350

A continuació, al tutorial de Python Pandas, deixem-nos fer combinacions i combinacions.

Fusió i unió

En combinar, podeu combinar dos marcs de dades per formar un únic marc de dades. També podeu decidir quines columnes voleu fer comunes. Permeteu-me implementar-ho pràcticament, primer crearé tres marcs de dades, que tenen alguns parells clau-valor i després combinaré els marcs de dades. Consulteu el codi següent:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Sortida:

importar pandes com pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, índex = [2005, 2006,2007,2008]) fusionat = pd.merge (df1, df2) imprimir (combinat)

Com podeu veure més amunt, els dos marcs de dades s’han fusionat en un únic marc de dades. Ara també podeu especificar la columna que vulgueu fer comuna. Per exemple, vull que la columna 'HPI' sigui comuna i per a la resta, vull columnes separades. Per tant, deixeu-ho implementar pràcticament:

ús de l'iterador a Java
df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índex = [2005, 2006,2007,2008]) fusionat = pd.merge (df1, df2, on = 'HPI') imprimir (combinat)

Sortida:

IND_GDP Int_Rate Low_Tier_HPI Atur 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

A continuació, entenem-ho unió a tutorial de pandes python. És un altre mètode convenient per combinar dos conjunts de dades indexats de manera diferent en un únic marc de dades de resultats. Això és bastant similar a l'operació 'fusionar', tret que l'operació d'unió estarà a l ''índex' en lloc de les 'columnes'. Posem-ho en pràctica.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) unit = df1. unir (df2) imprimir (unir)

Sortida:

IND_GDP Int_Rate Low_Tier_HPI Atur 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Com es pot observar a la sortida anterior, l'any 2002 (índex) no hi ha cap valor adjunt a les columnes 'low_tier_HPI' i 'paro', per tant, ha imprès NaN (no un número). Més endavant, el 2004, tots dos valors estaven disponibles, per tant, ha imprès els valors respectius.

Podeu revisar aquest tutorial de Python Pandas on el nostre instructor ha explicat els temes de manera detallada amb exemples que us ajudaran a entendre millor aquest concepte.

Python per a l'anàlisi de dades | Tutorial de Python Pandas | Entrenament Python | Edureka


Avançant al tutorial de Python pandes, entenem com concatenar dos marcs de dades de dades.

Concatenació

La concatenació bàsicament enganxa els conjunts de dades. Podeu seleccionar la dimensió sobre la qual voleu concatenar. Per a això, només cal que utilitzeu 'pd.concat' i passeu la llista de dataframes per concatenar junts. Considereu l'exemple següent.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índex = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Sortida:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Com podeu veure més amunt, els dos marcs de dades s’enganxen en un únic marc de dades, on l’índex comença des del 2001 fins al 2008. A continuació, també podeu especificar l’eix = 1 per unir, combinar o cancel·lar al llarg de les columnes. Consulteu el codi següent:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índex = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Sortida:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 Na NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Com podeu fer més amunt, falten molts valors. Això passa perquè els marcs de dades no tenien valors per a tots els índexs en els quals voleu concatenar. Per tant, heu d'assegurar-vos que teniu tota la informació alineada correctament quan uniu o concateneu a l'eix.

Canvieu l’índex

A continuació, al tutorial de python pandes, entendreem com es canvien els valors de l’índex en un marc de dades. Per exemple, creem un marc de dades amb alguns parells de valors clau en un diccionari i canviem els valors de l’índex. Considereu l'exemple següent:

Vegem com passa realment:

importa pandes com a pd df = pd.DataFrame ({'Dia': [1,2,3,4], 'Visitants': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Sortida:

Bounce_Rate Visitants Dia 1 20 200 2 45 100 3 60 230 4 10 300

Com podeu observar a la sortida anterior, el valor de l'índex s'ha canviat respecte a la columna 'Dia'.

com convertir la cadena a la data en Java

Canvieu les capçaleres de les columnes

Canvem ara les capçaleres de columna d’aquest tutorial de pandes Python. Prenguem el mateix exemple, on canviaré la capçalera de columna de 'Visitants' a 'Usuaris'. Per tant, deixeu-ho implementar pràcticament.

importa pandes com a pd df = pd.DataFrame ({'Dia': [1,2,3,4], 'Visitants': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (columnes = {'Visitants': 'Usuaris'}) imprimir (df)

Sortida:

Usuaris de Bounce_Rate Day 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Com veieu més amunt, la capçalera de columna 'Visitants' s'ha canviat a 'Usuaris'. A continuació, al tutorial de pandes Python, anem a realitzar dades de munging.

Data Munging

A Data munging, podeu convertir determinades dades en un format diferent. Per exemple, si teniu un fitxer .csv, també el podeu convertir a .html o a qualsevol altre format de dades. Per tant, deixeu-ho implementar pràcticament.

importa pandes com a pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-paroAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Un cop hàgiu executat aquest codi, es crearà un fitxer HTML anomenat 'edu.html'. Podeu copiar directament la ruta del fitxer i enganxar-la al navegador, que mostra les dades en format HTML. Consulteu la captura de pantalla següent:


A continuació, al tutorial dels pandes Python, vegem un cas d’ús que parla de l’atur juvenil mundial.

Tutorial Python Pandas: cas d'ús per analitzar les dades d'atur juvenil

Plantejament del problema :Se us proporciona un conjunt de dades que inclou el percentatge de joves aturats a nivell mundial des del 2010 fins al 2014. Heu d’utilitzar aquest conjunt de dades i trobar el canvi en el percentatge de joves per a cada país del 2010 al 2011.

En primer lloc, entenem el conjunt de dades que conté les columnes com a Nom del país, Codi del país i l'any del 2010 al 2014. Ara utilitzant pandes, utilitzarem 'pd.read_csv' per llegir el fitxer de format de fitxer .csv.
Consulteu la captura de pantalla següent:

Seguim endavant i realitzem anàlisis de dades en què descobrirem el percentatge de canvis en els joves aturats entre el 2010 i el 2011. Després ho visualitzarem fent servir library, que és una biblioteca poderosa per a la visualització a Python. Es pot utilitzar en scripts Python, intèrprets d’ordres, servidors d’aplicacions web i altres jocs d’eines GUI. Podeu fer servir més informació aquí:

Ara, implementem el codi a PyCharm:

import pandas as pd import matplotlib.pyplot as plt from matplotlib style style styleuse.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-paroAPI_ILO_country_YU.csv', index_col = 0) df = país. head (5) df = df.set_index (['Codi del país']) sd = sd.reindex (columnes = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (kind = 'barra') plt.show ()

Com podeu veure més amunt, he realitzat l’anàlisi a les cinc files principals del marc de dades del país. A continuació, he definit un valor d'índex com a 'Codi de país' i, a continuació, torna a indexar la columna a 2010 i 2011. Després, tenim un marc de dades més db, que imprimeix la diferència entre les dues columnes o el percentatge de canvi de joves aturats del 2010 al 2011. Finalment, he dibuixat un diagrama de barres mitjançant la biblioteca Matplotlib de Python.


Ara bé, si es va notar a la trama anterior, a l'Afganistan (AFG) entre el 2010 i el 2011, hi ha hagut un augment dels joves aturats d'aprox. 0,25%. Aleshores, a Angola (AGO), hi ha una tendència negativa que significa que s’ha reduït el percentatge de joves aturats. De la mateixa manera, podeu realitzar anàlisis de diferents conjunts de dades.

Espero que el meu bloc sobre 'Python Pandas Tutorial' us sigui rellevant. Per obtenir coneixements en profunditat sobre Python juntament amb les seves diverses aplicacions, podeu inscriure-us a la publicació per Edureka amb assistència les 24 hores del dia, els 7 dies de la setmana i accés permanent.

Tens alguna pregunta? Si us plau, mencioneu-lo a la secció de comentaris d’aquest bloc “Tutorial Python Pandas” i us respondrem el més aviat possible.