0% encontró este documento útil (0 votos)
178 vistas2 páginas

Guía de Referencia de Pandas

Este documento proporciona una guía de referencia sobre la librería Pandas en Python. Introduce las estructuras de datos fundamentales de Pandas como Series y DataFrames, y describe métodos comunes para la manipulación, análisis y visualización de datos, incluyendo la importación y exportación de datos, selección, agrupación, y resumen de datos. Además, explica conceptos clave como índices, operaciones de combinación y unión de datos, y funciones de agregación.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
178 vistas2 páginas

Guía de Referencia de Pandas

Este documento proporciona una guía de referencia sobre la librería Pandas en Python. Introduce las estructuras de datos fundamentales de Pandas como Series y DataFrames, y describe métodos comunes para la manipulación, análisis y visualización de datos, incluyendo la importación y exportación de datos, selección, agrupación, y resumen de datos. Además, explica conceptos clave como índices, operaciones de combinación y unión de datos, y funciones de agregación.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 2

Facultad de

Programa de formación Machine Learning and Data Science MLDS

Librería de análisis
Con arreglos
de datos: Pandas pd.DataFrame([[1, 2], [3, 4]], columns= [‘a’, ‘b’])
pd.merge(df_a, df_b, on = ‘col’, how = _ )

how = outer how = inner


Pandas - Guía de referencia Con diccionarios
pd.DataFrame({ ‘a’ : [1, 3], ‘b’ : [2, 4] })
Importar la librería a b ... ... ... ... ... ...
0 1 2 ... ... ... ... ... ...
import pandas as pd 1 3 4 ... ... ...
... ...
Series ... ... ... - ...
Combinación de datos ... ...
Índice Valores ... ... how = left how = right
pd.concat([df_a, df_b])
... ... Las Series son una estructura ... ...
de datos de 1 dimensión con ... ... ... ...
... ... índice asociado basado en ... ...
... ... etiquetas. ... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
s = pd.Series(data, index, dtype, name, ...) ... ... ... ... ... ... - ... - ...
... ... ... ...
index= Valores tomados como índice de la serie. ... ...
dtype= Tipo de dato de la serie.
name= Nombre de la serie. pd.concat([df_a, df_b ], axis = 1) Agrupar datos
... ... df.groupby(‘A’).agg(‘B’: function , ‘C’: function, ...)
data= Contenido de la serie creada.
... ... ... ... ... ...
Con listas
... ... ... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
pd.Series([1, 2, 3], index = [‘a’, ‘b’, ‘c’])
... ... ... ... ... ...
... ...
... ... ...
Con diccionarios
pd.Series({‘a’ : 1, ‘b’ : 2, ‘c’: 3 })
... ... ... ... ... ...
... ... ... ... ...
a 1 ... ... ... ... ... ...
b 2 pd.join(df_a, df_b, how = ___ )
c 3 dtype: int64 ... ... ...
how = outer how = inner ... ... ...
DataFrame
... ... ...
Columnas ... ... ...
Los DataFrame son una ... ... ... ...
Filas ... ... ... estructura de datos de ... ... ... ...
... ... ... ... 2 dimensión con índices ... ... -
... ... ... ... asociados a filas y df.groupby(‘A’).*
columnas basado en ... - ...
... ... ... ... etiquetas. ... Funciones de .first()
... how = left how = right agregación .last()
df = pd.DataFrame(data, index, columns, ...)
... predefinidas. .sum()
index= Valores tomados como índice de las filas. ... .prod()
columns= Valores tomados como índice ... ... ... ... .size()
de las columnas. ... ... ... ... .mean()
... - - ...
data= Contenido del DataFrame creado.

The pandas development team. (2020, 17 de Marzo). Pandas API reference (Versión 1.03) [software].
Consultado el 26 de mayo de 2020. https://pandas.pydata.org/docs/reference/index.html
Facultad de
Programa de formación Machine Learning and Data Science MLDS

Importar datos Selección por posición Describir datos


pd.read* df.iloc[0] Fila en la posición 0. df[‘col’].min( ) Valor mínimo
df[‘col’].max( ) Valor máximo
pd.read_csv(ruta, ...)
df.iloc[0 : 5] Elementos en las filas df[‘col’].mean( ) Media aritmética
pd.read_excel(ruta, ...)
entre 0 y 10. df[‘col’].mode( ) Moda
pd.read_table(ruta, ...)
df[‘col’].median( ) Mediana
pd.read_json(ruta, ...)
df.iloc[[0, 1]] Elementos en las fila 0 y 1. df[‘col’].std( ) Desviación estándar
pd.read_sql(query, conector, ...)
df[‘col’].var( ) Varianza
...
df[‘col’].quantile(q) Cuantil en posición q
Exportar datos df.iloc[0, 3] Elemento en la fila df[‘col’].skew() Asimetría
0 y columna 3. df[‘col’].kurt() Curtosis
df.to_* df[‘col’].corr() Correlación
df.iloc[:, 2] Elementos en columna 2. df.pivot_table(...) Tablas de pivote
df.to_csv(...) pd.crosstab(...) Tabla de contingencia
df.to_excel(...)
df.at[1, 2] Elemento en la celda
df.to_latex(...) Operaciones en objetos
df.to_json(...) (1 , 2).
df[‘col’] = 0 Asignar valores escalares
df.to_clipboard(...)
Selección condicional df[‘c’] = df[‘a’] + df[‘b’] Operadores entre objetos
...
df[‘col’] *= 1000 Asignación con operación
Selección por etiquetas Series (<, >, >=, <=, ==, !=) valor
Arreglo de booleanos usado para indexar. df.loc[‘max’] = df.max() Asignación de filas
df.loc[‘id’] Fila con etiqueta ‘id’. df.iloc[0:5, 0:5] = 3.5 Asignación de rangos
df[ df[‘col’] > 0 ] df[ df[‘a’] < 0 ] = 0 Asignación condicional
df.loc[‘a’ : ‘f’] Elementos en las filas Selección de filas que cumplan una condición df.at[0,0] = np.NaN Asignación de celdas
entre a y f.
df[ (df[‘col’] > 0) & (df[‘col’] < 100) ] Limpieza de datos
df.loc[[‘a’, ‘c’]] Elementos en las fila Operaciones a nivel de bits (&, |, ~, ^)
a y c. df.replace(...) Reemplazar valores
df.drop_duplicates() Eliminar filas repetidas
df.where( df < 0, -df ) df.dropna() Eliminar valores faltantes
df.loc[‘i, ‘col’] Elemento en la fila i
y columna col. Reemplazar filas que cumplan la condición df.fillna(valor) Imputar valores faltantes
con el valor de la celda de otro DataFrame. df.isna() Filas con valores faltantes
df.loc[:, ‘col’] Elementos en columna ‘col. df.notna() Filas sin valores faltantes
df.mask( df > 0, -df ) df[‘col’].unique() Valores únicos de la fila
df.at[‘x’, ‘y’] Elemento en la celda Reemplazar filas que NO cumplan la df[‘col’].value_counts() Conteo de valores por
condición con el valor de la celda de columna
(x, y).
otro DataFrame.
Utilidades generales
Visualizar datos df.query('(a < b) & (b < c )')
df[‘col].idxmin() Etiqueta del valor mínimo
Selección condicional con una sintaxis df[‘col].idxmax() Etiqueta del valor máximo
df.plot.* especial basada en nombres de columnas. df.set_index(index) Asignar un nuevo índice
df.plot.line(...) Gráfica de líneas df.reset_index() Reiniciar el índice
df.plot.bar(...) Gráfica de barras Selección de filas df.astype(dtype) Modificar tipo de dato
df.plot.pie(...) Gráfica circular df.sort_values(by = “col”) Reordenar por valores de
df.plot.hist(...) Histograma df.head(n) Selecciona las primeras n filas columna
df.plot.box(...) Diagrama de cajas df.tail(n) Selecciona las últimas n filas
df.plot.scatter(...) Diagrama de dispersión df.sample(n) Selecciona n filas aleatorias
df.plot.area(...) Gráfica de áreas df.nsmallest(n, ‘col’) Selecciona las n filas menores.
df.plot.hexbin(...) Gráfica hexagonal df.nlargest(n, ‘col’) Selecciona las n filas mayores.

The pandas development team. (2020, 17 de Marzo). Pandas API reference (Versión 1.03) [software].
Consultado el 26 de mayo de 2020. https://pandas.pydata.org/docs/reference/index.html

También podría gustarte