Facultad de
Programa de formación Machine Learning and Data Science MLDS
Librería de análisis
Con arreglos
de datos: Pandas pd.DataFrame([[1, 2], [3, 4]], columns= [‘a’, ‘b’])
pd.merge(df_a, df_b, on = ‘col’, how = _ )
how = outer how = inner
Pandas - Guía de referencia Con diccionarios
pd.DataFrame({ ‘a’ : [1, 3], ‘b’ : [2, 4] })
Importar la librería a b ... ... ... ... ... ...
0 1 2 ... ... ... ... ... ...
import pandas as pd 1 3 4 ... ... ...
... ...
Series ... ... ... - ...
Combinación de datos ... ...
Índice Valores ... ... how = left how = right
pd.concat([df_a, df_b])
... ... Las Series son una estructura ... ...
de datos de 1 dimensión con ... ... ... ...
... ... índice asociado basado en ... ...
... ... etiquetas. ... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
s = pd.Series(data, index, dtype, name, ...) ... ... ... ... ... ... - ... - ...
... ... ... ...
index= Valores tomados como índice de la serie. ... ...
dtype= Tipo de dato de la serie.
name= Nombre de la serie. pd.concat([df_a, df_b ], axis = 1) Agrupar datos
... ... df.groupby(‘A’).agg(‘B’: function , ‘C’: function, ...)
data= Contenido de la serie creada.
... ... ... ... ... ...
Con listas
... ... ... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
pd.Series([1, 2, 3], index = [‘a’, ‘b’, ‘c’])
... ... ... ... ... ...
... ...
... ... ...
Con diccionarios
pd.Series({‘a’ : 1, ‘b’ : 2, ‘c’: 3 })
... ... ... ... ... ...
... ... ... ... ...
a 1 ... ... ... ... ... ...
b 2 pd.join(df_a, df_b, how = ___ )
c 3 dtype: int64 ... ... ...
how = outer how = inner ... ... ...
DataFrame
... ... ...
Columnas ... ... ...
Los DataFrame son una ... ... ... ...
Filas ... ... ... estructura de datos de ... ... ... ...
... ... ... ... 2 dimensión con índices ... ... -
... ... ... ... asociados a filas y df.groupby(‘A’).*
columnas basado en ... - ...
... ... ... ... etiquetas. ... Funciones de .first()
... how = left how = right agregación .last()
df = pd.DataFrame(data, index, columns, ...)
... predefinidas. .sum()
index= Valores tomados como índice de las filas. ... .prod()
columns= Valores tomados como índice ... ... ... ... .size()
de las columnas. ... ... ... ... .mean()
... - - ...
data= Contenido del DataFrame creado.
The pandas development team. (2020, 17 de Marzo). Pandas API reference (Versión 1.03) [software].
Consultado el 26 de mayo de 2020. https://pandas.pydata.org/docs/reference/index.html
Facultad de
Programa de formación Machine Learning and Data Science MLDS
Importar datos Selección por posición Describir datos
pd.read* df.iloc[0] Fila en la posición 0. df[‘col’].min( ) Valor mínimo
df[‘col’].max( ) Valor máximo
pd.read_csv(ruta, ...)
df.iloc[0 : 5] Elementos en las filas df[‘col’].mean( ) Media aritmética
pd.read_excel(ruta, ...)
entre 0 y 10. df[‘col’].mode( ) Moda
pd.read_table(ruta, ...)
df[‘col’].median( ) Mediana
pd.read_json(ruta, ...)
df.iloc[[0, 1]] Elementos en las fila 0 y 1. df[‘col’].std( ) Desviación estándar
pd.read_sql(query, conector, ...)
df[‘col’].var( ) Varianza
...
df[‘col’].quantile(q) Cuantil en posición q
Exportar datos df.iloc[0, 3] Elemento en la fila df[‘col’].skew() Asimetría
0 y columna 3. df[‘col’].kurt() Curtosis
df.to_* df[‘col’].corr() Correlación
df.iloc[:, 2] Elementos en columna 2. df.pivot_table(...) Tablas de pivote
df.to_csv(...) pd.crosstab(...) Tabla de contingencia
df.to_excel(...)
df.at[1, 2] Elemento en la celda
df.to_latex(...) Operaciones en objetos
df.to_json(...) (1 , 2).
df[‘col’] = 0 Asignar valores escalares
df.to_clipboard(...)
Selección condicional df[‘c’] = df[‘a’] + df[‘b’] Operadores entre objetos
...
df[‘col’] *= 1000 Asignación con operación
Selección por etiquetas Series (<, >, >=, <=, ==, !=) valor
Arreglo de booleanos usado para indexar. df.loc[‘max’] = df.max() Asignación de filas
df.loc[‘id’] Fila con etiqueta ‘id’. df.iloc[0:5, 0:5] = 3.5 Asignación de rangos
df[ df[‘col’] > 0 ] df[ df[‘a’] < 0 ] = 0 Asignación condicional
df.loc[‘a’ : ‘f’] Elementos en las filas Selección de filas que cumplan una condición df.at[0,0] = np.NaN Asignación de celdas
entre a y f.
df[ (df[‘col’] > 0) & (df[‘col’] < 100) ] Limpieza de datos
df.loc[[‘a’, ‘c’]] Elementos en las fila Operaciones a nivel de bits (&, |, ~, ^)
a y c. df.replace(...) Reemplazar valores
df.drop_duplicates() Eliminar filas repetidas
df.where( df < 0, -df ) df.dropna() Eliminar valores faltantes
df.loc[‘i, ‘col’] Elemento en la fila i
y columna col. Reemplazar filas que cumplan la condición df.fillna(valor) Imputar valores faltantes
con el valor de la celda de otro DataFrame. df.isna() Filas con valores faltantes
df.loc[:, ‘col’] Elementos en columna ‘col. df.notna() Filas sin valores faltantes
df.mask( df > 0, -df ) df[‘col’].unique() Valores únicos de la fila
df.at[‘x’, ‘y’] Elemento en la celda Reemplazar filas que NO cumplan la df[‘col’].value_counts() Conteo de valores por
condición con el valor de la celda de columna
(x, y).
otro DataFrame.
Utilidades generales
Visualizar datos df.query('(a < b) & (b < c )')
df[‘col].idxmin() Etiqueta del valor mínimo
Selección condicional con una sintaxis df[‘col].idxmax() Etiqueta del valor máximo
df.plot.* especial basada en nombres de columnas. df.set_index(index) Asignar un nuevo índice
df.plot.line(...) Gráfica de líneas df.reset_index() Reiniciar el índice
df.plot.bar(...) Gráfica de barras Selección de filas df.astype(dtype) Modificar tipo de dato
df.plot.pie(...) Gráfica circular df.sort_values(by = “col”) Reordenar por valores de
df.plot.hist(...) Histograma df.head(n) Selecciona las primeras n filas columna
df.plot.box(...) Diagrama de cajas df.tail(n) Selecciona las últimas n filas
df.plot.scatter(...) Diagrama de dispersión df.sample(n) Selecciona n filas aleatorias
df.plot.area(...) Gráfica de áreas df.nsmallest(n, ‘col’) Selecciona las n filas menores.
df.plot.hexbin(...) Gráfica hexagonal df.nlargest(n, ‘col’) Selecciona las n filas mayores.
The pandas development team. (2020, 17 de Marzo). Pandas API reference (Versión 1.03) [software].
Consultado el 26 de mayo de 2020. https://pandas.pydata.org/docs/reference/index.html