1.
Conceptos Básicos de Aprendizaje Automático
Aprendizaje Supervisado y No Supervisado
Aprendizaje Supervisado:
Definición: Es un tipo de aprendizaje donde se entrena al modelo
utilizando datos que ya están etiquetados con la respuesta correcta.
Cada ejemplo en el conjunto de entrenamiento incluye un par entrada-
salida, donde la salida ya está definida.
Ejemplos de Algoritmos:
Regresión Lineal: Predice valores continuos. Ejemplo: predecir el precio
de una casa basado en sus características como tamaño, ubicación, etc.
Regresión Logística: Usado para clasificación binaria. Ejemplo: predecir si
un correo es spam o no.
Aprendizaje No Supervisado:
Definición: En este enfoque, los datos no están etiquetados y el sistema
intenta aprender la estructura de los datos sin instrucciones explícitas.
Ejemplos de Algoritmos:
Clustering (Agrupamiento): K-Means es un algoritmo popular para
agrupar objetos similares en grupos. Ejemplo: segmentar clientes en
grupos basados en sus compras.
Reducción de Dimensionalidad: PCA (Análisis de Componentes
Principales) se utiliza para reducir la cantidad de variables considerando
solo aquellas que capturan la mayor variabilidad.
Overfitting y Underfitting
Overfitting:
Definición: Ocurre cuando un modelo se ajusta demasiado bien a los
datos de entrenamiento, hasta el punto de capturar ruido en lugar de la
señal, lo que resulta en una baja capacidad de generalización a nuevos
datos.
Mitigación:
Regularización: Técnicas como L1 y L2 añaden un término de
penalización a la función de costo para limitar la magnitud de los
coeficientes del modelo.
Validación Cruzada: Utilizar parte de los datos para entrenar el modelo y
una parte diferente para validar el modelo. Esto ayuda a garantizar que
el modelo generaliza bien a nuevos datos.
Underfitting:
Definición: Ocurre cuando un modelo es demasiado simple para
aprender la estructura subyacente de los datos y, por tanto, no puede
capturar la relación entre las variables de entrada y salida, lo que lleva a
un rendimiento deficiente tanto en los datos de entrenamiento como en
los nuevos datos.
Mitigación:
Aumentar la complejidad del modelo: Utilizar modelos más complejos o
ajustar los hiperparámetros para permitir un aprendizaje más profundo.
Obtener más características: A veces, el modelo necesita más
información (características) para aprender efectivamente.
Evaluación de Modelos
Métricas de Rendimiento
Clasificación:
Precisión: Es la proporción de predicciones correctas (positivas) entre
todas las predicciones positivas hechas. Útil cuando los costos de Falso
Positivo son altos.
Recall (Sensibilidad): Es la proporción de positivos reales que se
identificaron correctamente. Es crítico en situaciones donde no se deben
perder positivos (como en la detección de enfermedades).
F1-Score: Es el promedio armónico de la precisión y el recall. Es útil
cuando necesitamos un balance entre Precisión y Recall.
ROC AUC: Área bajo la curva ROC, mide la capacidad del modelo para
discriminar entre las clases bajo diferentes umbrales.
Regresión:
MSE (Error Cuadrático Medio): Mide el promedio de los cuadrados de los
errores; es decir, la diferencia cuadrática entre los valores observados y
los predichos.
RMSE (Raíz del Error Cuadrático Medio): Es la raíz cuadrada del MSE,
proporciona una estimación de la magnitud del error en las mismas
unidades que la variable de salida.
MAE (Error Absoluto Medio): Es el promedio de los valores absolutos de
los errores, es menos sensible a los valores atípicos en comparación con
MSE.
Validación Cruzada
Definición: Técnica para evaluar modelos de ML mediante la división del
conjunto de datos en subconjuntos múltiples y realizando el
entrenamiento en algunos mientras se validan los restantes
Ventajas: Proporciona una medida más precisa de la capacidad
predictiva del modelo al asegurar que el modelo es probado en
diferentes subconjuntos del dataset.
Métodos Comunes: K-Fold Cross-Validation es el más usado, donde K es
el número de grupos en los que se divide el dataset. También está el
Leave-One-Out Cross-Validation, que es un caso especial de K-Fold donde
K es igual al número de muestras, y cada muestra se usa una vez como
un conjunto de prueba.
2. Algoritmos Comunes de Aprendizaje Automático
Algoritmos de Clasificación
Regresión Logística
Fundamentos: Modelo estadístico que predice la probabilidad de un
resultado categórico. Es una regresión lineal transformada por una
función logística (sigmoide).
Interpretación de los coeficientes: Cada coeficiente explica el cambio en
el logaritmo de las odds de la variable dependiente por cada unidad de
cambio en la variable independiente.
Ejemplo visual: Clasificación de correos como spam o no spam basada
en la frecuencia de palabras clave.
Máquinas de Vectores de Soporte (SVM)
Fundamentos: Busca el hiperplano que mejor separa dos clases con el
máximo margen. Funciona tanto para clasificación lineal como no lineal
(mediante el truco del kernel).
Hiperplano y Margen: El hiperplano es la decisión de límite entre las
clases. El margen es la distancia entre el hiperplano y los soportes o
vectores más cercanos de cada clase.
Ejemplo visual: Clasificación de dos tipos de flores basada en
características como el largo y ancho del pétalo.
Árboles de Decisión y Bosques Aleatorios
Árboles de Decisión: Dividen el espacio de características en regiones
mediante decisiones sucesivas basadas en los valores de las
características.
Bosques Aleatorios: Ensemble de múltiples árboles de decisión para
reducir el overfitting y mejorar la precisión.
Ejemplo visual: Clasificación de clientes propensos a comprar un
producto basado en características como edad y salario.
Algoritmos de Regresión
Regresión Lineal
Fundamentos: Modelo que intenta predecir una variable dependiente
continua a partir de una o más variables independientes ajustando una
línea.
Interpretación de resultados: La pendiente indica cómo cambia la
variable dependiente con un incremento de una unidad en la variable
independiente.
Ejemplo visual: Predicción de precios de casas basado en el tamaño.
Redes Neuronales
Introducción: Modelos inspirados en el cerebro humano que aprenden a
realizar tareas al considerar ejemplos, generalmente sin estar
programados con tareas específicas.
Perceptrones y Descenso del Gradiente: Los perceptrones son los
bloques básicos, y el descenso del gradiente es un método para
minimizar la función de costo ajustando los pesos.
Ejemplo visual: Reconocimiento de dígitos manuscritos.
Reducción de Dimensionalidad y Clustering
Análisis de Componentes Principales (PCA)
Fundamentos: Técnica estadística que convierte un conjunto de
observaciones de variables posiblemente correlacionadas en un conjunto
de valores de variables linealmente no correlacionadas.
Ejemplo visual: Reducción de dimensiones de un dataset de expresión
genética para visualización.
K-Means
Fundamentos: Algoritmo de clustering que particiona el conjunto de
datos en K grupos distintos basándose en la similitud de las
características.
Ejemplo visual: Segmentación del mercado basado en características de
compra y demografía del cliente.
Arboles de decisión:
En el contexto de los árboles de decisión y los bosques aleatorios,
"calcular la mejor partición" se refiere al proceso de seleccionar la mejor
manera de dividir los datos en dos grupos (nodos) basándose en una
característica y un umbral específicos. Este proceso es crucial para la
construcción de un árbol de decisión y se realiza en cada paso del
crecimiento del árbol. Aquí está cómo se determina la mejor partición:
Cómo se Calcula la Mejor Partición
Selección de Características:
En cada nodo del árbol, se selecciona un subconjunto de características
(variables) de forma aleatoria. Esto es parte del mecanismo de
"bagging" (bootstrap aggregating) que ayuda a mejorar la robustez del
modelo evitando el overfitting.
Cálculo de Puntos de Corte:
Para cada característica seleccionada, el algoritmo evalúa varios puntos
de corte posibles (estos pueden ser los valores medios entre puntos de
datos consecutivos cuando los datos están ordenados).
Evaluación de Particiones:
Para cada punto de corte, los datos se dividen en dos grupos: aquellos
que tienen valores menores o iguales al punto de corte y aquellos que
tienen valores mayores.
Se calcula una métrica de impureza o ganancia para cada partición
posible. Las métricas comunes incluyen:
Ganancia de Información: Diferencia en la entropía antes y después de la
partición.
Índice Gini: Mide la impureza de los nodos; una menor impureza es
mejor.
Reducción de Varianza: Usada principalmente para regresión; busca
reducir la varianza de los valores del nodo.
Selección de la Mejor Partición:
El punto de corte que produce la mayor reducción en la métrica de
impureza (o el mayor aumento en la ganancia de información) se
selecciona como la "mejor partición" para ese nodo.
El proceso se repite recursivamente para cada nuevo nodo creado hasta
que se alcanzan ciertos criterios de parada (por ejemplo, profundidad
máxima del árbol, número mínimo de muestras en un nodo, o no se
puede lograr una mejora significativa en la impureza).
Ejemplo Visual de una Partición en un Árbol de Decisión
Imagina un conjunto de datos sencillo con dos características: Edad y
Salario, y estamos tratando de predecir si un individuo comprará o no un
producto (Clase: Compra o No Compra).
Paso 1: Seleccionamos aleatoriamente la característica Edad.
Paso 2: Consideramos varios puntos de corte: 25 años, 35 años, 45 años.
Paso 3: Para cada punto de corte, dividimos los datos en dos grupos y
calculamos, por ejemplo, la Ganancia de Información.
Paso 4: Supongamos que el punto de corte en 35 años da la mayor
ganancia de información; esa será nuestra mejor partición.
Este proceso ayuda a asegurar que cada árbol en un bosque aleatorio
sea único y capte diferentes aspectos de los datos, lo que aumenta la
diversidad del modelo y, por tanto, su capacidad de generalización.