0% encontró este documento útil (0 votos)

11 vistas8 páginas

Conceptos Machine Learning

Cargado por

prueba177a

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

11 vistas8 páginas

Conceptos Machine Learning

Cargado por

prueba177a

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 8

1.

Conceptos Básicos de Aprendizaje Automático

Aprendizaje Supervisado y No Supervisado

Aprendizaje Supervisado:

Definición: Es un tipo de aprendizaje donde se entrena al modelo

utilizando datos que ya están etiquetados con la respuesta correcta.
Cada ejemplo en el conjunto de entrenamiento incluye un par entrada-
salida, donde la salida ya está definida.

Ejemplos de Algoritmos:

Regresión Lineal: Predice valores continuos. Ejemplo: predecir el precio

de una casa basado en sus características como tamaño, ubicación, etc.

Regresión Logística: Usado para clasificación binaria. Ejemplo: predecir si

un correo es spam o no.

Aprendizaje No Supervisado:

Definición: En este enfoque, los datos no están etiquetados y el sistema

intenta aprender la estructura de los datos sin instrucciones explícitas.

Ejemplos de Algoritmos:

Clustering (Agrupamiento): K-Means es un algoritmo popular para

agrupar objetos similares en grupos. Ejemplo: segmentar clientes en
grupos basados en sus compras.

Reducción de Dimensionalidad: PCA (Análisis de Componentes

Principales) se utiliza para reducir la cantidad de variables considerando
solo aquellas que capturan la mayor variabilidad.

Overfitting y Underfitting

Overfitting:

Definición: Ocurre cuando un modelo se ajusta demasiado bien a los

datos de entrenamiento, hasta el punto de capturar ruido en lugar de la
señal, lo que resulta en una baja capacidad de generalización a nuevos
datos.
Mitigación:

Regularización: Técnicas como L1 y L2 añaden un término de

penalización a la función de costo para limitar la magnitud de los
coeficientes del modelo.

Validación Cruzada: Utilizar parte de los datos para entrenar el modelo y

una parte diferente para validar el modelo. Esto ayuda a garantizar que
el modelo generaliza bien a nuevos datos.

Underfitting:

Definición: Ocurre cuando un modelo es demasiado simple para

aprender la estructura subyacente de los datos y, por tanto, no puede
capturar la relación entre las variables de entrada y salida, lo que lleva a
un rendimiento deficiente tanto en los datos de entrenamiento como en
los nuevos datos.

Mitigación:

Aumentar la complejidad del modelo: Utilizar modelos más complejos o

ajustar los hiperparámetros para permitir un aprendizaje más profundo.

Obtener más características: A veces, el modelo necesita más

información (características) para aprender efectivamente.

Evaluación de Modelos

Métricas de Rendimiento

Clasificación:

Precisión: Es la proporción de predicciones correctas (positivas) entre

todas las predicciones positivas hechas. Útil cuando los costos de Falso
Positivo son altos.

Recall (Sensibilidad): Es la proporción de positivos reales que se

identificaron correctamente. Es crítico en situaciones donde no se deben
perder positivos (como en la detección de enfermedades).

F1-Score: Es el promedio armónico de la precisión y el recall. Es útil

cuando necesitamos un balance entre Precisión y Recall.
ROC AUC: Área bajo la curva ROC, mide la capacidad del modelo para
discriminar entre las clases bajo diferentes umbrales.

Regresión:

MSE (Error Cuadrático Medio): Mide el promedio de los cuadrados de los

errores; es decir, la diferencia cuadrática entre los valores observados y
los predichos.

RMSE (Raíz del Error Cuadrático Medio): Es la raíz cuadrada del MSE,
proporciona una estimación de la magnitud del error en las mismas
unidades que la variable de salida.

MAE (Error Absoluto Medio): Es el promedio de los valores absolutos de

los errores, es menos sensible a los valores atípicos en comparación con
MSE.

Validación Cruzada

Definición: Técnica para evaluar modelos de ML mediante la división del

conjunto de datos en subconjuntos múltiples y realizando el
entrenamiento en algunos mientras se validan los restantes

Ventajas: Proporciona una medida más precisa de la capacidad

predictiva del modelo al asegurar que el modelo es probado en
diferentes subconjuntos del dataset.

Métodos Comunes: K-Fold Cross-Validation es el más usado, donde K es

el número de grupos en los que se divide el dataset. También está el
Leave-One-Out Cross-Validation, que es un caso especial de K-Fold donde
K es igual al número de muestras, y cada muestra se usa una vez como
un conjunto de prueba.

2. Algoritmos Comunes de Aprendizaje Automático

Algoritmos de Clasificación

Regresión Logística

Fundamentos: Modelo estadístico que predice la probabilidad de un

resultado categórico. Es una regresión lineal transformada por una
función logística (sigmoide).
Interpretación de los coeficientes: Cada coeficiente explica el cambio en
el logaritmo de las odds de la variable dependiente por cada unidad de
cambio en la variable independiente.

Ejemplo visual: Clasificación de correos como spam o no spam basada

en la frecuencia de palabras clave.

Máquinas de Vectores de Soporte (SVM)

Fundamentos: Busca el hiperplano que mejor separa dos clases con el

máximo margen. Funciona tanto para clasificación lineal como no lineal
(mediante el truco del kernel).

Hiperplano y Margen: El hiperplano es la decisión de límite entre las

clases. El margen es la distancia entre el hiperplano y los soportes o
vectores más cercanos de cada clase.

Ejemplo visual: Clasificación de dos tipos de flores basada en

características como el largo y ancho del pétalo.

Árboles de Decisión y Bosques Aleatorios

Árboles de Decisión: Dividen el espacio de características en regiones

mediante decisiones sucesivas basadas en los valores de las
características.

Bosques Aleatorios: Ensemble de múltiples árboles de decisión para

reducir el overfitting y mejorar la precisión.

Ejemplo visual: Clasificación de clientes propensos a comprar un

producto basado en características como edad y salario.

Algoritmos de Regresión

Regresión Lineal
Fundamentos: Modelo que intenta predecir una variable dependiente
continua a partir de una o más variables independientes ajustando una
línea.

Interpretación de resultados: La pendiente indica cómo cambia la

variable dependiente con un incremento de una unidad en la variable
independiente.

Ejemplo visual: Predicción de precios de casas basado en el tamaño.

Redes Neuronales

Introducción: Modelos inspirados en el cerebro humano que aprenden a

realizar tareas al considerar ejemplos, generalmente sin estar
programados con tareas específicas.

Perceptrones y Descenso del Gradiente: Los perceptrones son los

bloques básicos, y el descenso del gradiente es un método para
minimizar la función de costo ajustando los pesos.

Ejemplo visual: Reconocimiento de dígitos manuscritos.

Reducción de Dimensionalidad y Clustering

Análisis de Componentes Principales (PCA)

Fundamentos: Técnica estadística que convierte un conjunto de

observaciones de variables posiblemente correlacionadas en un conjunto
de valores de variables linealmente no correlacionadas.

Ejemplo visual: Reducción de dimensiones de un dataset de expresión

genética para visualización.

K-Means
Fundamentos: Algoritmo de clustering que particiona el conjunto de
datos en K grupos distintos basándose en la similitud de las
características.

Ejemplo visual: Segmentación del mercado basado en características de

compra y demografía del cliente.

Arboles de decisión:

En el contexto de los árboles de decisión y los bosques aleatorios,

"calcular la mejor partición" se refiere al proceso de seleccionar la mejor
manera de dividir los datos en dos grupos (nodos) basándose en una
característica y un umbral específicos. Este proceso es crucial para la
construcción de un árbol de decisión y se realiza en cada paso del
crecimiento del árbol. Aquí está cómo se determina la mejor partición:

Cómo se Calcula la Mejor Partición

Selección de Características:

En cada nodo del árbol, se selecciona un subconjunto de características

(variables) de forma aleatoria. Esto es parte del mecanismo de
"bagging" (bootstrap aggregating) que ayuda a mejorar la robustez del
modelo evitando el overfitting.

Cálculo de Puntos de Corte:

Para cada característica seleccionada, el algoritmo evalúa varios puntos

de corte posibles (estos pueden ser los valores medios entre puntos de
datos consecutivos cuando los datos están ordenados).

Evaluación de Particiones:

Para cada punto de corte, los datos se dividen en dos grupos: aquellos
que tienen valores menores o iguales al punto de corte y aquellos que
tienen valores mayores.

Se calcula una métrica de impureza o ganancia para cada partición

posible. Las métricas comunes incluyen:

Ganancia de Información: Diferencia en la entropía antes y después de la

partición.
Índice Gini: Mide la impureza de los nodos; una menor impureza es
mejor.

Reducción de Varianza: Usada principalmente para regresión; busca

reducir la varianza de los valores del nodo.

Selección de la Mejor Partición:

El punto de corte que produce la mayor reducción en la métrica de

impureza (o el mayor aumento en la ganancia de información) se
selecciona como la "mejor partición" para ese nodo.

El proceso se repite recursivamente para cada nuevo nodo creado hasta

que se alcanzan ciertos criterios de parada (por ejemplo, profundidad
máxima del árbol, número mínimo de muestras en un nodo, o no se
puede lograr una mejora significativa en la impureza).

Ejemplo Visual de una Partición en un Árbol de Decisión

Imagina un conjunto de datos sencillo con dos características: Edad y

Salario, y estamos tratando de predecir si un individuo comprará o no un
producto (Clase: Compra o No Compra).

Paso 1: Seleccionamos aleatoriamente la característica Edad.

Paso 2: Consideramos varios puntos de corte: 25 años, 35 años, 45 años.

Paso 3: Para cada punto de corte, dividimos los datos en dos grupos y
calculamos, por ejemplo, la Ganancia de Información.

Paso 4: Supongamos que el punto de corte en 35 años da la mayor

ganancia de información; esa será nuestra mejor partición.

Este proceso ayuda a asegurar que cada árbol en un bosque aleatorio

sea único y capte diferentes aspectos de los datos, lo que aumenta la
diversidad del modelo y, por tanto, su capacidad de generalización.

También podría gustarte

Apuntes Master Aprendizaje
Aún no hay calificaciones
Apuntes Master Aprendizaje
6 páginas
Resumen Machine Learning
Aún no hay calificaciones
Resumen Machine Learning
11 páginas
Aprendizaje Supervisado en Python
Aún no hay calificaciones
Aprendizaje Supervisado en Python
20 páginas
2 Fundamentos de Aprendizaje Automatico
Aún no hay calificaciones
2 Fundamentos de Aprendizaje Automatico
14 páginas
Guía de Algoritmos de Aprendizaje
Aún no hay calificaciones
Guía de Algoritmos de Aprendizaje
5 páginas
Guía de Algoritmos de Clasificación
Aún no hay calificaciones
Guía de Algoritmos de Clasificación
45 páginas
Informe Detallado Sobre Machine Learning
Aún no hay calificaciones
Informe Detallado Sobre Machine Learning
4 páginas
Machine Learning para Dummies
100% (1)
Machine Learning para Dummies
35 páginas
DIP Data Science - Supervised Methods S4
Aún no hay calificaciones
DIP Data Science - Supervised Methods S4
95 páginas
Teoria Machine Learning
Aún no hay calificaciones
Teoria Machine Learning
8 páginas
Parte 1
Aún no hay calificaciones
Parte 1
7 páginas
Dia 5
Aún no hay calificaciones
Dia 5
38 páginas
Modelos No Supervisados - ML
Aún no hay calificaciones
Modelos No Supervisados - ML
46 páginas
Inteligencia Artificial Módulo Básico
Aún no hay calificaciones
Inteligencia Artificial Módulo Básico
18 páginas
Tipos de Modelos ML
Aún no hay calificaciones
Tipos de Modelos ML
1 página
Train
Aún no hay calificaciones
Train
10 páginas
Curso R
Aún no hay calificaciones
Curso R
72 páginas
Clase 08 - Parte I - Modelos Analíticos para DS II
Aún no hay calificaciones
Clase 08 - Parte I - Modelos Analíticos para DS II
15 páginas
Algoritmo KNN
Aún no hay calificaciones
Algoritmo KNN
8 páginas
Trabajo Parcial Primer Corte
Aún no hay calificaciones
Trabajo Parcial Primer Corte
16 páginas
1 - Angela Arteaga
Aún no hay calificaciones
1 - Angela Arteaga
15 páginas
06c. Introducción Al Análisis Predictivo de Datos
Aún no hay calificaciones
06c. Introducción Al Análisis Predictivo de Datos
24 páginas
Glosario - 2023-11-08T131714.787
Aún no hay calificaciones
Glosario - 2023-11-08T131714.787
15 páginas
3 1 Algoritmos de Aprendizaje Automatico - Docx+
Aún no hay calificaciones
3 1 Algoritmos de Aprendizaje Automatico - Docx+
31 páginas
3 Tecnicas Supervisadas - MD
Aún no hay calificaciones
3 Tecnicas Supervisadas - MD
95 páginas
Resumen Apren Supervisado
Aún no hay calificaciones
Resumen Apren Supervisado
57 páginas
Introduccion Al Machine Learning
Aún no hay calificaciones
Introduccion Al Machine Learning
5 páginas
Aprendizaje Supervisado y No Supervisado
Aún no hay calificaciones
Aprendizaje Supervisado y No Supervisado
68 páginas
Soluciones y Aplicaciones de Machine y Deep Learning en La Actualidad (Fase 1)
Aún no hay calificaciones
Soluciones y Aplicaciones de Machine y Deep Learning en La Actualidad (Fase 1)
6 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
31 páginas
Introducción Al Machine Learning - Una Guía Desde Cero
Aún no hay calificaciones
Introducción Al Machine Learning - Una Guía Desde Cero
14 páginas
Modelos Supervisado y No Supervisados
Aún no hay calificaciones
Modelos Supervisado y No Supervisados
6 páginas
Nombre - Guia 3 Parcial
Aún no hay calificaciones
Nombre - Guia 3 Parcial
11 páginas
Pdfuni3 4
Aún no hay calificaciones
Pdfuni3 4
3 páginas
Clase 0207
Aún no hay calificaciones
Clase 0207
22 páginas
AlgoritmosClasificación - RandomForest
100% (1)
AlgoritmosClasificación - RandomForest
25 páginas
Presentacion Aprendizaje Supervisado
Aún no hay calificaciones
Presentacion Aprendizaje Supervisado
28 páginas
MUIAEI AA 2024 11 17 Tema 3
Aún no hay calificaciones
MUIAEI AA 2024 11 17 Tema 3
30 páginas
4 Grupo 04 Machine Learning
Aún no hay calificaciones
4 Grupo 04 Machine Learning
56 páginas
C4 AnalisisDatosYaprendizaAutomatico
Aún no hay calificaciones
C4 AnalisisDatosYaprendizaAutomatico
15 páginas
Uwe Labo
Aún no hay calificaciones
Uwe Labo
4 páginas
Vallejo Andrea 3era Actividad
Aún no hay calificaciones
Vallejo Andrea 3era Actividad
11 páginas
Que Es Datamining
Aún no hay calificaciones
Que Es Datamining
55 páginas
Modelos de Analítica-F
Aún no hay calificaciones
Modelos de Analítica-F
68 páginas
Sesion 5 y 6
Aún no hay calificaciones
Sesion 5 y 6
56 páginas
Métodos Supervisados en Machine Learning
Aún no hay calificaciones
Métodos Supervisados en Machine Learning
84 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
54 páginas
Estudio RP
Aún no hay calificaciones
Estudio RP
17 páginas
Guía Completa de Aprendizaje de Máquinas
Aún no hay calificaciones
Guía Completa de Aprendizaje de Máquinas
109 páginas
Ok - Algoritmos de Aprendizaje KNN & Kmeans
Aún no hay calificaciones
Ok - Algoritmos de Aprendizaje KNN & Kmeans
8 páginas
Algoritmos de Aprendizaje Supervisado ML
Aún no hay calificaciones
Algoritmos de Aprendizaje Supervisado ML
3 páginas
Guía Introductoria al Machine Learning
Aún no hay calificaciones
Guía Introductoria al Machine Learning
26 páginas
Aprendizaje Automatico
Aún no hay calificaciones
Aprendizaje Automatico
3 páginas
005 Aprendizaje Automático-Machine Learning
100% (2)
005 Aprendizaje Automático-Machine Learning
229 páginas
005 Aprendizaje Automático-Machine Learning
Aún no hay calificaciones
005 Aprendizaje Automático-Machine Learning
270 páginas
Separata 05
Aún no hay calificaciones
Separata 05
26 páginas
Curso de Ciencia de Datos: Aprendizaje Supervisado
Aún no hay calificaciones
Curso de Ciencia de Datos: Aprendizaje Supervisado
101 páginas
Super Visa Do
Aún no hay calificaciones
Super Visa Do
19 páginas
Planificación de Recursos Humanos
Aún no hay calificaciones
Planificación de Recursos Humanos
10 páginas
Proyecto Enriquecimiento
100% (1)
Proyecto Enriquecimiento
6 páginas
Manual de Programador EJERCICIO DE CARACTERIZACIÓN EN FACTORYTALK VIEW MACHINE EDITION Y RSLOGIX 5000
Aún no hay calificaciones
Manual de Programador EJERCICIO DE CARACTERIZACIÓN EN FACTORYTALK VIEW MACHINE EDITION Y RSLOGIX 5000
41 páginas
02 - Mejoramiento de Acueducto Veredal Vetas - Plano 2-3
Aún no hay calificaciones
02 - Mejoramiento de Acueducto Veredal Vetas - Plano 2-3
1 página
Pena de Muerte Teoría Mixta
Aún no hay calificaciones
Pena de Muerte Teoría Mixta
6 páginas
Delegación de Funciones en Tecnología
Aún no hay calificaciones
Delegación de Funciones en Tecnología
6 páginas
Historias Que Inspiran 4 Videos - Samuel
Aún no hay calificaciones
Historias Que Inspiran 4 Videos - Samuel
4 páginas
Ignacio Barragan: Rmu: 52929 84-05-09 XAXX-010101 004 CFE
Aún no hay calificaciones
Ignacio Barragan: Rmu: 52929 84-05-09 XAXX-010101 004 CFE
2 páginas
PNO-CDI-LB-078 CÁLCULOS EN EMPOWER - Removed (1) - 34-39
Aún no hay calificaciones
PNO-CDI-LB-078 CÁLCULOS EN EMPOWER - Removed (1) - 34-39
6 páginas
Palacios Urbanos del Renacimiento
Aún no hay calificaciones
Palacios Urbanos del Renacimiento
32 páginas
El Sauce School Folleto
Aún no hay calificaciones
El Sauce School Folleto
8 páginas
Los 4 Temperamentos Del Ser Humano
100% (7)
Los 4 Temperamentos Del Ser Humano
7 páginas
Practica #2 de Termodinamica 2023-1
Aún no hay calificaciones
Practica #2 de Termodinamica 2023-1
1 página
Guía Figuras 2° Medio
Aún no hay calificaciones
Guía Figuras 2° Medio
4 páginas
SESIÒN DE APRENDIZAJE Lunes y Martes
Aún no hay calificaciones
SESIÒN DE APRENDIZAJE Lunes y Martes
20 páginas
Diseño de Desarenadores PTAR
Aún no hay calificaciones
Diseño de Desarenadores PTAR
15 páginas
Trabajos
Aún no hay calificaciones
Trabajos
2 páginas
Sistema Clasificador de Basura
Aún no hay calificaciones
Sistema Clasificador de Basura
2 páginas
Sensores Industriales: Clasificación y Características
Aún no hay calificaciones
Sensores Industriales: Clasificación y Características
36 páginas
Plaza Vea La Molina - MD BT
100% (1)
Plaza Vea La Molina - MD BT
31 páginas
Mezclas de Fluidos Actualizado
Aún no hay calificaciones
Mezclas de Fluidos Actualizado
21 páginas
Análisis Sobre La Vivienda Mínima
Aún no hay calificaciones
Análisis Sobre La Vivienda Mínima
7 páginas
Caso 1 Whole Foods Market 3
Aún no hay calificaciones
Caso 1 Whole Foods Market 3
17 páginas
Programa Demostracion Pública de Lo Aprendido
Aún no hay calificaciones
Programa Demostracion Pública de Lo Aprendido
4 páginas
Guia 8 - 20240801 - 065335 - 0000
Aún no hay calificaciones
Guia 8 - 20240801 - 065335 - 0000
14 páginas
Politicas Antinatalistas.
Aún no hay calificaciones
Politicas Antinatalistas.
24 páginas
Plan Anual de Contrataciones
Aún no hay calificaciones
Plan Anual de Contrataciones
21 páginas
Apoyo al Pastor: Lecciones de Moisés
Aún no hay calificaciones
Apoyo al Pastor: Lecciones de Moisés
2 páginas
Luis Galindo Caballero Barba
Aún no hay calificaciones
Luis Galindo Caballero Barba
4 páginas
Ciencia de Latas y Reciclaje
Aún no hay calificaciones
Ciencia de Latas y Reciclaje
14 páginas