¿QUÉ ES LA REGRESIÓN LINEAL?
La regresión lineal es una técnica de análisis de datos que predice el valor de datos desconocidos
mediante el uso de otro valor de datos relacionado y conocido. Modela matemáticamente la variable
desconocida o dependiente y la variable conocida o independiente como una ecuación lineal. Por
ejemplo, supongamos que tiene datos sobre sus gastos e ingresos del año pasado. Las técnicas de
regresión lineal analizan estos datos y determinan que tus gastos son la mitad de tus ingresos.
Luego calculan un gasto futuro desconocido al reducir a la mitad un ingreso conocido futuro.
¿Por qué es importante la regresión lineal?
Los modelos de regresión lineal son relativamente simples y proporcionan una fórmula matemática
fácil de interpretar para generar predicciones. La regresión lineal es una técnica estadística
establecida y se aplica fácilmente al software y a la computación. Las empresas lo utilizan para
convertir datos sin procesar de manera confiable y predecible en inteligencia empresarial y
conocimiento práctico. Los científicos de muchos campos, incluidas la biología y las ciencias del
comportamiento, ambientales y sociales, utilizan la regresión lineal para realizar análisis de datos
preliminares y predecir tendencias futuras. Muchos métodos de ciencia de datos, como el machine
learning y la inteligencia artificial, utilizan la regresión lineal para resolver problemas complejos.
¿Cómo funciona la regresión lineal?
En esencia, una técnica de regresión lineal simple intenta trazar un gráfico lineal entre dos variables
de datos, x e y. Como variable independiente, x se traza a lo largo del eje horizontal. Las variables
independientes también se denominan variables explicativas o variables predictivas. La variable
dependiente, y, se traza en el eje vertical. También puede hacer referencia a los valores y como
variables de respuesta o variables pronosticadas.
Pasos en la regresión lineal
Para esta visión general, tenga en cuenta la forma más simple de la ecuación de gráfico de líneas
entre y y x; y=c*x+m, donde c y m son constantes para todos los valores posibles de x e y. Así, por
ejemplo, supongamos que los datos de entrada para (x, y) era (1,5), (2,8) y (3,11). Para identificar
el método de regresión lineal, debe seguir los siguientes pasos:
1. Trace una línea recta y mida la correlación entre 1 y 5.
2. Siga cambiando la dirección de la línea recta para los nuevos valores (2,8) y (3,11) hasta
que se ajusten todos los valores.
3. Identifique la ecuación de regresión lineal como y = 3*x + 2.
4. Extrapola o predice que y es 14 cuando x es
¿Qué es la regresión lineal en el machine learning?
En el machine learning, los programas de computación denominados algoritmos analizan grandes
conjuntos de datos y trabajan hacia atrás a partir de esos datos para calcular la ecuación de
regresión lineal. Los científicos de datos primero entrenan el algoritmo en conjuntos de datos
conocidos o etiquetados y, a continuación, utilizan el algoritmo para predecir valores desconocidos.
Los datos de la vida real son más complicados que el ejemplo anterior. Es por eso que el análisis
de regresión lineal debe modificar o transformar matemáticamente los valores de los datos para
cumplir con los siguientes cuatro supuestos.
Relación lineal
Debe existir una relación lineal entre las variables independientes y las dependientes. Para
determinar esta relación, los científicos de datos crean una gráfica de dispersión (una colección
aleatoria de valores x e y) para ver si caen a lo largo de una línea recta. De lo contrario, puede
aplicar funciones no lineales, como la raíz cuadrada o el registro, para crear matemáticamente la
relación lineal entre las dos variables.
Independencia residual
Los científicos de datos utilizan residuos para medir la precisión de la predicción. Un residuo es la
diferencia entre los datos observados y el valor previsto. Los residuos no deben tener un patrón
identificable entre ellos. Por ejemplo, no querrá que los residuos crezcan con el tiempo. Puede
utilizar diferentes pruebas matemáticas, como la prueba de Durbin-Watson, para determinar la
independencia residual. Puede usar datos ficticios para reemplazar cualquier variación de datos,
como los datos estacionales.
Normalidad
Las técnicas de representación gráfica, como las gráficas Q-Q, determinan si los residuos se
distribuyen normalmente. Los residuos deben caer a lo largo de una línea diagonal en el centro de
la gráfica. Si los residuos no están normalizados, puede probar los datos para detectar valores
atípicos aleatorios o valores que no sean típicos. Eliminar los valores atípicos o realizar
transformaciones no lineales puede solucionar el problema.
Homocedasticidad
La homocedasticidad supone que los residuos tienen una variación constante o desviación estándar
de la media para cada valor de x. De lo contrario, es posible que los resultados del análisis no sean
precisos. Si no se cumple esta suposición, es posible que tenga que cambiar la variable
dependiente. Dado que la variación se produce de forma natural en grandes conjuntos de datos,
tiene sentido cambiar la escala de la variable dependiente. Por ejemplo, en lugar de usar el tamaño
de la población para predecir la cantidad de estaciones de bomberos en una ciudad, podría usar el
tamaño de la población para predecir la cantidad de estaciones de bomberos por persona.
¿Cuáles son los tipos de regresión lineal?
Algunos tipos de análisis de regresión son más adecuados que otros para gestionar conjuntos de
datos complejos. A continuación se muestran algunos ejemplos.
Regresión lineal simple
La regresión lineal simple se define mediante la función lineal:
Y= β0*X + β1 + ε
β0 y β1 son dos constantes desconocidas que representan la pendiente de regresión, mientras que
ε (épsilon) es el término de error.
Puede utilizar la regresión lineal simple para modelar la relación entre dos variables, como las
siguientes:
• Lluvia y rendimiento de los cultivos
• Edad y estatura en niños
• Temperatura y expansión del mercurio metálico en un termómetro
Regresión lineal múltiple
En el análisis de regresión lineal múltiple, el conjunto de datos contiene una variable dependiente y
múltiples variables independientes. La función de línea de regresión lineal cambia para incluir más
factores, de la siguiente manera:
Y = β0*x0 + β1x1 + β2x2+…… βNxN+ ε
A medida que aumenta el número de variables predictivas, las constantes β también aumentan en
consecuencia.
La regresión lineal múltiple modela múltiples variables y su impacto en un resultado:
• Lluvia, temperatura y uso de fertilizantes en el rendimiento de los cultivos
• Dieta y ejercicio sobre enfermedades cardíacas
• Crecimiento salarial e inflación en las tasas de préstamos hipotecarios
Regresión logística
Los científicos de datos utilizan la regresión logística para medir la probabilidad de que se produzca
un evento. La predicción es un valor entre 0 y 1, donde 0 indica un evento que es poco probable
que ocurra y 1 indica una probabilidad máxima de que suceda. Las ecuaciones logísticas usan
funciones logarítmicas para calcular la línea de regresión.
A continuación, se indican varios ejemplos:
• La probabilidad de ganar o perder en un partido deportivo
• La probabilidad de aprobar o reprobar una prueba
• La probabilidad de que una imagen sea una fruta o un animal
Fuente: Amazon (s.f.). ¿Qué es la regresión lineal? [Sitio web]. Recuperado de
https://aws.amazon.com/es/what-is/linear-regression/