0% encontró este documento útil (0 votos)
188 vistas33 páginas

Estadistica Resumen

Cargado por

Mary Sunn
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
188 vistas33 páginas

Estadistica Resumen

Cargado por

Mary Sunn
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 33

Tema 1.

Conceptos de estadística
lectura

lectura 1
Título: Estadística descriptiva e inferencial.
Datos de los autores: Puente, C. D. L.
Año: 2018
Edición: 1
Editorial: Ediciones IDT
Disponible en: Biblioteca Virtual, colección e-libro
Apartados que se deben consultar:
● Sección A. Capítulo 1. Definición de estadística
● Sección A. Capítulo 2. Variables y datos estadísticos.

Lectura 2

Título: Schaum's Estadística


Edición: 6ta
Autor: Murray R. Spiegel; Larry Stephen
Año de la edición: 2020
Editorial: McGraw- Hill
Disponible en: Colección McGraw- Hill, Biblioteca Virtual ULA
Apartados que se deben consultar:
● Capítulo 1. Variables y gráficas
○ Subtema 2. Población y muestra; estadística inductiva y descriptiva

Lectura 3

Título: Estadística
Edición: 2
Autor: Claridad W, Guerra B.
Año de la edición: 2003
Editorial: Felix Varela
Disponible en: Colección e-libro Biblioteca Virtual UTEG
Apartados que se deben consultar:
● Capítulo 1: Clasificación de conjunto de datos.

La estadística es una rama de las matemáticas que se ocupa de la


recolección, análisis, interpretación y presentación de masas de datos
numéricos.

Su importancia radica en la capacidad para tomar decisiones basadas


en datos y en la comprensión de la variabilidad y la incertidumbre.

La estadística con su elegante capa de análisis y predicción, te permite


tomar decisiones informadas y no dejarte llevar por las traicioneras
corrientes de la intuición sin fundamento. Sirve para validar hipótesis
con rigor.

Conceptos básicos:
Población y muestra: La población es el conjunto de elementos que
están siendo estudiados mientras que la muestra es un subconjunto de
la población.
Variable: Cualquier característica, número o cantidad que puede
medirse o contarse.
Datos: Valores concretos que toman las variables
Distribución: Se refiere a cómo se dispersan o se distribuyen los valores
de una variable (manera en que se relacionan los datos entre sí).

Tipos de variables

Cualitativas o categóricas: Describen una cualidad o característica y


se dividen en:
Nominales: No tienen un orden natural (ej. color, género)
Ordinales: Tienen orden o jerarquía (ej grado de satisfacción)

Cuantitativas: Variables numéricas que indican una cantidad


Discretas Valores contables que no se dividen (núm de hijos)
Continuas Valores que pueden tomar cualquier número dentro de un
rango (peso, altura)

Rango: Amplitud de la variación de un fenómeno entre un límite menor y uno mayor


claramente especificados.

Empresas como Nielsen, Kantar y worldpanel usan la estadística para


análisis de mercado (tendencias y comportamiento del consumidor)

Actividades de contenido
Población Es el conjunto total de sujetos o elementos que se estudian en un
análisis estadístico. Representa a todos los individuos o elementos que poseen una
característica común.

Muestra Es un subconjunto seleccionado de la población que se utiliza para


realizar inferencias o generalizaciones sobre la población completa. La muestra
debe ser representativa de la población para que los resultados sean válidos.

Variables Son características que se miden o cuentan en un estudio


estadístico. Pueden ser cualitativas (describen cualidades) o cuantitativas (expresan
cantidades).

Datos Son los valores específicos que las variables pueden tomar en un estudio
estadístico. Los datos pueden ser numéricos o categóricos y se utilizan para realizar
análisis y sacar conclusiones.

Distribución Se refiere a la forma en que se distribuyen los datos en un


conjunto de observaciones. La distribución de los datos puede ser simétrica,
sesgada a la derecha o sesgada a la izquierda, entre otras formas.

Estadística Descriptiva Es la parte de la estadística que se encarga de


organizar, resumir y presentar los datos de manera informativa. Ayuda a
comprender las características fundamentales de un conjunto de datos.

Estadística Inferencial Es la parte de la estadística que se utiliza para


hacer inferencias, generalizaciones o predicciones sobre una población basándose
en los datos de una muestra. Permite sacar conclusiones más allá de los datos
observados.

● Se llama mediana al valor central de la distribución ordenada


● Se le llama coeficiente de variación al cociente de la desviación estándar y la
media y representa un porcentaje.
● La media es la medida de tendencia central que se ve afectada cuando se
tienen valores extremos grandes o pequeños en comparación con su
distribución, debido a que la suma de los puntos hacen que al tener valores
extremos el resultado afecte su valor integral.
● Moda es el valor que más se repite en una distribución de datos.
CUESTIONARIO DE PRUEBA
1 ¿Qué tipo de variable es el peso de una persona? Continua
2 ¿Qué herramienta estadística se utiliza para comprender las
tendencias del mercado y el comportamiento del consumidor?
Estadísticas
3 ¿Cuál es el conjunto total de sujetos o elementos que se estudian
en estadística? Población
4 ¿Qué es la moda en estadística descriptiva? El valor que aparece
con mayor frecuencia en un conjunto de datos.
5 ¿Qué medida de tendencia central es menos sensible a valores
atípicos? Mediana
6 ¿Qué medida de tendencia central es la más utilizada y representa
el valor central de un conjunto de datos? Media
7 ¿Qué indican las medidas de dispersión en estadística? Qué tan
extendidos o dispersos están los datos
8 ¿Cuál es la diferencia entre el valor más alto y el más bajo en un

conjunto de datos? Rango


9 ¿Qué representa la varianza en un conjunto de datos? El promedio
de las diferencias al cuadrado entre cada dato y la media del
conjunto.
10 ¿Qué es el muestreo? Una técnica para seleccionar una muestra
representativa de una población.
11 ¿Qué es el muestreo aleatorio simple? Una técnica de muestreo en la
que cada miembro de la población tiene la misma probabilidad de ser
seleccionado.
12 ¿Qué es el marco muestral? Una lista de todos los miembros de la
población.
13 ¿Cuál es un concepto clave en el mundo de la estadística y el
análisis de datos? Las distribuciones de probabilidad
14 ¿Qué herramientas son fundamentales para la estimación y
predicción de eventos y fenómenos aleatorios? Las distribuciones de
probabilidad
15 ¿Qué distribución es conocida como Gaussiana y es crucial en
estadística? Distribución normal
16 ¿Cuál es el concepto más importante en el mundo de la
estadística? El contraste de hipótesis
17 ¿Qué técnica permite tomar decisiones basadas en datos? El
contraste de hipótesis
18 ¿Qué habilidad se puede mejorar al estudiar el contraste de
hipótesis? La habilidad para cuestionar y validar afirmaciones basadas
en datos
19 ¿Qué es el análisis de regresión?
Un método estadístico que examina la relación entre variables
20 ¿Cuál es el propósito principal del análisis de regresión?
Predecir el valor de una variable dependiente basándose en variables
independientes
—-------------------------------------
Objetivo: identificar y aplicar las medidas de tendencia central (media,
mediana, moda) en conjuntos de datos, evaluando su representatividad y
limitaciones
La exploración del mundo de la estadística nos lleva a un aspecto
fundamental: las medidas de tendencia central. Estos conceptos - la
media, la mediana y la moda - son más que meros cálculos
matemáticos; son herramientas esenciales que nos permiten
comprender y analizar conjuntos de datos de manera efectiva. En
esta sección del curso, los participantes no solo identificarán estas
medidas, sino que también aprenderán a aplicarlas prácticamente,
evaluando su representatividad y entendiendo sus limitaciones.
Comenzaremos con la media, a menudo referida como el promedio.
Es quizás la medida más conocida y utilizada, pero ¿cómo se calcula
exactamente y cuándo es más apropiada su aplicación?
Exploraremos ejemplos concretos que revelarán la utilidad de la
media en diferentes contextos, así como situaciones donde puede
no ser el indicador más fiable.
Posteriormente, nos adentraremos en la mediana, esa cifra que
divide un conjunto de datos en dos partes iguales. A través de
ejercicios prácticos, los participantes descubrirán cómo la mediana
puede proporcionar una mejor comprensión de un conjunto de
datos, especialmente en situaciones donde la media puede ser
engañosa debido a valores atípicos.
La moda, el valor que aparece con mayor frecuencia en un conjunto
de datos, también será explorada. Aunque a menudo es pasada por
alto, la moda puede ofrecer insights valiosos, especialmente en el
análisis de datos categóricos. Analizaremos cómo y cuándo utilizar
esta medida, y qué nos puede decir sobre las tendencias y
preferencias dentro de un conjunto de datos.
A lo largo de esta sección, los participantes no solo aprenderán a
calcular estas medidas, sino que también desarrollarán una
comprensión crítica de su aplicación. Examinaremos ejemplos del
mundo real para evaluar la representatividad de estas medidas y
sus limitaciones. Por ejemplo, ¿Cómo afectan los valores atípicos a
cada una de estas medidas? ¿En qué situaciones una medida es
preferible sobre las otras?
Esta parte del curso está diseñada para ser interactiva y aplicada,
asegurando que los participantes no solo comprendan los
conceptos teóricos, sino que también adquieran la habilidad de
aplicar estas medidas en diferentes contextos, desde el análisis de
datos en sus trabajos hasta la interpretación de estadísticas en
noticias y estudios. Al final de este módulo, los participantes estarán
equipados no solo con el conocimiento, sino también con la
confianza para utilizar las medidas de tendencia central de manera
efectiva y crítica en su vida profesional y cotidiana.

LECTURAS
Título: Estadística descriptiva e inferencial.
Datos de los autores: Puente, C. D. L.
Año: 2018
Edición: 1
Editorial: Ediciones IDT
Disponible en: Biblioteca Virtual, colección e-libro
Apartados que se deben consultar:
● Sección A. Capítulo 6. Medidas de tendencia central

Título: Schaum's Estadística


Edición: 6ta
Autor: Murray R. Spiegel; Larry Stephen
Año de la edición: 2020
Editorial: McGraw- Hill
Disponible en: Biblioteca Virtual, colección McGraw- Hill
Apartados que se deben consultar:
● Capítulo 3. Media, mediana, moda y otras medidas de tendencia
central

Título: Estadística

Edición: 2
Autor: Claridad W, Guerra B.
Año de la edición: 2003
Editorial: Felix Varela
Disponible en: Biblioteca Virtual, colección e-libro
Apartados que se deben consultar:
● Capitulo 2: Medidas de tendencia central y dispersión.
VIDEO 2 MEDIDAS DE TENDENCIA CENTRAL (media, mediana
y moda).
Sirven para evaluar críticamente su representatividad y entender sus limitaciones en
diferentes contextos estadísticos.
Estadística Descriptiva: Es una rama de la estadística que se ocupa de describir,
analizar y resumir conjuntos de datos. Una parte fundamental son las medidas de
tendencia central, que proporcionan un resumen conciso sobre el centro o punto
medio de un conjunto de datos. Estas medidas son esenciales para entender la
distribución general de los datos y son utilizadas en diversas disciplinas.
Medidas de tendencia central (media, mediana y moda): Valores numericos que
intentan describir un conjunto de datos. ( sirven para identificar promedio, elemento
que mas se repite o cual está a la mitad de los datos)
● Media: Suma de todos los valores dividido entre el numero total de valores.
● Mediana: Valor que divide al conjunto de datos en 2 partes.
● Moda: Valor que aparece con mayor frecuencia.

Decidir QUE MEDIDA USAR:


● En situaciones donde hay valores extremos o datos que no están distribuidos
de manera uniforme, la media podría no ser el mejor representante del
“centro” de los datos.
● La mediana, en cambio, podría ofrecer una mejor representación central ya
que no es tan sensible a valores extremos.
● La moda también podría ser útil para identificar el valor que más se repite.

La media es sensible a datos extremos, un ejemplo de esto sería un grupo de


amigos que quieren saber la tendencia central de sus sueldos mensuales, juan dice
que gana 5mil, pedro 10mil, pepe 8mil, lalo 9mil pero llega Carlos Slim que gana
100mil millones al mes. En este ejemplo la media que era de miles, pasa a ser de
millones por un solo valor de este tipo. No representa realmente un promedio.

Recomendaciones para el uso de la media aritmética:


● Usar cuando no haya valores atípicos
● Usar Cuando se quiera comparar 2 o más conjuntos de datos
● Usar cuando se quiera calcular medidas de dispersión, como la desviación
estándar.
● Ejemplo: Estatura media de los adultos en España es de 1.75Metros

Recomendaciones para el uso de la mediana


● Usar cuando haya valores extremos
● Usar Cuando se quiera comparar 2 o más conjuntos de datos con valores
extremos
● Usar Cuando se quiera comparar medidas de posición como el percentil 50
● Ejemplo: El salario mediano de los trabajadores en España es de 1500Euros,
en este caso la mediana es la medida adecuada porque hay salarios
exagerados como los de directivos y deportistas.

Recomendaciones para el uso de la moda


● Usar cuando haya sesgo significativo (distribución de datos sesgada)
● Usar Cuando se quiera comparar 2 o más conjuntos de datos con valores
sesgados (que se desvía, tendencioso)
● Usar Cuando se quiera comparar medidas de concentración o índice de
concentración
● Ejemplo: El color de pelo más común en España es el castaño; la moda es lo
ideal porque la distribución de datos está sesgada hacia el color castaño.

La estadística descriptiva sirve para describir eficazmente grandes cantidades de


datos y tomar decisiones informadas.

Estadística Descriptiva Es una rama de la estadística que se enfoca en


la descripción, análisis y resumen de conjuntos de datos.

Medidas de Tendencia Central Son valores numéricos que buscan


describir un conjunto de datos ubicando su posición central. Incluyen la media, la
mediana y la moda.

Media (Promedio) Es el resultado de dividir la suma de todos los valores de


un conjunto de datos por el número total de valores.

Mediana Corresponde al valor que divide al conjunto de datos en dos mitades


iguales cuando los datos están ordenados.

Moda Es el valor que aparece con mayor frecuencia en un conjunto de datos,


representando así el dato más común.

Desviación Estándar Es una medida de dispersión que indica cuánto se


alejan los datos de la media en un conjunto de datos.

Percentil Es el valor por debajo del cual cae un porcentaje dado de


observaciones en un conjunto de datos ordenados.
● La desviación estándar mide la dispersión de los datos con respecto a
la media.
● El percentil indica el valor por debajo del cual se encuentra un
determinado porcentaje de datos en un conjunto ordenado, lo que lo
convierte en una medida útil para analizar la distribución de los datos.
● La mediana es menos afectada por valores extremos en un conjunto de
datos, lo que la hace más robusta en presencia de datos atípicos.

Sección 7 de 11
Fundamentos de estadística
Sección 5 - Tema 2. Estadística descriptiva: Medidas de tendencia central
Lesson content

Tema 3. Estadística descriptiva:


Medidas de dispersión
Título: Estadística descriptiva e inferencial.
Datos de los autores: Puente, C. D. L.
Año: 2018
Edición: 1
Editorial: Ediciones IDT
Disponible en: Biblioteca Virtual, colección e-libro
Apartados que se deben consultar:
● Sección A. Capítulo 8. Medidas de dispersión

Título: Schaum's Estadística


Edición: 6ta
Autor: Murray R. Spiegel; Larry Stephen
Año de la edición: 2020
Editorial: McGraw- Hill
Disponible en: Biblioteca Virtual ULA, colección McGraw- Hill
Apartados que se deben consultar:
● Capítulo 4. La desviación estándar y otras medidas de dispersión

Título: Estadística
Edición: 2
Autor: Claridad W, Guerra B.
Año de la edición: 2003
Editorial: Felix Varela
Disponible en: Biblioteca Virtual, colección e-libro
Apartados que se deben consultar:
● Capitulo 2: Medidas de tendencia central y dispersión.

VIDEO 1- MEDIDAS DE DISPERSIÓN


Profundizar en el cálculo de medidas de dispersión como la varianza, desviación
estándar y rango sirve para comprender cómo los datos se distribuyen y varían
dentro de un conjunto. Esta habilidad es clave en el análisis estadístico porque
permite evaluar la consistencia y predictibilidad de los datos.
Las medidas de dispersión nos dicen porqué los demás datos no cumplen un
estándar.
Definición: Las medidas de dispersión son estadísticas que describen qué tan
extendidos están los datos alrededor de una medida de tendencia central (como la
media o la mediana). Son esenciales para entender la variabilidad de los datos.
Principales técnicas:
● Rango: Diferencia entre el valor más alto y el más bajo en el conjunto de
datos
● Varianza Promedio de las diferencias al cuadrado entre cada dato y la media
del conjunto.
● Desviación estándar Raíz cuadrada de la varianza, representa la dispersión
de los datos en relación con la media.
● Coeficiente de variación Ratio de la desviación estándar de la media. ( ratio
es la razón, proporción o cociente entre dos magnitudes o elementos que
están relacionados entre sí.) Util para comparar la variabilidad entre
conjuntos de datos con diferentes unidades o medias.
Todas las técnicas anteriore anteriores utilizan una herramienta llamada
Tabla de frecuencias
Organiza los datos en grupos y muestra cuántas veces aparece cada grupo
(frecuencia).
Es una herramienta poderosa para resumir información y ver patrones en los datos.
● Frecuencia absoluta: Número de veces que aparece un valor o grupo de
valores.
● Frecuencia relativa: Proporción de veces que aparece un valor respecto al
total de observaciones.
● Frecuencia acumulada: Suma progresiva de las frecuencias mostrando el
total hasta cada punto.
Las tablas de frecuencia arrojan diferentes valores por ejemplo la frecuencia
relativa, frecuencia acumulada, entre otros… Cada uno de ellos mide la frecuencia
en determinada zona (de tal a tal punto de la campana de gauss que tantos puntos
tengo) y esto se usa para graficar.
¿Qué es una campana de Gauss? Una Campana de Gauss es una
representación gráfica que muestra la distribución de los datos en torno a un valor
central. Esta herramienta se utiliza para representar la dispersión de los datos y su
tendencia, con el fin de detectar patrones o comportamientos en diferentes
situaciones.
Para graficar se usa el Histograma, los histogramas son gráficos que muestran la
distribución de datos; similares a las tablas de frecuencias pero representados
visualmente lo que facilita la identificación de patrones como la simetría, asimetría,
picos y valles.
Ejes: El eje horizontal representa los intervalos de datos mientras el vertical muestra
la frecuencia.
Barras: Cada barra representa la frecuencia de un intervalo de valores.

Ejemplo de rango: Edades de 5 amigos, 23,29,20,25 y 28 años.


Cálculo de rango: identificar valor máximo y mínimo, Max 29 y min 20
Restar el valor mínimo del máximo: 29-20=9.
Interpretación: El rango de edades entre los amigos es de 9 Años.

Ejemplo de varianza:
Calificaciones en examen 70 80 88 95 85
1. Calcular la media
2. Restar la media de cada dato y elevar el resultado al cuadrado
3. Suma los valores
4. Divide entre el número total de datos (en este caso 5)

Ejemplo de desviación estándar


Calificaciones en examen 70 80 88 95 85
1. Usar la varianza calculada anteriormente
2. Calcular la raíz cuadrada de la varianza
Solución:Varianza = 36.96
Desviación estándar= raíz de 36.96
La desviación estándar es de 6.08 aprox. lo cual significa que en promedio, las calif
varían en 6.08 respecto a la media.

Ejemplo de coeficiente de variación


Salario de 5 empleados: 35000, 40000, 45000, 50000 y 55000.

1. Calcular la media de los salarios


2. Calcular la desviación estándar de los salarios
3. Dividir la desviación estándar entre la media y multiplicar por 100 para
obtener el porcentaje.

Resultado 31.43 %
Varianza

La varianza es una medida de dispersión que indica cuánto se alejan los valores
individuales de un conjunto de datos respecto a la media. Se calcula como el
promedio de las diferencias al cuadrado entre cada dato y la media del conjunto.

Desviación estándar

La desviación estándar es la raíz cuadrada de la varianza y representa la dispersión


de los datos en relación con la media. Es una medida comúnmente utilizada para
entender la variabilidad de un conjunto de datos.

Rango El rango es la diferencia entre el valor más alto y el valor más bajo en un
conjunto de datos. Proporciona una idea rápida de la extensión total de los datos y
la variabilidad presente en ellos.
Coeficiente de variación El coeficiente de variación es una medida
relativa de la dispersión de los datos, expresada en porcentaje. Se utiliza para
comparar la variabilidad de conjuntos de datos que tienen diferentes medias o
unidades.

Frecuencia absoluta La frecuencia absoluta es el número de veces que


aparece un valor o grupo de valores en un conjunto de datos.

Frecuencia relativa La frecuencia relativa es la proporción de veces que


aparece un valor en relación al total de observaciones en un conjunto de datos.

Frecuencia acumulada La frecuencia acumulada es la suma progresiva


de las frecuencias en una tabla de datos, mostrando el total hasta cada punto y
permitiendo analizar la distribución de los datos.

● El coeficiente de variación es ideal para comparar la variabilidad entre


conjuntos con diferentes unidades o medias distintas.
● La desviación estándar es la raíz cuadrada de la varianza.
● La varianza es una medida de dispersión que tiene en cuenta todos los
valores del conjunto de datos.
● La frecuencia relativa es la proporción de veces que aparece un valor
respecto al total de observaciones en un conjunto de datos. es una
medida que indica la proporción de veces que aparece un valor en
relación al total de observaciones en un conjunto de datos.
● El rango es la diferencia entre el valor más alto y el valor más
bajo en un conjunto de datos.

Tema 4. Muestreo
Diseñar y ejecutar técnicas de muestreo apropiadas para diferentes situaciones,
comprendiendo la importancia de la representatividad.

El diseño y ejecución de técnicas de muestreo adecuadas constituyen un


pilar esencial en el estudio de la estadística, y esta fase del curso está
dedicada precisamente a eso. Discutiremos cómo una muestra no
representativa puede llevar a conclusiones erróneas y el impacto que esto
puede tener en la toma de decisiones basadas en estos datos.
abordaremos los desafíos comunes en el muestreo, como el sesgo de
selección y cómo minimizarlo. A través de estudios de caso y ejemplos del
mundo real, los participantes verán los efectos del sesgo en la
investigación y aprenderán estrategias para evitarlo.

VIDEO 1 ESTADÍSTICA DESCRIPTIVA - MUESTREO


El diseño y ejecución de técnicas de muestreo garantiza la
representatividad y validez de los datos.
Definición: El muestreo es una técnica de estadística fundamental
utilizada para inferir o hacer generalizaciones sobre una población más
grande a partir de la observación de un subconjunto de esta población
conocido como muestra.
Este enfoque es esencial cuando es impracticable o imposible examinar
cada miembro de una población entera.

Muestreo aleatorio simple: Es la forma más básica de muestreo, consiste


en seleccionar miembros de una población de manera que cada
individuo tenga la misma probabilidad de ser elegido. Ésta técnica
asegura imparcialidad y representatividad.
Proceso del muestreo aleatorio simple: Se asigna un número a cada
miembro de la población y se utilizan métodos aleatorios como
generadores de números aleatorios para tomar una muestra.
Identificar claramente población de interés, definir características
específicas. Por ejemplo para un estudio sobre las preferencias de los
consumidores de café en una ciudad, la población sería todos los
consumidores de café en esta ciudad. No tomarás a quienes no toman
café porque los resultados serían erróneos.

Crear lista de marco muestral:


Hacer una lista completa de todos los miembros de la población, en este
caso todos los consumidores de café, (obtienes los datos de cafeterías o
encuestas previas),.
Determina el tamaño de la muestra: Decide cuantos elementos vas a
seleccionar, lo cual depende de varios factores como nivel de confianza
deseado, margen de error permisible y variabilidad de la población.
Ejemplo: Se necesita una muestra de 500 consumidores para resultados
confiables.

Recolección de datos: Encuestas, entrevistas, observación, etc


Análisis de datos: Determinar tendencias generales
Consideraciones éticas y de calidad: Verificar calidad y precisión de
datos. Asegurar confidencialidad y trato ético de los participantes.

Muestreo estratificado: Implica dividir población en subgrupos (estratos)


basados en característica comunes y realizar muestreo aleatorio simple
dentro de cada estrato.
Ejemplo: Una empresa puede dividir a sus clientes en grupos basados en
rangos de edad y luego seleccionar aleatoriamente una cantidad de
clientes de cada grupo.
Este procedimiento es útil cuando la población es muy variada y
heterogénea. Se desea asegurar que los subgrupos sean bien claros y
representados
Identificar características relevantes de la población: edad, genero, zona
geográfica, nivel de ingresos…
Ejemplo: si se estudia el consumo de un producto, se pueden formar
estratos basados en grupos de edad como jóvenes, adultos y ancianos.
Determinar tamaño: Puede hacerse de manera proporcional al tamaño de
cada estrato (muestreo proporcional), o asignando el mismo tamaño de
muestra a cada estrato (muestreo no proporcional).
Ejemplo: En un estudio con 300 participantes, si el 50% de la población
pertenece al estrato de adultos, se seleccionarán 150 adultos para
muestra.
Se busca que haya equilibrio para que los resultados sean adecuados.

Recolección de datos: entrevistas, observaciones, encuestas.


En una encuesta o entrevista es importante que cada pregunta esté
estandarizada, si es cuantitativa que esté bien formulada y si es
cualitativa saber como convertiré ese dato (respuesta) en algo medible.

Aplicaciones de muestreo
● Investigación de mercado
● Encuestas sociales y políticas
● Control de calidad

Muestreo Técnica estadística que consiste en seleccionar una muestra


representativa de una población más grande para realizar inferencias sobre dicha
población.

Muestreo Aleatorio Simple Método de muestreo en el que cada


miembro de la población tiene la misma probabilidad de ser seleccionado para
formar parte de la muestra.

Marco Muestral Lista que contiene todos los elementos individuales de la


población que se está estudiando y de la cual se seleccionará la muestra.

Muestreo Estratificado Técnica de muestreo que implica dividir la


población en subgrupos homogéneos (estratos) y luego realizar un muestreo
aleatorio simple dentro de cada estrato.

Tamaño de Muestra Cantidad de elementos que se seleccionan de la


población para formar la muestra, determinado por factores como el nivel de
confianza deseado y el margen de error permisible.

Muestreo por Conglomerados Método de muestreo en el que la


población se divide en grupos más grandes (conglomerados) y se seleccionan
algunos de estos conglomerados de forma aleatoria para formar la muestra.

Muestreo por Cuotas Técnica de muestreo en la que se seleccionan


participantes de diferentes categorías predefinidas en cantidades específicas para
garantizar la representatividad de la muestra.

● El marco muestral debe incluir a todos los elementos de la población


objetivo para que la muestra seleccionada pueda considerarse
representativa de dicha población.
● El muestreo estratificado es una técnica que se utiliza para dividir la
población en subgrupos homogéneos, o estratos, basándose en
características específicas, y luego se realiza un muestreo aleatorio
simple dentro de cada estrato
● El muestreo aleatorio simple no garantiza que todos los estratos o
subgrupos de la población estén representados en la muestra, ya que
este método selecciona miembros de la población de manera
completamente aleatoria, sin tener en cuenta las características o la
división de la población en subgrupos

Tema 5. Distribuciones de
probabilidad
estimar eventos y fenómenos aleatorios.
Título: Estadística descriptiva e inferencial.
Datos de los autores: Puente, C. D. L.
Año: 2018
Edición: 1
Editorial: Ediciones IDT
Disponible en: Biblioteca Virtual, colección e-libro
Apartados que se deben consultar:
● Sección A. Capítulo 17. Distribuciones de probabilidades

Título: Schaum's Estadística


Edición: 6ta
Autor: Murray R. Spiegel; Larry Stephen
Año de la edición: 2020
Editorial: McGraw- Hill
Disponible en: Biblioteca Virtual, colección McGraw- Hill
Apartados que se deben consultar:
● Capítulo 9. Teoría de la estimación estadística
● Capítulo 10. Teoría estadística de la decisión
● Capitulo 12. La prueba Ji cuadrada
Título: Estadística
Edición: 2
Autor: Claridad W, Guerra B.
Año de la edición: 2003
Editorial: Felix Varela
Disponible en: Biblioteca Virtual UTEG, colección e-libro
Apartados que se deben consultar:
● Capitulo 5: Distribuciones teóricas de probabilidad.

Distribuciones de probabilidad: Se usa para descifrar y describir la


frecuencia con que se espera que ocurran los resultados de un
experimento o estudio.
Distribución normal También conocida como Gaussiana es una de
las más comunes e importantes. Tiene forma simétrica de campana
y la definen 2 parámetros: La media y la desviación estándar. La
distribución es simétrica y la mayoría de los datos caen dentro de
tres desviaciones estándar de la media.
Cálculo de probabilidades: Se utiliza la función de densidad de
probabilidad normal para calcular la probabilidad de que una
variable aleatoria caiga dentro de un intervalo específico.
Estandarización: La transformación de una variable normal a la
forma estándar normal (con media 0 y desviación estándar 1)
facilita la comparación entre diferentes distribuciones normales.
Distribución Chi cuadrada Es la distribución de la suma de los
cuadrados de variables aleatorias normales independientes. Se
caracteriza por su grado de libertad (k). Se usa en pruebas de
hipótesis, test de bondad de ajuste y análisis de varianza.
Prueba de bondad de ajuste: Se emplea para determinar si una
muestra de datos se ajusta a una distribución esperada
Tabla de chi cuadrada: se usa para encontrar valores criticos en
pruebas de hipótesis.
Saber que tan probable es que el mismo fenómeno ocurra.
● Estudio de genética: la distribucion chi ayuda a determinar si
los resultados experimentales coinciden con los resultados
esperados.
● Encuestas de mercado: Verificar homogeneidad de respuestas
en diferentes grupos demográficos.

Distribución F Distribución de la razón de 2 varianzas independientes


cada una siguiendo una distribución chi cuadrada. Es fundamental
en pruebas de hipótesis comparativas y análisis de varianza ANOVA.
La caracterizan 2 grados de libertad: numerador y denominador.
ANOVA: Utilizada para comparar 3 o más medias de grupos
diferentes para determinar si al menos una es significativamente
diferente de las otras.
● Comparacion de tecnicas de enseñanza
● investigación agrícola
Recomendaciones en una distribución normal
Selección de datos apropiados: que se distribuyan de manera
simétrica alrededor de un promedio.
Transformación de datos: Si los datos no siguen una distribución
normal considere transformaciones como el logaritmo o la raíz
cuadrada para aproximarse a una distribución normal,
especialmente útil en análisis estadísticos avanzados.
Aplicaciones en la predicción: aprovechar la distribución normal en
modelos predictivos como en finanzas para el modelado de riesgos
y rendimiento de inversiones debido a su predictibilidad y
características bien definidas.

Recomendaciones en una distribución chi cuadrada


● Pruebas de hipótesis
● Análisis de datos catecogicos
● cuidado con los tamaños de muestra: los resultados pueden
ser poco fiables con tamaños de muestra pequeños

Recomendaciones en una distribución F


● comparación de varianzas
● aplicaciones de diseño experimental
● interpretación cautelosa: especialmente cuando se trabaja
con múltiples grupos.

Distribuciones de Probabilidad En estadística, las distribuciones de


probabilidad describen cómo se distribuyen las frecuencias de posibles resultados
en un experimento o estudio, permitiendo modelar fenómenos aleatorios y realizar
inferencias estadísticas.

Distribución Normal También conocida como Gaussiana, es una


distribución de probabilidad continua que se caracteriza por su forma de campana
simétrica. Está definida por dos parámetros

Regla Empírica Es una regla estadística que establece que en una


distribución normal, aproximadamente el 68% de los datos caen dentro de una
desviación estándar de la media, el 95% dentro de dos desviaciones estándar y el
99.7% dentro de tres desviaciones estándar.

Distribución Binomial Es un tipo de distribución de probabilidad discreta


que describe el número de éxitos en una secuencia de ensayos independientes,
donde cada ensayo tiene dos posibles resultados (éxito o fracaso) y la probabilidad
de éxito es constante en cada ensayo.

Distribución T de Student Es una distribución de probabilidad que se


utiliza en inferencia estadística para estimar la media de una población cuando el
tamaño de la muestra es pequeño y la desviación estándar de la población es
desconocida.

Probabilidad Es una medida numérica que describe la posibilidad de que


ocurra un evento. Se expresa como un número entre 0 y 1, donde 0 indica que el
evento es imposible y 1 indica que el evento es seguro.
Desviación Estándar Es una medida de dispersión que indica cuánto se
alejan los datos de la media en una distribución. Una desviación estándar grande
indica que los datos están más dispersos, mientras que una desviación estándar
pequeña indica que los datos están más cerca de la media.
● La distribución normal, o gaussiana, es una distribución de probabilidad
continua que está caracterizada únicamente por dos parámetros: la
media y la desviación estándar.
● La desviación estándar es una medida de dispersión que se aplica a una
amplia gama de distribuciones de probabilidad.
● La distribución binomial es un tipo de distribución de probabilidad
discreta que se usa para modelar el número de éxitos en una serie de
ensayos independientes, donde cada ensayo tiene un resultado de éxito
o fracaso, y la probabilidad de éxito es constante.
● En una distribución normal, aproximadamente el 68% de los datos se
encuentran dentro de una desviación estándar de la media. Esta
afirmación es verdadera debido a la regla empírica, que es una
característica fundamental de la distribución normal.
● Según la regla empírica para distribuciones normales, aproximadamente
el 68% de los datos caen dentro de una desviación estándar de la media,
el 95% dentro de dos desviaciones estándar, y el 99.7% dentro de tres
desviaciones estándar de la media.

—----------------------------------------
MUESTREO
Sirve para seleccionar elementos de estudio que sean representativos de una
población.
El muestreo es una técnica estadística fundamental utilizada para inferir o hacer
globalizaciones sobre una población más grande a partir de la observación de un
subconjunto de ésta, conocido como muestra.

Es esencial cuando es imposible o impracticable examinar a cada miembro de una


población entera.

Importancia del muestreo:


1. Reduce tiempos y costos :Es más rápido analizar una muestra que a toda
la población
2. Factibilidad: Si la población es demasiado grande, es necesario el muestreo.
3. Precisión de datos: En algunos casos, el muestreo proporciona
estimaciones más precisas que un censo completo, ya que reduce el margen
de error por manejo de grandes volúmenes de datos.
Muestreo aleatorio simple
El muestreo aleatorio simple es la forma más básica de muestreo. Consiste en
seleccionar miembros de una población de manera que cada individuo tenga la
misma probabilidad de ser elegido, asegurando así la imparcialidad y
representatividad.
Proceso del muestreo aleatorio simple
Se asigna un número a cada miembro de la población y se utilizan métodos
aleatorios, como generadores de números aleatorios, para seleccionar la muestra.
Muestreo aleatorio simple
A continuación se detalla el procedimiento:
● Identificar claramente a la población de interés (definir características)
● Crear lista (marco muestral): definir zonas
● Determinar el tamaño de la muestra, si la población es enorme la muestra
debe ser significativa y si la población es pequeña también la muestra.
● Elegir método de elección aleatoria
● Recolectar datos y analizarlos
Ejemplo: En un estudio sobre preferencias de consumidores en café de una ciudad,
la población sería sólo los consumidores de café de esa ciudad, los elegidos al azar
son la muestra.
Muestreo estratificado
Implica dividir la población en subgrupos (estratos) basados en características
comunes y luego realizar un muestreo aleatorio simple dentro de cada estrato.
● Identificar estratos relevantes
● asignar tamaño a cada estrato
● selección aleatoria de cada estrato
Ejemplo: Dividir a los clientes en grupos basados en rango de edad, y seleccionar
aleatoriamente una cantidad de clientes de cada grupo.
Procedimiento del muestreo estratificado
Es Útil cuando la población es heterogénea y se desea asegurar que los subgrupos
estén adecuadamente representados en la muestra.
Definición y división en estratos
Identificar características relevantes de la población en las cuales se basa la división
de estratos. Las características pueden ser edad, género, ubicación geográfica, etc.
Los elementos de un estrato comparten características definidas.
Ejemplo: jóvenes, adultos y ancianos.
Determinación del tamaño:
Decidir cómo asignar el tamaño de la muestra a cada estrato. Proporcional al
tamaño de cada estrato en la población (muestreo proporcional), o asignando el
mismo tamaño de muestra a cada estrato (muestreo no proporcional).
Ejemplo: En un estudio con 300 participantes, si el 50% pertenece al estrato de
adultos, se seleccionan 150 para la muestra.
Selección de muestra dentro de los estratos
Dentro de cada estrato, realizar una selección aleatoria de elementos.
Recolectar datos: Encuestas, entrevistas, observaciones, etc, a cada grupo, cada
pregunta debe estar estandarizada (bien formulada) y las cualitativas deben ser
fácilmente convertibles a números.
Análisis de datos: combinar estratos y sacar conclusión general
Aplicaciones del muestreo: Investigación de mercado. encuestas sociales y
políticas, control de calidad.
Empresas que lograron éxito gracias al muestreo: Nielsen y Gallup, Procter y
Gamble.

Muestreo: Técnica estadística que consiste en seleccionar una muestra


representativa de una población más grande para realizar inferencias
sobre dicha población.
Muestreo aleatorio simple: Método de muestreo en el que cada miembro
de la población tiene la misma probabilidad de ser seleccionado para
formar parte de la muestra.
Marco muestral: Lista que contiene todos los elementos individuales de la
población que se está estudiando y de la cual se seleccionará la muestra.
Muestreo estratificado: Técnica de muestreo que implica dividir la
población en subgrupos homogéneos (estratos) y luego realizar un
muestreo aleatorio simple dentro de cada estrato.
Tamaño de muestra: Cantidad de elementos que se seleccionan de la
población para formar la muestra, determinado por factores como el nivel
de confianza deseado y el margen de error permisible.
Muestreo por conglomerados: Método de muestreo en el que la población
se divide en grupos más grandes (conglomerados) y se seleccionan
algunos de estos conglomerados de forma aleatoria para formar la
muestra.
Muestreo por cuotas: Técnica de muestreo en la que se seleccionan
participantes de diferentes categorías predefinidas en cantidades
específicas para garantizar la representatividad de la muestra.
El muestreo estratificado es una técnica que se utiliza para dividir la población
en subgrupos homogéneos, o estratos, basándose en características
específicas, y luego se realiza un muestreo aleatorio simple dentro de cada
estrato.
El tamaño de la muestra no se determina únicamente por el tamaño de la
población.
El marco muestral debe incluir a todos los elementos de la población objetivo
para que la muestra seleccionada pueda considerarse representativa de dicha
población.
El muestreo aleatorio simple no garantiza que todos los estratos o subgrupos
de la población estén representados en la muestra, ya que este método
selecciona miembros de la población de manera completamente aleatoria, sin
tener en cuenta las características o la división de la población en subgrupos

Tema 5. Distribuciones de probabilidad


Las distribuciones de probabilidad son fundamentales en estadística y se
utilizan para describir la frecuencia con la que se espera que ocurran los
resultados en un experimento o estudio.
● Distribución normal
● Distribución chi cuadrada
● Distribución F

La distribución normal también conocida como Gaussiana (campana de


Gauss), es una de las más comunes e importantes. Tiene forma de
campana simétrica y está definida por 2 parámetros: la media y la
desviación estándar.
Propiedades: La distribución es simétrica alrededor de la media y la
mayoría de los datos caen dentro de 3 desviaciones estándar de la media.
Cálculo de probabilidad de la distribución normal: Se utiliza la función de
densidad de probabilidad normal para calcular la probabilidad de que
una variable aleatoria caiga dentro de un intervalo específico.
Estandarización: La transformación de una variable normal a la forma
estándar normal (con media estándar 0 y desviación estándar 1) facilita la
comparación entre diferentes distribuciones normales.
Aplicaciones: medir IQ, control de calidad.
3 M y General Electric la utilizan.
Recomendaciones en una distribución normal:
● Selección de datos apropiados: Datos que se distribuyen de manera
simétrica alrededor de un promedio.
● Transformación de datos: Si los datos no siguen una distribución
normal, considere transformaciones como el logaritmo o la raíz
cuadrada para aproximarse a una distribución normal,
especialmente útil en análisis estadísticos avanzados.
● Aplicaciones en la predicción: Modelos predictivos, características
bien definidas como el modelado de riesgos en finanzas.

Distribución chi cuadrada


Es la distribución de la suma de los cuadrados de variables aleatorias
normales independientes. Se caracteriza por su grado de libertad (k).
Aplicación: Pruebas de hipótesis, test de bondad de ajuste y ANOVA
análisis de varianza. Estudios de genética, encuestas de mercado
Proceso chi cuadrada:
● Prueba de bondad de ajuste
Se emplea para determinar si una muestra de datos se ajusta a una
distribución esperada. (Para saber si la muestra realmente es
representativa)
● Tabla de chi cuadrada
Se usa para encontrar valores críticos en pruebas de hipótesis.
La utilizan empresas como pfizer y merck para validar eficiencia de los
medicamentos, prediciendo su funcionamiento a través de tendencias de
datos.
Recomendaciones chi cuadrada:
● Pruebas de hipótesis: para comparar datos observados con datos
esperados.
● Análisis de datos categóricos: útil en encuestas de estudios de
mercado donde se compara la frecuencia observada con la
esperada en diferentes categorías.
● Cuidado con los tamaños de muestra: Los resultados pueden ser
poco fiables con tamaños de muestra pequeños.

Distribución F
Es la distribución de la razón de 2 varianzas independientes, cada una
siguiendo a una distribución chi cuadrada, fundamental en pruebas de
hipótesis comparativas y ANOVA (análisis de varianza).
Parámetros: 2 grados de libertad, numerador y denominador.
ANOVA: Compara 3 o más medios de grupos diferentes para determinar si
al menos una es significativamente diferente de las otras.
PRUEBA DE HIPÓTESIS PARA COMPARAR VARIANZAS: de 2 poblaciones
diferentes.
Se usa en investigación agrícola e investigación de técnicas de
enseñanza. DuPont la usa.
Recomendaciones Distribución F
● comparación de varianzas: Determinar si las diferencias entre las
medias de varios grupos son estadísticamente significativas.
● aplicación en diseño experimental: Útil en el diseño experimental y
en la investigación científica, donde se comparan diferentes
tratamientos o condiciones experimentales.
● interpretación cautelosa: Sea cauteloso al interpretar los resultados,
especialmente cuando se trabaja con múltiples grupos o
tratamientos.

Distribuciones de probabilidad: En estadística, las distribuciones de


probabilidad describen cómo se distribuyen las frecuencias de posibles
resultados en un experimento o estudio, permitiendo modelar fenómenos
aleatorios y realizar inferencias estadísticas.
Distribución Normal: También conocida como Gaussiana, es una
distribución de probabilidad continua que se caracteriza por su forma de
campana simétrica. Está definida por dos parámetros
Regla Empírica Es una regla estadística que establece que en una
distribución normal, aproximadamente el 68% de los datos caen dentro de
una desviación estándar de la media, el 95% dentro de dos desviaciones
estándar y el 99.7% dentro de tres desviaciones estándar.
Distribución binomial Es un tipo de distribución de probabilidad discreta
que describe el número de éxitos en una secuencia de ensayos
independientes, donde cada ensayo tiene dos posibles resultados (éxito o
fracaso) y la probabilidad de éxito es constante en cada ensayo.
Distribución de T student: Es una distribución de probabilidad que se
utiliza en inferencia estadística para estimar la media de una población
cuando el tamaño de la muestra es pequeño y la desviación estándar de
la población es desconocida.
Probabilidad: Es una medida numérica que describe la posibilidad de que
ocurra un evento. Se expresa como un número entre 0 y 1, donde 0 indica
que el evento es imposible y 1 indica que el evento es seguro
Desviación estándar: Es una medida de dispersión que indica cuánto se
alejan los datos de la media en una distribución. Una desviación estándar
grande indica que los datos están más dispersos, mientras que una
desviación estándar pequeña indica que los datos están más cerca de la
media.
La distribución normal, o gaussiana, es una distribución de probabilidad
continua que está caracterizada únicamente por dos parámetros: la media y la
desviación estándar. Según la regla empírica para distribuciones normales,
aproximadamente el 68% de los datos caen dentro de una desviación estándar
de la media, el 95% dentro de dos desviaciones estándar, y el 99.7% dentro de
tres desviaciones estándar de la media.

La desviación estándar es una medida de dispersión que se aplica a una


amplia gama de distribuciones de probabilidad

La distribución binomial es un tipo de distribución de probabilidad discreta


que se usa para modelar el número de éxitos en una serie de ensayos
independientes, donde cada ensayo tiene un resultado de éxito o fracaso, y la
probabilidad de éxito es constante.

Tema 6. Contraste de hipótesis


Hipótesis nula: Es una afirmación que se somete a prueba estadística. Se
asume como verdadera para evaluar si hay suficiente evidencia en los
datos para rechazarla a favor de la hipótesis alternativa.
Hipótesis alternativa: Es la afirmación que se busca respaldar con la
evidencia recopilada en el análisis estadístico. Se contrasta con la
hipótesis nula para determinar si hay diferencias significativas en los
datos.
Nivel de significancia Es la probabilidad de cometer un error de tipo I al
rechazar incorrectamente la hipótesis nula cuando es verdadera. Suele
fijarse de antemano y se denota como α.
Estadístico de contraste Es una medida calculada a partir de los datos de
la muestra que se utiliza para tomar decisiones sobre la hipótesis nula.
Puede ser una diferencia de medias, una proporción, una varianza, entre
otros.
Región crítica Es el conjunto de valores del estadístico de contraste que
conducirían al rechazo de la hipótesis nula si el valor calculado cae dentro
de esta región.
Error de tipo I Ocurre cuando se rechaza incorrectamente la hipótesis nula,
es decir, se concluye que hay una diferencia significativa cuando en
realidad no la hay. Se controla mediante el nivel de significancia.
P-Valor Es la probabilidad de obtener un resultado igual o más extremo
que el observado, asumiendo que la hipótesis nula es verdadera. Se
compara con el nivel de significancia para decidir si se rechaza o no la
hipótesis nula.

VIDEO CONTRASTE DE HIPÓTESIS


Contrastar implica comparar hipótesis. El contraste de hipótesis sirve para
determinar si la hipótesis es compatible con los datos observados
Primero hay que formular la HIPÓTESIS NULA (H0), que representa una
afirmación de “no efecto o no diferencia” y una HIPÓTESIS ALTERNATIVA (H1),
que es lo que se está tratando de probar.

La decisión entre estas hipótesis se basa en la evidencia proporcionada


por una muestra de datos.
En una de las hipótesis debe salir ACEPTADO y en la otra rechazado, caso
contrario, no hay garantía que las hipótesis sean adecuadas.

Pruebas de contraste de medias: Calcula el valor de la media de la


muestra, la desviación estándar y luego usa eso para calcular un valor de
prueba (como el valor T en la prueba T-student) que se compara con un
valor crítico. empresas como Deloitte y pwc las utilizan. ejemplo comparar
salarios entre dif industrias.
Pruebas de contraste de proporciones: Evalúa si la proporción de una
característica en una población. Se calcula la proporción de la muestra y
se compara con la proporción esperada. chi cuadrada es comun.
ejemplo preferencia de un producto sobre otro. cocacola y pepsi la usan.
Pruebas de bondad de ajuste: Evalúa si la distribución de datos se ajusta
(concuerda) a la distribución teórica específica . Se compara la
distribución observada con la esperada. Usando chi cuadrada. Ejemplo
verificar ventas para proyecciones futuras.
Análisis de varianza (ANOVA) se usa para comparar las medias de 3 o
más grupos y determinar si al menos uno difiere de los demás. Khan
Academy y Coursera lo usan. Se calcula la varianza dentro de los grupos y
entre los grupos y se compara usando el estadístico F.
Ejemplo comparar eficacia de métodos de enseñanza.

La región crítica comprende aquellos valores del estadístico de contraste que,


si son alcanzados o superados, indican que se debe rechazar la hipótesis
nula.

La hipótesis nula se asume como verdadera en el proceso de prueba


estadística. Se realiza el análisis con el objetivo de evaluar si existe suficiente
evidencia en los datos para rechazarla en favor de la hipótesis alternativa.

El nivel de significancia (α) establece el umbral para determinar si se rechaza


la hipótesis nula, pero no mide la fuerza de la evidencia en apoyo de la
hipótesis alternativa

El error de tipo I ocurre cuando se rechaza la hipótesis nula siendo esta


verdadera, es decir, se concluye que hay una diferencia significativa cuando
en realidad no la hay.

El error de tipo II es el error de concluir que no hay una diferencia


significativa cuando en realidad sí la hay.

Un estadístico de contraste se utiliza para comparar la hipótesis nula


con los datos observados. El estadístico de contraste es una medida
calculada a partir de los datos de la muestra, que se utiliza para evaluar la
hipótesis nula.

Tema 7. Análisis de regresión


El análisis de regresión es una poderosa herramienta estadística que sirve para
modelar y predecir relaciones entre variables, esencial para entender relaciones
causales o predictivas en datos. Puedes usar una Regresión lineal o logística,
para eso es necesario aprender a leer y comprender coeficientes de regresión,
valores p, intervalos de confianza

Análisis de Regresión Es una técnica estadística que examina la


relación entre una variable dependiente y una o más variables independientes,
permitiendo predecir el valor de la variable dependiente basándose en los valores
de las variables independientes 3.

Correlación Lineal Es una medida que indica el grado y la dirección de una


relación lineal entre dos variables cuantitativas. Se representa mediante el
coeficiente de correlación "r", que varía entre -1 y +1, donde +1 indica una
correlación positiva perfecta, -1 una correlación negativa perfecta, y 0 sugiere
ausencia de correlación lineal 3.

Regresión Lineal MúltipleEs una extensión de la regresión lineal simple


que utiliza múltiples variables independientes para predecir el valor de una variable
dependiente. Permite entender cómo varias variables influyen conjuntamente en la
variable dependiente 4.

Regresión Logística Es una técnica utilizada para predecir el resultado de


una variable categórica binaria (por ejemplo, sí/no, 0/1). A diferencia de la regresión
lineal, la regresión logística estima la probabilidad de ocurrencia de un evento en
lugar de predecir valores numéricos 4.

Coeficiente de Correlación Es un valor que indica la fuerza y la


dirección de la relación lineal entre dos variables cuantitativas. Puede variar entre -1
y +1, donde +1 representa una correlación positiva perfecta, -1 una correlación
negativa perfecta, y 0 la ausencia de correlación lineal 3.

Variable Dependiente Es la variable en un análisis de regresión que se


intenta predecir o explicar a partir de una o más variables independientes. También
se conoce como variable de respuesta 3.

Variable Independiente Es una variable en un análisis de regresión que


se utiliza para predecir o explicar la variabilidad de la variable dependiente. También
se conoce como variable explicativa

El coeficiente de correlación "r" puede indicar la ausencia de correlación


lineal cuando su valor es 0. Esta afirmación es verdadera. El coeficiente de
correlación "r" varía entre -1 y +1.

la regresión logística está diseñada para predecir el resultado de una variable


categórica binaria, como sí/no o 0/1, estimando la probabilidad de ocurrencia
de un evento.
La correlación lineal y el coeficiente de correlación se refieren ambos
a la medida que indica el grado y la dirección de una relación lineal
entre dos variables cuantitativas.

La regresión logística es adecuada para modelar la relación entre una


variable dependiente categórica binaria y una o más variables
independientes. La regresión logística es la técnica estadística
específicamente diseñada para tratar con variables dependientes categóricas
binarias, proporcionando una forma de estimar la probabilidad de que ocurra
un determinado evento o condición.

También podría gustarte