0% encontró este documento útil (0 votos)
76 vistas12 páginas

Taller 1 Analisis de Datos Feb14 2.0

El taller colaborativo se centra en el análisis de datos de las pruebas SABER PRO de estudiantes de universidades en Manizales, abordando variables como género, matrícula y puntajes globales. Se utilizan técnicas de estadística descriptiva para caracterizar la población y se presentan tablas, gráficos y análisis de frecuencias. El objetivo final es elaborar un informe sobre los resultados académicos de la universidad, destacando la importancia de la virtualidad en la educación.

Cargado por

LinoPolo VEVO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
76 vistas12 páginas

Taller 1 Analisis de Datos Feb14 2.0

El taller colaborativo se centra en el análisis de datos de las pruebas SABER PRO de estudiantes de universidades en Manizales, abordando variables como género, matrícula y puntajes globales. Se utilizan técnicas de estadística descriptiva para caracterizar la población y se presentan tablas, gráficos y análisis de frecuencias. El objetivo final es elaborar un informe sobre los resultados académicos de la universidad, destacando la importancia de la virtualidad en la educación.

Cargado por

LinoPolo VEVO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 12

TALLER N°1

HILARI ANDREA PEREZ ITURRIAGO


CÓDIGO: 35202411290
LAURA CASANOVA MARTINEZ
CÓDIGO: 62202314203
DANIELA POSADA SERNA
CÓDIGO: 62202519277

UNIVERSIDAD DE MANIZALES
FACULTAD DE CIENCIAS CONTABLES, ECONÓMICAS Y
ADMINISTRATIVAS
ASIGNATURA: ANÁLISIS DE DATOS I
PROFESOR: JUAN FELIPE CASTELLANOS MARTINEZ
FECHA: FEBRERO 15 DE 2025
Taller colaborativo Nº1

Orientaciones de desarrollo

● Descargue los microdatos correspondientes a las pruebas SABER PRO del último año
disponible en la página del ICFES:
● DataIcfes. https://www.icfes.gov.co/data-icfes
● A partir de esta información, filtre solamente las observaciones que correspondan a
estudiantes de universidades de Manizales (o con sede en Manizales, aunque la sede
principal se encuentre en otra ciudad) y asegúrese que haya solo un registro por
persona. Responda el siguiente cuestionario:

1. Una de las variables que es interesante al medir el desempeño de los estudiantes es el


género. Pero antes de realizar algún tipo de análisis relacional con esta variable, vamos
a usar algunas de las técnicas de la estadística descriptiva para caracterizar la población
a partir de esta variable. En la base de datos, esta variable se denomina
ESTU_GENERO y toma valor F para femenino y M para masculino.

a. ¿Qué tipo de variable es el género? Justifique su respuesta (5%).

Es una variable cualitativa nominal.


El género es un tipo de variable que se usa para clasificar a las personas en
diferentes categorías, como "femenino" y "masculino". Se llama variable cualitativa
nominal porque representa una característica que no se mide con números y no tiene
un orden específico. Esto significa que ninguna categoría es mejor o más importante
que la otra, simplemente sirven para identificar y diferenciar a las personas. En el
caso de los estudiantes, el género permite agruparlos en distintos grupos sin
establecer jerarquías. Esto es importante en el análisis de datos, ya que nos ayuda a
entender que estamos trabajando con etiquetas o nombres que solo sirven para
clasificar, sin asignarles un valor numérico o una posición dentro de un orden.

Además del género, existen muchas otras variables cualitativas nominales que
también se usan para clasificar sin ordenar. Por ejemplo, el color de ojos (azul,
verde, marrón) o los tipos de comida (italiana, mexicana, japonesa), ya que solo
indican una diferencia entre grupos sin que uno sea superior al otro. En general, las
variables cualitativas nominales son muy útiles para organizar y analizar
información ya que nos permiten manejar los datos de manera clara y efectiva,
asegurando que la clasificación se haga sin introducir valoraciones
numéricas o jerárquicas.
b. Construya una tabla en la que muestre cuántos estudiantes hay de género masculino
y femenino. En la misma tabla muestre a qué proporción del total corresponde cada
uno de ellos (5%).

Se construye tabla con nombres de columnas modificados, que representa una


variable cualitativa como lo es el género, una variable cuantitativa que nos indica el
número de estudiantes y una segunda variable cuantitativa que es proporción que
nos indica la proporción de estudiantes de cada género con respecto al total.

c. Construya el gráfico que considere más indicado para describir esta variable. El
gráfico debe ser intuitivo, de manera que un lector externo identifique
inmediatamente lo que sucede con la variable (5%).
2. La variable ESTU_VALORMATRICULAUNIVERSIDAD refleja cuánto cuesta la
matrícula del estudiante. Observe esta variable en la base de datos y:

a. Responda, ¿qué tipo de variable es esta? (5%)

La variable estu_valormatriculauniversidad es una variable cuantitativa


continua, ya que representa el costo de la matrícula en valores numéricos y puede
tomar una amplia gama de valores dentro de un rango determinado.

b. A través de qué frecuencias absolutas y relativas describa esta variable (5%).

Aquí tienes la tabla con las frecuencias absolutas y relativas acumuladas:

Frecuencia Frecuencia
Rango de Frecuencia Frecuencia
Absoluta Relativa
matrícula Absoluta Relativa
Acumulada Acumulada
1 22 0.01 22 0.01
Entre 1 millón y
menos de 2.5 314 0.17 336 0.18
millones
Entre 2.5 millones y
menos de 4 269 0.15 605 0.33
millones
Entre 4 millones y
menos de 5.5 245 0.13 850 0.46
millones
Entre 5.5 millones y
menos de 7 202 0.11 1052 0.57
millones
Entre 500 mil y
101 0.05 1153 0.62
menos de 1 millón
Más de 7 millones 79 0.04 1232 0.66
Menos de 500 mil 509 0.28 1741 0.94
No pagó matrícula 107 0.06 1848 1.00
c. Construya una tabla de contingencia con esta variable y
ESTU_PAGOMATRICULABECA que dice si el estudiante usó una beca para
pagar la matrícula. Describa el resultado obtenido (5%).

Rango de matrícula No usó beca Usó beca Total


1 22 0 22
Entre 1 millón y menos de 2.5 millones 237 77 314
Entre 2.5 millones y menos de 4 millones 229 40 269
Entre 4 millones y menos de 5.5 millones 199 46 245
Entre 5.5 millones y menos de 7 millones 146 56 202
Entre 500 mil y menos de 1 millón 78 23 101
Más de 7 millones 42 37 79
Menos de 500 mil 406 102 509
No pagó matrícula 54 53 107
Total 1413 434 1848

3. La variable PUNT_GLOBAL muestra el resultado obtenido por los estudiantes en


competencias genéricas.

a. Calcule la media, la mediana y la desviación estándar de esta variable e interprete


los resultados obtenidos (5%).
Media: 151.0037
Mediana: 151
Desviación estándar: 22.89747

Según los resultados obtenidos, evidenciamos que los puntajes globales de las
universidades se sitúan en promedio cerca de 151.
En este escenario, tanto la mediana como la media son casi idénticas, lo que nos
lleva a deducir que la distribución de estos puntos es uniforme y que no existe un
sesgo notable entre valores de mayor o menor valor.
Finalmente, observamos una desviación estándar del 22.89, lo que señala que
existen variaciones en los datos, aunque no son excesivamente elevadas.

b. Calcule la media del puntaje por universidad y la desviación estándar e interprete


los resultados (5%).

Media:

En esta tabla podemos deducir que las siguientes universidades se ubican


por encima de la media: Universidad Nacional de Colombia tiene 165 puntos, la
Universidad de Caldas 154 puntos y la Universidad Autónoma de Manizales 153
puntos. Todas las demás Universidades, incluyendo la Universidad de Manizales,
están por debajo del promedio, siendo la Universidad del Quindío la que tiene el
puntaje más bajo.
Desviación estándar:
De acuerdo con la tabla, evidenciamos que los puntos no están completamente
homogéneos, sin embargo tampoco muestran una variabilidad extrema, la mayoría
de los puntajes se agrupan alrededor de la media, por lo tanto la desviación estándar
calculada nos refleja una competencia relativamente equilibrada entre las
instituciones educativas en términos de rendimiento global.

c. Calcule los cuartiles para esta variable. ¿Cómo se distribuyen los estudiantes del
último cuartil entre las universidades de la ciudad? (5%)

De acuerdo con los resultados obtenidos, podemos concluir que por encima
del tercer cuartil el cual es de 166, se encuentra el 25% donde se ubican los mejores
estudiantes de la ciudad de Manizales.

d. Construya la tabla de distribución de frecuencias para el puntaje global y grafique el


histograma resultante. ¿Es esta una distribución simétrica? (5%)
Tabla de distribución:
Esta tabla muestra que la distribución se encuentra enfocada entre 140 y 160
puntos, donde se hallan la mayoría de los valores. Por lo tanto, son escasos los
estudiantes con puntajes extremos excesivamente altos o excesivamente bajos.
Además, se nota una distribución bastante uniforme dado que la mayoría de los
valores están situados en la zona media.

Histograma resultante:

En el histograma se puede observar una distribución relativamente normal en forma de


campana, lo que significa que la mayoría de los valores se concentran alrededor de la
media y se reducen hacia los extremos. Esto también nos señala que no existen valores
extremadamente elevados o bajos que impacten de forma notable en la misma
distribución.
La tabla y el histograma coinciden en evidenciar una distribución casi normal, con una
ligera asimetría positiva hacia los valores elevados.
4. La universidad de Manizales necesita realizar un informe sobre los resultados de las
pruebas SABER PRO para los programas de la universidad. Este informe tiene como
finalidad mostrar a pares internacionales la situación académica de la universidad.
Construya un informe de mínimo 1.000 palabras en el que se haga un análisis serio de
estos resultados. Tenga en cuenta, que una de las apuestas de la universidad consiste en
la virtualidad, por lo que estadísticas referentes a este tema serían bien recibidas. Las
variables, los gráficos y las estadísticas que utilice quedan a su criterio, pero en
cualquier caso debe existir un hilo conductor, secciones y una argumentación fuerte
(50%).
Anexos códigos utilizados en el aplicativo R Study para el desarrollo del taller

1. Tabla estudiantes por género y proporción


b.
umanizales <- subset(datos,estu_prgm_municipio=="MANIZALES")
t1 <- table(umanizales$estu_genero)
frecuencia_genero <- as.data.frame(t1)
t2 <- prop.table(t1)

pos <- cumsum(t2)-t2/2


colnames(frecuencia_genero) <- c("Genero","frecuencia")

tabla_texto <- paste(apply(frecuencia_genero, 1, function(row) paste(row,


collapse = " ")),
collapse="\n")
frecuencia_genero$proporcion <-
frecuencia_genero$frecuencia/sum(frecuencia_genero$frecuencia)

c.
construcción de gráfico:
pie(t2,
main = "Analisis poblacion estudiantil Umanizales por Genero",
col=c("aquamarine3","darkorchid"),labels=NA)

legend("topright",legend=c("femenino","masculino"),fill =
c("aquamarine3","darkorchid"))

legend_text <- apply(frecuencia_genero, 1, function(row) paste(row,


collapse=""))
legend("bottomleft", legend = legend_text, bty = "0",cex=0.9)

2. library(readxl)
Libro1 <- read_excel("C:/Users/Asus/Downloads/Libro1.xlsx")
View(Libro1)

valormatricula <- read.spss("ESTU_VALORMATRICULAUNIVERSIDAD.sav",


to.data.frame = TRUE,
use.value.labels = TRUE)

b)
library(summarytools)

tab.p11.v2 <- freq(valormatricula$P11)


tab.p11.v2

c) tabla_3 <- addmargins(tabla_prop * 100)


tabla_3
freq(valormatricula $ RESULTADO_dum, plot = FALSE)

3. La variable PUNT_GLOBAL muestra el resultado obtenido por los estudiantes en


competencias genéricas:

a.
Media: mean(en_Manizales$punt_global)

Mediana: median(en_Manizales$punt_global)

Desviación estándar: sd(en_Manizales$punt_global)

b.
Calcule la media del puntaje por universidad:

Media_U_Man<-aggregate (punt_global ~ inst_nombre_institucion, data =


en_Manizales, FUN = mean, na.rm = TRUE)

Ordenado_media_Man<-Media_U_Man[order(Media_U_Man$punt_global,
decreasing = TRUE),]

Calcule la desviación estándar:

sd = (aggregate(punt_global ~ inst_nombre_institucion, data = en_Manizales, FUN =


sd, na.rm = TRUE))

Ordenado_desv_estan<-sd[order(sd$punt_global, decreasing = TRUE),]

c.
Calcule los cuartiles para esta variable:

resumen_res<-summary(en_Manizales$punt_global)

d.
Tabla de distribución de frecuencias:
clases<-hist_punt_globla$breaks

print(clases)

freq_abs<-hist_punt_globla$counts #frecuencia absoluta


freq_acum<-cumsum(freq_abs) #frecuencia acumulada
freq_rel<-freq_abs/sum(freq_abs) #frecuencia relativa
fre_rel_acu<-cumsum(freq_rel) #fecuencia relativa acumulada

tabla_frecuencia<-data.frame(
Intervalo = paste0 ("(", head(clases, -1), ",", tail(clases, -1),"]"),
Frecuencia_Absoluta =freq_abs,
Frecuencia_Acumulada=freq_acum,
Frecuencia_Relativa=round(freq_rel,4),
Frecuencia_Relativa_Acumulada=round(fre_rel_acu,4))

Histograma resultante: hist_punt_globla<-hist(en_Manizales$punt_global, plot =


FALSE)

También podría gustarte