Índice
Resumen ejecutivo...................................................................................................... 3
Descripción del set de datos........................................................................................4
Análisis del comportamiento de variables:.................................................................. 5
Análisis descriptivo:..................................................................................................... 7
Conclusión................................................................................................................. 12
Bibliografía............................................................................................................................. 13
2
Resumen ejecutivo
El set de datos elegido por nuestro grupo es "Airline Passenger Satisfaction", el cual
se encuentra disponible en Kaggle, es un conjunto de datos que contiene
información sobre la satisfacción de los pasajeros en vuelos de distintas aerolíneas
en los Estados Unidos. Este conjunto de datos incluye variables como la edad del
pasajero, el tipo de viaje (negocios o placer), la distancia del vuelo, la clase del
vuelo, la satisfacción con diferentes aspectos del servicio, entre otros.
Este conjunto de datos puede ser utilizado para realizar análisis descriptivos y
predictivos que permitan entender mejor los factores que influyen en la satisfacción
de los pasajeros en los vuelos aéreos, así como también para identificar las
características que las aerolíneas deben mejorar para la experiencia de sus clientes.
Por ejemplo, se puede utilizar el conjunto de datos para investigar qué aspectos del
servicio tienen mayor impacto en la satisfacción del pasajero, o para desarrollar
modelos de predicción que permitan predecir la satisfacción del pasajero a partir de
las características del vuelo y del pasajero.
3
Descripción del set de datos
● 0 Unnamed: Enumeración de cada cliente en el dataset
● 1 Id: Identificación de cada cliente
● 2 Gender: Género de los pasajeros (Femenino, Masculino)
● 3 Customer Type: El tipo de cliente (cliente fiel, cliente desleal)
● 4 Age: La edad real de los pasajeros.
● 5 Type of Travel: Propósito del vuelo de los pasajeros (Viaje Personal, Viaje
de Negocios)
● 6 Class: Clase de viaje en el avión de los pasajeros (Business, Eco, Eco
Plus)
● 7 Flight Distance: La distancia de vuelo de este viaje
● 8 Inflight wifi service: Nivel de satisfacción del servicio wifi a bordo (0: No
aplicable; 1-5)
● 9 Departure/Arrival time convenient: Nivel de satisfacción de la hora de
salida/llegada conveniente
● 10 Ease of Online booking: Nivel de satisfacción de la reserva en línea
● 11 Gate location: Nivel de satisfacción de la ubicación de la puerta
● 12 Food and drink: Nivel de satisfacción de Alimentos y bebidas
● 13 Online boarding: Nivel de satisfacción del embarque en línea
● 14 Seat comfort: Nivel de satisfacción de Confort del asiento
● 15 Inflight entertainment: Nivel de satisfacción del entretenimiento a bordo
● 16 On-board service: Nivel de satisfacción del servicio a bordo
● 17 Leg room service: Nivel de satisfacción del servicio de sala de piernas
● 18 Baggage handling: Nivel de satisfacción del manejo de equipaje
● 19 Check-in service: Nivel de satisfacción del servicio de Check-in
● 20 Inflight service: Nivel de satisfacción del servicio a bordo
● 21 Cleanliness: Nivel de satisfacción de Limpieza
● 22 Departure Delay in Minutes: Minutos de retraso en la salida
● 23 Arrival Delay in Minutes: Minutos de retraso en la llegada.
● 24 Satisfaction: Nivel de satisfacción de la aerolínea (Satisfacción, neutral o
insatisfacción).
➔ Variables nominales: Gender, Customer Type, Type of Travel,Class.
➔ Variables ordinales: Inflight wifi service, Departure/Arrival time convenient,
Ease of Online booking, Gate location, Food and drink,Online boarding, Seat
comfort, Inflight entertainment, On-board service, Leg room service, Baggage
handling, Check-in service,Inflight service,Cleanliness.
4
Análisis del comportamiento de variables:
Utilizamos el método de describe(), el cual nos permite obtener varias estadísticas
útiles del set de datos, entre ellas: la media, la desviación estándar, sus cuartiles, y
los valores mínimos y máximos. De lo observado, se evidencia que el cliente de
menor edad es de 7 años, y por el contrario el de mayor edad es de 85 años,
además el promedio de edad en las personas que viajan es de 40 años.
5
Aquí notamos que la variable ‘Arrival Delay in Minutes’ tiene datos nulos, puede
deberse a que no en todos los vuelos hay un retraso.
6
Análisis descriptivo:
Lo anterior, nos permite concluir que en base a los datos analizados, la distribución
de género en los pasajeros es relativamente homogénea, ya que en la distribución
no existe una gran diferencia,con una superioridad de mujeres (50.7%) por sobre los
hombres (49.3%).
El gráfico presentado, permite concluir que una parte importante de los clientes
muestra preferencia por viajar en clase Business, con el 48.1% . Por otro lado, se
observa que un 44.5% de los clientes prefieren viajar en clase Eco, lo que también
representa una parte importante de la muestra analizada. Finalmente, un 7.4% de
los encuestados indicó preferir la clase Eco Plus.
7
Podemos observar que la clase Business registra un mayor nivel de satisfacción en
comparación con la clase Eco y Eco Plus. En específico, se encontró que 3686
pasajeros de la clase Business manifestaron haber quedado satisfechos con los
servicios a bordo del avión. En contraste, sólo 2242 y 475 clientes de la clase Eco y
Eco Plus, respectivamente, indicaron un nivel de satisfacción similar.
Del análisis anterior, podemos concluir que no se han encontrado diferencias
significativas en las preferencias de clase de los clientes en función de su edad. Sin
embargo, se ha observado una marcada preferencia por la clase business, lo cual
puede sugerir una mayor importancia de la comodidad en la elección de los viajes.
De hecho, según los datos recopilados, el 41.79% de los clientes prefiere la clase
business, mientras que el 37.38% prefiere la clase económica y el 39.02% prefiere
la clase Eco Plus.
8
Se ha llevado a cabo un análisis de los distintos tipos de clientes y se ha observado
una gran diferencia entre aquellos que son fieles a una aerolínea y aquellos que no
lo son. Esta diferencia en las preferencias puede deberse a la satisfacción o
insatisfacción que los clientes han experimentado con las distintas aerolíneas.
Del gráfico se puede observar que hay una mayor cantidad de mujeres que viajan
por motivos de negocios en comparación con los hombres, mientras que para los
viajes personales, hay una mayor cantidad de hombres que mujeres.
9
El gráfico de caja y bigotes comparando la distancia del vuelo (Flight Distance) y la
comodidad del tiempo de salida/llegada (Departure/Arrival time convenient) muestra
que la mediana de la distancia del vuelo es mayor para aquellos que consideran el
tiempo de salida/llegada cómodo en comparación con los que no lo consideran
cómodo. También se puede observar que hay más valores atípicos para aquellos
que consideran el tiempo de salida/llegada en cuanto a satisfacción. En general,
este gráfico permite identificar tendencias y posibles valores atípicos.
10
En este caso, como el valor de correlación es alto, es decir, cercano a 1, se puede
inferir que existe una correlación de tipo positiva entre las dos variables, lo que
sugiere que a medida que aumenta el retraso en la salida, también aumenta el
retraso en la llegada.
En cuanto a la magnitud, la correlación entre ambas variables es moderada, ya que
el coeficiente de correlación es de 0.96, lo que indica que hay una relación lineal
fuerte pero no perfecta entre las dos variables.
11
Conclusión
El análisis exploratorio de datos realizado sobre el conjunto de datos de aerolíneas
proporciona información valiosa sobre la distribución de las variables y las
relaciones entre ellas. Se puede observar que la mayoría de los pasajeros son
mujeres, también podemos comprobar que la mayoría de los clientes prefiere volar
en clase Business . Además, se puede concluir que los niveles de satisfacción de
los pasajeros están influenciados por varios factores, como el tipo de clase y la
limpieza, y que la mayoría de los pasajeros están satisfechos con los servicios de la
aerolínea.
También se puede notar que hay una correlación positiva fuerte entre los retrasos en
la salida y llegada, lo que sugiere que si un vuelo tiene un retraso en la salida, es
más probable que también tenga un retraso en la llegada.
Un potencial modelo a aplicar podría ser un modelo de regresión lineal múltiple para
predecir el tiempo de llegada de los vuelos en función de variables como la distancia
del vuelo, la hora de salida, la hora de llegada, el retraso en la salida, el retraso en
la llegada y el nivel de satisfacción del cliente. Este modelo podría ser útil para
predecir con mayor precisión el tiempo de llegada de los vuelos y, por lo tanto,
mejorar la satisfacción del cliente al minimizar los retrasos. Además, podría ayudar a
las aerolíneas a optimizar sus horarios y operaciones para mejorar la eficiencia y
reducir los costos.
12
Bibliografía
- Heer, J., & Bostock, M. (2010). Crowdsourcing graphical perception: Using
mechanical turk to assess visualization design. In Proceedings of the SIGCHI
conference on human factors in computing systems (pp. 203-212). ACM.
- Matplotlib. (s. f.). Matplotlib: Visualization with Python. Recuperado el 23 de abril de
2023, de https://matplotlib.org/
- Cairo, A. (2013). The functional art: An introduction to information graphics and
visualization. New Riders.
13