0% encontró este documento útil (0 votos)
201 vistas16 páginas

Cuestionario DS

Este documento contiene 24 preguntas de opción múltiple sobre conceptos fundamentales de ciencia de datos como las funciones de un periodista de datos, la evolución histórica de la ciencia de datos, características de un científico de datos, métodos estadísticos pertinentes, y tareas de ingeniería de datos como la limpieza y transformación de datos. Las preguntas abarcan una variedad de temas relacionados con la ciencia de datos para evaluar el conocimiento general del lector.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
201 vistas16 páginas

Cuestionario DS

Este documento contiene 24 preguntas de opción múltiple sobre conceptos fundamentales de ciencia de datos como las funciones de un periodista de datos, la evolución histórica de la ciencia de datos, características de un científico de datos, métodos estadísticos pertinentes, y tareas de ingeniería de datos como la limpieza y transformación de datos. Las preguntas abarcan una variedad de temas relacionados con la ciencia de datos para evaluar el conocimiento general del lector.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 16

Cuestionario Ciencia de Datos

Pregunta 1

¿Cuál de las siguientes tareas es una función típica de un periodista de datos?


Seleccione una:
a. Elegir modelos de aprendizaje automático
b. Ajustar de los hiperparámetros en una red neural
c. Visualizar los datos
d. Entrenar modelos de aprendizaje automático

Pregunta 2

La evolución de la ciencia de los datos (aunque no siempre se llama eso) comenzó a finales de
1890 con el advenimiento de las máquinas de tabulación. ¿Cuál de los siguientes caminos
representa mejor su trayectoria y evolución a lo largo de los años?
Seleccione una:
a. Pasar de datos estructurados a datos no estructurados
b. El uso de la regresión en la ciencia de datos
c. Pasar de apoyar el análisis estadístico a los enfoques de aprendizaje automático
d. Los avances de la experiencia en el dominio

Pregunta 3

Cuál de las siguientes es una de las características más fundamentales de un Científico de Datos?
Seleccione una:
a. Ser muy competente en R o Python
b. Tener un sentido de curiosidad respecto a todas las cosas
c. Usar librerías y paquetes de software de código abierto
d. Tener un background fuerte en Computación de Alto Rendimiento (HPC)
Pregunta 4

Cuando se trata de ciencia y no solo de tecnología, ¿cuál de los siguientes estudios son más
pertinentes al científico de datos?
Seleccione una:
a. Álgebra Linear
b. Estadística Inferencial
c. Probabilidad
d. Todas las anteriores

Pregunta 5

Un profundo conocimiento de los métodos estadísticos al explicar el valor de los datos capturados
Seleccione una:
a. Acceso a la ‘caja negra’ de la ciencia de datos donde los algoritmos hacen las predicciones
b. Stick con bibliotecas y software de código abierto
c. Trabajar en un entorno de desarrollo integrado creado para científicos de datos
d. Un profundo conocimiento de los métodos estadísticos al explicar el valor de los datos
capturados

Pregunta 6

El entendimiento del negocio es la primera parte del trayecto de tu analítica. ¿Cuál de los
siguientes vienen a la mente cuando estás planeando tu aproximamiento de negocio?
Seleccione una:
a. Efectuar optimización del planeamiento de demanda y de la cadena de suministro para tus
ofrecimientos a lo largo de diferentes segmentos
b. Reducir costos
c. Decidir qué modelo de deep learning será más apropiado para tus necesidades
d. Reunir más datos
Pregunta 7
Cuando intenta identificar las causas empresariales y se encuentra en la fase de diagnóstico del
ciclo de vida de los análisis de datos, ¿cuál de las siguientes preguntas es más importante para
usted en esta fase?
Seleccione una:
a. ¿Cuál es su plan?
b. ¿Qué ha sucedido?
c. ¿Por qué sucedió?
d. ¿Qué sucede a continuación?

Pregunta 8

¿Cuál de las siguientes afirmaciones es verdadera?


Seleccione una:
a. Los Científicos de Datos transforman los datos en conocimiento para resolver problemas
de negocio
b. Los Periodistas de Datos capturan el conocimiento del campo para un alineamiento de
negocio exitoso
c. Los Ingenieros de Datos diseñan cómo los datos son organizados y aseguran la
operatividad
d. Todas las anteriores

Pregunta 9

¿Cuál/es de las siguientes características comparten las tablas descriptivas?


Seleccione una:
a. Medidas de Tendencia Central
b. Medidas de Dispersión
c. Medidas de Distribución
d. Todas las anteriores
Pregunta 10
Al utilizar Watson Studio como entorno de desarrollo integrado, ¿cuál de los siguientes retos más
difíciles para cualquier científico de datos?
Seleccione una:
a. Le permite trabajar con Tableau
b. Ha colado la brecha entre los expertos en datos y los expertos en dominio
c. Es el único lugar en el que los científicos de datos pueden acceder a los paquetes de
visualización
d. Con Watson Studio, no necesita conocimientos de programación

Pregunta 11

La vista de Perfil, bajo la pestaña Refinería de Watson Studio está diseñada para presentarte con
¿cuál de las siguientes piezas de información?
Seleccione una:
a. Frecuencia y estadística
b. arianza y Desviación Estándar
c. Precisión y Memoria
d. nomalías y outliers

Pregunta 12

Cuando se trabaja con Refinería de Datos en Watson Studio, se te presentan tres pestañas: Datos,
Perfil y Visualización. ¿Cuál es el propósito de la vista de Perfil?
Seleccione una:
a. En la vista de Perfil, el usuaro puede acceder a las métricas de su perfil, tales como los
números de servicios provistos, estado de cuenta y otras características del perfil del
usuaro
b. En la vista de Perfil, el usuario puede construir gráficos detallados para ver mejor los datos
sin procesar
c. En la vista de Perfil, el usuaro puede validar los datos para ver si algunos aspectos podrían
necesitar luego una refinería de datos
d. Ninguna de las anteriores
Pregunta 13
Cuando se utiliza Jupyter Notebooks, inevitablemente, necesitará importar librerías tales como
NumPy y SciPy. ¿Cuál de las siguientes capas de integración describe mejor éste tipo de actividad?
Seleccione una:
a. Librerías y herramientas de procesamiento de datos
b. Herramientas de visualización y ploteo
c. Computación cientifica y paquetes estadísticos
d. rameworks de deep learning

Pregunta 14

La pestaña Comunidades de Watson Studio provee ¿cuál de los siguientes artefactos?


Seleccione una:
a. Tutoriales
b. Sets de datos
c. Artículos
d. Todas las anteriores

Pregunta 15
Hadley Wickham es conocido por decir “Los conjuntos de datos ordenados son todos similares,
pero cada conjunto de datos desordenado es desordenado a su propia manera”. ¿Cuáles de las
siguientes afirmaciones respaldan esta aseveración? Selecciona todas las que correspondan:
Seleccione una o más de una:
a. Evitar redundancia, errores lógicos, o inconvenientes con actualizaciones
b. Completamente la habilidad de lenguajes de programación para desempeñar operaciones
vectorizadas
c. Asegura que los valores booleanos son apropiadamente codificados
d. segura implementar los modelos de machine learning correctos

Pregunta 16
La limpieza de datos suele consumir el 80% del tiempo de un ingeniero de datos o de un científico
de datos. ¿Cuál de las siguientes tareas es específica de la limpieza de datos?
Seleccione una o más de una:
a. Unir varios conjuntos de datos
b. Imputar valores que faltan
c. Visualización del conjunto de datos
d. Todo lo anterior
Pregunta 17

¿Cuál de los siguientes es un ejemplo que implica la falta de datos? Seleccione todas las que
correspondan:
Seleccione una o más una:
a. Marcado con NULL o NA
b. Utilice la función Summay, por ejemplo summay0 para enumerar cada variable contando
los valores faltantes.
c. No hay nada
d. Se debe explorar y visualizar los datos para notar anomalías y celdas vacías.

Pregunta 18
La fórmula para calcular la varianza tiene el denominador como N-1. ¿Por qué restar uno del
tamaño de la muestra? Seleccione todas las opciones que correspondan.
Seleccione una o más de una:
a. No todas las distribuciones se encuentran dentro de la proximidad del otro. Algunas
medidas distantes (valores atípicos) pueden tirar fácilmente de la medida de una
distribución. Por lo tanto, N-1 elimina ese sesgo.
b. El denominador debe ser N-1 porque la fórmula se utiliza para calcular la desviación
estándar.
c. N-1 no se expresa en el denominador, sino en el numerador.
d. Se llama corrección de Bessel y corrige el sesgo del estimador de varianza. Esto significa
que la varianza de la muestra no corregida no converge con la varianza de la población.

Pregunta 19
La normalización de datos es un parte integral de la etapa de transformación de datos. ¿Por qué
normalizaría los datos?
Seleccione una:
a. Para medir la distancia de cada número del conjunto con respecto a la media
b. Cuando se desea ignorar la magnitud de las operaciones y centrarse en la importancia
relativa.
c. Para medir la confianza en las conclusiones estadísticas
d. Porque se ve menos afectado por los valores atípicos y los datos sesgados, normalmente
es la medida preferida de la tendencia central cuando la distribución no es simétrica.
Pregunta 21

¿Cuándo utilizarán un histograma?


Seleccione una:
a. Para comprender la distribución de un variable
b. Puede ayudar en un análisis a comparar grupos
c. Entiende las tendencias a lo largo del tiempo
d. Cuando trabaja con datos históricos

Pregunta 22

Señalar con bandera la pregunta


¿Cuándo utilizaría un gráfico de línea?
Seleccione una.
a. Para comprender la distribución de un variable
b. Puede ayudar en un análisis a comparar grupos
c. Entiende las tendencias a lo largo del tiempo
d. Para entender el valor-p

Pregunta 23

Un gráfico de red es un gráfico donde los nodos está conectado y en posición según su relación
mutua. ¿Cuál de las siguientes es una característica precisa de un gráfico de red?
Seleccione una:
a. Se usa para identificar grupos en un conjunto de datos de relaciones largas y complejas
b. Se usa para mostrar las relaciones.
c. Se tienen datos multidimensionales
d. Todas las anteriores
Pregunta 24

La desviación estándar (() y la varianza ((2) se derivan de la media del conjunto de datos. Sin
embargo, la desviación estándar es la raíz cuadrada de la varianza. ¿Por qué es esto?
Seleccione una:
a. La desviación estándar mide el grado promedio para cada punto diferente de la media.
Cuando mayor sea la varianza, mayor será el largo de conjunto de datos.
b. El cálculo de la desviación estándar utiliza cuadrados porque pondera los datos atípicos
más que los datos cercanos a la media
c. Al elevar el cuadro, la varianza ya no está en la misma unidad de medida que en los datos
originales. Al sacar raíz cuadrada de la varianza significa que la desviación estándar se
restablece al valor original de la unidad de medida.
d. Todas las anteriores son verdaderas

Pregunta 25

Con datos________________, se tiene variables categóricas que pueden ser descritas por grupos
en lugar de números. Complete el espacio en blanco.
Seleccione una:
a. Desordenados
b. Normalizados
c. No estructurados
d. Estructurados

Pregunta 26

¿Cuál de las siguientees opciones describe mejor qué estadísticas de resumen calcula?
Selecciona una:
a. Media
b. Mediana
c. Moda
d. Todo lo anterior
Pregunta 27

Los gráficos de burbujas se utilizan para mostrar valores entre categorías o grupos con círculos,
evitando cualquier tipo de eje. Utilícelo como alternativa a________Rellene el espacio en blanco.
Seleccione una:
a. Gráficos de barras
b. Gráficos de red
c. Gráficos de líneas
d. Mapas de calor

Pregunta 28
El Proyecto Brunel define un lenguaje novedoso y muy conciso que define visualizaciones de datos
interactivas. ¿Cuál de las siguientes afirmaciones es verdadera?
Seleccione una:
a. La visualización de Brunel se basa en datos tabulares
b. Lenguaje de visualización de Brunel es un lenguaje de alto nivel desarrollado por IBM y de
código abierto en 2015
c. Brunel describe las visualizacines en términos de acciones componibles e impulsa un
motor de visualización (D3) que realiza el renderizado y la interactividad real.
d. Todas las anteriores

Pregunta 29

Un gráfico de red muestra nodos que están conectados y posicionados según relación mutua.
¿Qué tipo de conjunto de datos es mejor para los gráficos de red?
Seleccione una:
a. Distribución geográfica
b. Datos categorizados
c. Datos basados en el tiempo
d. Datos multidimensionales
Pregunta 30

Los datos de mapa de calor representan correlaciones mutuas de variables dentro de un conjunto
de datos; sin embargo, hay ocasiones en que el uso de datos de mapa de calor no ayuda con sus
esfuerzos de visualización. ¿Cuál de las siguientes opciones pone de relieve esta preocupación?
Seleccione una:
a. No lo utilice cuando sólo tenga unos pocos indicadores.
b. No lo utilice cuando tenga datos multidimensionales
c. No lo utilice cuando desee mostrar relaciones
d. No lo utilice cuando desee resaltar clústeres y patrones.

Pregunta 31
Si esta buscando por una herramienta que sea fácil de usar y flexible con lo que usted desea
renderizar. ¿Cuál de las siguientes es que mejor se adapta a sus necesidades?
Seleccione una:
a. Matplotlip
b. Seaborn
c. Tableau
d. Google Sheets<

Pregunta 32

La regresión lineal trata de ajustar una línea mientras____________la distancia a cada punto.
Complete el espacio en blanco
Seleccione una:
a. Maximizar
b. Minimizar
c. Optimizar
d. Cuadrado
Pregunta 33
Considere el siguiente diagrama : Dado que el pez rojo es un dato relevante
(señal) y el pez azul es un dato irrelevante (ruido). ¿cuál es el recuerdo de este sistema?
Seleccione una:
a. 0%
b. 100%
c. 50%
d. No se puede determinar con los datos dados

Pregunta 34
Usted ha decidido usar modelos de aprendizaje automático (ML) para evaluar el nivel de riesgo
(ALTO, MEDIO o BAJO) para una aplicación de préstamo dada ¿Cuál de los siguientes métodos DE
MIL sería su mejor opción?
Seleccione una:
a. Clasificación binaria
b. Clasificación de varias clases
c. Regresión lineal
d. Generative Adversarial Networks

Pregunta 35

Considere el siguiente diagrama: Dado que los peces rojos son datos
relevantes (señal) y los peces azules son datos irrelevantes (ruido), ¿cuál es la precisión de este
sistema?
Seleccione una:
a. 71%
b. 100%
c. 28%
d. 0%
Pregunta 36

¿Cuál de los siguientes es un ejemplo de falso positivo?


Seleccione una:
a. Una prueba de embarazo es positiva, cuando de hecho usted no está embarazada.
b. Una prueba de detección del cáncer vuelve positiva, pero usted no tiene la enfermedad.
c. El software antivirus del equipo identifica incorrectamente a un programa inocuo como
malicioso.
d. Todo lo anterior

Pregunta 37
¿En qué se diferencia una regresión isotónica de una regresión lineal?
Seleccione una:
a. Al ajustar una línea de forma libre a las observaciones, la línea de forma libre ajustada no
debe ser decreciente en todas partes.
b. Admitía etiquetas binarias y multiclase, así como características continuas y categóricas.
c. Solo admite etiquetas binarias, así como características continuas y categóricas.
d. Intenta ajustar la mejor línea en un gráfico de regresión de puntos de datos.

Pregunta 38
Sin responder aún
Puntaje de 2.00
Señalar con bandera la pregunta

Algunas veces no tenemos acceso a todo el conjunto de datos (población), y toca inferir
conclusiones usando datos de muestra. ¿Cuáles de los siguientes enfoques aborda el trabajo con
los datos de muestra para llegar a una conclusión sobre la población?
Seleccione una:
a. Estadística inferencial
b. Estadística descriptiva
c. Medida de tendencia centra y medidas de programación
d. Medidas de varianza y desviación estándar
Pregunta 39

Existen dos tipos de datos nominales: Discretos y continuos. ¿Cuál de los siguientes es un ejemplo
de tipo de datos discreto?
Seleccione una:
a. Número de habitaciones es una casa
b. Altura de una persona
c. Distancia desde casa
d. Velocidad de desplazamiento

Pregunta 40

El mayor riesgo de sobreajustar los datos es que el modelo funcionará bien en datos de
entrenamiento pero se desempeñará pobremente en datos nuevos. Para mitigar ese problema
(selecciona todas las que correspondan):
Seleccione una o más de una:
a. Utiliza datos de testeo (hold-out) para evaluar el desempeño del modelo en datos nuevos
b. No utilizar datos de testeo (hold-out) para seleccionar un modelo
c. Debes recolectar muchos más datos
d. Tu modelo necesita ser una red neuronal y no una regresión lineal

Pregunta 41

¿Cuáles de los siguientes ejemplos son escenarios perfectos para los sistemas de aprendizaje
automático? Seleccione todas las opciones que correspondan.
Seleccione una más de una:
a. Los humanos son incapaces de explicar su experiencia
b. La solución cambia con el tiempo
c. La solución debe adaptarse a casos particulares.
d. La escasez de datos es escasa
Pregunta 42

¿Cuál de las siguientes opciones distingue mejor la Inteligencia Artificial estrecha (ANI) de la
Inteligencia General Artificial (AGI)?
Seleccione una:
a. Con ANI, se debe decir a los robots y otros sistemas de IA qué hacer. Con AGI, los robots
no tienen que ser programados.
b. Siri y Alexa son ejemplos de ANI, mientras que los automóviles autónomos son ejemplos
de AGI.
c. LOS sistemas ANI hacen una cosa bien: La maestría del dominio único. Los sistemas AGI
serán expertos en conocimientos múltiples, no sólo en tareas múltiples.
d. Ya estamos al borde de la AGI.

Pregunta 43

Los sistemas de aprendizaje automático son buenos para hacer predicciones. Pueden atravesar un
complejo en profundidad: frases condicionales más rápidas y con una predicción más precisa que
los humanos. Pero, ¿Cuál de los siguientes es actualmente una deficiencia del aprendizaje
automático, donde los seres humanos por otro lado, sobresalen?
Seleccione una:
a. Las máquinas requieren muchos datos, los seres humanos no.
b. Los seres humanos pueden obtener más datos y no sólo de la vista o de las palabras, sino
del olfato, la sensación y la audición.
c. Los seres humanos pueden juzgar y tomar decisiones sobre preferencias.
d. Todo lo anterior

Pregunta 44

¿Cuál de los siguientes algoritmos es utilizado para el aprendizaje supervisado?


Seleccione una:
a. Clustering
b. Gaussian Mixture
c. Modelo Midden Markov
d. Máquinas de Vectores de Soporte
Pregunta 45

Señalar con bandera la pregunta


¿Qué se quiere decir con ´subconjunto puro´(´pure subset´) cuando se trabaja con árboles de
decisión? (Selecciona todas las que correspondan)
Seleccione una o más de una:
a. Todos los atributos de una hoja tienen un sí como respuesta
b. Todos los atributos de una hoja tienen un no como respuesta
c. La mitad de las respuestas eran sí y la otra mitad no
d. La hoja no puede ser dividida más a fondo

Pregunta 46

¿Cuál de las siguientes actividades destaca el mérito de normalización de los datos?


Seleccione una o mas de una:
a. Permite que su modelo se actualice su peso en un rango de valores relativamente estable.
b. Esto acelera el tiempo de entrenamiento (común para que las redes neuronales realicen la
normalización para cada capa)
c. Permite ver el valor atípico con mayor claridad
d. Este es un paso esencial para calcular el cambio porcentual del coeficiente en la variable
objetivo.

Pregunta 47

Digamos que usted quería predecir sus calificaciones para exámenes futuros dependiendo de las
horas estudiadas y de las horas dormidas según el diario que usted mantuvo basado en
calificaciones anteriores. Las calificaciones dadas son notas de letras, tales como A,A-,B+,B,B- y así
sucesivamente. Cada rango acomoda un rango de valores numéricos; por ejemplo, 100 siendo el
máximo, A+ son valores que van de 97 a 100. ¿Cuál de los siguientes modelos de aprendizaje
automático es su mejor enfoque?
Seleccione una:
a. Regresión
b. Agrupación clústeres
c. Clasificación
d. Red de memoria a corto plazo (LSTM)
Pregunta 48

Nunca hay una única respuesta clara acerca de la mejor manera de desplegar un modelo de
aprendizaje automático en un entorno de producción. ¿Qué preguntas debe hacerse?
Seleccione todas las opciones que correspondan.
Seleccione una o más de una:
a. ¿Es necesario que ejecute el modelo fuera de línea?
b. ¿He minimizado la trampa de ajustar mi modelo?
c. ¿usé los últimos modelos de aprendizaje automático?
d. ¿Con qué frecuencia planeo volver a entrenar mi modelo?

Pregunta 49

Supongamos que se le ha encomendado subir a la cima de una colina, con la cortina plegada y que
se le exige que lo haga en los pasos mínimos posibles. En el lenguaje de aprendizaje automático,
¿qué se llamaría la pendiente?
Seleccione una:
a. Sinapsis
b. Tasa de aprendizaje
c. Parámetro Hyper
d. Capa oculta

Pregunta 50

Supongamos que se le ha encomendado subir a la cima de una colina, con la cortina plegada y que
se le exige que lo haga en los pasos mínimos posibles. En el lenguaje de aprendizaje automático,
¿qué se llamaría la pendiente?
Seleccione una:
a. Sinapsis
b. Tasa de aprendizaje
c. Parámetro Hyper
d. Capa oculta

También podría gustarte