Algoritmos Usados en Técnicas de BigData y su Utilidad
Cristian Rojas & Miguel Gutiérrez.
Enero 2015.
Nombre de la institución.
Nombre del departamento.
Nombre de la asignatu
Tabla de Contenidos
Algoritmos Usados en Técnicas de BigData y su Utilidad..............................................................1
Introducción.................................................................................................................................1
Objetivo.......................................................................................................................................1
Algoritmos de Clasificación........................................................................................................1
Algoritmos de Regresión.............................................................................................................2
Algoritmo de Reducción de Dimensionalidad.............................................................................3
Algoritmo de Clustering..............................................................................................................4
Algoritmos de Forecasting...........................................................................................................5
Algoritmos de Deep Learning.....................................................................................................6
Algoritmo de Reinforcement Learning........................................................................................7
Resultados y discusión.....................................................................................................................8
Conclusiones................................................................................................................................8
Recomendaciones........................................................................................................................8
Referencias......................................................................................................................................9
Algoritmos Usados en Técnicas de BigData y su Utilidad
Introducción
Los datos están en el centro de la sociedad y economía del conocimiento. Big data es una
colección de datos grande, complejos, muy difícil de procesar a través de herramientas de
gestión y procesamiento de datos tradicionales, son datos cuyo volumen, diversidad y
complejidad requieren nueva arquitectura, técnicas, algoritmos y análisis para gestionar y
extraer valor y conocimiento oculto en ellos.
Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que
proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que
tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan
grande de información, los datos pueden ser moldeados o probados de cualquier manera
que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de
identificar los problemas de una forma más comprensible.
Objetivo
Investigar algoritmos usados en técnicas de Big Data mediante trabajo
investigativo con la finalidad de poder poner en práctica la utilidad de estos
algoritmos.
Desarrollo
Algoritmos de Clasificación
Son los algoritmos que mediante una serie de datos identifican distintas etiquetas.
Por ejemplo, podemos hacer dos grupos y diferenciar clientes que están cercanos a la
compra en una página web, de clientes que no lo están. Clientes muy rentables, poco
rentables y no rentables.
Estos algoritmos son necesarios porque las personas tienden a etiquetar todo para
simplificar las cosas y hacerlas más sencillas. Así si un cliente factura 10.000€ anuales, el
usuario no sabrá si es un cliente importante o no para el producto promocionado
(dependerá del sector de la empresa, la facturación anual, el beneficio neto). Pero si sin
decir ningún número digo que es un cliente muy rentable, ya se puede hacer una idea del
contexto, sin haber dicho ningún dato.
De forma general, según estos análisis de trabajo se diría que alrededor del 80% de los
problemas que se resuelven, necesitan de algoritmos de clasificación. (Alberto, 2020)
Algoritmos de Regresión
Son aquellos que mediante un conjunto de datos predicen una variable continua.
Es decir, predicen un valor exacto, por ejemplo, la cantidad de lluvia que va a caer
mañana, o el PIB de Ecuador al año siguiente, los ingresos de una empresa a final de año,
etc.
Siguiendo con el ejemplo rentabilidad anterior, en vez de prever si nuestros clientes
tienen rentabilidad, alta, baja o media. Nos dice exactamente su rentabilidad. Por ejemplo
10.534,46€
Unos de los algoritmos de regresión más famosos es la regresión lineal, pero hay muchos
más, prácticamente todos los algoritmos de clasificación tienen su variante de regresión.
Neaarest Neigbors, SVM, Random Forest, redes neuronales, etc. (Mendez, 2020)
Algoritmo de Reducción de Dimensionalidad
Como su propio nombre indica son algoritmos que se usan para reducir el número
de variables de nuestro conjunto de datos. Por ejemplo, analizamos las variables en un
banco y tenemos la base de datos de nuestros clientes, los bancos tienen una gran
cantidad de información (y por tanto de variables) por cada cliente. Donde vive, Ingresos
mensuales, sitios en los que saca dinero, si ha pedido prestamos, si tiene productos de
inversión, si tiene hipoteca, transacciones medias, etc. De tal forma que un banco puede
tener fácilmente más de 1000 variables de información para una sola persona.
Este tipo de algoritmos lo que hacen es reducir el número de variables por ejemplo de
1500 a 20 variables virtuales, digo variables virtuales, porque estas variables, no tienen
ningún sentido por sí mismas, es decir las veinte variables representan a las 1500, de tal
forma que ninguna de esas 20 sabemos que son, no sabemos si se refiere a los ingresos
mensuales, al gasto medio. Son un conglomerado que no podemos definir.
Estos algoritmos se usan en el análisis de datos, principalmente porque los algoritmos
predictivos, y de clustering vistos anteriormente no son capaces de trabajar correctamente
con una cantidad tan grande de variables.
La mayoría de algoritmos que están en este grupo lo que hacen realmente es juntar las
variables maximizando la varianza, o escoger variables en función de la ganancia de
información o descomposición de matrices. (Lafuente, 2018)
Algunos de los algoritmos son PCA, LDA, SVD, t-SNE, Autoencoders y son usados en
múltiples campos como, por ejemplo:
Procesamiento de lenguaje natural: clasificando un conjunto de documentos en grupos
Compresión de imágenes: sí, cuando pasas las imágenes por Whatsapp y pierden un poco
de calidad, es por culpa de estos algoritmos
Astronomía: se usan para el descubrimiento de exoplanetas.
Motores de recomendación: cuando Amazon te recomienda productos.
Algoritmo de Clustering
Son algoritmos que no tienen ninguna variable a predecir, lo único que hacen es
agrupar los datos en N grupos distintos, de tal forma que por cada dato que tú tengas, el
algoritmo te dirá a que grupo pertenece.
Figura 1. Algoritmo de Clustering.
Aquí se puede ver un ejemplo de algoritmo de clustering. En este caso se ha creado 4
clusters (o grupos). El eje de abscisas nos dice los ingresos de un cliente, mientras que el
eje de ordenadas nos indica, su gasto en nuestra empresa. De esta forma podemos ver que
nuestra empresa tiene 4 tipos de cliente:
Amarillos: clientes que tienen poco dinero y nos consumen poco producto.
Lilas: clientes que tienen poco poder adquisitivo, pero consumen mucho producto
Azul: clientes que tienen un alto poder adquisitivo, y consumen poco nuestros
productos.
Rojo: clientes que tienen un alto poder adquisitivo y un gran consumo.
Son muy usados en Marketing, NLP, detección de fraude, identificación de zonas con
altos índices de crimen, etc. (Caparri, 2021)
Algoritmos de Forecasting
Es otro tipo de algoritmos predictivos, se trata de algoritmos que utilizan
autocorrelaciones para encontrar patrones en los datos y realizar previsiones temporales.
Es decir, se utiliza para predicciones de datos que tienen una secuencia de tiempo, que
pueden ser por minutos, horas, días, semanas, años, etc.
Figura 2. Ejemplo de predicción usando forecasting.
Este es un ejemplo de Forecasting de las ventas de billetes aéreos en el que estamos
prediciendo basándonos en la demanda de los años 1948 a 1960, cual será la demanda del
año 1961. (Solutions, 2022)
Estos algoritmos utilizados en varios campos, como, por ejemplo:
a) Previsión de ventas
b) Logística, para evitar roturas de stock
c) Biología para predecir cambios poblacionales de especies de un ecosistema.
Algoritmos de Deep Learning
El Deep Learning o aprendizaje profundo, son los algoritmos que se utilizan en la
inteligencia artificial y cuyo método matemático trata de imitar el funcionamiento de un
cerebro humano.
Básicamente, como el cerebro humano, las redes neuronales, tienen una serie de neuronas
que contienen una información, esta información puede ser activada en función del
estímulo que le llegue y emitir un resultado, al igual que sucede en el cerebro humano.:
Figura 3. Ejemplo gráfico de una red neuronal.
Los algoritmos pertenecientes al Deep Learning son más complejos que el resto, este
conjunto de algoritmos también se pueden subdividir en las categorías anteriormente
explicadas, es decir se pueden crear algoritmos de Deep Learning para Clasificación,
Regresión, Forecasting, Clustering, y Reducción de Dimensionalidad.
Estos algoritmos son usados sobre todo en problemas que se resuelven con el tratamiento
de imágenes o de texto, como chatbots (Siri, Alexa), conducción autónoma (Tesla),
facturación automática, etc. (Analytics, 2022)
Algoritmo de Reinforcement Learning
Son algoritmos de aprendizaje inspirados en la psicología conductista, funcionan a base
de prueba, error y recompensa. Es un software, en el que hay un entorno y un agente, el
agente tiene que observar un entorno y obtener una máxima recompensa. Por ejemplo, un
pequeño robot que no sabe andar, (el agente) que su objetivo sea andar hasta la pared,
este robot, funcionará como un “niño” ya que, sin saber andar, tendrá que aprender a base
de prueba y error. Aquellos movimientos que le acerquen a la pared, serán guardados
positivamente ya que el robot estará más cerca de su logro, aquellos que no le acerquen o
que le alejen, serán guardados como un refuerzo negativo y por tanto no se repetirán.
Como veis el algoritmo trata de imitar el proceso por el que pasa un niño, cuando, por
ejemplo, está aprendiendo a andar. Estos algoritmos son muy utilizados para crear
inteligencias artificiales en videojuegos (La inteligencia artificial de Google que ganó al
campeón de Go), robótica (Boston Dynamics) y simulación de mercados, pero esta parte
de la inteligencia artificial aún está en “pañales” y se estima que no comenzará a haber
una eclosión de puestos de trabajo relacionados con este campo hasta dentro de unos 5
años. (Chaos, 2022)
Resultados y discusión.
Conclusiones
El éxito de los negocios empresariales muchas veces tiene que ver con aprender
de los errores cometidos en el pasado, reforzar áreas débiles en la organización,
optimizar procesos y mejorar la funcionalidad para captación de clientes, es ahí
donde se manejan los diferentes tipos de algoritmos de aprendizaje por lo tanto
mientras más efectivo sea el algoritmo mayor eficiencia tendrá la empresa.
Existen varias herramientas sobre algoritmos analíticos que permiten trabajar con
Big Data, estos algoritmos estructuran los datos de tal manera que el análisis se
pueda realizar de una forma ordenada y efectiva en beneficio del crecimiento
funcional y económico de la organización.
Es fundamental contar con un sin número de algoritmos los cuales permiten el
análisis de datos según la necesidad y clasificación de los mismo, para luego, con
esa información tener un conocimiento del como aplicarlos en el campo real y
efectivizar el uso de esos datos.
Recomendaciones
En algunos casos, los modelos y algoritmos son útiles y mejoran la vida al sugerir
música, libros o películas que pueden interesar sobre la base de nuestras
interacciones online pasadas, pero se debe tener muy en cuenta que día a día los
algoritmos van evolucionando en su estructura y comprensión es así que se debe
tomar muy en cuenta el tiempo y funcionamiento de cada algoritmo.
Recordar muy bien, los algoritmos pueden ser, Armas de Destrucción
Matemática, herramientas peligrosas si se utilizan sin una cuidadosa crítica.
Algunos de los casos más sorprendentes de mala utilización se encuentran en la
justicia penal y los sistemas de servicios de protección de la infancia, ya que estos
algoritmos han sido utilizados con fines de recopilación de información
inadecuada en la web y mucho más dentro de la Deep Web, ante estos casos se
debe fomentar un correcto uso de criterio al momento de usar estos algoritmos.
Referencias
Alberto, R. (7 de julio de 2020). Stay Curios. Obtenido de Stay Curios:
https://rubialesalberto.medium.com/tipos-de-algoritmos-en-data-science-
da947132c8e7
Analytics, G. (16 de mayo de 2022). Grapheverywhere. Obtenido de Grapheverywhere:
https://www.grapheverywhere.com/
Caparri, F. (16 de Noviembre de 2021). TOP10. Obtenido de TOP10:
http://www.cs.us.es/~fsancho/?e=230
Chaos, I. (16 de mayo de 2022). INTERACTIVE CHAOS. Obtenido de INTERACTIVE
CHAOS: https://interactivechaos.com/es
Lafuente, A. (22 de 5 de 2018). AUKERA. Obtenido de AUKERA:
https://aukera.es/blog/reduccion-dimensionalidad/
Mendez, C. (29 de octubre de 2020). Badmark. Obtenido de Badmark:
https://agenciab12.com/noticia/que-son-regresion-clasificacion-machine-
learning#:~:text=2.-,Algoritmos%20de%20regresi%C3%B3n,com%C3%BAn
%20es%20la%20regresi%C3%B3n%20lineal.
Solutions, K. D. (16 de mayo de 2022). KYOCERA. Obtenido de KYOCERA:
https://www.kyoceradocumentsolutions.es/es/smarter-workspaces/business-
challenges/paperless/la-importancia-del-forecast-y-su-significado-para-la-gestion-
de-la-demanda.html