0% encontró este documento útil (0 votos)
71 vistas12 páginas

Big Data

Este documento describe varios algoritmos utilizados en técnicas de big data. Explica algoritmos de clasificación, regresión, reducción de dimensionalidad, clustering, pronóstico y aprendizaje profundo. Estos algoritmos se utilizan para clasificar y predecir datos, reducir variables, agrupar datos en clusters y aprender patrones a través de redes neuronales. El documento analiza cómo cada algoritmo puede usarse para resolver diferentes problemas comunes en big data.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
71 vistas12 páginas

Big Data

Este documento describe varios algoritmos utilizados en técnicas de big data. Explica algoritmos de clasificación, regresión, reducción de dimensionalidad, clustering, pronóstico y aprendizaje profundo. Estos algoritmos se utilizan para clasificar y predecir datos, reducir variables, agrupar datos en clusters y aprender patrones a través de redes neuronales. El documento analiza cómo cada algoritmo puede usarse para resolver diferentes problemas comunes en big data.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 12

Algoritmos Usados en Técnicas de BigData y su Utilidad

Cristian Rojas & Miguel Gutiérrez.


Enero 2015.

Nombre de la institución.
Nombre del departamento.
Nombre de la asignatu
Tabla de Contenidos

Algoritmos Usados en Técnicas de BigData y su Utilidad..............................................................1


Introducción.................................................................................................................................1
Objetivo.......................................................................................................................................1
Algoritmos de Clasificación........................................................................................................1
Algoritmos de Regresión.............................................................................................................2
Algoritmo de Reducción de Dimensionalidad.............................................................................3
Algoritmo de Clustering..............................................................................................................4
Algoritmos de Forecasting...........................................................................................................5
Algoritmos de Deep Learning.....................................................................................................6
Algoritmo de Reinforcement Learning........................................................................................7
Resultados y discusión.....................................................................................................................8
Conclusiones................................................................................................................................8
Recomendaciones........................................................................................................................8
Referencias......................................................................................................................................9
Algoritmos Usados en Técnicas de BigData y su Utilidad

Introducción

Los datos están en el centro de la sociedad y economía del conocimiento. Big data es una

colección de datos grande, complejos, muy difícil de procesar a través de herramientas de

gestión y procesamiento de datos tradicionales, son datos cuyo volumen, diversidad y

complejidad requieren nueva arquitectura, técnicas, algoritmos y análisis para gestionar y

extraer valor y conocimiento oculto en ellos.

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que

proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que

tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan

grande de información, los datos pueden ser moldeados o probados de cualquier manera

que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de

identificar los problemas de una forma más comprensible.

Objetivo

 Investigar algoritmos usados en técnicas de Big Data mediante trabajo

investigativo con la finalidad de poder poner en práctica la utilidad de estos

algoritmos.

Desarrollo

Algoritmos de Clasificación

Son los algoritmos que mediante una serie de datos identifican distintas etiquetas.

Por ejemplo, podemos hacer dos grupos y diferenciar clientes que están cercanos a la
compra en una página web, de clientes que no lo están. Clientes muy rentables, poco

rentables y no rentables.

Estos algoritmos son necesarios porque las personas tienden a etiquetar todo para

simplificar las cosas y hacerlas más sencillas. Así si un cliente factura 10.000€ anuales, el

usuario no sabrá si es un cliente importante o no para el producto promocionado

(dependerá del sector de la empresa, la facturación anual, el beneficio neto). Pero si sin

decir ningún número digo que es un cliente muy rentable, ya se puede hacer una idea del

contexto, sin haber dicho ningún dato.

De forma general, según estos análisis de trabajo se diría que alrededor del 80% de los

problemas que se resuelven, necesitan de algoritmos de clasificación. (Alberto, 2020)

Algoritmos de Regresión

Son aquellos que mediante un conjunto de datos predicen una variable continua.

Es decir, predicen un valor exacto, por ejemplo, la cantidad de lluvia que va a caer

mañana, o el PIB de Ecuador al año siguiente, los ingresos de una empresa a final de año,

etc.

Siguiendo con el ejemplo rentabilidad anterior, en vez de prever si nuestros clientes

tienen rentabilidad, alta, baja o media. Nos dice exactamente su rentabilidad. Por ejemplo

10.534,46€

Unos de los algoritmos de regresión más famosos es la regresión lineal, pero hay muchos

más, prácticamente todos los algoritmos de clasificación tienen su variante de regresión.

Neaarest Neigbors, SVM, Random Forest, redes neuronales, etc. (Mendez, 2020)
Algoritmo de Reducción de Dimensionalidad

Como su propio nombre indica son algoritmos que se usan para reducir el número

de variables de nuestro conjunto de datos. Por ejemplo, analizamos las variables en un

banco y tenemos la base de datos de nuestros clientes, los bancos tienen una gran

cantidad de información (y por tanto de variables) por cada cliente. Donde vive, Ingresos

mensuales, sitios en los que saca dinero, si ha pedido prestamos, si tiene productos de

inversión, si tiene hipoteca, transacciones medias, etc. De tal forma que un banco puede

tener fácilmente más de 1000 variables de información para una sola persona.

Este tipo de algoritmos lo que hacen es reducir el número de variables por ejemplo de

1500 a 20 variables virtuales, digo variables virtuales, porque estas variables, no tienen

ningún sentido por sí mismas, es decir las veinte variables representan a las 1500, de tal

forma que ninguna de esas 20 sabemos que son, no sabemos si se refiere a los ingresos

mensuales, al gasto medio. Son un conglomerado que no podemos definir.

Estos algoritmos se usan en el análisis de datos, principalmente porque los algoritmos

predictivos, y de clustering vistos anteriormente no son capaces de trabajar correctamente

con una cantidad tan grande de variables.

La mayoría de algoritmos que están en este grupo lo que hacen realmente es juntar las

variables maximizando la varianza, o escoger variables en función de la ganancia de

información o descomposición de matrices. (Lafuente, 2018)

Algunos de los algoritmos son PCA, LDA, SVD, t-SNE, Autoencoders y son usados en

múltiples campos como, por ejemplo:

Procesamiento de lenguaje natural: clasificando un conjunto de documentos en grupos


Compresión de imágenes: sí, cuando pasas las imágenes por Whatsapp y pierden un poco

de calidad, es por culpa de estos algoritmos

Astronomía: se usan para el descubrimiento de exoplanetas.

Motores de recomendación: cuando Amazon te recomienda productos.

Algoritmo de Clustering

Son algoritmos que no tienen ninguna variable a predecir, lo único que hacen es

agrupar los datos en N grupos distintos, de tal forma que por cada dato que tú tengas, el

algoritmo te dirá a que grupo pertenece.

Figura 1. Algoritmo de Clustering.

Aquí se puede ver un ejemplo de algoritmo de clustering. En este caso se ha creado 4

clusters (o grupos). El eje de abscisas nos dice los ingresos de un cliente, mientras que el

eje de ordenadas nos indica, su gasto en nuestra empresa. De esta forma podemos ver que

nuestra empresa tiene 4 tipos de cliente:


 Amarillos: clientes que tienen poco dinero y nos consumen poco producto.

 Lilas: clientes que tienen poco poder adquisitivo, pero consumen mucho producto

 Azul: clientes que tienen un alto poder adquisitivo, y consumen poco nuestros

productos.

 Rojo: clientes que tienen un alto poder adquisitivo y un gran consumo.

Son muy usados en Marketing, NLP, detección de fraude, identificación de zonas con

altos índices de crimen, etc. (Caparri, 2021)

Algoritmos de Forecasting

Es otro tipo de algoritmos predictivos, se trata de algoritmos que utilizan

autocorrelaciones para encontrar patrones en los datos y realizar previsiones temporales.

Es decir, se utiliza para predicciones de datos que tienen una secuencia de tiempo, que

pueden ser por minutos, horas, días, semanas, años, etc.

Figura 2. Ejemplo de predicción usando forecasting.

Este es un ejemplo de Forecasting de las ventas de billetes aéreos en el que estamos

prediciendo basándonos en la demanda de los años 1948 a 1960, cual será la demanda del

año 1961. (Solutions, 2022)


Estos algoritmos utilizados en varios campos, como, por ejemplo:

a) Previsión de ventas

b) Logística, para evitar roturas de stock

c) Biología para predecir cambios poblacionales de especies de un ecosistema.

Algoritmos de Deep Learning

El Deep Learning o aprendizaje profundo, son los algoritmos que se utilizan en la

inteligencia artificial y cuyo método matemático trata de imitar el funcionamiento de un

cerebro humano.

Básicamente, como el cerebro humano, las redes neuronales, tienen una serie de neuronas

que contienen una información, esta información puede ser activada en función del

estímulo que le llegue y emitir un resultado, al igual que sucede en el cerebro humano.:

Figura 3. Ejemplo gráfico de una red neuronal.

Los algoritmos pertenecientes al Deep Learning son más complejos que el resto, este

conjunto de algoritmos también se pueden subdividir en las categorías anteriormente


explicadas, es decir se pueden crear algoritmos de Deep Learning para Clasificación,

Regresión, Forecasting, Clustering, y Reducción de Dimensionalidad.

Estos algoritmos son usados sobre todo en problemas que se resuelven con el tratamiento

de imágenes o de texto, como chatbots (Siri, Alexa), conducción autónoma (Tesla),

facturación automática, etc. (Analytics, 2022)

Algoritmo de Reinforcement Learning

Son algoritmos de aprendizaje inspirados en la psicología conductista, funcionan a base

de prueba, error y recompensa. Es un software, en el que hay un entorno y un agente, el

agente tiene que observar un entorno y obtener una máxima recompensa. Por ejemplo, un

pequeño robot que no sabe andar, (el agente) que su objetivo sea andar hasta la pared,

este robot, funcionará como un “niño” ya que, sin saber andar, tendrá que aprender a base

de prueba y error. Aquellos movimientos que le acerquen a la pared, serán guardados

positivamente ya que el robot estará más cerca de su logro, aquellos que no le acerquen o

que le alejen, serán guardados como un refuerzo negativo y por tanto no se repetirán.

Como veis el algoritmo trata de imitar el proceso por el que pasa un niño, cuando, por

ejemplo, está aprendiendo a andar. Estos algoritmos son muy utilizados para crear

inteligencias artificiales en videojuegos (La inteligencia artificial de Google que ganó al

campeón de Go), robótica (Boston Dynamics) y simulación de mercados, pero esta parte

de la inteligencia artificial aún está en “pañales” y se estima que no comenzará a haber

una eclosión de puestos de trabajo relacionados con este campo hasta dentro de unos 5

años. (Chaos, 2022)


Resultados y discusión.

Conclusiones

 El éxito de los negocios empresariales muchas veces tiene que ver con aprender

de los errores cometidos en el pasado, reforzar áreas débiles en la organización,

optimizar procesos y mejorar la funcionalidad para captación de clientes, es ahí

donde se manejan los diferentes tipos de algoritmos de aprendizaje por lo tanto

mientras más efectivo sea el algoritmo mayor eficiencia tendrá la empresa.

 Existen varias herramientas sobre algoritmos analíticos que permiten trabajar con

Big Data, estos algoritmos estructuran los datos de tal manera que el análisis se

pueda realizar de una forma ordenada y efectiva en beneficio del crecimiento

funcional y económico de la organización.

 Es fundamental contar con un sin número de algoritmos los cuales permiten el

análisis de datos según la necesidad y clasificación de los mismo, para luego, con

esa información tener un conocimiento del como aplicarlos en el campo real y

efectivizar el uso de esos datos.

Recomendaciones

 En algunos casos, los modelos y algoritmos son útiles y mejoran la vida al sugerir

música, libros o películas que pueden interesar sobre la base de nuestras

interacciones online pasadas, pero se debe tener muy en cuenta que día a día los

algoritmos van evolucionando en su estructura y comprensión es así que se debe

tomar muy en cuenta el tiempo y funcionamiento de cada algoritmo.


 Recordar muy bien, los algoritmos pueden ser, Armas de Destrucción

Matemática, herramientas peligrosas si se utilizan sin una cuidadosa crítica.

Algunos de los casos más sorprendentes de mala utilización se encuentran en la

justicia penal y los sistemas de servicios de protección de la infancia, ya que estos

algoritmos han sido utilizados con fines de recopilación de información

inadecuada en la web y mucho más dentro de la Deep Web, ante estos casos se

debe fomentar un correcto uso de criterio al momento de usar estos algoritmos.


Referencias

Alberto, R. (7 de julio de 2020). Stay Curios. Obtenido de Stay Curios:


https://rubialesalberto.medium.com/tipos-de-algoritmos-en-data-science-
da947132c8e7
Analytics, G. (16 de mayo de 2022). Grapheverywhere. Obtenido de Grapheverywhere:
https://www.grapheverywhere.com/
Caparri, F. (16 de Noviembre de 2021). TOP10. Obtenido de TOP10:
http://www.cs.us.es/~fsancho/?e=230
Chaos, I. (16 de mayo de 2022). INTERACTIVE CHAOS. Obtenido de INTERACTIVE
CHAOS: https://interactivechaos.com/es
Lafuente, A. (22 de 5 de 2018). AUKERA. Obtenido de AUKERA:
https://aukera.es/blog/reduccion-dimensionalidad/
Mendez, C. (29 de octubre de 2020). Badmark. Obtenido de Badmark:
https://agenciab12.com/noticia/que-son-regresion-clasificacion-machine-
learning#:~:text=2.-,Algoritmos%20de%20regresi%C3%B3n,com%C3%BAn
%20es%20la%20regresi%C3%B3n%20lineal.
Solutions, K. D. (16 de mayo de 2022). KYOCERA. Obtenido de KYOCERA:
https://www.kyoceradocumentsolutions.es/es/smarter-workspaces/business-
challenges/paperless/la-importancia-del-forecast-y-su-significado-para-la-gestion-
de-la-demanda.html

También podría gustarte