EL BIG DATA
Concepto.
El término Big Data se refiere a los datos que son tan grandes, rápidos o
complejos que es difícil o imposible procesarlos con los métodos tradicionales. El acto
de acceder y almacenar grandes cantidades de información para la analítica ha existido
desde hace mucho tiempo.
Otro concepto de Big Data podría ser que se refiere a los conjuntos de datos de
gran variedad, que se generan en grandes volúmenes y a una velocidad cada vez
mayor.
Tipos de Big Data.
Los datos se pueden clasificar según su estructura, y así podemos distinguir
entre:
Datos estructurados: Los datos estructurados tienen un formato fijo y a menudo
son numéricos. Este tipo de datos es información que ya está ordenada en bases de
datos y hojas de cálculo, que están almacenadas en bases de datos SQL, lagos de
datos y almacenes de datos. Por ello, en muchos casos, las máquinas (en lugar de los
seres humanos) pueden gestionar los datos estructurados con éxito.
Datos no estructurados: Los datos no estructurados es información que carece
de organización y no está en un formato predeterminado porque puede ser muy
diversa. Los datos recopilados de fuentes de redes sociales son un buen ejemplo. Se
pueden convertir en archivos de documentos de texto almacenados en Hadoop, como
clústeres o sistemas NoSQL.
Datos semiestructurados: Los datos semiestructurados pueden contener ambas
formas de datos, como, por ejemplo, los registros de servidores web o los datos de
sensores que se hayan configurado. Para ser precisos, son datos que, a pesar de no
estar clasificados en un repositorio concreto (una base de datos), contienen información
vital o etiquetas que segregan elementos individuales dentro de los datos.
Características Principales:
Velocidad: nuestro concepto de inmediatez ha cambiado en los últimos tiempos y
se busca información que llegue prácticamente al instante. Noticias que no llegan al día
de antigüedad, en simple cuestión de horas y, en ocasiones, minutos, pueden haber
perdido interés. Así, la velocidad de análisis requerida por la sociedad actual es una de
las características fundamentales que tienen los datos a gran escala, donde los datos
en constante movimiento procesados a tiempo real cobran protagonismo, ejecutando
algoritmos cada vez más complejos en menos tiempo.
Variedad: los datos sobre los que trabajan las técnicas de macrodatos son
diversos pues, como hemos visto, proceden de numerosas fuentes y se encuentran en
distintos formatos. Además, continúa en aumento la cuantía de datos no estructurados
en proporción a los tradicionales. Igual que pasaba con el volumen, esta entrada en
escena con fuerza de los datos no estructurados requiere nuevos tratamientos de la
información, necesitando de nuevas metodologías y tecnologías para poder ser
analizadas.
Valor: una gran cuantía de datos frecuentemente extrae pequeñas informaciones
de valor. Cómo conseguir dicha información de manera eficiente es uno de los retos
que afronta día a día el área de la inteligencia de datos. El valor es sin duda una
cualidad fundamental en el análisis.
Variabilidad: en un entorno tan cambiante como el de los macrodatos, la
información varía mucho. Y también han de hacerlo los modelos o tratamientos que se
aplican en torno a esta, pues no son fijos en el tiempo y requieren de un control
periódico.
Volumen: como hemos comentado, la cantidad de datos generados está
aumentando. Según crecen las bases de datos, también lo han de hacer las
aplicaciones y arquitectura construida para soportar la recogida y almacenamiento de
datos cada vez más variados. Además, se han reducido los costes de almacenamiento
propiciando almacenar grandes cuantías de información a un precio mucho más
reducido que antiguamente.
Veracidad: saber la fiabilidad de la información recogida es importante para
obtener unos datos de calidad e, incluso, dependiendo de las aplicaciones que se le
vaya a dar a misma, se convierte en fundamental. Es un factor que puede influir mucho
en conseguir una ventaja competitiva en la explotación del Big Data.
Visualización: Convertir cientos de hojas de información en un único gráfico que
muestre claramente unas conclusiones predictivas es un ejemplo de cómo mostrar los
resultados de forma clara y sencilla en un evidente ejercicio de sintetización.
Cómo Funciona el Big Data.
Antes de que las empresas puedan poner a trabajar el big data, deben
considerar cómo fluyen entre una multitud de lugares, fuentes, sistemas, propietarios y
usuarios. Hay cinco pasos clave para hacerse cargo de este gran "centro de datos" que
incluye datos tradicionales y estructurados junto con datos no estructurados y
semiestructurados:
Establezca una estrategia de big data:
A un alto nivel, una estrategia de big data es un plan diseñado para ayudarle a
supervisar y mejorar la forma en que adquiere, almacena, gestiona, comparte y utiliza
los datos dentro y fuera de su organización. Una estrategia de big data establece el
escenario para el éxito del negocio en medio de una abundancia de datos. Cuando se
desarrolla una estrategia, es importante considerar las metas e iniciativas de negocios y
tecnología existentes y futuros. Esto exige tratar los grandes datos como cualquier otro
activo empresarial valioso, en lugar de considerarlos sólo como un subproducto de las
aplicaciones.
Conozca las fuentes del big data:
El streaming de datos proviene del Internet de las Cosas (IoT) y otros
dispositivos conectados que fluyen a los sistemas de TI desde los vestidos, los coches
inteligentes, los dispositivos médicos, los equipos industriales y más. Puede analizar
este big data a medida que llegan, decidiendo qué datos guardar o no guardar, y cuáles
necesitan un análisis más profundo.
Los datos de los medios sociales provienen de interacciones en Facebook,
YouTube, Instagram, etc. Esto incluye big data en forma de imágenes, vídeos, voz,
texto y sonido, útiles para la comercialización, las ventas y las funciones de apoyo.
Estos datos suelen estar en formas no estructuradas o semiestructuradas, por lo que
plantean un desafío único para el consumo y el análisis.
Los datos disponibles públicamente provienen de cantidades masivas de fuentes
de datos abiertos como el data.gov del gobierno de los Estados Unidos, el World
Factbook de la CIA o el Open Data Portal de la Unión Europea.
Otros big data puede provenir de data lakes, fuentes de datos en la nube,
proveedores y clientes.
Acceda, gestione y almacene big data:
Los sistemas informáticos modernos proporcionan la velocidad, la potencia y la
flexibilidad necesarias para acceder rápidamente a cantidades masivas y tipos de big
data. Además de un acceso confiable, las empresas también necesitan métodos para
integrar los datos, asegurar la calidad de los mismos, proporcionar un gobierno y un
almacenamiento de datos, y preparar los datos para el análisis. Algunos datos pueden
almacenarse en data warehouse tradicional, pero también hay opciones flexibles y de
bajo costo para almacenar y manejar big data a través de soluciones de nube, lagos de
datos y Hadoop.
Analice el big data:
Con tecnologías de alto rendimiento como la computación en red o analítica en
memoria, las organizaciones pueden optar por utilizar todos sus big data para análisis.
Otro enfoque es determinar por adelantado qué datos son relevantes antes de
analizarlos. De cualquier manera, el análisis de big data es cómo las empresas
obtienen valor e información a partir de los datos. Cada vez más, el big data alimenta
los esfuerzos analíticos avanzados de hoy en día, como la inteligencia artificial.
Tome decisiones inteligentes, basadas en datos:
Los datos bien administrados y confiables conducen a un analítica y decisiones
confiables. Para seguir siendo competitivas, las empresas necesitan aprovechar todo el
valor del big data y operar de una manera basada en los datos, tomando decisiones
basadas en la evidencia presentada por los grandes datos en lugar de en el instinto
visceral. Los beneficios de ser impulsado por los datos son claros. Las organizaciones
basadas en datos se desempeñan mejor, son operacionalmente más predecibles y son
más rentables.
Herramientas de Big Data.
Puesto que el Big Data no deja de crecer, las herramientas que se usan para
gestionarlo también crecen y evolucionan permanentemente. Las organizaciones
utilizan herramientas como Hadoop, Pig, Hive, Cassandra, Spark o Kafka, dependiendo
de los requisitos específicos que tengan. La fundación Apache Software
Foundation (ASF) apoya muchas de estas herramientas de Big Data.
Buena parte de estas herramientas son de código abierto y, puesto que son
vitales para procesar el Big Data, vamos a explicar brevemente las principales
características de las más populares:
Apache Hadoop: una de las soluciones más conocidas para analizar Big Data,
que utiliza un marco de trabajo de código abierto para almacenar y procesar grandes
conjuntos de datos.
Apache Spark: esta herramienta permite almacenar gran parte de los datos de
procesamiento en la memoria y en el disco, lo que se traduce en una mayor rapidez.
Trabaja con los lenguajes de programación Java, Scala, Python, R y SQL y funciona
con el sistema de archivos distribuidos de Hadoop (HDFS), Apache
Cassandra, OpenStack Swift y muchas otras soluciones de almacenamiento de datos.
Apache Kafka: esta solución permite a los usuarios publicar y suscribirse a
fuentes de datos en tiempo real. La principal tarea de Kafka es trasladar la fiabilidad de
otros sistemas de mensajería a los datos en streaming.
Apache Lucene: una herramienta que puede usarse para cualquier motor de
recomendación porque utiliza bibliotecas de software de indexación y búsqueda de
textos completos.
Apache Zeppelin: un proyecto que permite el análisis de datos interactivos con
SQL y otros lenguajes de programación.
Elasticsearch: se podría definir como un motor de búsqueda empresarial, que
destaca porque puede aportar conocimientos a partir de datos estructurados y no
estructurados.
TensorFlow: una plataforma de machine learning cada vez más popular que se
utiliza con fines de aprendizaje automático.
Usos del Big Data.
Tanto las personas como las máquinas pueden analizar los datos del Big Data a
través del uso de distintos métodos analíticos. Estos métodos permiten combinar
distintos tipos y fuentes de datos para obtener información precisa y tomar decisiones
relevantes.
Veamos algunos de los usos más habituales del Big Data.
Desarrollo de productos: A partir de productos anteriores o actuales, las
empresas pueden crear modelos predictivos para nuevos productos y servicios a través
de la clasificación de atributos clave.
Hay empresas que también utilizan otros recursos, como información de redes
sociales, información de ventas de las tiendas o encuestas, para predecir cuál es la
mejor manera de lanzar un nuevo producto o dirigirlo a las personas más adecuadas.
Análisis Comparativo: Cuando se sabe cómo se comportan los clientes y se
pueden observar en tiempo real, es posible comparar sus patrones con los itinerarios
que han seguido para otros productos parecidos e identificar cuáles son las fortalezas
de una organización frente a sus competidores.
Experiencia del Cliente: El Big Data permite recopilar datos de redes sociales,
visitas en Internet, registros de llamadas y otras fuentes para mejorar la experiencia de
los clientes a través de la personalización y la toma de decisiones. Si, por ejemplo, la
tasa de abandono de carritos en un mercado internacional es mucho mayor que en el
mercado doméstico, esto podría deberse a las preferencias de pago de los usuarios en
el país. El Big Data permite analizar a los usuarios para tomar medidas que mejoren su
experiencia.
Aprendizaje Automático: El aprendizaje automático o machine learning utiliza el
Big Data para desarrollar modelos de aprendizaje automático gracias a la inteligencia
estadística y computacional, que analiza grandes cantidades de información con un
mínimo de o sin supervisión humana. Este es el caso, por ejemplo, de los sistemas de
traducción automática que utilizan tecnologías de aprendizaje automático para traducir
textos.
Escalabilidad y predicción de fallos: A través del análisis de datos estructurados
(periodos de tiempo, equipos) y no estructurados (entradas de registros, mensajes de
error, etc.) es posible predecir fallos o la demanda futura de una organización. Este uso
del Big Data permite prevenir posibles problemas antes de que se produzcan.
Fraude: El Big Data ayuda a identificar patrones de datos que son indicios de
fraude con el objetivo de prevenirlos. Por ejemplo, las entidades bancarias pueden
detectar si los comportamientos de los usuarios son o no normales.
Beneficios del Big Data.
Algunos de ellos son:
Es un conjunto de tecnologías muy ágiles y flexibles.
Es escalable por lo que, si tienes más datos, puedes poner más máquinas e
incluir nuevas analíticas y más información. Así, la infraestructura puede crecer
al mismo tiempo que tu empresa o proyecto.
Es rápido y económico respecto a la infraestructura de almacenamiento. Por
ejemplo, a través de servicios de computación en la nube, puedes pagar
únicamente por lo que consumes.
La mayoría de aplicaciones pertenecen a la comunidad Open Source, software
de código abierto o que forma parte del dominio público. Con esto, además del
ahorro económico evidente que nuevamente entra en escena, también tenemos
a nuestra disposición una gran comunidad de desarrolladores que trabajan
diariamente en mejorar sistemas y procesos de estos recursos, como la
comunidad Open Source de Apache, donde también resuelven dudas que
surgen a diversos usuarios en todo el mundo.
Y para el final, la gran ventaja: a través del Big Data y habiendo seguido
correctamente el ciclo de gestión de información que culmina con la puesta en
valor de los datos, habrás conseguido un objetivo previamente marcado. Este
puede ser ganar más dinero o ahorrarlo a través de mejoras de costes,
adquisición de nuevos clientes o retención de los actuales, avanzar en una
investigación científica, obtener una ventaja competitiva respecto a nuestros
competidores anticipándonos a lo que deparará el mercado a través de análisis
predictivos, optimizar nuestros procesos de producción.
Importancia del big Data.
La importancia del big data no gira en torno a la cantidad de datos que tienes,
sino en lo que haces con ellos. Puedes tomar datos de cualquier fuente y analizarlos
para encontrar respuestas que permitan reducir los costos, reducir el tiempo,
desarrollar nuevos productos y optimizar las ofertas, y tomar decisiones inteligentes.
Cuando se combinan grandes datos con análisis de alta potencia, se pueden
realizar tareas relacionadas con los negocios como:
Determinar las causas de origen de fallos, problemas y defectos casi en tiempo
real.
Generar cupones en el punto de venta basados en los hábitos de compra del
cliente.
Recalcular portafolios de riesgo completos en minutos.
Detecte el comportamiento fraudulento antes de que afecte a su organización