Volumen, velocidad y variedad: Entender las tres V de big data

Volumen, velocidad y variedad: Entender las tres V de big data.Nosotros los aficionados de las artes tecnológicas tenemos una tendencia a usar la jerga especializada. Eso no es inusual.

La mayoría de los gremios, sacerdocios y profesiones han tenido su propio estilo de comunicación, ya sea por conveniencia o para establecer un sentido de exclusividad. En tecnología, también tendemos a añadir palabras de moda muy simples a temas muy complejos, y luego esperamos que el resto del mundo los acompañe.

Tomemos, por ejemplo, el equipo de etiquetas de «nube» y «big data«. El término «nube» surgió porque los ingenieros de sistemas solían dibujar diagramas de red de redes de área local. Entre los diagramas de las LAN, dibujamos un revoltijo en forma de nube para referirse, más o menos, a «las cosas indefinidas entre ellas». Por supuesto, Internet se convirtió en lo último sin definir, y la nube se convirtió en The Cloud.

Para el tío Pedro, la tía María y Janice en contabilidad, «La nube» significa el lugar donde almacena sus fotos y otras cosas. Mucha gente realmente no sabe que «nube» es una abreviatura, y la realidad de la nube es el crecimiento de centros de datos casi inimaginablemente grandes que contienen vastas cantidades de información.

Big data es otra de esas palabras abreviadas, pero esta es una que Janice en Contabilidad, Jack en Marketing y Bob en ventas realmente necesitan entender. Big Data no solo puede responder grandes preguntas y abrir nuevas puertas a la oportunidad, sino que sus competidores casi sin duda están utilizando Big Data para obtener su propia ventaja competitiva.
Eso, por supuesto, plantea la pregunta: ¿qué es el big data? La respuesta, como la mayoría en tecnología, depende de su perspectiva. Aquí hay una buena manera de pensar en ello. Big data es información que es demasiado grande para que la administración de datos tradicional pueda manejarla.

Grande, por supuesto, también es subjetivo. Es por eso que lo describiremos de acuerdo con tres vectores: volumen, velocidad y variedad: las tres Vs.

Para decirlo de otra forma

Todas las empresas, grandes o pequeñas, gestionan una cantidad considerable de datos generados a través de sus diversos puntos de datos y procesos empresariales. En ocasiones, las empresas pueden manejar estos datos mediante hojas de Excel, acceso a bases de datos u otras herramientas similares. Sin embargo, cuando los datos no encajan en tales herramientas y las instancias de error humano aumentan por encima de los límites aceptables debido al procesamiento manual intensivo, es hora de pensar en Big Data y en el análisis.

VOLUMEN

El volumen es la V más asociada con big data porque, bueno, el volumen puede ser grande. De lo que estamos hablando aquí son cantidades de datos que alcanzan proporciones casi incomprensibles.
Facebook, por ejemplo, almacena fotografías. Esa afirmación no comienza a confundir la mente hasta que empiezas a darte cuenta de que Facebook tiene más usuarios que China. Cada uno de esos usuarios ha almacenado una gran cantidad de fotografías. Facebook está almacenando aproximadamente 250 mil millones de imágenes .

¿Puedes imaginar? Seriamente. Adelante. Intenta envolver tu cabeza alrededor de 250 mil millones de imágenes. Prueba este. Ya en 2016, Facebook tenía 2.5 trillones de publicaciones . En serio, ese es un número tan grande que es casi imposible de imaginar.

Entonces, en el mundo de big data, cuando empezamos a hablar de volumen, estamos hablando de cantidades de datos increíblemente grandes. A medida que avanzamos, vamos a tener más y más grandes colecciones. Por ejemplo, a medida que agregamos sensores conectados a casi todo, todos los datos de telemetría se sumarán.

¿Cuánto se sumará? Considera esto. Gartner, Cisco e Intel estiman que habrá entre 20 y 200 (no, no están de acuerdo, ¡sorpresa!) Dispositivos IoT conectados, el número es enorme, no importa qué. Pero no es solo la cantidad de dispositivos.

Considera cuántos datos están saliendo de cada uno. Tengo un sensor de temperatura en mi garaje. Incluso con un nivel de granularidad de un minuto (una medida por minuto), eso sigue siendo 525,950 puntos de datos en un año, y eso es solo un sensor. Digamos que tienes una fábrica con mil sensores, estás viendo 500 millones de puntos de datos, solo por la temperatura.

O bien, considere nuestro nuevo mundo de aplicaciones conectadas. Todos llevan un teléfono inteligente. Veamos un ejemplo simple, una aplicación de lista de tareas. Cada vez más proveedores administran los datos de las aplicaciones en la nube, de modo que los usuarios pueden acceder a sus listas de tareas a través de los dispositivos. Dado que muchas aplicaciones utilizan un modelo freemium , donde una versión gratuita se usa como líder de pérdidas para una versión premium, los proveedores de aplicaciones basadas en SaaS tienden a tener una gran cantidad de datos para almacenar.

Todoist , por ejemplo (el administrador de tareas que uso) tiene aproximadamente 10 millones de instalaciones activas, según Android Play. Eso sin contar todas las instalaciones en la web y en iOS. Cada uno de esos usuarios tiene listas de elementos, y todos los datos deben almacenarse. Ciertamente, Todoist no es una escala de Facebook, pero aún así almacenan muchísimos más datos que casi cualquier aplicación, incluso hace una década.

Luego, por supuesto, están todas las colecciones de datos empresariales internas, que van desde la industria de la energía hasta la atención médica y la seguridad nacional. Todas estas industrias están generando y capturando grandes cantidades de datos.

Ese es el vector de volumen.

Forma alternativa de expresarlo

Por ejemplo, dentro del espacio de las redes sociales, Volumen se refiere a la cantidad de datos generados a través de sitios web, portales y aplicaciones en línea. Especialmente para las empresas B2C, el volumen abarca los datos disponibles que están disponibles y deben evaluarse para determinar su relevancia. Considere lo siguiente: Facebook tiene 2.000 millones de usuarios, 1.000 millones de usuarios de YouTube, 350 millones de usuarios de Twitter y 700 millones de usuarios de Instagram. Todos los días, estos usuarios contribuyen a miles de millones de imágenes, publicaciones, videos, tweets, etc. Ahora puede imaginar la cantidad increíblemente grande de volumen de datos que se genera cada minuto y cada hora.

VELOCIDAD

¿Recuerdas nuestro ejemplo de Facebook? 250 mil millones de imágenes pueden parecer mucho. Pero si quiere que su mente se vuelva loca, considere esto: los usuarios de Facebook suben más de 900 millones de fotos al día . Un dia De modo que los 250 mil millones del año pasado parecerán una caída en el cubo en unos pocos meses.

La velocidad es la medida de la rapidez con la que ingresan los datos. Facebook tiene que manejar un tsunami de fotografías todos los días. Tiene que ingerirlo todo, procesarlo, archivarlo y, de algún modo, más tarde, poder recuperarlo.

Aquí hay otro ejemplo. Digamos que está ejecutando una campaña de marketing y quiere saber cómo se siente la gente «allá afuera» acerca de su marca en este momento. ¿Como lo harias? Una forma sería obtener una licencia de algunos datos de Twitter de Gnip ( adquiridos por Twitter ) para obtener un flujo constante de tweets y someterlos a un análisis de sentimientos.

Esa fuente de datos de Twitter a menudo se llama «la manguera de bomberos» porque se producen tantos datos (en forma de tweets), se siente como estar en el extremo comercial de una manguera de bomberos.

Aquí hay otro ejemplo de velocidad: análisis de paquetes para la ciberseguridad. Internet envía una gran cantidad de información a todo el mundo cada segundo. Para un equipo de TI empresarial, una parte de esa inundación tiene que viajar a través de firewalls a una red corporativa.

Desafortunadamente, debido al aumento en los ataques cibernéticos, los delitos informáticos y el ciberespionaje, las cargas útiles siniestras pueden ocultarse en ese flujo de datos que pasan a través del firewall. Para evitar compromisos, ese flujo de datos debe ser investigado y analizado para detectar anomalías, patrones de comportamiento que son señales de advertencia. Esto se hace más difícil a medida que más y más datos se protegen mediante el cifrado. Al mismo tiempo, los tipos malos ocultan sus cargas de malware dentro de paquetes cifrados.

O tomar datos del sensor. Cuanto más despegue el Internet de las cosas, más sensores conectados estarán en el mundo, transmitiendo pequeños bits de datos casi a una velocidad constante. A medida que aumenta el número de unidades, también aumenta el flujo.

Ese flujo de datos es el vector de velocidad.

Decirlo diferente

Con Velocidad nos referimos a la velocidad con la que se están generando los datos. Siguiendo con nuestro ejemplo de redes sociales, cada día se cargan 900 millones de fotos en Facebook, se publican 500 millones de tweets en Twitter, se cargan 0,4 millones de horas de video en Youtube y se realizan 3.500 millones de búsquedas en Google. Esto es como una explosión de datos nucleares. Big Data ayuda a la compañía a mantener esta explosión, aceptar el flujo de datos entrantes y, al mismo tiempo, procesarlo rápidamente para que no cree cuellos de botella.

VARIEDAD

Es posible que haya notado que he hablado sobre fotografías, datos de sensores, tweets, paquetes cifrados, etc. Cada uno de estos es muy diferente el uno del otro. Estos datos no son las filas y columnas antiguas y las combinaciones de bases de datos de nuestros antepasados. Es muy diferente de una aplicación a otra, y gran parte no está estructurada. Eso significa que no encaja fácilmente en los campos de una hoja de cálculo o una aplicación de base de datos.

Tomemos, por ejemplo, los mensajes de correo electrónico. Un proceso de descubrimiento legal puede requerir la selección de miles de millones de mensajes de correo electrónico en una colección. Ninguno de esos mensajes será exactamente igual a otro. Cada una constará de la dirección de correo electrónico del remitente, un destino y una marca de tiempo. Cada mensaje tendrá texto escrito por el hombre y posiblemente archivos adjuntos.

Las fotos y los videos y las grabaciones de audio y los mensajes de correo electrónico y los documentos y los libros y las presentaciones y los tweets y las tiras de ECG son todos datos, pero en general no están estructurados y son increíblemente variados.

Toda esa diversidad de datos constituye el vector de la variedad de big data.

Conclusión

La variedad en Big Data se refiere a todos los datos estructurados y no estructurados que tienen la posibilidad de ser generados por humanos o por máquinas. Los datos que se agregan con mayor frecuencia son los textos estructurados, tweets, imágenes y videos. Sin embargo, los datos no estructurados, como correos electrónicos, correos de voz, texto escrito a mano, lectura de ECG, grabaciones de audio, etc., también son elementos importantes de Variedad. La variedad tiene que ver con la capacidad de clasificar los datos entrantes en varias categorías.

GESTIONANDO LAS TRES VS.

Se necesitaría una biblioteca de libros para describir todos los diversos métodos que utilizan los profesionales de big data para procesar las tres Vs. Por ahora, sin embargo, su gran conclusión debería ser esta: una vez que comience a hablar sobre los datos en términos que van más allá de los grupos básicos, una vez que comience a hablar sobre cantidades épicas, flujos insanos y gran variedad, estará hablando de grandes volúmenes de datos.

Una última reflexión: ahora hay formas de analizar toda la insanidad y los conocimientos que se pueden aplicar para resolver problemas, discernir patrones e identificar oportunidades. Ese proceso se denomina analítica, y es por eso que cuando escuchas grandes datos discutidos, a menudo escuchas el término analítica aplicado en la misma oración.

Las tres V describen los datos a analizar. Analytics es el proceso de derivar valor de esos datos. Tomados en conjunto, existe el potencial de una visión sorprendente o una supervisión preocupante. Como cualquier otra gran potencia, el big data viene con gran promesa y gran responsabilidad.

Leer también: Historia del Big Data ; ¿Que es data science, ciencia de datos? Definición, significado, concepto

This post is also available in: Español