Las cuatro (4) V de Big Data

Las cuatro, 4 V de Big Data.Las 4 características de Big Data.Porque no todos piensan que 3vs sean suficientes.
¿Cuál es la diferencia entre el análisis de datos regulares y cuándo estamos hablando de datos «grandes»? Aunque la respuesta a esta pregunta no puede ser determinada universalmente, hay una serie de características que definen Big Data.

Las características de Big Data se conocen comúnmente como las cuatro V:

Contenidos

Volumen de Big Data

El volumen de datos se refiere al tamaño de los conjuntos de datos que deben analizarse y procesarse, que ahora suelen ser más grandes que terabytes y petabytes. El gran volumen de datos requiere tecnologías de procesamiento distintas y distintas de las capacidades tradicionales de almacenamiento y procesamiento. En otras palabras, esto significa que los conjuntos de datos en Big Data son demasiado grandes para procesarlos con una computadora portátil o un procesador de escritorio. Un ejemplo de un conjunto de datos de gran volumen serían todas las transacciones con tarjeta de crédito en un día dentro de Europa.

El big data implica un volumen enorme de datos. En un inicio los datos eran creados por los propios empleados pero ahora que los datos son generados automáticamente por máquinas, redes e interacciones personales en sistemas como redes sociales los volúmenes a analizar son masivos. La tecnología para guardar y procesar ha avanzado paralelamente por lo que el mayor problema ahora no es tanto el tamaño como otras dimensiones, como la veracidad.

Velocidad de Big Data

La velocidad se refiere a la velocidad con la que se generan los datos. Los datos de alta velocidad se generan con un ritmo tal que requieren distintas técnicas de procesamiento (distribuidas). Un ejemplo de datos que se generan con alta velocidad serían los mensajes de Twitter o las publicaciones de Facebook.

La velocidad en big data se refiere al ritmo en que los datos de entrada fluyen desde las diversas fuentes como procesos de negocio, máquinas y sensores, redes sociales, dispositivos móviles, etc. El flujo de datos es masivo y continuo. Estos datos recogidos en tiempo real permiten ayudar a investigadores y organizaciones a la hora de tomar decisiones aportando valiosa información que suponen ventajas competitivas estratégicas. El ROI (retorno en la inversión) está asegurado para las empresas que sepan manejar esa velocidad. Muchas empresas comienzan con muestras de datos para ir comprendiendo el valor aportado y van ampliando a medida que se van viendo los resultados.

Variedad de Big Data

La variedad hace que Big Data sea realmente grande. Big Data proviene de una gran variedad de fuentes y generalmente es uno de tres tipos: datos estructurados, semiestructurados y no estructurados . La variedad en los tipos de datos a menudo requiere capacidades de procesamiento distintas y algoritmos especializados. Un ejemplo de conjuntos de datos de gran variedad serían los archivos de audio y video de CCTV que se generan en varios lugares de una ciudad.
La variedad se refiere a las diferentes fuentes y tipos de datos tanto estructurados como no estructurados. Hace pocos años los únicos datos que se almacenaban eran de fuentes como hojas de cálculo y bases de datos. Ahora, los datos llegan en la forma de emails, fotos, videos, sistemas de monitorización, PDFs, ficheros de sonido, … Esta variedad en datos no estructurados crea problemas de almacenamiento, minería de datos y análisis de la información. IBM dispone de nuevas herramientas que están ayudando a las empresas con los retos de los nuevos tipos de datos analizables, incluyendo la variedad.

Veracidad de Big Data

La veracidad se refiere a la calidad de los datos que se están analizando. Los datos de alta veracidad tienen muchos registros que son valiosos para analizar y que contribuyen de manera significativa a los resultados generales. Los datos de baja veracidad, por otro lado, contienen un alto porcentaje de datos sin sentido. Lo que no es valioso en estos conjuntos de datos se conoce como ruido. Un ejemplo de un conjunto de datos de alta veracidad serían los datos de un experimento o ensayo médico.

Los datos de alto volumen, alta velocidad y gran variedad deben procesarse con herramientas avanzadas (análisis y algoritmos) para revelar información significativa. Debido a estas características de los datos, el dominio de conocimiento que se ocupa del almacenamiento, procesamiento y análisis de estos conjuntos de datos se ha etiquetado como Big Data.

La veracidad en el big Data Veracity se refiere al sesgo, el ruido y la alteración de datos. Los responsables del proyecto big data han de preguntarse honestamente si los datos que se almacenan y extraen son directamente relacionados y significativos al problema que se trata de analizar. Esta característica puede ser el mayor reto cuando se comparan con otras como el volumen o la velocidad. Cuando se valore el alcance en su estrategia de big data es necesario contar en el equipo con socios imparciales que ayuden a mantener los datos limpios y asegurarse que los procesos no acumulen “datos sucios” en sus sistemas.

Al igual que la veracidad de datos se ha de comprobar la validez en la información, ¿son los datos correctos y precisos para el uso previsto? Este aspecto es clave para poder tomar las decisiones correctas.

Por último, hay quien añade una V más a las dimensiones, la volatilidad (pero esto lo veremos luego en otro post dedicado a esto). Se refiere al tiempo durante el cual los datos recogidos son válidos y el tiempo que deben permanecer almacenados. En esta nueva era de aluvión de datos en tiempo real es necesario determinar hasta qué punto los datos son válidos y en qué momento dejan de ser relevantes para su estudio analítico.

Consultar también: Historia del Big Data; Volumen, velocidad y variedad: Entender las tres V de big data; Big data en SEO, SEM y marketing online

This post is also available in: Español