¿Que es big data? Definición, significado, concepto.Big data es un término que se usa para referirse a conjuntos de datos que son demasiado grandes o complejos para que el software de aplicación de procesamiento de datos tradicional se ocupe adecuadamente. Los datos con muchos casos (filas) ofrecen una mayor potencia estadística , mientras que los datos con mayor complejidad (más atributos o columnas) pueden llevar a una mayor tasa de descubrimiento de respuestas erróneas.
Los desafíos de Big Data incluyen la captura de datos , el almacenamiento de datos , el análisis de datos, la búsqueda, el intercambio , la transferencia , la visualización , la consulta, la actualización y la privacidad de la información.y fuente de datos. Los datos grandes se asociaron originalmente con tres conceptos clave: volumen , variedad y velocidad .Otros conceptos que luego se atribuyen con big data son la veracidad (es decir, cuánto ruido hay en los datos) y el valor.
Otra forma de decirlo
Se refiere a conjuntos de datos que se vuelven tan grandes que superan la intuición y la capacidad humana para el análisis e incluso rebasan a esas herramientas de Base de datos en la informática convencional o gestión de la información.
Big data es un término en evolución que describe un gran volumen de datos estructurados , semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información y usarse en proyectos de aprendizaje automático y otras aplicaciones de análisis avanzado.
El uso actual del término “big data” tiende a referirse al uso de análisis predictivo , análisis de comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de los datos, y rara vez a un tamaño particular de conjunto de datos. Existen pocas dudas de que las cantidades de datos disponibles en la actualidad son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos. El análisis de conjuntos de datos puede encontrar nuevas correlaciones para detectar tendencias comerciales, prevenir enfermedades, combatir el crimen, etc. Estas herramientas son usadas por Científicos, ejecutivos de empresas, profesionales de la medicina, informática urbana e informática empresarial . Los científicos encuentran limitaciones en el trabajo de e-Ciencia , incluida la meteorología , genómica , conectómica , simulaciones de física compleja, biología e investigación ambiental.
Los conjuntos de datos crecen rápidamente, en parte porque están cada vez más reunidos por dispositivos baratos y numerosos de Internet con detección de información, como dispositivos móviles , antenas ( sensores remotos ), registros de software, cámaras , micrófonos, lectores de identificación por radiofrecuencia (RFID) y Redes de sensores inalámbricos .
La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; a partir de 2012, todos los días se generan 2.5 exabytes (2.5 × 10 18 ) de datos.Basado en una predicción del informe de IDC, el volumen de datos global aumentará exponencialmente de 4.4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. Una pregunta para las grandes empresas es determinar quién debe poseer iniciativas de big data que afecten a toda la organización.
Los sistemas de gestión de bases de datos relacionales , estadísticas de escritorio y paquetes de software utilizados para visualizar datos a menudo tienen dificultades para manejar big data. El trabajo puede requerir un software masivamente paralelo que se ejecuta en decenas, cientos o incluso miles de servidores”. Lo que califica como “big data” varía según las capacidades de los usuarios y sus herramientas, y las capacidades de expansión hacen de big data un objetivo móvil. Para algunas organizaciones, enfrentar a cientos de gigabytes de datos por primera vez puede desencadenar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante.
Rompiendo las Vs de big data
Dichos datos voluminosos pueden provenir de innumerables fuentes diferentes, como sistemas de transacciones comerciales, bases de datos de clientes, registros médicos, registros de flujo de clics de Internet, aplicaciones móviles, redes sociales, los resultados recopilados de experimentos científicos, datos generados por máquinas y sensores de datos en tiempo real utilizados. En entornos de internet de las cosas ( IoT ). Los datos pueden dejarse en su forma original o preprocesarse utilizando herramientas de extracción de datos o software de preparación de datos antes de que se analicen.
Big data también abarca una amplia variedad de tipos de datos, incluidos datos estructurados en bases de datos SQL y almacenes de datos, datos no estructurados, como archivos de texto y documentos almacenados en clusters de Hadoop o sistemas NoSQL , y datos semiestructurados, como registros del servidor web o transmisión de datos desde sensores. Además, Big Data incluye múltiples fuentes de datos simultáneas, que de otro modo no podrían integrarse. Por ejemplo, un proyecto de análisis de datos grandes puede intentar medir el éxito de un producto y las ventas futuras mediante la correlación de datos de ventas pasadas, datos de retorno y datos de revisión de compradores en línea para ese producto.
La velocidad se refiere a la velocidad a la que se generan grandes datos y se deben procesar y analizar. En muchos casos, los conjuntos de big data se actualizan en tiempo real o casi en tiempo real, en comparación con las actualizaciones diarias, semanales o mensuales en muchos almacenes de datos tradicionales. Los proyectos de análisis de datos grandes ingieren, correlacionan y analizan los datos entrantes, y luego representan una respuesta o resultado basado en una consulta general .
Esto significa que los científicos de datos y otros analistas de datos deben tener una comprensión detallada de los datos disponibles y tener algún sentido de qué respuestas están buscando para asegurarse de que la información que obtienen es válida y actualizada. La velocidad también es importante a medida que el análisis de big data se expande en campos como el aprendizaje automático y la inteligencia artificial ( AI), donde los procesos analíticos encuentran automáticamente patrones en los datos recopilados y los utilizan para generar ideas.
La veracidad de los datos se refiere al grado de certeza en los conjuntos de datos. Los datos en bruto inciertos recopilados de múltiples fuentes, como las plataformas de redes sociales y las páginas web, pueden causar serios problemas de calidad de los datos que pueden ser difíciles de identificar. Por ejemplo, una compañía que recopila datos de cientos de fuentes puede identificar datos inexactos, pero sus analistas necesitan información sobre el linaje de los datos para rastrear dónde se almacenan los datos para que puedan corregir los problemas.
Los datos incorrectos conducen a un análisis inexacto y pueden socavar el valor de los análisis de negocios porque pueden hacer que los ejecutivos desconfíen de los datos en general. La cantidad de datos inciertos en una organización debe contabilizarse antes de que se utilice en aplicaciones de análisis de big data. Los equipos de TI y análisis también deben asegurarse de tener suficientes datos precisos disponibles para producir resultados válidos.
Algunos científicos de datos también agregan un quinto valor V a la lista de características de big data. Como se explicó anteriormente, no todos los datos recopilados tienen un valor comercial real y el uso de datos inexactos puede debilitar la información proporcionada por las aplicaciones de análisis. Es fundamental que las organizaciones empleen prácticas como la limpieza de datos y confirmen que los datos se relacionan con problemas comerciales relevantes antes de utilizarlos en un proyecto de análisis de big data.
La variabilidad también se aplica a menudo a conjuntos de big data, que son menos consistentes que los datos de transacciones convencionales y pueden tener múltiples significados o tener un formato diferente de una fuente de datos a otra, cosas que complican aún más los esfuerzos para procesar y analizar los datos. Algunas personas atribuyen aún más Vs a big data: los científicos y consultores de datos han creado varias listas con entre siete y 10 Vs.
Grandes prácticas de recopilación de datos, elogios y críticas.
Durante muchos años, las empresas han tenido pocas restricciones sobre el tipo de datos que recopilan de sus clientes. Las empresas utilizan el big data acumulado en sus sistemas para mejorar las operaciones, brindar un mejor servicio al cliente, crear campañas de marketing personalizadas basadas en las preferencias específicas de los clientes y, en última instancia, aumentar la rentabilidad. Los investigadores médicos también utilizan big data para identificar los factores de riesgo de la enfermedad. Los datos derivados de los registros de salud electrónicos, las redes sociales, la web y otras fuentes proporcionan información actualizada sobre amenazas de enfermedades infecciosas o brotes.
Pero a medida que aumenta la recolección y el uso de datos, también aumenta el uso indebido de los datos. Los ciudadanos preocupados que han experimentado el mal manejo de sus datos o han sido víctimas de una violación de datos están pidiendo leyes sobre la transparencia de la recopilación de datos y la privacidad de los datos del consumidor .
La protesta por violaciones a la privacidad personal llevó a la Unión Europea a aprobar el Reglamento General de Protección de Datos ( GDPR ), que entró en vigencia en mayo de 2018; limita los tipos de datos que las organizaciones pueden recopilar y requiere el consentimiento de los individuos. Si bien no existen leyes similares en los EE. UU., Los funcionarios del gobierno están investigando las prácticas de manejo de datos, específicamente entre las compañías que recopilan datos de consumidores y las venden a otras compañías para uso desconocido.
Cómo se almacenan y procesan los datos grandes
La necesidad de manejar la velocidad de big data impone demandas únicas en la infraestructura de cómputo subyacente. La potencia de cálculo necesaria para procesar rápidamente grandes volúmenes y variedades de datos puede abrumar a un solo servidor o clúster de servidores . Las organizaciones deben aplicar una capacidad de procesamiento adecuada a las tareas de big data para lograr la velocidad requerida. Esto puede potencialmente demandar cientos o miles de servidores que pueden distribuir el trabajo de procesamiento y operar en colaboración en una arquitectura en clúster.
Lograr tal velocidad de una manera rentable también es un desafío. Muchos líderes empresariales se muestran reticentes a invertir en una amplia infraestructura de servidores y almacenamiento para admitir grandes cargas de trabajo de datos, en particular las que no se ejecutan 24/7. Como resultado, la computación en la nube pública es ahora un vehículo principal para alojar sistemas de big data. Un proveedor de nube pública puede almacenar petabytes de datos y ampliar la cantidad necesaria de servidores el tiempo suficiente para completar un proyecto de análisis de big data. La empresa solo paga por el almacenamiento y el tiempo de procesamiento realmente utilizado, y las instancias de la nube pueden apagarse hasta que se necesiten nuevamente.
Para mejorar aún más los niveles de servicio, los proveedores de nube pública ofrecen capacidades de big data a través de servicios administrados que incluyen instancias de computación de Apache Hadoop altamente distribuidas , el motor de procesamiento de Apache Spark y tecnologías de big data relacionadas. Amazon Elastic MapReduce (EMR) de Amazon Web Services (AWS) es un ejemplo de un servicio de big data que se ejecuta en una nube pública; Otros incluyen Azure HDInsight de Microsoft y Google Cloud Dataproc . En entornos de nube, los datos grandes se pueden almacenar en el Sistema de archivos distribuidos de Hadoop ( HDFS ) o en el almacenamiento de objetos en la nube de menor costo, como el Servicio de almacenamiento simple de Amazon ( S3).); Las bases de datos NoSQL son otra opción en la nube para las aplicaciones que son adecuadas para ellas.
Para las organizaciones que desean implementar sistemas de big data en las instalaciones, las tecnologías de código abierto de Apache que se utilizan comúnmente, además de Hadoop y Spark, incluyen Yet Another Resource Negotiator ( YARN ), el administrador de recursos integrado de Hadoop y el programador de trabajos; el marco de programación de MapReduce ; Kafka , una plataforma de transmisión de datos y mensajería de aplicación a aplicación; la base de datos HBase ; y motores de consulta SQL-on-Hadoop como Drill, Hive, Impala y presto. Los usuarios pueden instalar las versiones de código abierto de las tecnologías en sí mismas o recurrir a las plataformas comerciales de big data ofrecidas por Cloudera, Hortonworks y MapR Technologies, que también son compatibles en la nube. Sin embargo, Cloudera y Hortonworks acordaron fusionarse en octubre de 2018, lo que probablemente reducirá el número de plataformas locales disponibles a dos.
El lado humano del análisis de big data.
En última instancia, el valor y la eficacia de Big Data dependen de los trabajadores encargados de comprender los datos y formular las consultas adecuadas para dirigir los proyectos de análisis de Big Data. Algunas herramientas de big data cumplen con nichos especializados y permiten que los usuarios menos técnicos utilicen los datos empresariales cotidianos en aplicaciones de análisis predictivo. Otras tecnologías, como los dispositivos de big data basados en Hadoop, ayudan a las empresas a implementar una infraestructura de cómputo adecuada para abordar proyectos de big data, al tiempo que minimizan la necesidad de hardware y conocimientos de software distribuidos.
Pero estas herramientas solo abordan casos de uso limitado. Muchas otras tareas de big data, como determinar la efectividad de un nuevo medicamento, pueden requerir una gran experiencia científica y computacional de un equipo de análisis. Pero encontrar tal experiencia puede ser un desafío: actualmente hay una escasez de científicos de datos y otros analistas que tienen experiencia trabajando con big data en un entorno de código abierto y distribuido.
Los datos grandes se pueden contrastar con datos pequeños , otro término en evolución que se usa a menudo para describir datos cuyo volumen y formato se pueden usar fácilmente para el análisis de autoservicio . Un axioma comúnmente citado es que “el big data es para máquinas; el small data es para las personas”.
Leer también: Los Centros de datos-datacenters- disminuyen porque los usuarios rentan más servidores ; ¿Que hace el software de análisis de texto, minería de texto o analísis de texto ; ¿Qué es el análisis de texto, extracción de textos o minería de textos?