Tecnologías de Big Data

Tecnologías de Big Data.El desarrollo de aplicaciones de Big Data se ha vuelto cada vez más importante en los últimos años. De hecho, varias organizaciones de diferentes sectores dependen cada vez más del conocimiento extraído de grandes volúmenes de datos. Sin embargo, en el contexto de Big Data, las técnicas y plataformas de datos tradicionales son menos eficientes.

Muestran una respuesta lenta y falta de escalabilidad , rendimiento y precisión. Para enfrentar los complejos desafíos de Big Data, se ha trabajado mucho. Como resultado, se han desarrollado varios tipos de distribuciones y tecnologías. Este artículo es una revisión que analiza las tecnologías recientes desarrolladas para Big Data. Su objetivo es ayudar a seleccionar y adoptar la combinación correcta de diferentes tecnologías de Big Data.De acuerdo a sus necesidades tecnológicas y requerimientos de aplicaciones específicas . Proporciona no solo una vista global de las principales tecnologías de Big Data, sino también comparaciones según las diferentes capas del sistema, como la capa de almacenamiento de datos, la capa de procesamiento de datos, la capa de consulta de datos, la capa de acceso a datos y la capa de administración . Categoriza y discute las principales características, ventajas, límites y usos de las tecnologías.

Anteriormente a la revolución de Big Data , las empresas no podían almacenar todos sus archivos durante largos periodos ni gestionar de forma eficiente grandes conjuntos de datos . De hecho, las tecnologías tradicionales tienen una capacidad de almacenamiento limitada , herramientas de administración rígidas y son caras. Carecen de escalabilidad , flexibilidad y rendimiento necesarios en el contexto de Big Data. De hecho, la gestión de Big Data requiere recursos significativos, nuevos métodos y tecnologías potentes. Más precisamente, Big Data requiere limpiar, procesar, analizar, asegurar y proporcionar un acceso granulara conjuntos de datos en evolución masiva. Las empresas y las industrias son más conscientes de que el análisis de datos se está convirtiendo cada vez más en un factor vital para ser competitivo, descubrir nuevas perspectivas y personalizar los servicios.

Como resultado de los diferentes proyectos de Big Data en todo el mundo, se crearon muchos modelos, marcos y nuevas tecnologías de Big Data para proporcionar más capacidad de almacenamiento, procesamiento paralelo y análisis en tiempo real de diferentes fuentes heterogéneas. Además, se han desarrollado nuevas soluciones para garantizar la privacidad y la seguridad de los datos . En comparación con las tecnologías tradicionales, estas soluciones ofrecen más flexibilidad, escalabilidad y rendimiento. Además, el costo de la mayoría de las soluciones de almacenamiento y procesamiento de hardware está disminuyendo continuamente debido al avance tecnológico sostenible.

Para extraer el conocimiento de Big Data, se han diseñado y propuesto varios modelos, programas, software, hardware y tecnologías. Intentan garantizar resultados más precisos y confiables para las aplicaciones de Big Data . Sin embargo, en ese entorno, puede llevar mucho tiempo y ser un desafío elegir entre numerosas tecnologías. De hecho, deben considerarse muchos parámetros: compatibilidad tecnológica, complejidad de implementación, costo, eficiencia , rendimiento, confiabilidad, soporte y riesgos de seguridad. Existen muchas encuestas de Big Data en la literatura, pero la mayoría de ellas tienden a centrarse en los algoritmos y enfoques utilizados para procesar Big Data en lugar de tecnologías.

15 tecnologías de Big Data para ver

La lista de proveedores de tecnología que ofrecen soluciones de big data es aparentemente infinita. Muchas de las soluciones de big data que son particularmente populares en este momento encajan en una de las siguientes 15 categorías:

El ecosistema de Hadoop

Si bien Apache Hadoop puede no ser tan dominante como lo fue antes, es casi imposible hablar de big data sin mencionar este marco de código abierto para el procesamiento distribuido de grandes conjuntos de datos. El año pasado, según Forrester , «el 100% de todas las grandes empresas lo adoptarán (Hadoop y tecnologías relacionadas, como Spark) para el análisis de big data en los próximos dos años».

A lo largo de los años, Hadoop ha crecido para abarcar todo un ecosistema de software relacionado, y muchas soluciones comerciales de big data se basan en Hadoop. De hecho, Zion Market Research pronostica que el mercado de productos y servicios basados ​​en Hadoop continuará creciendo a una tasa compuesta anual del 50 por ciento hasta 2022, cuando tendrá un valor de $ 87.14 mil millones, frente a los $ 7.69 mil millones en 2016.

Los proveedores clave de Hadoop incluyen Cloudera, Hortonworks y MapR, y las principales nubes públicas ofrecen servicios compatibles con la tecnología.

Spark

Apache Spark es parte del ecosistema de Hadoop, pero su uso se ha generalizado tanto que merece una categoría propia. Es un motor para procesar big data dentro de Hadoop, y es hasta cien veces más rápido que el motor estándar de Hadoop, MapReduce.

En la Encuesta de Madurez de Big Data de AtScale 2016 , el 25 por ciento de los encuestados dijo que ya había implementado Spark en la producción, y el 33 por ciento más tenía proyectos de Spark en desarrollo. Claramente, el interés en la tecnología es considerable y está creciendo, y muchos proveedores con ofertas de Hadoop también ofrecen productos basados ​​en Spark.

R

R , otro proyecto de código abierto, es un lenguaje de programación y un entorno de software diseñado para trabajar con estadísticas. El favorito de los científicos de datos, es administrado por la Fundación R y disponible bajo la licencia GPL 2. Muchos entornos de desarrollo integrado (IDE) populares, incluidos Eclipse y Visual Studio, admiten el lenguaje.

Varias organizaciones que clasifican la popularidad de varios lenguajes de programación dicen que R se ha convertido en uno de los lenguajes más populares del mundo. Por ejemplo, el IEEE dice que R es el quinto lenguaje de programación más popular, y tanto Tiobe como RedMonk lo clasifican en el puesto 14. Esto es importante porque los lenguajes de programación que se encuentran cerca de la parte superior de estas tablas son generalmente lenguajes de propósito general que se pueden usar para diferentes tipos de trabajo. Para un lenguaje que se usa casi exclusivamente para los proyectos de big data, estar tan cerca de la cima demuestra la importancia de los grandes datos y la importancia de este lenguaje en su campo.

Data Lakes

Para facilitar el acceso a sus grandes almacenes de datos, muchas empresas están configurando lagos de datos . Estos son enormes depósitos de datos que recopilan datos de diferentes fuentes y los almacenan en su estado natural. Esto es diferente a un almacén de datos, que también recopila datos de diferentes fuentes, pero los procesa y los estructura para su almacenamiento. En este caso, las metáforas del lago y del almacén son bastante precisas. Si los datos son como el agua, un lago de datos es natural y no se filtra como un cuerpo de agua, mientras que un almacén de datos es más como una colección de botellas de agua almacenadas en estantes.

Los lagos de datos son particularmente atractivos cuando las empresas quieren almacenar datos pero aún no están seguros de cómo podrían usarlos. Muchos datos de Internet de las cosas (IoT) podrían encajar en esa categoría, y la tendencia de IoT está contribuyendo al crecimiento de los lagos de datos.

Los expertos de la industria predicen que los ingresos del lago de datos crecerán de $ 2.53 mil millones en 2016 a $ 8.81 mil millones para 2021.

Bases de datos NoSQL

Los sistemas de gestión de bases de datos relacionales tradicionales (RDBMS) almacenan información en columnas y filas definidas y estructuradas . Los desarrolladores y administradores de bases de datos consultan, manipulan y administran los datos en esos RDBMS utilizando un lenguaje especial conocido como SQL.

Las bases de datos NoSQL se especializan en almacenar datos no estructurados y proporcionar un rendimiento rápido, aunque no proporcionan el mismo nivel de coherencia que los RDBMS. Las bases de datos populares de NoSQL incluyen MongoDB, Redis, Cassandra, Couchbase y muchas otras; incluso los proveedores líderes de RDBMS como Oracle e IBM ahora también ofrecen bases de datos NoSQL.

Las bases de datos NoSQL se han vuelto cada vez más populares a medida que la tendencia de big data ha crecido. Según Allied Market Research, el mercado NoSQL podría tener un valor de $ 4,2 mil millones para 2020. Sin embargo, el mercado para RDBMS es todavía mucho más grande que el mercado para NoSQL.

Análisis predictivo

El análisis predictivo es un subconjunto de análisis de big data que intenta pronosticar eventos o comportamientos futuros basados ​​en datos históricos. Se basa en técnicas de minería de datos, modelado y aprendizaje automático para predecir lo que sucederá a continuación. A menudo se utiliza para la detección de fraudes, puntuación de crédito, marketing, finanzas y análisis de negocios.

En los últimos años, los avances en inteligencia artificial han permitido grandes mejoras en las capacidades de las soluciones de análisis predictivo. Como resultado, las empresas han comenzado a invertir más en soluciones de big data con capacidades predictivas. Muchos proveedores, incluidos Microsoft, IBM, SAP, SAS, Statistica, RapidMiner, KNIME y otros, ofrecen soluciones de análisis predictivo. Zion Market Research dice que el mercado de Predictive Analytics generó $ 3.49 mil millones en ingresos en 2016, una cifra que podría llegar a $ 10.95 mil millones para 2022.

Bases de datos en memoria

En cualquier sistema informático, la memoria, también conocida como RAM, es una orden de magnitud más rápida que el almacenamiento a largo plazo. Si una solución de análisis de datos grandes puede procesar datos que se almacenan en la memoria, en lugar de los datos almacenados en un disco duro, puede funcionar mucho más rápido. Y eso es exactamente lo que hace la tecnología de base de datos en memoria.

Muchos de los principales proveedores de software empresarial, incluidos SAP, Oracle, Microsoft e IBM, ahora ofrecen tecnología de base de datos en memoria. Además, varias empresas más pequeñas como Teradata, Tableau, Volt DB y DataStax ofrecen soluciones de base de datos en memoria. La investigación de MarketsandMarkets estima que las ventas totales de tecnología en memoria fueron de $ 2.72 mil millones en 2016 y pueden aumentar a $ 6.58 mil millones para 2021.

Soluciones de seguridad de Big Data

Debido a que los repositorios de big data presentan un objetivo atractivo para los piratas informáticos y amenazas persistentes avanzadas, la seguridad de big data es una preocupación grande y creciente para las empresas. En la encuesta de AtScale, la seguridad fue la segunda área de preocupación de mayor crecimiento en relación con los grandes datos.

Según el informe de IDG, los tipos más populares de soluciones de seguridad de big data incluyen controles de identidad y acceso (utilizados por el 59 por ciento de los encuestados), cifrado de datos (52 por ciento) y segregación de datos (42 por ciento). Docenas de proveedores ofrecen soluciones de seguridad de datos grandes, y Apache Ranger , un proyecto de código abierto del ecosistema Hadoop, también está atrayendo una atención cada vez mayor.

Soluciones de Big Data Governance

Muy relacionado con la idea de seguridad está el concepto de gobernanza. El control de los datos es un tema amplio que abarca todos los procesos relacionados con la disponibilidad, la facilidad de uso y la integridad de los datos. Proporciona la base para asegurarse de que los datos utilizados para el análisis de big data sean precisos y apropiados, así como un registro de auditoría para que los analistas o ejecutivos de negocios puedan ver dónde se originaron los datos.

En la encuesta NewVantage Partners, el 91.8 por ciento de los ejecutivos de Fortune 1000 encuestados dijeron que la gobernabilidad era muy importante (52.5 por ciento) o importante (39.3 por ciento) para sus iniciativas de big data. Los proveedores que ofrecen herramientas de gestión de big data incluyen Collibra, IBM, SAS, Informatica, Adaptive y SAP.

Capacidades de autoservicio

Dado que los científicos de datos y otros expertos en big data son escasos y exigen grandes salarios, muchas organizaciones están buscando herramientas de análisis de big data que permitan a los usuarios de negocios autoservicio de sus propias necesidades. De hecho, un informe de Research and Markets estima que el mercado de autoservicio de inteligencia empresarial generó $ 3,61 mil millones en ingresos en 2016 y podría aumentar a $ 7,31 mil millones para 2021. Y Gartner ha notado: «La moderna plataforma de BI y análisis surgió en la última «pocos años para cumplir con los nuevos requisitos organizativos de accesibilidad, agilidad y una visión analítica más profunda, cambiando el mercado de los informes del sistema de registro liderados por TI al análisis ágil dirigido por la empresa, incluido el autoservicio».

Con la esperanza de aprovechar esta tendencia, los proveedores de múltiples analíticas de inteligencia empresarial y big data, como Tableau, Microsoft, IBM, SAP, Splunk, Syncsort, SAS, TIBCO, Oracle y otros han agregado capacidades de autoservicio a sus soluciones. El tiempo dirá si alguno o todos los productos son realmente utilizables por los no expertos y si proporcionarán el valor comercial que las organizaciones esperan lograr con sus iniciativas de big data.

Inteligencia artificial

Si bien el concepto de inteligencia artificial (IA) ha existido durante casi todo el tiempo que ha habido computadoras, la tecnología solo se ha vuelto realmente útil en los últimos dos años. En muchos sentidos, la tendencia de big data ha impulsado avances en la inteligencia artificial, especialmente en dos subconjuntos de la disciplina: aprendizaje automático y aprendizaje profundo.

La definición estándar de aprendizaje automático es que es la tecnología la que le da a «las computadoras la capacidad de aprender sin ser programadas explícitamente». En el análisis de big data, la tecnología de aprendizaje automático permite a los sistemas observar datos históricos, reconocer patrones, construir modelos y predecir resultados futuros. También está estrechamente asociado con el análisis predictivo.

El aprendizaje profundo es un tipo de tecnología de aprendizaje automático que se basa en redes neuronales artificiales y utiliza múltiples capas de algoritmos para analizar datos. Como campo, tiene una gran promesa al permitir que las herramientas de análisis reconozcan el contenido en imágenes y videos y luego lo procesen en consecuencia.

Los expertos dicen que esta área de herramientas de big data parece estar preparada para un despegue dramático. IDC predijo: «Para 2019, el 75 por ciento del desarrollo empresarial e ISV incluirá la funcionalidad cognitiva / IA o de aprendizaje automático en al menos una aplicación, incluidas todas las herramientas de análisis de negocios».

Los principales proveedores de inteligencia artificial con herramientas relacionadas con big data incluyen los servicios web de Google, IBM, Microsoft y Amazon, y docenas de pequeñas empresas emergentes están desarrollando tecnología de inteligencia artificial (y son adquiridas por los proveedores de tecnología más grandes).

Análisis de streaming

A medida que las organizaciones se han familiarizado con las capacidades de las soluciones de análisis de big data, han comenzado a exigir un acceso más rápido a las perspectivas. Para estas empresas, la analítica en tiempo real con la capacidad de analizar datos a medida que se crean, es algo así como un santo grial. Están buscando soluciones que puedan aceptar aportaciones de múltiples fuentes dispares, procesarlas y brindar información de inmediato, o lo más cerca posible. Esto es particularmente deseable cuando se trata de nuevas implementaciones de IoT, que están ayudando a impulsar el interés en la transmisión de análisis de big data.

Varios proveedores ofrecen productos que prometen capacidades de análisis de transmisión. Incluyen IBM, Software AG, SAP, TIBCO, Oracle, DataTorrent, SQLstream, Cisco, Informatica y otros. MarketsandMarkets cree que las soluciones de análisis de transmisión generaron $ 3.08 mil millones en ingresos en 2016, que podrían aumentar a $ 13,70 mil millones para 2021.

Edge Computing

Además de estimular el interés en los análisis de transmisión, la tendencia de IoT también está generando interés en la computación de vanguardia. De alguna manera, la computación perimetral es lo opuesto a la computación en la nube. En lugar de transmitir datos a un servidor centralizado para su análisis, los sistemas de computación perimetral analizan los datos muy cerca de donde se crearon, en el borde de la red.

La ventaja de un sistema informático de borde es que reduce la cantidad de información que debe transmitirse a través de la red, lo que reduce el tráfico de red y los costos relacionados. También disminuye la demanda de centros de datos o instalaciones de computación en la nube, lo que libera la capacidad para otras cargas de trabajo y elimina un posible punto único de falla.

Si bien el mercado de la computación de vanguardia, y más específicamente de la analítica de computación de vanguardia, aún se está desarrollando, algunos analistas y capitalistas de riesgo han comenzado a llamar a la tecnología «la próxima gran cosa».

Blockchain

También una de las tecnologías de bases de datos distribuidas que subyace en la moneda digital de Bitcoin es una de las cadenas de datos de base de datos distribuidas por Bitcoin. La característica única de una base de datos de blockchain es que una vez que los datos se han escrito, no se pueden eliminar ni cambiar después de que se haya realizado. Además, es altamente seguro, lo que lo convierte en una excelente opción para aplicaciones de big data en industrias sensibles como banca, seguros, salud , minoristas y otros.

La tecnología Blockchain aún está en su infancia y los casos de uso aún están en desarrollo. Sin embargo, varios proveedores, incluidos IBM, AWS, Microsoft y varias empresas de inicio, han implementado soluciones experimentales o introductorias basadas en la tecnología blockchain.

Analítica prescriptiva

Muchos analistas dividen las herramientas de análisis de big data en cuatro grandes categorías. El primero, el análisis descriptivo, simplemente cuenta lo que sucedió. El siguiente tipo, el análisis de diagnóstico, va un paso más allá y proporciona una razón por la que ocurrieron los eventos. El tercer tipo, el análisis predictivo, analizado en profundidad anteriormente, intenta determinar qué sucederá a continuación. Esto es tan sofisticado como la mayoría de las herramientas de análisis actualmente disponibles en el mercado.

Sin embargo, hay un cuarto tipo de análisis que es aún más sofisticado, aunque hay muy pocos productos con estas capacidades disponibles en este momento. El análisis prescriptivo ofrece asesoramiento a las empresas sobre lo que deben hacer para que se logre el resultado deseado. Por ejemplo, si bien el análisis predictivo puede advertir a una empresa que el mercado para una línea de productos en particular está a punto de disminuir, el análisis prescriptivo analizará varios cursos de acción en respuesta a esos cambios del mercado y pronosticará los resultados más probables.

Actualmente, muy pocas empresas han invertido en análisis prescriptivo, pero muchos analistas creen que esta será la próxima gran área de inversión después de que las organizaciones comiencen a experimentar los beneficios del análisis predictivo.

El mercado de las tecnologías de big data es diverso y está en constante cambio. Pero quizás un día las herramientas de análisis predictivo y prescriptivo pronto ofrezcan consejos sobre lo que vendrá a continuación para big data, y qué deben hacer las empresas al respecto.

Consultar también: Elasticsearch – Facilitando el análisis de Big Data

This post is also available in: Español