Historia del Big Data

Historia del Big Data.El Big Data tiene una historia reciente y la parte oculta, como una herramienta de tecnología de la información y, como espacio virtual teniendo una importancia creciente volumen en el ciberespacio.

En octubre de 1997, el término “big data” apareció en los archivos de la Biblioteca Digital de la Association for Computing Machinery (ACM) en un artículo científico sobre los desafíos tecnológicos de la visualización de “grandes conjuntos de datos” .Octubre de 1997 Michael Cox y David Ellsworth publican ” Paginación de demanda controlada por aplicación para visualización fuera de núcleo ” en las Actas de la 8va conferencia de IEEE sobre visualización. Empiezan el artículo con “La visualización ofrece un desafío interesante para los sistemas informáticos: los conjuntos de datos son generalmente bastante grandes, lo que afecta la capacidad de la memoria principal, el disco local e incluso el disco remoto. A esto lo llamamos el problema del big data . “Cuando los conjuntos de datos no caben en la memoria principal ( en el núcleo ), o cuando no caben incluso en el disco local, la solución más común es adquirir más recursos”. Es el primer artículo en la biblioteca digital de ACM que usa el término “Big data”.

Sin embargo hay quien afirma que el término fue en realidad acuñado en 2005 por Roger Mougalas.
Sin embargo, la aplicación de big data y la búsqueda para comprender los datos disponibles es algo que existe desde hace mucho tiempo. De hecho, algunos de los primeros registros de la aplicación de datos para analizar y controlar las actividades de negocios datan de hace 7.000 años.

Esto fue con la introducción de la contabilidad en Mesopotamia para el registro de crecimiento de cultivos y pastoreo. Los principios continuaron creciendo y mejorando y John Graunt en 1663 registró y analizó información sobre la tasa de mortalidad en Londres. John Graunt hizo esto en un esfuerzo por crear conciencia sobre los efectos de la peste bubónica que estaba en curso en ese momento.

En su libro “Observaciones naturales y políticas hechas sobre los antecedentes de mortalidad”, John Graunt proporcionó al mundo el primer análisis estadístico de los datos jamás registrados. El libro fue una idea de las causas de la muerte en la Inglaterra del siglo XVII. Debido a su trabajo, John Graunt es considerado como el pionero en el campo de las estadísticas.

Después de las obras de Graunt, los principios de contabilidad continuaron mejorando y desarrollar, pero nada extraordinario bastante tuvo lugar hasta hace poco en la 20 ª siglo, cuando comenzó la era de la información. El punto de partida de los datos modernos comienza en 1889, cuando Herman Hollerith inventó un sistema informático en un intento de organizar los datos del censo.

Después del aporte de Herman Hollerith, el siguiente salto notable en el desarrollo de datos ocurrió en 1937 bajo la administración presidencial de Franklin D. Roosevelt en los Estados Unidos. Después de que el Congreso de los Estados Unidos aprobó la Ley de Seguridad Social, se requirió al gobierno que mantuviera un registro de millones de estadounidenses. El gobierno contrató a IBM para desarrollar un sistema de lectura de tarjetas perforadas que se aplicaría en este extenso proyecto de datos.

Sin embargo, la primera máquina de procesamiento de datos fue nombrada ‘ Colossus ‘ y fue desarrollada por los británicos para descifrar los códigos nazis en la Segunda Guerra Mundial, 1943. Esta máquina funcionó buscando cualquier patrón que apareciera regularmente en los mensajes interceptados. La máquina funcionó a una tasa récord de cinco mil caracteres por segundo, lo que redujo el trabajo que llevaría semanas a unas pocas horas.

1944 Fremont Rider, bibliotecario de la Universidad de Wesleyan, publica The Scholar and the Future of the Research Library . Él estima que las bibliotecas universitarias estadounidenses duplicaban su tamaño cada dieciséis años. Dada esta tasa de crecimiento, Rider especula que la Biblioteca de Yale en 2040 tendrá “aproximadamente 200,000,000 volúmenes, que ocuparán más de 6,000 millas de estantes … [que requerirán] un personal de catalogación de más de seis mil personas”.

A partir de este desarrollo, la Agencia de Seguridad Nacional (NSA) se creó en los Estados Unidos en 1952. Los empleados de la NSA tuvieron la tarea de descifrar los mensajes obtenidos durante el curso de la Guerra Fría. El desarrollo de máquinas en esta etapa había avanzado a un nivel en el que las máquinas podían recopilar y procesar información de forma independiente y automática.

1961 Derek Price publica Science Since Babylon , en la cual traza el crecimiento del conocimiento científico al observar el crecimiento en el número de revistas y artículos científicos. Concluye que el número de nuevas revistas ha crecido exponencialmente en lugar de linealmente, duplicándose cada quince años y aumentando en un factor de diez durante cada medio siglo. Price llama a esto la “ley del aumento exponencial”, explicando que “cada avance [científico] genera una nueva serie de avances a una tasa de natalidad razonablemente constante, de modo que el número de nacimientos es estrictamente proporcional al tamaño de la población de descubrimientos en en cualquier momento.”

El primer centro de datos fue construido por el gobierno de los Estados Unidos en 1965 con el propósito de almacenar millones de declaraciones de impuestos y conjuntos de huellas digitales. Esto se logró transfiriendo cada registro a cintas magnéticas que debían almacenarse sistemáticamente en una ubicación central. Este proyecto, sin embargo, no persistió debido al temor de sabotaje o adquisición. Sin embargo, es ampliamente aceptado que esta iniciativa fue el punto de partida del gran almacenamiento electrónico.

Noviembre de 1967, BA Marron y PAD de Maine publican ” Compresión automática de datos ” en las Comunicaciones de la ACM , declarando que “La” explosión de información “observada en los últimos años hace que sea esencial que los requisitos de almacenamiento de toda la información se mantengan al mínimo”. el documento describe “un compresor de tres partes completamente automático y rápido que se puede utilizar con ‘cualquier’ cuerpo de información para reducir en gran medida los requisitos de almacenamiento externo lento y para aumentar la velocidad de transmisión de información a través de una computadora”.

1971. Arthur Miller escribe en The Assault on Privacy que “demasiados manejadores de información parecen medir a un hombre por la cantidad de bits de capacidad de almacenamiento que ocupará su expediente”.

1975 El Ministerio de Correos y Telecomunicaciones de Japón comienza a realizar el Censo de flujo de información, rastreando el volumen de información que circula en Japón (la idea se sugirió por primera vez en un documento de 1969). El censo introduce “cantidad de palabras” como la unidad de medida unificadora en todos los medios. El censo de 1975 ya encontró que el suministro de información está aumentando mucho más rápido que el consumo de información y en 1978 informa que “la demanda de información proporcionada por los medios masivos, que son comunicación de una sola vía, se ha estancado, y la demanda de información proporcionada por personal Los medios de telecomunicación, que se caracterizan por comunicaciones de doble vía, han aumentado drásticamente … Nuestra sociedad se está moviendo hacia una nueva etapa … en la que se da más prioridad a la información segmentada y más detallada para satisfacer las necesidades individuales.

Abril de 1980 IA Tjomsland da una charla titulada “¿A dónde vamos?” En el Cuarto Simposio IEEE sobre Sistemas de Almacenamiento Masivo , en el que dice: “Aquellos asociados con dispositivos de almacenamiento se dieron cuenta hace tiempo de que la Primera Ley del Parkinson puede ser parafraseada para describir nuestra industria: ‘Los datos se expanden para llenar el espacio disponible’ … Creo que se están reteniendo grandes cantidades de datos porque los usuarios no tienen forma de identificar datos obsoletos; “Las penalizaciones por almacenar datos obsoletos son menos evidentes que las penalizaciones por descartar datos potencialmente útiles”.
Julio de 1986, Hal B. Becker publica: “¿Pueden los usuarios realmente absorber los datos a las tasas actuales? ¿Mañana? ”En Data Communications . Becker estima que “la densidad de recodificación lograda por Gutenberg fue de aproximadamente 500 símbolos (caracteres) por pulgada cúbica, 500 veces la densidad de las tabletas de arcilla [4.000 aC sumerios]. Para el año 2000, la memoria de acceso aleatorio de los semiconductores debería almacenar 1.25X10 ^ 11 bytes por pulgada cúbica “.

Tim Berners-Lee, un científico británico en computación, inventó la World Wide Web en 1989. La intención de Berners-Lee era permitir el intercambio de información a través de un sistema de hipertexto. No tenía idea de qué tipo de impacto tendría su invento en el mundo. Cuando entramos en la década de 1990, la creación de datos creció a una tasa extremadamente alta a medida que más dispositivos ganaban capacidad para acceder a Internet.

Septiembre de 1990 Peter J. Denning publica ” Saving All the Bits ” (PDF) en American Scientist. Dice Denning: “El imperativo [para que los científicos] guarden todos los bits nos obliga a una situación imposible: la velocidad y el volumen del flujo de información superan nuestras redes, dispositivos de almacenamiento y sistemas de recuperación, así como la capacidad humana de comprensión … ¿Qué máquinas podemos construir para monitorear el flujo de datos de un instrumento, o filtrar una base de datos de grabaciones y proponernos un resumen estadístico de lo que hay? … es posible construir máquinas que puedan reconocer o predecir patrones en datos sin entender el significado de los patrones. Esas máquinas pueden ser lo suficientemente rápidas para manejar grandes flujos de datos en tiempo real … Con estas máquinas, podemos reducir significativamente la cantidad de bits que se deben guardar, y podemos reducir la Peligro de perder descubrimientos latentes del entierro en una inmensa base de datos.

La primera súper computadora se construyó en 1995. Esta computadora tenía la capacidad de manejar el trabajo que llevaría a una sola persona miles de años en cuestión de segundos.

Agosto de 1999 Steve Bryson, David Kenwright, Michael Cox, David Ellsworth y Robert Haimes publican ” Explorando visualmente los conjuntos de datos de gigabytes en tiempo real ” en Comunicaciones de la ACM. Es el primer artículo del MCCA que utiliza el término “Big Data” (el título de una de las secciones del artículo es “Big Data para la visualización científica”). El artículo comienza con la siguiente declaración: “Las computadoras muy poderosas son una bendición para muchos campos de investigación. También son una maldición; Los cálculos rápidos arrojan enormes cantidades de datos. Donde los conjuntos de datos de megabyte alguna vez se consideraron grandes, ahora encontramos conjuntos de datos de simulaciones individuales en el rango de 300 GB. Pero comprender los datos resultantes de los cálculos de alto nivel es un esfuerzo significativo. Como lo ha dicho más de un científico, es simplemente difícil mirar todos los números. Y como Richard W. Hamming, matemático y científico informático pionero, señaló, el propósito de la computación es la visión, no los números “.

Octubre de 2000 Peter Lyman y Hal R. Varian en UC Berkeley publican “ ¿Cuánta información?”Es el primer estudio completo que cuantifica, en términos de almacenamiento en computadora, la cantidad total de información nueva y original (sin contar las copias) que se crea anualmente en el mundo y se almacena en cuatro medios físicos: papel, película, óptica (CD y DVD) , y magnetica. El estudio encuentra que en 1999, el mundo produjo aproximadamente 1.5 exabytes de información única, o aproximadamente 250 megabytes por cada hombre, mujer y niño en la tierra. También encuentra que “una gran cantidad de información única es creada y almacenada por individuos” (lo que se denomina “democratización de datos”) y que “no solo la producción de información digital es la más grande en total, sino que también es la de mayor crecimiento”. “. Llamando a este hallazgo” dominancia de lo digital “, Lyman y Varian afirman que” incluso hoy en día, la mayoría de la información textual es ‘nace digital, encontró que el mundo produjo aproximadamente 5 exabytes de información nueva en 2002 y que el 92% de la información nueva se almacenaba en medios magnéticos, principalmente en discos duros.

Noviembre de 2000 Francis X. Diebold presenta al Octavo Congreso Mundial de la Econometric Society un documento titulado ” Modelos de Factor Dinámico ” Big Data ‘para Mediciones y Predicciones Macroeconómicas (PDF)”, en el que dice “Recientemente, mucha ciencia buena, ya sea física , biológico o social, se ha visto obligado a enfrentar, y con frecuencia se ha beneficiado de, el fenómeno de los “grandes datos”. Big Data se refiere a la explosión en la cantidad (y, a veces, calidad) de datos disponibles y potencialmente relevantes, en gran medida el resultado de avances recientes y sin precedentes en la tecnología de almacenamiento y almacenamiento de datos “.

Febrero de 2001 Doug Laney, analista del Meta Group, publica una nota de investigación titulada ” Gestión de datos en 3D: control del volumen de datos, velocidad y variedad “. Una década más tarde, los “3Vs” se han convertido en las tres dimensiones definitorias generalmente aceptadas de Big data, aunque el término en sí no aparece en la nota de Laney.

Según V. Tréguier (2014) y según la “muy corta historia de big data” publicada por Gil Press en 2013 para el período 1944-2012, su nacimiento está vinculado al progreso de los sistemas de almacenamiento, excavación y análisis de Información digitalizada, que permitió una especie de gran explosión de información almacenada y luego un crecimiento inflacionario del universo de datos digitalizados. Pero sus premisas se encuentran en la encrucijada de la cibernética y las corrientes de pensamiento nacidas durante la Segunda Guerra Mundial , según las cuales el hombre y el mundo pueden representarse como “Conjuntos de información, la única diferencia con la máquina es su nivel de complejidad. La vida se convertiría entonces en una secuencia de 0 y 1, programable y predecible ” agrega V. Tréguier.

Las evoluciones que caracterizan a los grandes datos y sus algoritmos , así como los de la ciencia de datos, están en parte ocultos (dentro de los servicios de inteligencia de los grandes estados) y son tan rápidos y potencialmente profundos que es probable que pocos futuristas predigan su futuro a medio y a largo plazo , pero la mayoría de los observadores ven las cuestiones importantes para el futuro, tanto en términos de oportunidades de negocio como en conmociones socio-políticos y militares, en particular, con el riesgo de la aparición de sistemas ubicuos , orwelliano y totalitario que puede controlar, monitorear y / o influenciar fuertemente a individuos y grupos.

Los riesgos de abuso por parte de los gobiernos o empresas en su mayoría se han descrito por primera vez por Orwell al final de la última guerra mundial, y muchas veces por la ciencia ficción . Con la aparición de grandes bases de datos de los años 1970 (y durante todo el período de la guerra fría ) muchos autores están preocupados por los riesgos asumidos para la protección de la privacidad , especialmente P A. Miller quien cita el ejemplo del crecimiento de datos almacenados relacionados con la salud física y mental de las personas .

En el 2000, Froomkin, en un artículo en Stanford Law Review , se preguntaba si la privacidad no estaba ya muerta, pero fueron las revelaciones de Edward Snowden (2013) las que provocaron una nueva versión de Sensibilización e importantes movimientos de protesta ciudadana.
Los cuatro derechos y los ” estados básicos de privacidad ” establecidos por Westin en 1962 (derecho a la soledad , intimidad , anonimato en la multitud y en la reserva ) están amenazados de varias maneras. Aumenta el número de situaciones, así como la protección del contenido de los correos electrónicos, que es parte del derecho a la privacidad  .

Desde 2005

Septiembre de 2005 Tim O’Reilly publica ” What is Web 2.0 ” en el que afirma que “los datos son el próximo Intel en su interior”. O’Reilly: “Como comentó Hal Varian en una conversación personal el año pasado, ‘SQL es el nuevo HTML. ‘ La gestión de la base de datos es una competencia central de las compañías de la Web 2.0, tanto que a veces nos hemos referido a estas aplicaciones como ‘infoware’ en lugar de simplemente software ”.

En el mismo año (2005), Yahoo creó el Hadoop, ahora de código abierto, con la intención de indexar todo el World Wide Web. Hoy en día, millones de empresas utilizan Hadoop para analizar grandes cantidades de datos.

Marzo de 2007 John F. Gantz, David Reinsel y otros investigadores en IDC publican un documento técnico titulado “ El universo digital en expansión: un pronóstico del crecimiento de la información mundial hasta 2010 (PDF)”. Es el primer estudio que calcula y pronostica la cantidad de Datos digitales creados y replicados cada año. IDC estima que en 2006, el mundo creó 161 exabytes de datos y pronostica que entre 2006 y 2010, la información que se agrega anualmente al universo digital se multiplicará por seis a 988 exabytes, o se duplicará cada 18 meses. De acuerdo con las versiones de 2010 (PDF) y 2012 (PDF) del mismo estudio, la cantidad de datos digitales creados anualmente superó esta previsión, alcanzando 1227 exabytes en 2010 y creciendo a 2837 exabytes en 2012.

Enero de 2008 Bret Swanson y George Gilder publican ” Estimating the Exaflood (PDF)”, en el que proyectan que el tráfico IP de los EE. UU. Podría alcanzar un zettabyte para 2015 y que la Internet de 2015 de los EE. UU. Será al menos 50 veces más grande que en 2006 .

Junio ​​de 2008 Cisco lanza el ” Índice de redes visuales de Cisco – Pronóstico y metodología, 2007-2012 (PDF)” parte de una “iniciativa continua para rastrear y pronosticar el impacto de las aplicaciones de redes visuales”. Predice que “el tráfico IP casi se duplicará cada dos años hasta el 2012 ”y que llegará a la mitad de un zettabyte en 2012. El pronóstico se mantuvo bien, ya que el último informe de Cisco (30 de mayo de 2012) estima que el tráfico de IP en 2012 es de poco más de la mitad de un zettabyte y señala que“ se ha multiplicado por ocho. Los últimos 5 años “.

Septiembre de 2008 Un número especial de Nature on Big Data “examina qué significan los grandes conjuntos de datos para la ciencia contemporánea”.

Diciembre de 2008 Randal E. Bryant, Randy H. Katz y Edward D. Lazowska publican ” Computación de grandes datos: Creando avances revolucionarios en comercio, ciencia y sociedad (PDF)”. Escriben: “Así como los motores de búsqueda han transformado nuestra forma de El acceso a la información, otras formas de computación de grandes volúmenes de datos pueden y van a transformar las actividades de compañías, investigadores científicos, médicos y las operaciones de defensa e inteligencia de nuestra nación … La computación de grandes volúmenes de datos es quizás la mayor innovación en computación en la última década. Apenas hemos comenzado a ver su potencial para recopilar, organizar y procesar datos en todos los ámbitos de la vida. Una modesta inversión por parte del gobierno federal podría acelerar enormemente su desarrollo y despliegue “.

Diciembre de 2009 Roger E. Bohn y James E. Short publican “ ¿Cuánta información? Informe de 2009 sobre los consumidores estadounidenses . “El estudio encuentra que en 2008,” los estadounidenses consumieron información durante aproximadamente 1.3 billones de horas, un promedio de casi 12 horas por día. El consumo totalizó 3.6 Zettabytes y 10,845 billones de palabras, lo que corresponde a 100,500 palabras y 34 gigabytes para una persona promedio en un día promedio “. Bohn, Short y Chattanya Baru siguen esto en enero de 2011 con” ¿Cuánta información? Informe 2010 sobre información de Enterprise Server”, En el que estiman que en 2008,” los servidores del mundo procesaron 9.57 Zettabytes de información, casi 10 a la potencia 22, o diez millones de millones de gigabytes. Esto era 12 gigabytes de información por día para el trabajador promedio, o aproximadamente 3 terabytes de información por trabajador por año. Las empresas del mundo en promedio procesaron 63 terabytes de información anualmente ”.

Durante este período, las redes sociales aumentaron rápidamente y se creaban grandes cantidades de datos a diario. Empresas y gobiernos por igual comenzaron a establecer proyectos de big data. Por ejemplo, en 2009, en la base de datos biométrica más grande jamás creada, el gobierno de la India almacenó las huellas dactilares y los escáneres de iris de todos sus ciudadanos.

Eric Schmidt pronunció un discurso en la conferencia de Techonomy en Lake Tahoe, California, en 2010. En su discurso, presentó que había 5 exabytes de datos almacenados desde el principio de los tiempos hasta el año 2003. Es posible que Eric Schmidt no pudiera imaginar que, por la En el año 2016, normalmente se crearía la misma cantidad de datos cada dos días. La velocidad a la que crece el big data tampoco parece estar disminuyendo.

Abril de 2012 El International Journal of Communications publica una Sección especial titulada “Capacidad de información” sobre las metodologías y los resultados de diversos estudios que miden el volumen de información. En “ Seguimiento del flujo de información hacia el hogar (PDF),” Neuman, Park y Panek (siguiendo la metodología utilizada por el MPT y Pool de Japón anterior) estiman que el suministro total de medios a los hogares de los EE. UU. Ha aumentado de unos 50,000 minutos por día en 1960 a cerca de 900,000 en 2005. Y considerando la relación entre la oferta y la demanda en 2005, estiman que las personas en los Estados Unidos están “acercándose a mil minutos de contenido mediado disponible por cada minuto disponible para el consumo”. En ” Producción Internacional y Difusión de Información(PDF), ”Bounie y Gille (siguiendo a Lyman y Varian arriba) estiman que el mundo produjo 14.7 exabytes de información nueva en 2008, casi el triple del volumen de información en 2003.

Mayo de 2012 danah boyd y Kate Crawford publican “Preguntas críticas para Big Data” en Información, Comunicaciones y Sociedad . Definen el big data como “un fenómeno cultural, tecnológico y académico que se basa en la interacción de: (1) Tecnología: maximizar la potencia de cálculo y la precisión algorítmica para recopilar, analizar, vincular y comparar grandes conjuntos de datos. (2) Análisis: recurrir a grandes conjuntos de datos para identificar patrones con el fin de realizar reclamaciones económicas, sociales, técnicas y legales. (3) Mitología: la creencia generalizada de que los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento que puede generar ideas que antes eran imposibles, con el aura de verdad, objetividad y precisión “.

En los últimos años, ha habido varias organizaciones que han surgido en un intento de tratar con big data, por ejemplo, HCL . El negocio de estas organizaciones está ayudando a otros negocios a entender big data. Cada día más y más empresas se están moviendo hacia la aceptación y explotación de datos grandes.

Aunque parece que el big data ha existido por mucho tiempo y que nos estamos acercando al pináculo, el big data puede estar en sus etapas formidables. Los grandes datos en el futuro cercano pueden hacer que los grandes datos parezcan ahora una cantidad de aves (gallinas) de corral.

Qué depara el futuro

Mirar en la historia puede darnos una pequeña visión del futuro. Hace dos décadas, las empresas que poseían información fueron las más exitosas, mientras que hoy en día, las empresas más exitosas son las que interpretan y utilizan la información de la mejor manera.

Puede ser justo suponer que, en el futuro, el éxito de las empresas dependerá no solo de quienes analizan e implementan Big Data de la mejor manera, sino también de quienes usan Big Data para su mayor ventaja y toman decisiones estratégicas para el futuro.

Angel Eulises Ortiz