Historia del data science, la ciencia de datos. ¿Cual fue su origen? ¿Cómo ha evolucionado a lo largo del tiempo? La historia de cómo los científicos de los datos se volvieron atractivos es principalmente la historia de la unión de la disciplina madura de las estadísticas con una muy joven: la informática.
Introducción
Mirando hacia atrás en la historia temprana de la ciencia de datos, podemos ver que dos temas están estrechamente relacionados: Big Data significa un mayor uso de computadoras y es difícil para los estadísticos implementar algoritmos escritos en papel en computadoras.
De ahí surgió la ciencia de datos. Sin embargo, al comienzo de su desarrollo, debido a que no existían herramientas sofisticadas, paradigmas mágicos y ninguna ciencia nueva que lo respaldara, el término “ciencia de datos” no era muy popular. No fue hasta la década de 1980 que comenzó a utilizar datos. métodos de minería.
Con el paso del tiempo, el procesamiento científico de datos ha alcanzado nuevas alturas, y la ciencia de datos llamó a la puerta de la academia en 1996.
Después de ingresar al siglo XXI, la aparición de Internet ha aumentado considerablemente la cantidad de datos disponibles y el campo de la ciencia de datos finalmente ha florecido. Para 2020, se generarán alrededor de 1,7 billones de información nueva cada segundo, y estos enormes datos han creado un suelo fértil para la aplicación de la ciencia de datos, lo que a su vez hace posible crear un milagro tras otro.
El término “Ciencia de datos” surgió recientemente para designar específicamente una nueva profesión que se espera que dé sentido a las vastas tiendas de big data. Pero dar sentido a los datos tiene una larga historia y ha sido discutido por científicos, estadísticos, bibliotecarios, informáticos y otros durante años. La siguiente línea de tiempo traza la evolución del término “Ciencia de datos” y su uso, intenta definirlo y los términos relacionados.
1962
John W. Tukey escribe en ” El futuro del análisis de datos “: “Durante mucho tiempo pensé que era un estadístico, interesado en inferencias de lo particular a lo general. Pero a medida que observé la evolución de las estadísticas matemáticas, tuve motivos para preguntarme y dudar … Llegué a sentir que mi interés central está en el análisis de datos…. El análisis de datos, y las partes de las estadísticas que se adhieren a él, deben … asumir las características de la ciencia en lugar de las matemáticas … el análisis de datos es intrínsecamente una ciencia empírica …
Qué vital y qué importante … es el auge del programa almacenado computadora electrónica En muchos casos, la respuesta puede sorprender a muchos por ser “importante pero no vital”, aunque en otros no hay duda, pero la computadora ha sido “vital”.
1974: Historia del data science
Peter Naur publica Encuesta concisa de métodos computacionales en Suecia y los Estados Unidos. El libro es una encuesta de los métodos contemporáneos de procesamiento de datos que se utilizan en una amplia gama de aplicaciones. Se organiza en torno al concepto de datos, tal como se define en la Guía IFIP de conceptos y términos en el procesamiento de datos.: “[Los datos son] una representación de hechos o ideas de una manera formal que puede ser comunicada o manipulada por algún proceso.”
El Prefacio del libro le dice al lector que un plan de curso se presentó en el Congreso de la IFIP en 1968, titulado ” Datalogía, la ciencia de los datos y de los procesos de datos y su lugar en la educación, “y que en el texto del libro,” el término ‘ciencia de datos’ se ha usado libremente “. Naur ofrece la siguiente definición de ciencia de datos:” “La ciencia de tratar con datos, una vez que se han establecido, mientras que la relación de los datos con lo que representan se delega a otros campos y ciencias”.
En 1977, Tukey publicó Análisis exploratorio de datos , argumentando que era necesario hacer más hincapié en el uso de datos para sugerir hipótesis para probar y que el Análisis exploratorio de datos y el Análisis confirmatorio de datos pueden y deben “Procede lado a lado”.
1977
La Asociación Internacional de Computación Estadística (IASC) se establece como una Sección del ISI . “La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de expertos en el dominio para convertir los datos en información y conocimiento”.
1989
Gregory Piatetsky-Shapiro organiza y preside el primer taller de Descubrimiento del conocimiento en bases de datos (KDD) . En 1995 , se convirtió en la Conferencia anual ACM SIGKDD sobre Descubrimiento del Conocimiento y Minería de Datos (KDD).
Septiembre de 1994 BusinessWeek publica un artículo de portada sobre “ Marketing de base de datos ”: “Las empresas recopilan una gran cantidad de información sobre usted, lo analizan para predecir la probabilidad de que compre un producto y utilizan ese conocimiento para elaborar un mensaje de marketing exactamente calibrado para obtenerlo. para hacerlo …
Un entusiasmo anterior provocado por la propagación de los escáneres de pago en la década de 1980 terminó en una decepción generalizada: muchas empresas estaban demasiado abrumadas por la gran cantidad de datos para hacer algo útil con la información … Sin embargo, muchas empresas creen que tienen No hay más remedio que desafiar la frontera de la base de datos-marketing “.
1996
Los miembros de la Federación Internacional de Sociedades de Clasificación (IFCS) se reúnen en Kobe, Japón, para su conferencia bienal. Por primera vez, el término “ciencia de datos” se incluye en el título de la conferencia (“Ciencia de datos, clasificación y métodos relacionados”).
El IFCS fue fundado en 1985 por seis sociedades de clasificación específicas por país e idioma, una de las cuales, The Classification Society , fue fundada en 1964. Las sociedades de clasificación han utilizado los términos análisis de datos, extracción de datos y ciencia de datos en sus publicaciones.
1996
“Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth publican partir de minería de datos de descubrimiento de conocimiento en bases de datos .” Ellos escriben: “Históricamente, la noción de encontrar patrones útiles en los datos se le ha dado una variedad de nombres, incluyendo la minería de datos, extracción de conocimiento, descubrimiento de información, recolección de información, arqueología de datos y procesamiento de patrones de datos …
En nuestra opinión, KDD [Descubrimiento de conocimiento en bases de datos] se refiere al proceso general de descubrimiento de conocimiento útil a partir de datos, y la extracción de datos se refiere a un paso particular en este proceso.
Minería de datos es la aplicación de algoritmos específicos para extraer patrones de datos … los pasos adicionales en el proceso de KDD, como la preparación de datos, la selección de datos, la limpieza de datos, la incorporación de conocimientos previos apropiados y la correcta interpretación de los resultados de la minería, son esenciales para garantizar Ese conocimiento útil se deriva de los datos.
“La aplicación ciega de métodos de extracción de datos (correctamente criticados como dragado de datos en la literatura estadística) puede ser una actividad peligrosa, que fácilmente lleva al descubrimiento de patrones sin sentido e inválidos”.
1997
En su conferencia inaugural para la Cátedra de Estadística HC Carver en la Universidad de Michigan, el Profesor CF Jeff Wu (actualmente en el Instituto de Tecnología de Georgia ), pide que las estadísticas pasen a llamarse ciencia de datos y estadísticos a los que se les cambie el nombre de científicos de datos.
1997
Se lanza la revista Data Mining and Knowledge Discovery ; la inversión del orden de los dos términos en su título refleja el ascenso de la “minería de datos” como la forma más popular de designar “la extracción de información de grandes bases de datos”.
1999
Diciembre de 1999 Jacob Zahavi se cita en ” Datos de minería de datos de Nuggets of Knowledge ” en Knowledge @ Wharton: “Los métodos estadísticos convencionales funcionan bien con pequeños conjuntos de datos. Sin embargo, las bases de datos de hoy pueden incluir millones de filas y decenas de columnas de datos …
La escalabilidad es un problema enorme en la minería de datos. Otro desafío técnico es desarrollar modelos que puedan hacer un mejor trabajo analizando los datos, detectando relaciones no lineales e interacciones entre elementos … Es posible que se deban desarrollar herramientas especiales de minería de datos para abordar las decisiones del sitio web “.
2001: Historia de la ciencia de datos
William S. Cleveland publica ” Ciencia de datos: un plan de acción para expandir las áreas técnicas del campo de la estadística””Es un plan” para ampliar las áreas principales del trabajo técnico del campo de las estadísticas. Debido a que el plan es ambicioso e implica un cambio sustancial, el campo modificado se llamará ‘ciencia de datos’ “.
Cleveland coloca la nueva disciplina propuesta el contexto de la informática y el trabajo contemporáneo en minería de datos: “… el beneficio para el analista de datos ha sido limitado, porque el conocimiento entre los informáticos sobre cómo pensar y abordar el análisis de datos es limitado, al igual que el conocimiento de Los entornos informáticos por estadísticos son limitados.
Una fusión de bases de conocimiento produciría una fuerza poderosa para la innovación. Esto sugiere que los estadísticos deberían buscar la computación en busca de conocimiento hoy en día, como lo hizo la ciencia de datos en las matemáticas en el pasado.
Leo Breiman publica “Modelos estadísticos: las dos culturas” ( PDF): “Existen dos culturas en el uso de modelos estadísticos para llegar a conclusiones a partir de datos. Se supone que los datos son generados por un modelo de datos estocástico dado. El otro utiliza modelos algorítmicos y trata el mecanismo de datos como desconocido.
La comunidad estadística se ha comprometido con el uso casi exclusivo de los modelos de datos. Este compromiso ha conducido a teorías irrelevantes, conclusiones cuestionables y ha evitado que los estadísticos trabajen en una amplia gama de problemas actuales interesantes.
El modelado algorítmico, tanto en la teoría como en la práctica, se ha desarrollado rápidamente en campos fuera de las estadísticas. Se puede usar tanto en grandes conjuntos de datos complejos como en una alternativa más precisa e informativa al modelado de datos en conjuntos de datos más pequeños. Si nuestro objetivo como campo es usar datos para resolver problemas,
2002
Abril de 2002 Lanzamiento de Data Science Journal , publicación de artículos sobre “la gestión de datos y bases de datos en Ciencia y Tecnología. El alcance de la revista incluye descripciones de los sistemas de datos, su publicación en Internet, aplicaciones y problemas legales ”. La revista es publicada por el Comité de Datos para la Ciencia y la Tecnología ( CODATA ) del Consejo Internacional para la Ciencia (ICSU).
2003
Enero de 2003 Lanzamiento de Journal of Data Science : “Por” Data Science “entendemos casi todo lo que tiene que ver con datos: recopilación, análisis, modelado … pero la parte más importante son sus aplicaciones, todo tipo de aplicaciones. de aplicaciones. Esta revista está dedicada a aplicaciones de métodos estadísticos en general…. El Journal of Data Science proporcionará una plataforma para que todos los trabajadores de datos presenten sus opiniones e intercambien ideas “.
2005
Mayo
Thomas H. Davenport, Don Cohen y Al Jacobson publican ” Competing on Analytics “, un informe del Babson College Working Knowledge Research Center, que describe “la aparición de una nueva forma de competencia basada en el uso extensivo de análisis, datos y toma de decisiones basada en hechos …
En lugar de competir con los factores tradicionales, las empresas están empezando a emplear el análisis estadístico y cuantitativo y el modelo predictivo como elementos primarios de la competencia. ”La investigación se publicó más tarde por Davenport en Harvard Business Review (enero de 2006) y se amplió (con Jeanne G. Harris) al libro Competing on Analytics : The New Science of Winning (marzo de 2007).
Septiembre
El Consejo Nacional de Ciencia publica “ de larga vida colecciones de datos digitales: Investigación y Educación en la 21 st Century .” Una de las recomendaciones del informe dice lo siguiente:
“La NSF, trabajando en colaboración con los directores de recolección y la comunidad en general , debe actuar para desarrollar y madurar la trayectoria profesional de los científicos de datos y para garantizar que la empresa de investigación incluya un número suficiente de científicos de datos de alta calidad. “programadores, expertos disciplinarios, curadores y anotadores expertos, bibliotecarios, archivistas y otros, que son cruciales para la gestión exitosa de una recopilación de datos digitales”.
2007
El Centro de Investigación de Dataología y Ciencia de Datos se estableció en la Universidad de Fudan, Shanghai, China. En 2009, dos de los investigadores del centro, Yangyong Zhu y Yun Xiong, publicaron ” Introducción a la Dataología y Ciencia de Datos “, en el que afirman “Diferentes a las ciencias naturales y sociales, la Dataología y la Ciencia de datos toman datos en el ciberespacio como su objeto de investigación. . Es una ciencia nueva ”. El centro celebra simposios anuales sobre Dataología y Ciencia de Datos .
2008
Julio
El JISC publica el informe final de un estudio que se encargó de “examinar y hacer recomendaciones sobre la función y el desarrollo profesional de los científicos de datos y el suministro asociado de habilidades especializadas en curación de datos para la comunidad de investigación.
“El informe final del estudio,“ Las habilidades, el rol y la estructura profesional de los científicos y curadores de datos: evaluación de las prácticas actuales y las necesidades futuras ”define a los científicos de datos como“ personas que trabajan donde se realiza la investigación, o, en el caso ”. “del personal del centro de datos, en estrecha colaboración con los creadores de los datos, y pueden participar en investigaciones y análisis creativos, permitiendo a otros trabajar con datos digitales y desarrollos en la tecnología de bases de datos”.
2009
Enero
Aprovechar el poder de los datos digitales para la ciencia y la sociedad. Este informe del Grupo de trabajo interinstitucional sobre datos digitales dirigido al Comité de Ciencia del Consejo Nacional de Ciencia y Tecnología afirma que “la nación necesita identificar y promover el surgimiento de nuevas disciplinas y especialistas expertos para abordar los complejos y dinámicos desafíos de la preservación digital. , acceso sostenido, reutilización y reutilización de datos.
Muchas disciplinas están viendo la aparición de un nuevo tipo de experto en ciencia y gestión de datos, realizado en el ámbito de la informática, la información y las ciencias de la información y en otra ciencia del dominio. Estas personas son clave para el éxito actual y futuro de la empresa científica. Sin embargo, estas personas a menudo reciben poco reconocimiento por sus contribuciones y tienen trayectorias profesionales limitadas “.
Enero de 2009. Hal Varian, economista jefe de Google, le dice al McKinsey Quarterly: “Sigo diciendo que el trabajo sexy en los próximos diez años será estadístico. La gente cree que estoy bromeando, pero ¿quién hubiera imaginado que los ingenieros informáticos hubieran sido el trabajo sexy de los años 90? La capacidad de tomar datos (poder entenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos) será una habilidad muy importante en las próximas décadas …
Porque ahora realmente tenemos Datos esencialmente libres y ubicuos. Por lo tanto, el factor escaso complementario es la capacidad de comprender los datos y extraerles valor … Creo que esas habilidades (para poder acceder, comprender y comunicar los conocimientos que obtiene del análisis de datos) serán extremadamente importantes. Los gerentes deben poder acceder y comprender los datos por sí mismos “.
Marzo de 2009
Kirk D. Borne y otros astrofísicos envían a Astro2010. Decadal Survey un documento titulado “La revolución en la educación en astronomía: la ciencia de datos para las masas” ( PDF): “Para el éxito de las ciencias, las comunidades, los proyectos, las agencias, las empresas y las economías es necesario capacitar a la próxima generación en el arte de derivar la comprensión inteligente de los datos.
Esto es cierto tanto para especialistas (científicos) como para no especialistas (todos los demás: el público, los educadores y los estudiantes, la fuerza laboral). Los especialistas deben aprender y aplicar nuevas técnicas de investigación de la ciencia de datos para poder avanzar en nuestra comprensión del Universo.
Los no especialistas requieren habilidades de alfabetización informacional como miembros productivos de la fuerza laboral del siglo XXI, integrando habilidades fundamentales para el aprendizaje a lo largo de toda la vida en un mundo cada vez más dominado por los datos “.
Mayo de 2009
Mike Driscoll escribe en “ Las tres habilidades atractivas de los geeks de datos ”: “… con la Era de los Datos que nos acompaña, aquellos que pueden modelar, munge y comunicar datos visualmente, llámenos estadísticos o geeks de datos, son una gran ventaja. “[Driscoll continuará con Los siete secretos de los científicos de datos exitosos en agosto de 2010]
Junio de 2009
Nathan Yau escribe en “ Rise of the Data Scientist.”:” Como todos hemos leído hasta ahora, el economista jefe de Google, Hal Varian, comentó en enero que el próximo trabajo atractivo en los próximos 10 años sería estadístico. Obviamente, estoy totalmente de acuerdo. Heck, daría un paso más y diría que son sexy ahora, mental y físicamente.
Sin embargo, si siguiera leyendo el resto de la entrevista de Varian, sabría que, según los estadísticos, lo interpretó como un título general para alguien que puede extraer información de grandes conjuntos de datos y luego presentar algo útil a expertos en datos …
[Ben] Fry … aboga por un campo completamente nuevo que combina las habilidades y talentos de áreas de experiencia a menudo disjuntas … [ciencias de la computación; Matemáticas, estadísticas y minería de datos; diseño gráfico; Infovis y la interacción humano-computadora. Y después de dos años de destacar la visualización en FlowingData,
Parece que las colaboraciones entre los campos son cada vez más comunes, pero lo más importante es que el diseño de la información computacional se acerca más a la realidad. Estamos viendolos científicos de datos, personas que pueden hacerlo todo, emergen del resto del paquete “.
Junio de 2009
Troy Sadkowsky crea el grupo de científicos de datos en LinkedIn como complemento de su sitio web, datasceintists.com (que más tarde se convirtió en datascientists.net ).
Febrero de 2010
Kenneth Cukier escribe en The Economist Special Report ” Data, Data Everywhere “: “… surgió un nuevo tipo de profesional, el científico de datos, que combina las habilidades del programador de software, estadístico y narrador / artista para extraer las pepitas de oro. Escondido bajo montañas de datos “.
Junio de 2010
Mike Loukides escribe en “ ¿Qué es la ciencia de datos? “:” Los científicos de datos combinan el espíritu empresarial con la paciencia, la voluntad de crear productos de datos de manera incremental, la capacidad de explorar y la capacidad de iterar sobre una solución. Son inherentemente interdisciplinares.
Pueden abordar todos los aspectos de un problema, desde la recopilación inicial de datos y el condicionamiento de los datos hasta el establecimiento de conclusiones. Pueden pensar fuera de la caja para encontrar nuevas formas de ver el problema, o para trabajar con problemas muy definidos: ‘aquí hay una gran cantidad de datos, ¿qué puede hacer con eso?’ “
Septiembre de 2010
Hilary Mason y Chris Wiggins escriben en ” Una taxonomía de la ciencia de datos “: “… pensamos que sería útil proponer una posible taxonomía … de lo que hace un científico de datos, en orden cronológico: obtener, frotar, explorar, modelar Y entiendo … “La ciencia de los datos es claramente una mezcla de las artes de los piratas informáticos … las estadísticas y el aprendizaje automático … y la experiencia en matemáticas y el dominio de los datos para que el análisis pueda interpretarse … Requiere decisiones creativas y una mentalidad abierta en un contexto científico”.
Drew Conway escribe en “ The Data Science Venn Diagram ”: “… uno necesita aprender mucho, ya que aspiran a convertirse en un científico de datos totalmente competente. Desafortunadamente, la simple enumeración de textos y tutoriales no desenreda los nudos. Por lo tanto, en un esfuerzo por simplificar la discusión, y agregar mis propios pensamientos a lo que ya es un mercado lleno de ideas, presento el Diagrama de Venn de Data Science … habilidades de piratería informática, conocimientos de matemática y estadísticas, y experiencia sustantiva “.
Mayo de 2011
Pete Warden escribe en “ ¿Por qué el término ‘ciencia de datos’ es defectuoso pero útil?”:” No hay un límite ampliamente aceptado para lo que está dentro y fuera del alcance de la ciencia de datos. ¿Es sólo un cambio de marca caprichoso de las estadísticas? No lo creo, pero tampoco tengo una definición completa. Creo que la reciente abundancia de datos ha provocado algo nuevo en el mundo, y cuando miro a mi alrededor, veo personas con características compartidas que no encajan en las categorías tradicionales.
Estas personas tienden a trabajar más allá de las especialidades estrechas que dominan el mundo corporativo e institucional, manejando todo, desde encontrar los datos, procesarlos a escala, visualizarlos y escribirlos como una historia. También parecen comenzar por observar lo que los datos pueden decirles, y luego elegir hilos interesantes para seguir, en lugar de los científicos tradicionales.
David Smith escribe en ” ‘Data Science’: ¿Qué hay en un nombre? “: “Los términos ‘Data Science’ y ‘Data Scientist’ han estado en uso común por poco más de un año, pero realmente han tomado desde entonces: muchas empresas están contratando para ‘científicos de datos’, y conferencias completas se llevan a cabo bajo el nombre de ‘ciencia de datos’. Pero a pesar de la adopción generalizada, algunas se han resistido al cambio de los términos más tradicionales como ‘estadístico’ o ‘Quant’ o ‘analista de datos’ … Creo que ‘Data Science’ describe mejor lo que realmente hacemos: una combinación de piratería informática, análisis de datos y resolución de problemas “.
Junio de 2011
Matthew J. Graham habla en el taller de Astrostatistics and Data Mining en grandes bases de datos astronómicas sobre “El arte de la ciencia de datos” ( PDF ). Él dice: “Para prosperar en el nuevo entorno de la ciencia del siglo XXI que requiere un uso intensivo de datos, debemos desarrollar nuevas habilidades … Necesitamos entender qué reglas [datos] obedecen, cómo se simbolizan y comunican y cuál es su relación con el espacio físico y tiempo es.”
Septiembre de 2011
Harlan Harris escribe en ” Data Science, Moore’s Law, and Moneyball “: “‘Data Science’ se define como lo que hacen los ‘Data Scientists’. Lo que los científicos de datos han hecho ha sido bien cubierto y abarca toda la gama desde la recopilación y el intercambio de datos, a través de la aplicación de estadísticas y el aprendizaje automático y técnicas relacionadas, hasta la interpretación, comunicación y visualización de los resultados. Quienes son los científicos de datos puede ser la pregunta más fundamental …
Me suele gustar la idea de que la ciencia de datos está definida por sus profesionales, que es una trayectoria profesional más que una categoría de actividades. En mis conversaciones con personas, parece que las personas que se consideran a sí mismas como Científicos de Datos suelen tener trayectorias profesionales eclécticas, que de alguna manera parecen no tener mucho sentido “.
DJ Patil escribe en “ Building Data Science Teams.”:” A partir de 2008, Jeff Hammerbacher y yo nos sentamos para compartir nuestras experiencias en la construcción de los grupos de datos y análisis en Facebook y LinkedIn. En muchos sentidos, esa reunión fue el comienzo de la ciencia de datos como una especialización profesional distinta … nos dimos cuenta de que a medida que nuestras organizaciones crecían, ambos teníamos que descubrir cómo llamar a la gente de nuestros equipos.
“Analista de negocios” parecía demasiado limitante. El “analista de datos” era un competidor, pero sentimos que el título podría limitar lo que la gente podría hacer. Después de todo, muchas de las personas en nuestros equipos tenían una profunda experiencia en ingeniería. “Investigador científico” era un título de trabajo razonable utilizado por compañías como Sun, HP, Xerox, Yahoo e IBM. Sin embargo, sentimos que la mayoría de los científicos de investigación trabajaron en proyectos que fueron futuristas y abstractos, y el trabajo se realizó en laboratorios que estaban aislados de los equipos de desarrollo de productos.
Podría llevar años que la investigación de laboratorio afecte a productos clave, si es que alguna vez lo hizo. En cambio, el enfoque de nuestros equipos era trabajar en aplicaciones de datos que tendrían un impacto inmediato y masivo en el negocio. El término que parecía encajar mejor era científico de datos: aquellos que usan tanto datos como ciencia para crear algo nuevo. “
La Ciencia de Datos entre 2012 y 2016: La Evolución de una Disciplina y su Impacto en la Sociedad
Entre los años 2012 y 2016, la ciencia de datos experimentó una transformación significativa, consolidándose como una disciplina esencial para el análisis de grandes volúmenes de información y la toma de decisiones en diversos sectores. Este período marcó un punto de inflexión, con avances tecnológicos, metodológicos y sociales que ampliaron el alcance y las posibilidades de esta área interdisciplinaria.
El Auge del “Big Data” como Concepto y Práctica
En 2012, la ciencia de datos aún era vista como un término emergente, asociado principalmente al análisis de grandes conjuntos de datos. El concepto de “Big Data” comenzó a ganar notoriedad en la comunidad tecnológica y empresarial, gracias a la creciente disponibilidad de datos estructurados y no estructurados generados por redes sociales, dispositivos móviles, sensores IoT y otras fuentes digitales. Empresas como Google, Facebook y Amazon lideraban la integración de la ciencia de datos en sus operaciones, sentando las bases para nuevas aplicaciones.
La publicación de herramientas como Hadoop y Apache Spark ofreció soluciones innovadoras para manejar datos masivos, permitiendo un procesamiento más eficiente y rápido. Estas tecnologías democratizaron el acceso al análisis de datos a gran escala, haciendo viable su implementación incluso para organizaciones con recursos limitados.
La Ciencia de Datos como Carrera y Profesión
Durante estos años, la ciencia de datos dejó de ser un área reservada exclusivamente a matemáticos y estadísticos para convertirse en una carrera interdisciplinaria que combinaba habilidades de programación, análisis de datos y conocimiento del dominio. En 2012, Harvard Business Review describió al “Data Scientist” como “el trabajo más atractivo del siglo XXI”, destacando la alta demanda y los salarios competitivos para los profesionales en esta área.
A medida que las empresas comenzaron a comprender el valor de los datos, se incrementaron las inversiones en talento y formación. Universidades en todo el mundo lanzaron programas específicos en ciencia de datos, y plataformas como Coursera y edX comenzaron a ofrecer cursos en línea que hacían accesible el aprendizaje a una audiencia global.
Herramientas y Ecosistema Tecnológico en Expansión
El período de 2012 a 2016 también vio un crecimiento explosivo en el desarrollo de herramientas para análisis de datos. Python y R se consolidaron como lenguajes de programación de referencia para los científicos de datos, gracias a su flexibilidad y a las bibliotecas especializadas como Pandas, NumPy, Scikit-learn y ggplot2. Además, el surgimiento de frameworks como TensorFlow, lanzado por Google en 2015, marcó el inicio de una nueva era en el aprendizaje automático y la inteligencia artificial.
La visualización de datos ganó un lugar destacado como componente clave del proceso analítico. Herramientas como Tableau y D3.js permitieron a las organizaciones transformar datos complejos en narrativas comprensibles, mejorando la comunicación entre equipos técnicos y ejecutivos.
Ética y Gobernanza de los Datos
Con el aumento en la recopilación y uso de datos, surgieron preocupaciones sobre la privacidad y la ética en la ciencia de datos. Casos como el escándalo de Cambridge Analytica, aunque posterior a este período, se gestaron en el contexto de una creciente dependencia de los datos para influir en decisiones políticas y comerciales.
Entre 2012 y 2016, los reguladores comenzaron a trabajar en iniciativas para proteger la privacidad de los usuarios, como el Reglamento General de Protección de Datos (GDPR) de la Unión Europea, aprobado en 2016. Estos desarrollos destacaron la necesidad de equilibrio entre innovación y responsabilidad.
Retos y Oportunidades
Aunque los avances fueron notables, este período también planteó desafíos importantes. La brecha entre la generación de datos y la capacidad de analizarlos de manera efectiva se amplió, dando lugar al concepto de “datos oscuros”, es decir, información recolectada pero no utilizada. Además, la demanda de talento en ciencia de datos superó la oferta, generando un déficit de profesionales capacitados.
Por otro lado, la rápida evolución tecnológica creó una barrera de entrada para pequeñas empresas que carecían de recursos para implementar infraestructuras complejas de análisis de datos. Sin embargo, la aparición de soluciones en la nube como AWS, Microsoft Azure y Google Cloud Platform comenzó a nivelar el campo de juego, permitiendo a organizaciones de todos los tamaños acceder a herramientas avanzadas.
Septiembre de 2012
Tom Davenport y DJ Patil publican ” Data Scientist: El trabajo más sexy del siglo XXI ” en Harvard Business Review .
2013
IBM compartió estadísticas que mostraban que el 90% de los datos del mundo se habían creado en los últimos dos años.
2015
Utilizando :de aprendizaje profundo, el reconocimiento de voz de Google, Google Voice, experimentó un aumento dramático en el rendimiento del 49 por ciento.
También en 2015, Jack Clark de Bloomberg, escribió que había sido un año histórico para la Inteligencia Artificial (IA). Dentro de Google, el total de proyectos de software que utilizan IA aumentó de “uso esporádico” a más de 2.700 proyectos durante el año.
2016
Se celebra la primera conferencia sobre ciencia de datos en San Francisco.
La Ciencia de Datos entre 2017 y 2020: Consolidación y Nuevas Fronteras
El período comprendido entre 2017 y 2020 representó una etapa clave en la evolución de la ciencia de datos, marcada por la consolidación de esta disciplina como pilar fundamental de la economía digital. Durante estos años, se produjeron avances significativos en inteligencia artificial, infraestructuras tecnológicas y metodologías analíticas, que transformaron la forma en que las organizaciones explotaban el poder de los datos.
El Avance de la Inteligencia Artificial y su Sinergia con la Ciencia de Datos
Entre 2017 y 2020, la inteligencia artificial (IA) se convirtió en un catalizador para la ciencia de datos. Los algoritmos de aprendizaje profundo (deep learning) experimentaron una notable mejora en rendimiento y aplicaciones gracias al desarrollo de frameworks como TensorFlow, PyTorch y Keras. Modelos avanzados como BERT (Bidirectional Encoder Representations from Transformers), lanzado por Google en 2018, revolucionaron el procesamiento del lenguaje natural (NLP), permitiendo avances en traducción automática, chatbots y análisis de texto.
Además, las redes generativas adversariales (GANs) ganaron notoriedad durante este período, destacándose por su capacidad para generar imágenes, videos y datos sintéticos. Estas herramientas no solo impulsaron la innovación en sectores como el entretenimiento y el diseño, sino que también plantearon desafíos éticos, como el riesgo de desinformación mediante “deepfakes”.
Ciencia de Datos en la Nube: Escalabilidad y Democratización
La transición hacia infraestructuras en la nube se aceleró durante estos años, permitiendo a organizaciones de todos los tamaños acceder a capacidades avanzadas de análisis de datos. Proveedores como Amazon Web Services (AWS), Google Cloud Platform y Microsoft Azure ofrecieron herramientas específicas para científicos de datos, como SageMaker, BigQuery y Azure Machine Learning. Esto facilitó la implementación de modelos complejos sin necesidad de invertir en infraestructura física costosa.
El enfoque en la nube no solo escaló la ciencia de datos, sino que también promovió la colaboración global. Equipos distribuidos pudieron trabajar en proyectos compartidos a través de plataformas como Databricks, que integraron procesamiento distribuido con capacidades avanzadas de aprendizaje automático.
Aplicaciones en Expansión: Ciencia de Datos al Servicio de la Sociedad
El impacto de la ciencia de datos entre 2017 y 2020 se extendió a múltiples sectores, transformando industrias y abordando desafíos globales:
- Salud: La ciencia de datos desempeñó un papel fundamental durante la pandemia de COVID-19, que comenzó a finales de 2019. Modelos predictivos ayudaron a rastrear la propagación del virus, optimizar recursos médicos y desarrollar vacunas en tiempo récord. La colaboración entre gobiernos, instituciones académicas y empresas como Moderna y Pfizer evidenció el potencial de los datos en situaciones de crisis.
- Medio Ambiente: Los modelos de aprendizaje automático permitieron monitorear el cambio climático mediante el análisis de datos satelitales, mientras que proyectos como el Global Fishing Watch utilizaron la ciencia de datos para combatir la pesca ilegal y promover la sostenibilidad marina.
- Negocios y Finanzas: Durante este período, las empresas adoptaron estrategias basadas en datos para personalizar la experiencia del cliente y mejorar la eficiencia operativa. En finanzas, los algoritmos de aprendizaje profundo revolucionaron la detección de fraudes, la gestión de riesgos y el trading algorítmico.
- Logística y Movilidad: Empresas como Amazon y Tesla emplearon ciencia de datos para optimizar cadenas de suministro y desarrollar vehículos autónomos, marcando un cambio de paradigma en la movilidad urbana y la distribución de productos.
Ética y Regulación de los Datos
El uso masivo de datos planteó preocupaciones crecientes sobre la privacidad y la ética. Escándalos como el de Cambridge Analytica, revelado en 2018, subrayaron el potencial de los datos para influir en procesos democráticos, generando un debate global sobre su regulación.
En respuesta, legislaciones como el Reglamento General de Protección de Datos (GDPR) en Europa y la Ley de Privacidad del Consumidor de California (CCPA) en los Estados Unidos establecieron estándares más estrictos para la recopilación, almacenamiento y uso de datos personales. Estas normativas marcaron un hito en la gobernanza de datos y reforzaron la importancia de prácticas éticas en la ciencia de datos.
Tecnologías Emergentes: IA Explicable y MLOps
Entre 2017 y 2020, la comunidad científica comenzó a abordar la necesidad de explicabilidad en los modelos de IA. Métodos como SHAP (SHapley Additive exPlanations) y LIME (Local Interpretable Model-agnostic Explanations) permitieron comprender mejor las decisiones de modelos complejos, fomentando la confianza en su aplicación en sectores críticos como la salud y la justicia.
Simultáneamente, el auge de MLOps (Machine Learning Operations) marcó un enfoque más estructurado para la implementación y mantenimiento de modelos de aprendizaje automático en entornos de producción. Herramientas como MLflow y Kubeflow facilitaron la integración del aprendizaje automático en los flujos de trabajo empresariales, mejorando la eficiencia y reduciendo el tiempo de desarrollo.
2017
La Universidad de Washington ofrece el primer programa de máster en ciencia de datos.
2018
Se lanza la primera bolsa de trabajo de ciencia de datos.
2019
Google ofrece el primer programa de certificación en ciencia de datos.
2020
La pandemia de COVID-19 acelera la demanda de científicos de datos, ya que las empresas y los gobiernos recurren a los datos para ayudarles a responder a la crisis.
La Ciencia de Datos entre 2021 y 2023: Innovación, Ética y el Surgimiento de la IA Generativa
El periodo comprendido entre 2021 y 2023 estuvo marcado por avances trascendentales en la ciencia de datos, impulsados por el crecimiento de la inteligencia artificial generativa, la adopción masiva de tecnologías en la nube y una mayor atención a la ética en el uso de datos. Durante estos años, la ciencia de datos dejó de ser solo una herramienta analítica para convertirse en un eje de innovación y transformación en múltiples sectores.
La Explosión de la IA Generativa
Uno de los desarrollos más destacados de este periodo fue la aparición y consolidación de la inteligencia artificial generativa. Modelos como GPT-3, lanzado en 2020 por OpenAI, sirvieron como precursores de una nueva generación de tecnologías basadas en arquitecturas de transformadores. En 2022, OpenAI presentó GPT-4, un modelo aún más avanzado, que destacó por su capacidad para realizar tareas complejas en lenguaje natural y generar contenido de alta calidad. Estos modelos impulsaron una amplia gama de aplicaciones, desde asistentes virtuales hasta herramientas creativas.
El impacto de la IA generativa no se limitó al procesamiento del lenguaje natural. Las plataformas de generación de imágenes, como DALL-E y Stable Diffusion, permitieron crear representaciones visuales a partir de texto, lo que abrió nuevas posibilidades en el diseño, el entretenimiento y la educación. Estas herramientas generaron un debate intenso sobre su regulación, propiedad intelectual y uso ético.
El Rol de la Ciencia de Datos en la Pandemia y la Recuperación Global
El impacto del COVID-19, que continuó siendo significativo en 2021 y 2022, puso en evidencia la importancia de la ciencia de datos en la gestión de crisis. Los modelos predictivos ayudaron a rastrear la evolución de variantes del virus, optimizar campañas de vacunación y evaluar estrategias de reapertura económica. Además, los análisis basados en datos permitieron a los gobiernos y empresas tomar decisiones informadas en un entorno incierto.
En paralelo, la ciencia de datos se utilizó para abordar desafíos globales relacionados con el cambio climático, la seguridad alimentaria y la gestión de recursos. Por ejemplo, el uso de datos satelitales y modelos de aprendizaje automático permitió mejorar la precisión en la predicción de desastres naturales y fomentar la resiliencia en comunidades vulnerables.
Hiperautomatización y Democratización de la Ciencia de Datos
La integración de la inteligencia artificial con procesos de automatización alcanzó un nuevo nivel entre 2021 y 2023, con el concepto de hiperautomatización liderando el camino. La combinación de aprendizaje automático, RPA (Automatización Robótica de Procesos) y análisis avanzado permitió a las empresas optimizar operaciones complejas, mejorar la eficiencia y reducir costos.
Por otro lado, la democratización de la ciencia de datos fue un tema recurrente durante este periodo. Herramientas de bajo código y sin código, como DataRobot y Azure ML Studio, facilitaron que profesionales sin formación técnica en ciencia de datos realizaran análisis complejos y desarrollaran modelos de aprendizaje automático. Este enfoque permitió que más organizaciones aprovecharan los datos como ventaja competitiva.
Regulación y Ética en la Ciencia de Datos
La ética y la regulación en la ciencia de datos continuaron siendo un tema central. El Reglamento General de Protección de Datos (GDPR) en Europa y legislaciones similares en otros países establecieron marcos más estrictos para proteger la privacidad y garantizar la transparencia en el uso de datos personales.
En 2022, varios organismos internacionales promovieron iniciativas para abordar el sesgo algorítmico y garantizar que las decisiones basadas en datos fueran justas e inclusivas. La IA explicable (Explainable AI, XAI) ganó importancia como un medio para garantizar la confianza en los sistemas automatizados, especialmente en sectores críticos como la salud, las finanzas y la justicia.
Ciencia de Datos en el Entorno Empresarial
El uso de datos como activo estratégico se intensificó en el entorno empresarial. Las organizaciones no solo adoptaron modelos de aprendizaje automático más avanzados, sino que también invirtieron en arquitecturas de datos modernas, como lagos de datos (data lakes) y mallas de datos (data meshes), para gestionar y aprovechar sus recursos de manera más eficiente.
Además, el auge del comercio electrónico, acelerado por la pandemia, llevó a un uso más sofisticado de la analítica de datos. Las empresas emplearon modelos predictivos para personalizar la experiencia del cliente, optimizar cadenas de suministro y mejorar la logística.
La Ciencia de Datos y el Metaverso
Entre 2021 y 2023, la idea del metaverso cobró fuerza, impulsada por empresas como Meta (anteriormente Facebook). La ciencia de datos desempeñó un papel fundamental en este ámbito, al permitir la creación de mundos virtuales inmersivos y experiencias interactivas basadas en el análisis de comportamiento y la personalización.
Aunque el concepto del metaverso aún se encontraba en sus primeras etapas, la ciencia de datos ofreció las herramientas necesarias para analizar interacciones en tiempo real, medir el compromiso de los usuarios y desarrollar estrategias basadas en datos para construir estos entornos digitales.
Webgrafía
Ediciones 2019-24
Leer también: Historia de la Inteligencia artificial (IA); Historia de la robótica, cronología, línea de tiempo, IA; Definición de data lake; Cuando se inventó el primer robot