Categorías
internet

Historia del data science, la ciencia de datos

Historia del data science, la ciencia de datos. ¿Cual fue su origen? ¿Cómo ha evolucionado a lo largo del tiempo? La historia de cómo los científicos de los datos se volvieron atractivos es principalmente la historia de la unión de la disciplina madura de las estadísticas con una muy joven: la informática.

Historia del data science
Historia del data science

Introducción

Mirando hacia atrás en la historia temprana de la ciencia de datos, podemos ver que dos temas están estrechamente relacionados: Big Data significa un mayor uso de computadoras y es difícil para los estadísticos implementar algoritmos escritos en papel en computadoras. 

De ahí surgió la ciencia de datos. Sin embargo, al comienzo de su desarrollo, debido a que no existían herramientas sofisticadas, paradigmas mágicos y ninguna ciencia nueva que lo respaldara, el término «ciencia de datos» no era muy popular. No fue hasta la década de 1980 que comenzó a utilizar datos. métodos de minería. 

Con el paso del tiempo, el procesamiento científico de datos ha alcanzado nuevas alturas, y la ciencia de datos llamó a la puerta de la academia en 1996. 

Después de ingresar al siglo XXI, la aparición de Internet ha aumentado considerablemente la cantidad de datos disponibles y el campo de la ciencia de datos finalmente ha florecido. Para 2020, se generarán alrededor de 1,7 billones de información nueva cada segundo, y estos enormes datos han creado un suelo fértil para la aplicación de la ciencia de datos, lo que a su vez hace posible crear un milagro tras otro.

El término «Ciencia de datos» surgió recientemente para designar específicamente una nueva profesión que se espera que dé sentido a las vastas tiendas de big data. Pero dar sentido a los datos tiene una larga historia y ha sido discutido por científicos, estadísticos, bibliotecarios, informáticos y otros durante años. La siguiente línea de tiempo traza la evolución del término «Ciencia de datos» y su uso, intenta definirlo y los términos relacionados.

1962

John W. Tukey escribe en » El futuro del análisis de datos «: «Durante mucho tiempo pensé que era un estadístico, interesado en inferencias de lo particular a lo general. Pero a medida que observé la evolución de las estadísticas matemáticas, tuve motivos para preguntarme y dudar … Llegué a sentir que mi interés central está en el análisis de datos…. El análisis de datos, y las partes de las estadísticas que se adhieren a él, deben … asumir las características de la ciencia en lugar de las matemáticas … el análisis de datos es intrínsecamente una ciencia empírica …

Qué vital y qué importante … es el auge del programa almacenado computadora electrónica En muchos casos, la respuesta puede sorprender a muchos por ser «importante pero no vital», aunque en otros no hay duda, pero la computadora ha sido «vital».

1974

Peter Naur publica Encuesta concisa de métodos computacionales en Suecia y los Estados Unidos. El libro es una encuesta de los métodos contemporáneos de procesamiento de datos que se utilizan en una amplia gama de aplicaciones. Se organiza en torno al concepto de datos, tal como se define en la Guía IFIP de conceptos y términos en el procesamiento de datos.: «[Los datos son] una representación de hechos o ideas de una manera formal que puede ser comunicada o manipulada por algún proceso.»

El Prefacio del libro le dice al lector que un plan de curso se presentó en el Congreso de la IFIP en 1968, titulado » Datalogía, la ciencia de los datos y de los procesos de datos y su lugar en la educación, «y que en el texto del libro,» el término ‘ciencia de datos’ se ha usado libremente «. Naur ofrece la siguiente definición de ciencia de datos:» «La ciencia de tratar con datos, una vez que se han establecido, mientras que la relación de los datos con lo que representan se delega a otros campos y ciencias».

En 1977, Tukey publicó Análisis exploratorio de datos , argumentando que era necesario hacer más hincapié en el uso de datos para sugerir hipótesis para probar y que el Análisis exploratorio de datos y el Análisis confirmatorio de datos pueden y deben «Procede lado a lado».

1977

La Asociación Internacional de Computación Estadística (IASC) se establece como una Sección del ISI . «La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de expertos en el dominio para convertir los datos en información y conocimiento».

1989

Gregory Piatetsky-Shapiro organiza y preside el primer taller de Descubrimiento del conocimiento en bases de datos (KDD) . En 1995 , se convirtió en la Conferencia anual ACM SIGKDD sobre Descubrimiento del Conocimiento y Minería de Datos (KDD).

Septiembre de 1994 BusinessWeek publica un artículo de portada sobre “ Marketing de base de datos ”: “Las empresas recopilan una gran cantidad de información sobre usted, lo analizan para predecir la probabilidad de que compre un producto y utilizan ese conocimiento para elaborar un mensaje de marketing exactamente calibrado para obtenerlo. para hacerlo …

Un entusiasmo anterior provocado por la propagación de los escáneres de pago en la década de 1980 terminó en una decepción generalizada: muchas empresas estaban demasiado abrumadas por la gran cantidad de datos para hacer algo útil con la información … Sin embargo, muchas empresas creen que tienen No hay más remedio que desafiar la frontera de la base de datos-marketing «.

1996

Los miembros de la Federación Internacional de Sociedades de Clasificación (IFCS) se reúnen en Kobe, Japón, para su conferencia bienal. Por primera vez, el término «ciencia de datos» se incluye en el título de la conferencia («Ciencia de datos, clasificación y métodos relacionados»).

El IFCS fue fundado en 1985 por seis sociedades de clasificación específicas por país e idioma, una de las cuales, The Classification Society , fue fundada en 1964. Las sociedades de clasificación han utilizado los términos análisis de datos, extracción de datos y ciencia de datos en sus publicaciones.

1996

“Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth publican partir de minería de datos de descubrimiento de conocimiento en bases de datos .” Ellos escriben: “Históricamente, la noción de encontrar patrones útiles en los datos se le ha dado una variedad de nombres, incluyendo la minería de datos, extracción de conocimiento, descubrimiento de información, recolección de información, arqueología de datos y procesamiento de patrones de datos …

En nuestra opinión, KDD [Descubrimiento de conocimiento en bases de datos] se refiere al proceso general de descubrimiento de conocimiento útil a partir de datos, y la extracción de datos se refiere a un paso particular en este proceso.

Minería de datos es la aplicación de algoritmos específicos para extraer patrones de datos … los pasos adicionales en el proceso de KDD, como la preparación de datos, la selección de datos, la limpieza de datos, la incorporación de conocimientos previos apropiados y la correcta interpretación de los resultados de la minería, son esenciales para garantizar Ese conocimiento útil se deriva de los datos.

«La aplicación ciega de métodos de extracción de datos (correctamente criticados como dragado de datos en la literatura estadística) puede ser una actividad peligrosa, que fácilmente lleva al descubrimiento de patrones sin sentido e inválidos».

1997

En su conferencia inaugural para la Cátedra de Estadística HC Carver en la Universidad de Michigan, el Profesor CF Jeff Wu (actualmente en el Instituto de Tecnología de Georgia ), pide que las estadísticas pasen a llamarse ciencia de datos y estadísticos a los que se les cambie el nombre de científicos de datos.

1997

Se lanza la revista Data Mining and Knowledge Discovery ; la inversión del orden de los dos términos en su título refleja el ascenso de la «minería de datos» como la forma más popular de designar «la extracción de información de grandes bases de datos».

1999

Diciembre de 1999 Jacob Zahavi se cita en » Datos de minería de datos de Nuggets of Knowledge » en Knowledge @ Wharton: «Los métodos estadísticos convencionales funcionan bien con pequeños conjuntos de datos. Sin embargo, las bases de datos de hoy pueden incluir millones de filas y decenas de columnas de datos …

La escalabilidad es un problema enorme en la minería de datos. Otro desafío técnico es desarrollar modelos que puedan hacer un mejor trabajo analizando los datos, detectando relaciones no lineales e interacciones entre elementos … Es posible que se deban desarrollar herramientas especiales de minería de datos para abordar las decisiones del sitio web «.

2001

William S. Cleveland publica » Ciencia de datos: un plan de acción para expandir las áreas técnicas del campo de la estadística»»Es un plan» para ampliar las áreas principales del trabajo técnico del campo de las estadísticas. Debido a que el plan es ambicioso e implica un cambio sustancial, el campo modificado se llamará ‘ciencia de datos’ «.

Cleveland coloca la nueva disciplina propuesta el contexto de la informática y el trabajo contemporáneo en minería de datos: “… el beneficio para el analista de datos ha sido limitado, porque el conocimiento entre los informáticos sobre cómo pensar y abordar el análisis de datos es limitado, al igual que el conocimiento de Los entornos informáticos por estadísticos son limitados.

Una fusión de bases de conocimiento produciría una fuerza poderosa para la innovación. Esto sugiere que los estadísticos deberían buscar la computación en busca de conocimiento hoy en día, como lo hizo la ciencia de datos en las matemáticas en el pasado.

2001

Leo Breiman publica «Modelos estadísticos: las dos culturas» ( PDF): “Existen dos culturas en el uso de modelos estadísticos para llegar a conclusiones a partir de datos. Se supone que los datos son generados por un modelo de datos estocástico dado. El otro utiliza modelos algorítmicos y trata el mecanismo de datos como desconocido.

La comunidad estadística se ha comprometido con el uso casi exclusivo de los modelos de datos. Este compromiso ha conducido a teorías irrelevantes, conclusiones cuestionables y ha evitado que los estadísticos trabajen en una amplia gama de problemas actuales interesantes.

El modelado algorítmico, tanto en la teoría como en la práctica, se ha desarrollado rápidamente en campos fuera de las estadísticas. Se puede usar tanto en grandes conjuntos de datos complejos como en una alternativa más precisa e informativa al modelado de datos en conjuntos de datos más pequeños. Si nuestro objetivo como campo es usar datos para resolver problemas,

2002

Abril de 2002 Lanzamiento de Data Science Journal , publicación de artículos sobre “la gestión de datos y bases de datos en Ciencia y Tecnología. El alcance de la revista incluye descripciones de los sistemas de datos, su publicación en Internet, aplicaciones y problemas legales ”. La revista es publicada por el Comité de Datos para la Ciencia y la Tecnología ( CODATA ) del Consejo Internacional para la Ciencia (ICSU).

2003

Enero de 2003 Lanzamiento de Journal of Data Science : «Por» Data Science «entendemos casi todo lo que tiene que ver con datos: recopilación, análisis, modelado … pero la parte más importante son sus aplicaciones, todo tipo de aplicaciones. de aplicaciones. Esta revista está dedicada a aplicaciones de métodos estadísticos en general…. El Journal of Data Science proporcionará una plataforma para que todos los trabajadores de datos presenten sus opiniones e intercambien ideas «.

2005

Mayo

Thomas H. Davenport, Don Cohen y Al Jacobson publican » Competing on Analytics «, un informe del Babson College Working Knowledge Research Center, que describe «la aparición de una nueva forma de competencia basada en el uso extensivo de análisis, datos y toma de decisiones basada en hechos …

En lugar de competir con los factores tradicionales, las empresas están empezando a emplear el análisis estadístico y cuantitativo y el modelo predictivo como elementos primarios de la competencia. ”La investigación se publicó más tarde por Davenport en Harvard Business Review (enero de 2006) y se amplió (con Jeanne G. Harris) al libro Competing on Analytics : The New Science of Winning (marzo de 2007).

Septiembre

El Consejo Nacional de Ciencia publica “ de larga vida colecciones de datos digitales: Investigación y Educación en la 21 st Century .” Una de las recomendaciones del informe dice lo siguiente:

“La NSF, trabajando en colaboración con los directores de recolección y la comunidad en general , debe actuar para desarrollar y madurar la trayectoria profesional de los científicos de datos y para garantizar que la empresa de investigación incluya un número suficiente de científicos de datos de alta calidad. «programadores, expertos disciplinarios, curadores y anotadores expertos, bibliotecarios, archivistas y otros, que son cruciales para la gestión exitosa de una recopilación de datos digitales».

2007

El Centro de Investigación de Dataología y Ciencia de Datos se estableció en la Universidad de Fudan, Shanghai, China. En 2009, dos de los investigadores del centro, Yangyong Zhu y Yun Xiong, publicaron » Introducción a la Dataología y Ciencia de Datos «, en el que afirman «Diferentes a las ciencias naturales y sociales, la Dataología y la Ciencia de datos toman datos en el ciberespacio como su objeto de investigación. . Es una ciencia nueva ”. El centro celebra simposios anuales sobre Dataología y Ciencia de Datos .

2008

Julio

El JISC publica el informe final de un estudio que se encargó de “examinar y hacer recomendaciones sobre la función y el desarrollo profesional de los científicos de datos y el suministro asociado de habilidades especializadas en curación de datos para la comunidad de investigación.

“El informe final del estudio,“ Las habilidades, el rol y la estructura profesional de los científicos y curadores de datos: evaluación de las prácticas actuales y las necesidades futuras ”define a los científicos de datos como“ personas que trabajan donde se realiza la investigación, o, en el caso ”. «del personal del centro de datos, en estrecha colaboración con los creadores de los datos, y pueden participar en investigaciones y análisis creativos, permitiendo a otros trabajar con datos digitales y desarrollos en la tecnología de bases de datos».

2009

Enero

Aprovechar el poder de los datos digitales para la ciencia y la sociedad. Este informe del Grupo de trabajo interinstitucional sobre datos digitales dirigido al Comité de Ciencia del Consejo Nacional de Ciencia y Tecnología afirma que “la nación necesita identificar y promover el surgimiento de nuevas disciplinas y especialistas expertos para abordar los complejos y dinámicos desafíos de la preservación digital. , acceso sostenido, reutilización y reutilización de datos.

Muchas disciplinas están viendo la aparición de un nuevo tipo de experto en ciencia y gestión de datos, realizado en el ámbito de la informática, la información y las ciencias de la información y en otra ciencia del dominio. Estas personas son clave para el éxito actual y futuro de la empresa científica. Sin embargo, estas personas a menudo reciben poco reconocimiento por sus contribuciones y tienen trayectorias profesionales limitadas «.

Enero de 2009. Hal Varian, economista jefe de Google, le dice al McKinsey Quarterly: “Sigo diciendo que el trabajo sexy en los próximos diez años será estadístico. La gente cree que estoy bromeando, pero ¿quién hubiera imaginado que los ingenieros informáticos hubieran sido el trabajo sexy de los años 90? La capacidad de tomar datos (poder entenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos) será una habilidad muy importante en las próximas décadas …

Porque ahora realmente tenemos Datos esencialmente libres y ubicuos. Por lo tanto, el factor escaso complementario es la capacidad de comprender los datos y extraerles valor … Creo que esas habilidades (para poder acceder, comprender y comunicar los conocimientos que obtiene del análisis de datos) serán extremadamente importantes. Los gerentes deben poder acceder y comprender los datos por sí mismos «.

Marzo de 2009

Kirk D. Borne y otros astrofísicos envían a Astro2010. Decadal Survey un documento titulado “La revolución en la educación en astronomía: la ciencia de datos para las masas” ( PDF): “Para el éxito de las ciencias, las comunidades, los proyectos, las agencias, las empresas y las economías es necesario capacitar a la próxima generación en el arte de derivar la comprensión inteligente de los datos.

Esto es cierto tanto para especialistas (científicos) como para no especialistas (todos los demás: el público, los educadores y los estudiantes, la fuerza laboral). Los especialistas deben aprender y aplicar nuevas técnicas de investigación de la ciencia de datos para poder avanzar en nuestra comprensión del Universo.

Los no especialistas requieren habilidades de alfabetización informacional como miembros productivos de la fuerza laboral del siglo XXI, integrando habilidades fundamentales para el aprendizaje a lo largo de toda la vida en un mundo cada vez más dominado por los datos «.

Mayo de 2009

Mike Driscoll escribe en “ Las tres habilidades atractivas de los geeks de datos ”: “… con la Era de los Datos que nos acompaña, aquellos que pueden modelar, munge y comunicar datos visualmente, llámenos estadísticos o geeks de datos, son una gran ventaja. «[Driscoll continuará con Los siete secretos de los científicos de datos exitosos en agosto de 2010]

Junio ​​de 2009

Nathan Yau escribe en “ Rise of the Data Scientist.»:» Como todos hemos leído hasta ahora, el economista jefe de Google, Hal Varian, comentó en enero que el próximo trabajo atractivo en los próximos 10 años sería estadístico. Obviamente, estoy totalmente de acuerdo. Heck, daría un paso más y diría que son sexy ahora, mental y físicamente.

Sin embargo, si siguiera leyendo el resto de la entrevista de Varian, sabría que, según los estadísticos, lo interpretó como un título general para alguien que puede extraer información de grandes conjuntos de datos y luego presentar algo útil a expertos en datos …

[Ben] Fry … aboga por un campo completamente nuevo que combina las habilidades y talentos de áreas de experiencia a menudo disjuntas … [ciencias de la computación; Matemáticas, estadísticas y minería de datos; diseño gráfico; Infovis y la interacción humano-computadora. Y después de dos años de destacar la visualización en FlowingData,

Parece que las colaboraciones entre los campos son cada vez más comunes, pero lo más importante es que el diseño de la información computacional se acerca más a la realidad. Estamos viendolos científicos de datos, personas que pueden hacerlo todo, emergen del resto del paquete «.

Junio ​​de 2009

Troy Sadkowsky crea el grupo de científicos de datos en LinkedIn como complemento de su sitio web, datasceintists.com (que más tarde se convirtió en datascientists.net ).

Febrero de 2010

Kenneth Cukier escribe en The Economist Special Report » Data, Data Everywhere «: «… surgió un nuevo tipo de profesional, el científico de datos, que combina las habilidades del programador de software, estadístico y narrador / artista para extraer las pepitas de oro. Escondido bajo montañas de datos «.

Junio ​​de 2010

Mike Loukides escribe en “ ¿Qué es la ciencia de datos? «:» Los científicos de datos combinan el espíritu empresarial con la paciencia, la voluntad de crear productos de datos de manera incremental, la capacidad de explorar y la capacidad de iterar sobre una solución. Son inherentemente interdisciplinares.

Pueden abordar todos los aspectos de un problema, desde la recopilación inicial de datos y el condicionamiento de los datos hasta el establecimiento de conclusiones. Pueden pensar fuera de la caja para encontrar nuevas formas de ver el problema, o para trabajar con problemas muy definidos: ‘aquí hay una gran cantidad de datos, ¿qué puede hacer con eso?’ «

Septiembre de 2010

Hilary Mason y Chris Wiggins escriben en » Una taxonomía de la ciencia de datos «: «… pensamos que sería útil proponer una posible taxonomía … de lo que hace un científico de datos, en orden cronológico: obtener, frotar, explorar, modelar Y entiendo … «La ciencia de los datos es claramente una mezcla de las artes de los piratas informáticos … las estadísticas y el aprendizaje automático … y la experiencia en matemáticas y el dominio de los datos para que el análisis pueda interpretarse … Requiere decisiones creativas y una mentalidad abierta en un contexto científico».

Drew Conway escribe en “ The Data Science Venn Diagram ”: “… uno necesita aprender mucho, ya que aspiran a convertirse en un científico de datos totalmente competente. Desafortunadamente, la simple enumeración de textos y tutoriales no desenreda los nudos. Por lo tanto, en un esfuerzo por simplificar la discusión, y agregar mis propios pensamientos a lo que ya es un mercado lleno de ideas, presento el Diagrama de Venn de Data Science … habilidades de piratería informática, conocimientos de matemática y estadísticas, y experiencia sustantiva «.

Mayo de 2011

Pete Warden escribe en “ ¿Por qué el término ‘ciencia de datos’ es defectuoso pero útil?»:» No hay un límite ampliamente aceptado para lo que está dentro y fuera del alcance de la ciencia de datos. ¿Es sólo un cambio de marca caprichoso de las estadísticas? No lo creo, pero tampoco tengo una definición completa. Creo que la reciente abundancia de datos ha provocado algo nuevo en el mundo, y cuando miro a mi alrededor, veo personas con características compartidas que no encajan en las categorías tradicionales.

Estas personas tienden a trabajar más allá de las especialidades estrechas que dominan el mundo corporativo e institucional, manejando todo, desde encontrar los datos, procesarlos a escala, visualizarlos y escribirlos como una historia. También parecen comenzar por observar lo que los datos pueden decirles, y luego elegir hilos interesantes para seguir, en lugar de los científicos tradicionales.

David Smith escribe en » ‘Data Science’: ¿Qué hay en un nombre? «: «Los términos ‘Data Science’ y ‘Data Scientist’ han estado en uso común por poco más de un año, pero realmente han tomado desde entonces: muchas empresas están contratando para ‘científicos de datos’, y conferencias completas se llevan a cabo bajo el nombre de ‘ciencia de datos’. Pero a pesar de la adopción generalizada, algunas se han resistido al cambio de los términos más tradicionales como ‘estadístico’ o ‘Quant’ o ‘analista de datos’ … Creo que ‘Data Science’ describe mejor lo que realmente hacemos: una combinación de piratería informática, análisis de datos y resolución de problemas «.

Junio ​​de 2011

Matthew J. Graham habla en el taller de Astrostatistics and Data Mining en grandes bases de datos astronómicas sobre «El arte de la ciencia de datos» ( PDF ). Él dice: «Para prosperar en el nuevo entorno de la ciencia del siglo XXI que requiere un uso intensivo de datos, debemos desarrollar nuevas habilidades … Necesitamos entender qué reglas [datos] obedecen, cómo se simbolizan y comunican y cuál es su relación con el espacio físico y tiempo es.»

Septiembre de 2011

Harlan Harris escribe en » Data Science, Moore’s Law, and Moneyball «: «‘Data Science’ se define como lo que hacen los ‘Data Scientists’. Lo que los científicos de datos han hecho ha sido bien cubierto y abarca toda la gama desde la recopilación y el intercambio de datos, a través de la aplicación de estadísticas y el aprendizaje automático y técnicas relacionadas, hasta la interpretación, comunicación y visualización de los resultados. Quienes son los científicos de datos puede ser la pregunta más fundamental …

Me suele gustar la idea de que la ciencia de datos está definida por sus profesionales, que es una trayectoria profesional más que una categoría de actividades. En mis conversaciones con personas, parece que las personas que se consideran a sí mismas como Científicos de Datos suelen tener trayectorias profesionales eclécticas, que de alguna manera parecen no tener mucho sentido «.

DJ Patil escribe en “ Building Data Science Teams.»:» A partir de 2008, Jeff Hammerbacher  y yo nos sentamos para compartir nuestras experiencias en la construcción de los grupos de datos y análisis en Facebook y LinkedIn. En muchos sentidos, esa reunión fue el comienzo de la ciencia de datos como una especialización profesional distinta … nos dimos cuenta de que a medida que nuestras organizaciones crecían, ambos teníamos que descubrir cómo llamar a la gente de nuestros equipos.

«Analista de negocios» parecía demasiado limitante. El «analista de datos» era un competidor, pero sentimos que el título podría limitar lo que la gente podría hacer. Después de todo, muchas de las personas en nuestros equipos tenían una profunda experiencia en ingeniería. «Investigador científico» era un título de trabajo razonable utilizado por compañías como Sun, HP, Xerox, Yahoo e IBM. Sin embargo, sentimos que la mayoría de los científicos de investigación trabajaron en proyectos que fueron futuristas y abstractos, y el trabajo se realizó en laboratorios que estaban aislados de los equipos de desarrollo de productos.

Podría llevar años que la investigación de laboratorio afecte a productos clave, si es que alguna vez lo hizo. En cambio, el enfoque de nuestros equipos era trabajar en aplicaciones de datos que tendrían un impacto inmediato y masivo en el negocio. El término que parecía encajar mejor era científico de datos: aquellos que usan tanto datos como ciencia para crear algo nuevo. «

Septiembre de 2012

Tom Davenport y DJ Patil publican » Data Scientist: El trabajo más sexy del siglo XXI » en Harvard Business Review .

2013

IBM compartió estadísticas que mostraban que el 90% de los datos del mundo se habían creado en los últimos dos años.

2015

Utilizando técnicas de aprendizaje profundo, el reconocimiento de voz de Google, Google Voice, experimentó un aumento dramático en el rendimiento del 49 por ciento.

También en 2015, Jack Clark de Bloomberg, escribió que había sido un año histórico para la Inteligencia Artificial (IA). Dentro de Google, el total de proyectos de software que utilizan IA aumentó de «uso esporádico» a más de 2.700 proyectos durante el año.

Webgrafía

Dataversity

Ediciones 2019-20-21-22

This post is also available in: Español