¿Que es data science, ciencia de datos? Definición, significado, concepto.La ciencia de datos es una combinación multidisciplinaria de inferencia de datos, desarrollo de algoritmos y tecnología para resolver problemas analíticamente complejos.
En el núcleo están los datos. En última instancia, la ciencia de los datos consiste en utilizar estos datos de manera creativa para generar valor empresarial.
A medida que el mundo entró en la era del big data, la necesidad de almacenamiento también creció. Fue el principal desafío y preocupación para las industrias empresariales hasta 2010. El objetivo principal era crear un marco y soluciones para almacenar datos.
Ahora, cuando Hadoop y otros marcos han resuelto con éxito el problema del almacenamiento, el enfoque se ha desplazado al procesamiento de estos datos. La ciencia de datos es la salsa secreta aquí.
Todas las ideas que ven en las películas de ciencia ficción de Hollywood pueden convertirse en realidad gracias a Data Science. La ciencia de los datos es el futuro de la inteligencia artificial. Por lo tanto, es muy importante entender qué es Data Science y cómo puede agregar valor a su negocio.
Entendamos por qué necesitamos ciencia de datos
Tradicionalmente, los datos que teníamos eran en su mayoría estructurados y de pequeño tamaño, que podían analizarse utilizando las herramientas de BI simples. A diferencia de los datos en los sistemas tradicionales que estaban mayormente estructurados , hoy en día la mayoría de los datos son desestructurados o semiestructurados.
Echemos un vistazo a las tendencias de datos en la imagen que se muestra a continuación, que muestra que para 2020, más del 80% de los datos no estarán estructurados.
Estos datos se generan a partir de diferentes fuentes, como registros financieros, archivos de texto, formularios multimedia, sensores e instrumentos. Las herramientas de BI simples no son capaces de procesar este enorme volumen y variedad de datos.
Es por eso que necesitamos herramientas y algoritmos analíticos más complejos y avanzados para procesarlos, analizarlos y extraer información significativa de ellos.
Esta no es la única razón por la que Data Science se ha vuelto tan popular. Vamos a profundizar y ver cómo se está utilizando Data Science en varios dominios.
¿Qué tal si pudiera entender los requisitos precisos de sus clientes a partir de los datos existentes, como el historial de navegación, el historial de compras, la edad y los ingresos del cliente?
Sin duda, también tenía todos estos datos anteriormente, pero ahora con la gran cantidad y variedad de datos, puede capacitar a los modelos de manera más efectiva y recomendar el producto a sus clientes con más precisión. ¿No sería increíble, ya que traerá más negocios a su organización?
Tomemos un escenario diferente para entender el papel de la ciencia de datos en la toma de decisiones. ¿Qué tal si tu auto tuviera la inteligencia para llevarte a casa? Los autos automáticos recolectan datos en vivo de los sensores, incluidos radares, cámaras y láseres para crear un mapa de sus alrededores.
Basándose en estos datos, toma decisiones como cuándo acelerar, cuándo acelerar, cuándo adelantar, dónde tomar un turno, hacer uso de algoritmos avanzados de aprendizaje automático.
Veamos cómo se puede usar Data Science en el análisis predictivo. Tomemos como ejemplo el pronóstico del tiempo. Los datos de barcos, aeronaves, radares, satélites se pueden recopilar y analizar para construir modelos.
Estos modelos no solo pronosticarán el clima sino que también ayudarán a predecir la ocurrencia de calamidades naturales. Le ayudará a tomar las medidas apropiadas de antemano y salvar muchas vidas preciosas.
Otra forma de expresarlo
El uso del término Ciencia de datos es cada vez más común , pero ¿qué significa exactamente? ¿Qué habilidades necesitas para convertirte en Data Scientist? ¿Cuál es la diferencia entre BI y Data Science? ¿Cómo se toman las decisiones y predicciones en la ciencia de datos? Estas son algunas de las preguntas que serán respondidas más adelante.
Primero, veamos que es Data Science. Data Science es una combinación de varias herramientas, algoritmos y principios de aprendizaje automático con el objetivo de descubrir patrones ocultos a partir de los datos en bruto. ¿En qué se diferencia esto de lo que los estadísticos han estado haciendo durante años?
La respuesta está en la diferencia entre explicar y predecir .
Data Scientist no solo realiza el análisis exploratorio para descubrir sus percepciones, sino que también utiliza varios algoritmos avanzados de aprendizaje automático para identificar la ocurrencia de un evento en particular en el futuro. Un científico de datos analizará los datos desde muchos ángulos, a veces ángulos no conocidos anteriormente.
Por lo tanto, Data Science se usa principalmente para tomar decisiones y predicciones que utilizan el análisis causal predictivo, el análisis prescriptivo (predictivo más la ciencia de la decisión) y el aprendizaje automático.
Análisis causal predictivo
Si desea un modelo que pueda predecir las posibilidades de un evento en particular en el futuro, debe aplicar el análisis causal predictivo.
Por ejemplo, si está proporcionando dinero a crédito, entonces la probabilidad de que los clientes realicen pagos de crédito futuros a tiempo es una cuestión de preocupación para usted. Aquí, puede crear un modelo que pueda realizar análisis predictivos en el historial de pagos del cliente para predecir si los pagos futuros se realizarán a tiempo o no.
Análisis prescriptivo
Si desea un modelo que tenga la inteligencia de tomar sus propias decisiones y la capacidad de modificarlo con parámetros dinámicos , ciertamente necesita un análisis prescriptivo para ello. Este campo relativamente nuevo tiene que ver con proporcionar asesoramiento.
En otros términos, no solo predice, sino que sugiere un rango de acciones prescritas y resultados asociados.
El mejor ejemplo para esto es el auto-coche de Google, del cual también había hablado anteriormente. Los datos recopilados por los vehículos se pueden utilizar para entrenar autos que conducen por sí mismos. Puede ejecutar algoritmos en estos datos para traerle inteligencia. Esto permitirá que su automóvil tome decisiones como cuándo girar, qué camino tomar , cuándo desacelerar o acelerar.
Aprendizaje automático para hacer predicciones
Si tiene datos transaccionales de una compañía financiera y necesita construir un modelo para determinar la tendencia futura, entonces los algoritmos de aprendizaje automático son la mejor opción. Esto cae bajo el paradigma del aprendizaje supervisado.
Se llama supervisado porque ya tiene los datos basados en los cuales puede entrenar sus máquinas. Por ejemplo, un modelo de detección de fraude puede ser entrenado usando un registro histórico de compras fraudulentas.
Aprendizaje automático para el descubrimiento de patrones
Si no tiene los parámetros en función de los cuales puede hacer predicciones, necesita descubrir los patrones ocultos dentro del conjunto de datos para poder hacer predicciones significativas. Esto no es más que el modelo sin supervisión ya que no tiene etiquetas predefinidas para agrupar. El algoritmo más común utilizado para el descubrimiento de patrones es la agrupación en clústeres.
Digamos que está trabajando en una compañía telefónica y necesita establecer una red colocando torres en una región . Luego, puede utilizar la técnica de agrupación para encontrar las ubicaciones de las torres, lo que garantizará que todos los usuarios reciban una potencia de señal óptima.
Veamos cómo la proporción de los enfoques descritos anteriormente difiere tanto para el análisis de datos como para la ciencia de datos. El análisis de datos incluye análisis descriptivos y predicciones hasta cierto punto. Por otro lado, Data Science es más información sobre el análisis causal predictivo y el aprendizaje automático.
Business Intelligence (BI) vs. Data Science
BI básicamente analiza los datos anteriores para encontrar una visión retrospectiva y una perspectiva para describir las tendencias de negocios. BI le permite tomar datos de fuentes externas e internas, prepararlos, realizar consultas en ellos y crear paneles para responder preguntas como el análisis de ingresos trimestrales o problemas comerciales. BI puede evaluar el impacto de ciertos eventos en un futuro cercano.
Data Science es un enfoque más prospectivo, una forma exploratoria que se enfoca en analizar los datos pasados o actuales y predecir los resultados futuros con el objetivo de tomar decisiones informadas. Responde las preguntas abiertas en cuanto a los eventos “qué” y “cómo” ocurren.
Ciclo de vida de la ciencia de datos
- Fase 1: Descubrimiento: Antes de comenzar el proyecto, es importante comprender las diferentes especificaciones, requisitos, prioridades y presupuesto requerido. Debe tener la capacidad de hacer las preguntas correctas. Aquí, evalúa si tiene los recursos necesarios presentes en términos de personas, tecnología, tiempo y datos para respaldar el proyecto. En esta fase, también debe enmarcar el negocio Problema y formular hipótesis iniciales (IH) para probar.
- Fase 2: preparación de datos: en esta fase, necesita un espacio de prueba analítico en el que pueda realizar análisis durante toda la duración del proyecto. Debe explorar, preprocesar y condicionar los datos antes de modelar. Además, realizará ETLT (extraer, transformar, cargar y transformar) para obtener datos en el arenero.
- Fase 3 Modelo de planificación: Aquí, determinará los métodos y técnicas para dibujar las relaciones entre las variables. Estas relaciones establecerán la base para los algoritmos que implementará en la siguiente fase . Aplicará el Análisis de datos exploratorios (EDA) utilizando varias fórmulas estadísticas y Herramientas de visualización.Ahora que tiene información sobre la naturaleza de sus datos y ha decidido los algoritmos que se utilizarán. En la siguiente etapa, aplicará el algoritmo y construirá un modelo.
- Fase 4: construcción de modelos: en esta fase, desarrollará conjuntos de datos con fines de capacitación y prueba. Considerará si sus herramientas existentes serán suficientes para ejecutar los modelos o necesitará un entorno más sólido (como procesamiento rápido y paralelo) Para analizar el modelo , analizará varias técnicas de aprendizaje como la clasificación, la asociación y la agrupación en clústeres.
- Fase 5 – Operacionalizar: En esta fase, usted entrega informes finales, informes, códigos y documentos técnicos. Además, a veces, un proyecto piloto también se implementa en un entorno de producción en tiempo real. Esto le proporcionará una imagen clara del rendimiento y otras restricciones relacionadas en pequeña escala antes de la implementación completa.
- Fase 6: comunique los resultados: Ahora es importante evaluar si ha logrado el objetivo que había planeado en la primera fase. Entonces, en la última fase, usted identifica todos los hallazgos clave, se comunica con las partes interesadas y determina si los resultados del proyecto son un éxito o un fracaso en función de los criterios desarrollados en la Fase 1.
Ciencia de datos – descubrimiento de la visión de datos
Este aspecto de la ciencia de datos tiene que ver con descubrir los resultados de los datos. Bucear a un nivel granular para minar y comprender comportamientos complejos, tendencias e inferencias. Se trata de presentar una visión oculta que puede ayudar a las empresas a tomar decisiones comerciales más inteligentes. Por ejemplo:
Los datos de Netflix minan los patrones de visualización de películas para comprender qué es lo que impulsa el interés del usuario y lo utilizan para tomar decisiones sobre qué serie original de Netflix producir.
Target identifica cuáles son los principales segmentos de clientes dentro de su base y los comportamientos de compra únicos dentro de esos segmentos, lo que ayuda a guiar los mensajes a diferentes audiencias del mercado.
Procter & Gamble utiliza modelos de series de tiempo para comprender más claramente la demanda futura, lo que ayuda a planificar los niveles de producción de manera más óptima.
¿Cómo extraen las ideas los científicos de datos?
Comienza con la exploración de datos. Cuando se les da una pregunta desafiante, los científicos de datos se convierten en detectives. Ellos investigan pistas y tratan de entender patrones o características dentro de los datos. Esto requiere una gran dosis de creatividad analítica.
Luego, según sea necesario, los científicos de datos pueden aplicar una técnica cuantitativa para profundizar en el nivel, por ejemplo, modelos inferenciales, análisis de segmentación, pronóstico de series de tiempo, experimentos de control sintético, etc. La intención es juntar científicamente una visión forense de lo que son los datos. realmente diciendo
Esta visión basada en datos es fundamental para proporcionar orientación estratégica. En este sentido, los científicos de datos actúan como consultores y guían a las partes interesadas de negocios sobre cómo actuar en base a los hallazgos.
Ciencia de datos – desarrollo de producto de datos
Un “producto de datos” es un activo técnico que: (1) utiliza datos como entrada, y (2) procesa esos datos para devolver los resultados generados algorítmicamente. El ejemplo clásico de un producto de datos es un motor de recomendación, que ingiere datos de usuarios y realiza recomendaciones personalizadas basadas en esos datos. Aquí hay algunos ejemplos de productos de datos:
Los motores de recomendación de Amazon sugieren artículos para que los compre, determinados por sus algoritmos. Netflix te recomienda películas. Spotify te recomienda la música.
El filtro de correo no deseado de Gmail es un producto de datos: un algoritmo detrás de escena procesa el correo entrante y determina si un mensaje es basura o no.
La visión computarizada utilizada para los autos que conducen por sí misma también es un producto de datos: los algoritmos de aprendizaje automático pueden reconocer los semáforos, otros automóviles en la carretera, peatones, etc.
Esto es diferente de la sección “información sobre los datos” de arriba, donde tal vez el resultado sea asesorar a un ejecutivo para que tome una decisión empresarial más inteligente.
En contraste, un producto de datos es una funcionalidad técnica que encapsula un algoritmo y está diseñado para integrarse directamente en las aplicaciones principales. Ejemplos respectivos de aplicaciones que incorporan productos de datos tras bambalinas: la página de inicio de Amazon, la bandeja de entrada de Gmail y el software de conducción autónoma.
Los científicos de datos juegan un papel central en el desarrollo de productos de datos. Esto implica desarrollar algoritmos, así como pruebas, refinamiento y despliegue técnico en sistemas de producción. En este sentido, los científicos de datos sirven como desarrolladores técnicos, creando activos que pueden aprovecharse a gran escala.
La ciencia de datos es una combinación de habilidades en tres áreas principales
Experiencia en Matemáticas
En el corazón de la información de datos mineros y del producto de datos de construcción se encuentra la capacidad de ver los datos a través de una lente cuantitativa.
Existen texturas, dimensiones y correlaciones en los datos que se pueden expresar matemáticamente. Encontrar soluciones que utilicen datos se convierte en un enigma de la heurística y la técnica cuantitativa.
Las soluciones a muchos problemas de negocios involucran la construcción de modelos analíticos basados en las matemáticas duras, donde la comprensión de la mecánica subyacente de esos modelos es clave para el éxito en la construcción de los mismos.
Además, un concepto erróneo es que la ciencia de los datos tiene que ver con las estadísticas. Si bien las estadísticas son importantes, no es el único tipo de matemática utilizado. Primero, hay dos ramas de estadísticas: estadísticas clásicas y estadísticas bayesianas .
Cuando la mayoría de las personas se refieren a estadísticas , generalmente se refieren a estadísticas clásicas , pero el conocimiento de ambos tipos es útil. Además, muchas técnicas inferenciales y algoritmos de aprendizaje automático se basan en el conocimiento del álgebra lineal .
Por ejemplo, un método popular para descubrir características ocultas en un conjunto de datos es SVD, que se basa en las matrices matemáticas y tiene mucho menos que ver con las estadísticas clásicas. En general, es útil para los científicos de datos tener amplitud y profundidad en su conocimiento de las matemáticas.
Tecnologia y hacking
En primer lugar, aclaremos que no estamos hablando de piratería, sino de romper en las computadoras. Nos estamos refiriendo a la subcultura de programador tecnológico que significa piratería , es decir, creatividad e ingenio en el uso de habilidades técnicas para construir cosas y encontrar soluciones inteligentes a los problemas.
¿Por qué es importante la capacidad de pirateo? Debido a que los científicos de datos utilizan la tecnología para disputar enormes conjuntos de datos y trabajar con algoritmos complejos, se requieren herramientas mucho más sofisticadas que Excel.
Los científicos de datos necesitan poder codificar, prototipo de soluciones rápidas, así como integrarse con sistemas de datos complejos. Los lenguajes principales asociados con la ciencia de datos incluyen SQL, Python, R y SAS.
En la periferia se encuentran Java, Scala, Julia y otros. Pero no es solo conocer los fundamentos del lenguaje. Un hacker es un ninja técnico, capaz de navegar creativamente en su camino a través de desafíos técnicos para hacer que su código funcione.
En este sentido, un pirata informático de la ciencia de datos es un pensador algorítmico sólido , que tiene la capacidad de descomponer los problemas complicados y recomponerlos de manera que se puedan resolver.
Esto es crítico porque los científicos de datos operan dentro de una gran complejidad algorítmica. Deben tener una sólida comprensión mental de datos de alta dimensión y flujos de control de datos difíciles. Claridad total sobre cómo todas las piezas se juntan para formar una solución cohesiva.
Visión para los negocios fuerte
Es importante que un científico de datos sea un consultor de negocios táctico . Trabajando tan estrechamente con los datos, los científicos de datos están en posición de aprender de los datos de una manera que nadie más puede hacerlo.
Eso crea la responsabilidad de traducir las observaciones a conocimientos compartidos y contribuir a la estrategia sobre cómo resolver problemas centrales de negocios.
Esto significa que una competencia básica de la ciencia de datos es usar datos para contar una historia de manera convincente. No se trata de datos, más bien, presente una narrativa cohesiva del problema y la solución, utilizando información de datos como pilares de apoyo, que conduzcan a la orientación.
Tener esta visión para los negocios es tan importante como tener la visión para la tecnología y los algoritmos. Debe haber una alineación clara entre los proyectos de ciencia de datos y los objetivos comerciales.
En última instancia, el valor no proviene de los datos, las matemáticas y la tecnología en sí. Se trata de aprovechar todo lo anterior para crear capacidades valiosas y tener una fuerte influencia empresarial.
Leer también: Historia del Big Data ; Los data centers hiperescalables, en que se diferencian de los tradicionales