¿Qué es la minería de datos? Data mining, definición, concepto, significado

¿Qué es la minería de datos? Data mining, definición, concepto, significado.Cómo la analítica descubre ideas. Historia, fases, tipos, ejemplos.
La minería de datos es el proceso automatizado de clasificación a través de enormes conjuntos de datos para identificar tendencias y patrones y establecer relaciones.
Las organizaciones de hoy están reuniendo volúmenes cada vez mayores de información de todo tipo de fuentes, incluidos sitios web, aplicaciones empresariales, redes sociales, dispositivos móviles y, cada vez más, Internet de las cosas (IoT).

La gran pregunta es: ¿Cómo puede derivar valor comercial real de esta información? Ahí es donde la minería de datos puede contribuir de manera importante. La minería de datos es el proceso automatizado de clasificación a través de enormes conjuntos de datos para identificar tendencias y patrones y establecer relaciones, para resolver problemas de negocios o generar nuevas oportunidades a través del análisis de los datos.
No es solo una cuestión de mirar los datos para ver qué ha sucedido en el pasado para poder actuar con inteligencia en el presente. Las herramientas y técnicas de minería de datos le permiten predecir qué sucederá en el futuro y actuar en consecuencia para aprovechar las tendencias futuras.

El término “minería de datos” se usa bastante ampliamente en la industria de TI. A menudo se aplica a una variedad de actividades de procesamiento de datos a gran escala, como la recopilación, extracción, almacenamiento y análisis de datos. También puede abarcar aplicaciones y tecnologías de apoyo a la decisión, tales como inteligencia artificial , aprendizaje automático e inteligencia comercial.

La minería de datos se utiliza en muchas áreas de negocios e investigación, incluido el desarrollo de productos, ventas y marketing, genética y cibernética, por nombrar algunos. Si se usa de la manera correcta, la minería de datos combinada con el análisis predictivo puede darle una gran ventaja sobre los competidores que no usan estas herramientas.

¿Qué significa?

La minería de datos es la exploración y el análisis de grandes volúmenes de datos para descubrir patrones y reglas significativos. Se considera una disciplina en el campo de estudio de la ciencia de datos y difiere de la analítica predictiva porque describe datos históricos, mientras que la extracción de datos apunta a predecir resultados futuros. Además, las técnicas de minería de datos se utilizan para construir modelos de aprendizaje automático (ML) que impulsan aplicaciones modernas de inteligencia artificial (IA), como algoritmos de búsqueda y sistemas de recomendación.
La minería de datos es el medio por el cual las organizaciones obtienen valor de sus datos, y se ha vuelto cada vez más central para mantener una ventaja competitiva en los negocios.
Una analogía popular proclama que los datos son “el nuevo petróleo”, así que piense en la extracción de datos como una perforación y refinación del petróleo: la extracción de datos es el medio por el cual las organizaciones extraen valor de sus datos.

En términos más prácticos, la extracción de datos implica analizar datos para buscar patrones, correlaciones, tendencias y anomalías que podrían ser importantes para un negocio en particular. Como tal, está estrechamente relacionado con Big Data , un término más amplio que abarca los múltiples usos de los datos para comprender las tendencias.

Por ejemplo, la minería de datos puede ayudar a las empresas a identificar a sus mejores clientes. Las organizaciones pueden usar técnicas de extracción de datos para analizar la compra anterior de un cliente en particular y predecir lo que un cliente podría comprar en el futuro. También puede resaltar las compras que están fuera de lo normal para un cliente y puede indicar fraude.

Las empresas pueden usar para encontrar ineficiencias en los procesos de fabricación, defectos potenciales en los productos o debilidades en la cadena de suministro. Una buena estrategia de gestión de datos maestros incluye la minería de datos.

A menudo, las técnicas de extracción de datos se utilizan para analizar datos estructurados que residen en almacenes de datos . Sin embargo, las empresas también utilizan la minería de datos para ayudar a extraer información de sus tiendas de datos no estructurados que pueden residir en Hadoop u otro tipo de repositorio de datos.

Hoy en día, la minería de datos en todos los tipos de datos se ha convertido en parte de una búsqueda sin fin para obtener una ventaja competitiva.

Historia de la minería de datos

Uno de los primeros artículos en usar la frase “minería de datos” fue publicado por Michael C. Lovell en 1983. En ese momento, Lovell y muchos otros economistas tuvieron una opinión bastante negativa de la práctica, creyendo que las estadísticas podrían llevar a conclusiones incorrectas cuando No se estaba informado, contextualmente, por el conocimiento de la materia.

Pero en la década de 1990, la idea de extraer valor de los datos mediante la identificación de patrones se había vuelto mucho más popular. Los proveedores de bases de datos y de almacenamiento de datos comenzaron a utilizar la palabra de moda para comercializar su software. Y las empresas comenzaron a tomar conciencia de los beneficios potenciales de la práctica.

En 1996, un grupo de empresas que incluía a Teradata y NCR lideraron un proyecto para estandarizar y formalizar las metodologías de extracción de datos. Su trabajo dio como resultado el Proceso Estándar para la Minería de Datos (CRISP-DM). Este estándar abierto divide el proceso de extracción de datos en seis fases:

  1. Entendimiento de negocios
  2. Comprensión de datos
  3. Preparación de datos
  4. Modelado
  5. Evaluación
  6. Despliegue

Compañías como IBM continúan promoviendo el modelo CRISP-DM hasta el día de hoy, y en 2015, IBM lanzó una versión actualizada que expandió el modelo básico.

A principios de la década de 2000, las compañías web comenzaron a ver el poder de la minería de datos, y la práctica realmente despegó. Si bien la frase “minería de datos” ha sido eclipsada por otras palabras de moda como “análisis de datos”, “big data” y “aprendizaje automático”, el proceso sigue siendo una parte integral de las prácticas comerciales. De hecho, es justo decir que la minería de datos se ha convertido en una parte de facto de dirigir un negocio moderno.

Tipos de minería de datos

Los científicos y analistas de datos utilizan muchas técnicas diferentes de extracción de datos para lograr sus objetivos. Algunos de los más comunes incluyen los siguientes:

  • La agrupación implica encontrar grupos con características similares. Por ejemplo, los mercadólogos a menudo utilizan la agrupación en clústeres para identificar grupos y subgrupos dentro de sus mercados objetivo. La agrupación es útil cuando no sabe qué similitudes podrían existir dentro de sus datos.
  • La clasificación clasifica los elementos (o individuos) en categorías según un modelo aprendido previamente. La clasificación a menudo se produce después de la agrupación en clústeres (aunque también puede entrenar un sistema para clasificar los datos según las categorías definidas por el científico o analista de datos). La agrupación en clúster identifica los grupos potenciales en un conjunto de datos existente, y la clasificación coloca los nuevos datos en el grupo apropiado. Los sistemas de visión artificial también utilizan sistemas de clasificación para identificar objetos en imágenes.
  • La asociación identifica piezas de datos que se encuentran comúnmente cerca unas de otras. Esta es la técnica que impulsa la mayoría de los motores de recomendación, como cuando Amazon sugiere que si compró un artículo, también le podría gustar otro.
  • La detección de anomalías busca datos que no se ajustan al patrón habitual. Estas técnicas son muy útiles para la detección de fraudes.
  • La regresión es una herramienta estadística más avanzada que es común en el análisis predictivo. Puede ayudar a los desarrolladores de redes sociales y aplicaciones móviles a aumentar la participación, y también puede ayudar a pronosticar ventas futuras y minimizar el riesgo. La regresión y la clasificación también se pueden utilizar juntas en un modelo de árbol que es útil en muchas situaciones diferentes.
  • La minería de textos analiza con qué frecuencia las personas usan ciertas palabras. Puede ser útil para el análisis de sentimientos o la personalidad, así como para analizar publicaciones de redes sociales con fines de marketing o para detectar posibles fugas de datos de los empleados.
  • El resumen pone un grupo de datos en una forma más compacta y fácil de entender. Por ejemplo, puede usar la sumarización para crear gráficos o calcular promedios a partir de un conjunto determinado de datos. Esta es una de las formas más conocidas y accesibles de minería de datos.

Ejemplos de minería de datos

Casi todas las empresas del planeta utilizan la minería de datos, por lo que los ejemplos son casi infinitos. Una forma muy familiar de que los minoristas utilicen la minería de datos es analizar las compras de los clientes y luego enviarles cupones a los clientes por los artículos que deseen comprar en el futuro.

  • Venta al por menor: en un ejemplo bien publicitado, Target comenzó a enviar cupones a una adolescente para productos para bebés, como pañales, alimentos para bebés, fórmulas, etc. Sin embargo, varias semanas después, la niña descubrió que, de hecho, estaba embarazada. En este caso, Target conocía su condición antes que ella misma, basándose únicamente en los cambios en sus hábitos de compra para artículos que no están relacionados explícitamente con el cuidado del bebé.
  • Medios: También encuentra los resultados de la minería de datos cada vez que ve un programa en un servicio de transmisión como Netflix o Hulu. Estos servicios no solo utilizan los datos del espectador para recomendar programas y películas que le gustaría ver, sino que también analizaron sus bases de datos para descubrir las características de los programas que son particularmente populares y luego producen más contenido con esos atributos. Algunos observadores de la industria sostienen que, gracias a esta minería de datos, Netflix se ha vuelto más exitoso que los estudios de Hollywood en la identificación y creación de los tipos de contenido que los espectadores desean.
  • Publicación en la Web: empresas como Facebook y Google también usan la minería de datos para ayudar a sus anunciantes a llegar a los consumidores con contenido específico. Este proceso es más obvio cuando compras algo en un sitio de venta minorista y luego ves anuncios para el mismo artículo en Facebook. Sin embargo, los anunciantes también están utilizando la minería de datos de formas mucho más sutiles que pueden no ser siempre obvias para los visitantes del sitio. Por ejemplo, Facebook ha sido objeto de críticas intensas por la forma en que los anunciantes han podido dirigirse a los votantes con mensajes relacionados con las elecciones. Estos escándalos han resultado en una mayor preocupación por los problemas de privacidad de la minería de datos.