¿Qué es el análisis de texto, extracción de textos o minería de textos?

¿Qué es el análisis de texto, extracción de textos o minería de textos? La extracción de texto , también conocida como minería de datos de texto , más o menos equivalente a la analítica de texto , es el proceso de derivar información de alta calidad del texto .La información de alta calidad se obtiene típicamente a través de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje estadístico de patrones . La minería de texto generalmente implica el proceso de estructurar el texto de entrada (generalmente el análisis sintáctico, junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivando patrones dentro de los datos estructurados y, finalmente, evaluación e interpretación del resultado.

La «alta calidad» en la minería de textos generalmente se refiere a una combinación de relevancia , novedad e interés. Las tareas típicas de minería de texto incluyen categorización de texto , clustering de texto , extracción de concepto / entidad, producción de taxonomías granulares, análisis de sentimiento , resumen de documentos y modelado de relaciones de entidad ( es decir , relaciones de aprendizaje entre entidades con nombre ).

El análisis de texto implica recuperación de información , análisis léxico para estudiar la distribución de frecuencia de palabras, reconocimiento de patrones , etiquetado / anotación , extracción de información , técnicas de minería de datos que incluyen análisis de asociación y enlace, visualización y análisis predictivo . El objetivo principal es, esencialmente, convertir el texto en datos para su análisis, a través de la aplicación del procesamiento del lenguaje natural (NLP) y métodos analíticos.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y modelar el conjunto de documentos para fines de clasificación predictiva o rellenar una base de datos o índice de búsqueda con la información extraída.

Objeto

El objetivo de La minería de texto es procesar información no estructurada (textual), extraer índices numéricos significativos del texto y, de este modo, hacer que la información contenida en el texto sea accesible para los diversos algoritmos de minería de datos (aprendizaje estadístico y de máquina). Se puede extraer información para derivar resúmenes de las palabras contenidas en los documentos o para calcular resúmenes de los documentos en función de las palabras que contienen. Por lo tanto, puede analizar palabras, grupos de palabras usadas en documentos, etc., o puede analizar documentos y determinar similitudes entre ellos o cómo se relacionan con otras variables de interés en el proyecto de minería de datos. En términos más generales, la minería de texto «convertirá el texto en números» (índices significativos), que luego se puede incorporar en otros análisis como proyectos predictivos de minería de datos , la aplicación de métodos de aprendizaje no supervisados (clustering), etc.

Como se puede apreciar en este corpus teórico, este tipo de conceptos nos ayudará a entender lo que está sucediendo en Google Search, en las búsquedas con inteligencia artificial tanto en motores de búsqueda como en aplicaciones. Y claro, las correspondientes derivaciones para el SEO y el posicionamiento web, para quienes nos dedicamos a este oficio.

Leer también: Sinónimos de Co-ocurrencia; antónimos ; Co-Ocurrencia, qué es; linguística, SEO; semántica ; Similitud semántica o proximidad, qué es; motores de búsqueda, webCo-Citacion, semántica, bibliografía, SEO, qué es

This post is also available in: Español