Análisis Semántico Latente, LSA, qué es, definición, concepto, significado

Análisis Semántico Latente, LSA, qué es, definición, concepto, significado. El análisis semántico latente ( LSA por sus iniciales en inglés, Latent Semantic Analysis) es una técnica en el procesamiento del lenguaje natural , en particular la semántica distributiva , de analizar las relaciones entre un conjunto de documentos y los términos que contienen al producir un conjunto de conceptos relacionados con los documentos y términos.El Análisis semántico latente (LSA) es una teoría y un método para extraer y representar el significado contextual de las palabras mediante cálculos estadísticos aplicados a un gran corpus de texto. La idea subyacente es que la totalidad de la información sobre todos los contextos de palabras en que aparece y no aparece una palabra determinada proporciona un conjunto de restricciones mutuas que determina en gran medida la similitud del significado de las palabras y el conjunto de palabras entre sí. La adecuación de la reflexión de LSA sobre el conocimiento humano se ha establecido de diversas maneras.

LSA asume que las palabras que tienen un significado cercano aparecerán en partes de texto similares (la hipótesis distributiva ). Una matriz que contiene recuentos de palabras por párrafo (las filas representan palabras únicas y las columnas representan cada párrafo) se construye a partir de una gran parte del texto y una técnica matemática llamada descomposición de valores singulares(SVD) se utiliza para reducir el número de filas y preservar la estructura de similitud entre las columnas. Luego, los párrafos se comparan tomando el coseno del ángulo entre los dos vectores (o el producto de puntos entre las normalizaciones de los dos vectores) formado por dos columnas cualesquiera. Los valores cercanos a 1 representan párrafos muy similares, mientras que los valores cercanos a 0 representan párrafos muy diferentes.

Después de procesar una gran muestra de lenguaje legible por máquina, el Análisis semántico latente (LSA, por sus siglas en inglés) representa las palabras utilizadas en él y cualquier conjunto de estas palabras, como las contenidas en una oración, párrafo o ensayo, ya sea tomadas del corpus original. o new-as puntos en un espacio semántico dimensional muy alto (por ejemplo, 50-1,000). LSA se basa en la descomposición de valores singulares, una técnica de descomposición de matriz matemática muy similar al análisis factorial que recientemente se ha aplicado a las bases de datos que se acercan al volumen de lenguaje relevante experimentado por las personas.

Se ha encontrado que las representaciones de significado de palabras y discursos derivadas de LSA son capaces de simular una variedad de fenómenos cognitivos humanos, que van desde la adquisición de vocabulario de reconocimiento hasta la preparación semántica de oraciones y juicios de calidad de ensayo.

La LSA puede interpretarse de dos maneras: (1) simplemente como un recurso práctico para obtener estimaciones aproximadas de la sustituibilidad de uso contextual de palabras en segmentos de texto más grandes, y de los tipos de similitudes de significado, aunque no completamente especificadas, entre palabras y segmentos de texto que tales relaciones pueden reflejar, o (2) como un modelo de los procesos computacionales y representaciones que subyacen a partes sustanciales de la adquisición y utilización del conocimiento. A continuación dibujamos ambas vistas.

Como método práctico para la caracterización estadística del uso de palabras, sabemos que la LSA produce medidas de las relaciones palabra-palabra, palabra-pasaje y pasaje-pasaje que están razonablemente bien correlacionadas con varios fenómenos cognitivos humanos que involucran asociación o similitud semántica. La evidencia empírica de esto será revisada en breve. La correlación debe ser el resultado de la forma en que la representación de significado de los pueblos se refleja en la selección de palabras de los escritores, y / o viceversa, en que las representaciones de significado de los pueblos reflejan las estadísticas de lo que han leído y escuchado. LSA nos permite aproximar los juicios humanos de similitud de significado general, estimaciones de las cuales a menudo ocupan un lugar destacado en la investigación sobre el procesamiento del discurso. Es importante tener en cuenta desde el principio, sin embargo,

Por supuesto, la LSA, tal como se practica actualmente, induce sus representaciones del significado de las palabras y los pasajes del análisis de texto solo. Ninguno de sus conocimientos proviene directamente de la información perceptiva acerca del mundo físico, del instinto o del intercambio de experiencias con funciones y sentimientos corporales. Así, su representación de la realidad está destinada a ser algo estéril y sin sangre. Sin embargo, toma en cuenta las descripciones y los resultados verbales de todos estos procesos jugosos, y en la medida en que las personas han expresado tales cosas en palabras, o que sus palabras han reflejado tales asuntos de manera no intencional, la LSA tiene al menos un acceso potencial al conocimiento sobre ellos.

Las representaciones de los pasajes que forma LSA se pueden interpretar como abstracciones de «episodios», a veces de episodios de contenido puramente verbal como argumentos lógicos, y, a veces, episodios de la vida real o imaginada codificados en descripciones verbales. Su representación de las palabras está, a su vez, entrelazada y es mutuamente interdependiente con su conocimiento de los episodios. Por lo tanto, aunque el conocimiento potencial de LSA es seguramente imperfecto, creemos que a menudo puede ofrecer una aproximación lo suficientemente cercana al conocimiento de las personas para sustentar teorías y pruebas de las teorías de la cognición. (Uno podría considerar que su conocimiento máximo del mundo es análogo al conocimiento del sexo de una monja bien leído, un nivel de conocimiento que a menudo se considera una base suficiente para asesorar a los jóvenes).

LSA se diferencia de otros enfoques estadísticos en dos aspectos significativos.

Primero, el análisis de LSA (al menos como se practica actualmente) utiliza como sus datos iniciales no solo las co-ocurrencias de palabras contiguas (o de la tupla) contiguas sumadas de las palabras, sino los patrones detallados de las ocurrencias de las palabras en un gran número de significados locales. -contextos que llevan, como oraciones o párrafos, tratados como totalidades unitarias.
En segundo lugar, el método LSA supone que la elección de la dimensionalidad en la que se representan conjuntamente todas las relaciones locales entre la palabra y el contexto es de gran importancia, ya que reduce la dimensionalidad (los parámetros numéricos por los cuales se describe una palabra o un pasaje) de los datos observados. desde el número de contextos iniciales hasta un número mucho más pequeño, pero aún así grande, a menudo producirá aproximaciones mucho mejores a las relaciones cognitivas humanas. Así, Un componente importante de la aplicación de la técnica es encontrar la dimensionalidad óptima para la representación final. Una posible interpretación de este paso, en términos familiares para los investigadores en psicolingüística, es que las dimensiones resultantes de la descripción son análogas a las características semánticas que a menudo se postulan como la base del significado de las palabras, aunque el establecimiento de relaciones concretas con las características interpretables mentalmente plantea un desafío técnico y Problemas conceptuales y aún no se ha intentado seriamente.
Finalmente, LSA, a diferencia de muchos otros métodos, emplea un paso de preprocesamiento en el que se tiene en cuenta la distribución general de las palabras en contextos de uso, independientemente de sus correlaciones; Pragmáticamente, este paso mejora considerablemente los resultados de LSA.

Sin embargo, la LSA como se practica actualmente tiene algunas limitaciones adicionales. No hace uso del orden de las palabras, por lo tanto de las relaciones sintácticas o la lógica, o de la morfología. Sorprendentemente, logra extraer las reflexiones correctas de los significados de pasajes y palabras bastante bien sin estas ayudas, pero aún debe sospecharse que está incompleto o es posible que haya un error en algunas ocasiones.

No obstante, como se indicó anteriormente, hay otra forma bastante diferente de pensar acerca de la LSA. Landauer y Dumais (1996; 1997) han propuesto que LSA constituye una teoría computacional fundamental de la adquisición y representación del conocimiento. Sostienen que su mecanismo subyacente puede explicar un misterio de larga data e importante, la propiedad inductiva del aprendizaje por la cual las personas adquieren mucho más conocimiento del que parece estar disponible en la experiencia, el famoso problema de la pobreza del estímulo.

El mecanismo LSA que resuelve el problema consiste simplemente en acomodar un gran número de relaciones de co-ocurrencia local simultáneamente en un espacio de la dimensionalidad correcta, hipotéticamente uno en el que hay una coincidencia de dimensionalidad entre el espacio semántico de la fuente que genera el discurso y el de la representación en la que se reconstruye, extrayendo así mucha información indirecta de las innumerables limitaciones locales y vinculaciones latentes contenidas en los datos de la experiencia . El apoyo principal para esta afirmación proviene del uso de LSA para derivar medidas de la similitud del significado de las palabras del texto.

Los resultados han demostrado que: 1) las similitudes de significado así derivadas coinciden estrechamente con las de los humanos, 2) la tasa de LSA de tal conocimiento a partir del texto se aproxima a la de los humanos, y 3) estos logros dependen en gran medida de la dimensionalidad de la representación. De esta y otras formas, LSA realiza una inducción de conocimiento potente y, según el estándar de comparación humana, correcta. Usando representaciones así derivadas, simula una variedad de otros fenómenos cognitivos que dependen de la palabra y el significado del pasaje. Por lo tanto, proponemos a los investigadores en el procesamiento del discurso no solo que usen LSA para agilizar sus investigaciones, sino que se unan al proyecto de prueba, desarrollo y exploración de sus implicaciones teóricas y límites fundamentales.

Una técnica de recuperación de información que utiliza una estructura semántica latente fue patentada en 1988 ( Patente de EE . UU. 4.839.853 , actualmente vencida) por Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum y Lynn Streeter . En el contexto de su aplicación a la recuperación de información , a veces se le llama indexación semántica latente ( LSI )

Otros recursos sobre semántica en nuestro blog de Posicionamiento web: Qué es la búsqueda semántica, definición, significado; Similitud semántica o proximidad, qué es; motores de búsqueda, web; El marcado semántico HTML5 permite a la máquina – Búsqueda legible

This post is also available in: Español