Motores de búsqueda y recuperación de la información

Los motores de búsqueda y recuperación de la información. ¿Sabían ustedes que los modernos motores de búsqueda basan sus resultados en la ciencia de la recuperación de la información, una ciencia que ha existido desde mediados del siglo XX, cuando se usaba para bases de datos de grandes bibliotecas, centros de investigación y laboratorios del gobierno. Los expertos en esta ciencia de la recuperación de la información descubrieron que en este proceso habían dos elementos críticos para los resultados arrojados: la pertinencia y la importancia de los datos. Para medir estos factores los motores de búsqueda analizan los documentos encontrados (incluyendo el análisis semántico de los conceptos a través de los mismos) y los links o citas.

Análisis de documentos y conectividad semántica.
En los análisis de documentos los motores de búsqueda buscan si hay coincidencias entre los términos de la búsqueda y áreas clave de los documentos como pueden ser los títulos, encabezados, los metadatos, etc. Fuera de eso los motores de búsqueda evalúan la llamada conectividad semántica, la relación entre palabras o frases entre sí. Por ejemplo, la palabra Miami puede tener conexión lógica con Florida o Estados Unidos pero no existen nexos rápidos con Perú por decir algo. De esa forma los motores de búsqueda elaboran sus particulares diccionarios de sinónimos y de temas relacionados (¿algo que ver con los contenidos robotizados que resultan expresando incoherencias y no son bien rankeados por google?). Por el simple escaneo de su gigantesca base de datos y empleando técnicas de la lógica difusa (heurística que asigna valores de verdad entre 0 y 1, muy similar a la lógica probabilística en su planteamiento pero sus interpretaciones son distintas) que no es categórica en sus asertos como verdaderos o falsos.

Pero en esto de motores de búsqueda y recuperación de la información se habla recurrentemente también de análisis semántico latente, una técnica de procesamiento del lenguaje que tiene relación con la llamada semántica vectorial, que intenta analizar y relacionar grupos de documentos y términos relacionados entre ellos.

Análisis de links.
En el análisis de links google y los motores de búsqueda evalúan la cantidad de enlaces que unen a un sitio con otro y lo que se dice de la página web que se enlaza (anchor text o texto de anclaje); la autoridad de la página emisora del enlace y la credibilidad de su link frente a otras con menos confiabilidad por el sistema y si el referente tiene vínculos temáticos con su referido. Por ejemplo, un enlace de un sitio que hable de comidas rápidas a la hora de referenciar una web de salchichas y embutidos, tienen mayor peso que el de un sitio de vajillas referenciando a la misma web de carnes frías. Zapatero a tus zapatos. Otro factor decisivo en un enlace o link (algo que hace parte del análisis de documentos que hace la recuperación de la información y los motores de búsqueda) es la forma de implementar el vínculo y el sitio donde se coloca.

Motores de búsqueda y recuperación de la información, un tema de candente actualidad para entender el funcionamiento de sitios como google, bing o yahoo search.

Ver: lo que google no ve

Ediciones 2011-13-14

This post is also available in: Español