Similitud semántica o proximidad, qué es; motores de búsqueda, web

Similitud semántica o proximidad, qué es; motores de búsqueda, web.

Disertar sobre la similitud semántica o la proximidad semántica es necesario, sobre todo cuando se habla de motores de búsqueda inteligentes, de la web semántica y esos términos algo nebulosos para la mayoría.

En otros apartados hemos hablado de la coocurrencia y la cocitación como una especie de abre-bocas a este tipo de temas. Pues bien, vamos a entrar en materia.

¿Que es la similitud semántica?¿Cual podría ser su concepto o significado? Se trata de una métrica definida sobre un conjunto de datos para hallar parecidos y semejanzas. ¿Cómo se determina esta proximidad semántica? Por sus significados y no por sus representación sintáctica, es decir

Identificar los parecidos entre palabras o frases tienen importantes aplicaciones en el procesamiento del lenguaje natural y en las búsquedas orgánicas normales que hace la gente (no en las que trataron en algún momento de la historia, de inducir los expertos del SEO); también resulta valioso en recuperación de la información y hasta en la inteligencia artificial.

Por lo general se asumen dos grandes enfoques a la hora de determinar dichas proximidades entre oraciones o palabras: un diccionario de sinónimos (por eso en marketing de contenidos aconsejamos emplear a fondo la sinonimia) o computando las estadísticas de un conjunto de datos. Esta información se maneja en datos numéricos. En ambos sentidos el uso de grandes bloques de texto o cadenas largas de caracteres permiten hacer más eficiente el ejercicio.

En el caso de los motores de búsqueda, creemos que cualquier intento no natural de usar el lenguaje, podría, a mediano plazo, no ser bien visto en aras de la clasificación respectiva; el algoritmo es capaz calcular la relevancia temática de un texto, más allá de una palabra, hallando las aproximaciones de rigor en cuestión de milisegundos. Ya no será asunto que un término esté o no en el título, la meta description o los head del texto desarrollado, básicamente con que esté el mismo o un sinónimo (varios también por supuesto) dentro del desarrollo argumental, es suficiente para ser identificado y calculada su posible relevancia al respecto. Tampoco será definitivo el uso de negrillas o el uso de otros atributos como color de texto, tamaño o cursiva, por citar algunos ejemplos.

De todas formas, a los bloggers y  webmasters se nos tiende a olvidar que los encabezados corresponden a una necesidad de ordenar el contenido y, que cuando se define un head, sea este h2, h3…h6, la información que va inmediatamente debajo tiene una fuerte relación en el mismo. De ahí que definir convenientemente este tipo de elementos ayuden a establecer relaciones y significados entre sus partes. ¿En el futuro se tendrá en cuenta el formato del texto? Es factible que no, si bien es solo una especulación mía.

Implícitamente, hay latente un concepto de autoridad y contexto, pues se pueden establecer también comparaciones y afinidades semánticas entre un texto y otros ubicados en un mismo sitio web y hallar y ponderar sus aproximaciones o soportes temáticos previos. Ahí toman fuerza las entradas relacionas y las taxonomías como categorías o etiquetas, por decir algo. Lo mismo aplica para la antigüedad activa de un sitio web.

Webgrafía consultada al 11/05/2015

The Google similar distance; Computing Semantic Relatedness using Wikipedia- based Explicit Semantic Analysis; Clustering the Google distancewith eigenvectors and semidefinitive programming

Ediciones 2015-16-18

This post is also available in: Español