¿Qué es el filtrado de spam bayesiano?

¿Qué es el filtrado de spam bayesiano? Es un sistema basado en la probabilidad que mejora con el tiempo.Los filtros de spam bayesianos calculan la probabilidad de que un mensaje sea spam en función de su contenido. A diferencia de los simples filtros basados ​​en palabras, los filtros de spam Bayesianos aprenden del spam entrante y del buen correo electrónico, lo que resulta en un enfoque anti-spam muy robusto, adaptable y eficiente que rara vez arroja falsos positivos.

Los filtros bayesianos siguen mejorando

Los filtros de spam simples basados ​​en palabras no consideran lo que podrían considerarse palabras inusuales (una pista de que un mensaje dado podría ser spam) para cada usuario de correo electrónico. Además, no tienen la capacidad de cambiar las reglas que usan para identificar el spam a lo largo del tiempo. Los filtros bayesianos de spam son diferentes en el sentido de que hacen ambas cosas.

Los filtros de spam bayesianos crean una lista de palabras no deseadas a lo largo del tiempo. Analizan tanto los mensajes de spam como los buenos mensajes para calcular la probabilidad de que aparezcan diversas características en el correo no deseado y en el buen correo. Luego se agregan nuevas palabras no deseadas a la lista.

Si una palabra nunca aparece en el correo no deseado, pero a menudo en el correo electrónico legítimo que recibe, la probabilidad de que la palabra indique correo no deseado es casi cero. Por ejemplo, supongamos que recibe muchos mensajes legítimos que contienen la palabra oferta. Ese hecho disminuye la probabilidad de que los mensajes de correo electrónico que reciba que contengan la palabra cartesiano sean spam. Por otro lado, digamos que rara vez o alguna vez recibe mensajes legítimos que contienen la palabra tóner. Si recibe un mensaje que contiene la palabra tóner, es probable que sea spam.

Cómo un filtro bayesiano examina un mensaje de correo electrónico

Las características de los mensajes que analiza un filtro de spam Bayesiano incluyen:

Palabras en el cuerpo del mensaje
Palabras en el encabezado del mensaje (como el remitente y la ruta del mensaje)
Otros elementos como el código HTML / CSS (como los colores y otros formatos)
Pares de palabras y frases

Metainformación (como, dónde, aparece una frase en particular)

Cuando llega un nuevo mensaje, el filtro de spam Bayesiano lo analiza y calcula la probabilidad de que sea spam de acuerdo con estos atributos.

Continuando con los ejemplos anteriores, suponga que un mensaje contiene ambas palabras, oferta y tóner. Solo con estas palabras no está claro si el mensaje es spam o correo electrónico legítimo. Pero si el mensaje también contiene el encabezado “¡GRANDES OFERTAS DE TÓNER!” entonces aumenta la probabilidad de que sea spam.

Los filtros bayesianos aprenden automáticamente

Después de la clasificación en “spam” o “correo electrónico legítimo”, el filtro puede usar esa determinación para capacitarse aún más. En nuestro ejemplo, el filtro debe reducir la probabilidad de que oferta indique buen correo o aumentar la probabilidad de que el tóner indique spam. Dados los datos adicionales del encabezado spam en este mensaje (y quizás también otros factores), lo haría y evaluaría el próximo mensaje entrante en función de la nueva probabilidad.

Usando esta técnica autoadaptativa, los filtros bayesianos pueden aprender de sus propias decisiones y las de los usuarios (si corrigen manualmente los mensajes mal evaluados). La adaptabilidad de este sistema garantiza que estos filtros sean más efectivos para usuarios individuales de correo electrónico porque, si bien el spam de la mayoría de las personas puede tener características similares, el correo legítimo es característicamente diferente para cada persona.

¿Pueden los spammers pasar los filtros bayesianos?

Las características del correo electrónico legítimo son tan importantes para el proceso de filtrado de spam bayesiano como lo son las características del correo no deseado. Debido a que los filtros están entrenados específicamente para cada usuario, los spammers tienen más dificultades para trabajar en torno a ellos, y los filtros pueden adaptarse a casi todo lo que los spammers intentan.

Los mensajes de los spammers solo superan los filtros bayesianos bien entrenados si los embaucadores hacen que su spam parezca un correo electrónico perfectamente normal. Pero los spammers generalmente no envían mensajes tan comunes porque no funcionan bien para cumplir sus propósitos (es decir, convencerlo de que compre algo o haga clic en un enlace).

Por muy bueno que sea un filtro bayesiano, una palabra o característica que aparece con frecuencia en un buen correo puede ser tan importante como para evitar que un mensaje que lo contiene sea calificado como spam. Por lo tanto, si los remitentes de correo no deseado pueden encontrar una manera de determinar sus buenas palabras de buen correo, podrían incluir una de ellas en un correo basura y comunicarse con usted incluso a través de un filtro bayesiano bien entrenado. Pero, según los investigadores que han probado este método, lleva mucho tiempo y es lo suficientemente complejo como para que no se use con mucha frecuencia.

Leer también:¿Qué es email marketing?, definición, significado, concepto, en que consiste; Historia resumida de la inteligencia artificial, cronología; ¿Que es data science, ciencia de datos? Definición, significado, concepto