BAQUIA

El spam en los buscadores de Internet

Cualquier buscador funciona de forma muy similar; dispone de unas herramientas, las arañas, que rastrean la Red en busca de información, la almacenan y recuperan, ordenándola según los criterios que haya establecido para dar respuesta a una búsqueda concreta de un usuario.

La tarea más crítica en este proceso es la recuperación y la ordenación. En este punto del proceso es donde se debe utilizar toda la tecnología para interpretar de la manera más precisa qué está buscando cada usuario concretamente y devolverle los miles de resultados encontrados para su búsqueda, ordenados de mayor a menor relevancia.

Los cuatro grandes buscadores de Internet (Google, Yahoo!, MSN y Ask.com) dedicamos anualmente importantes cantidades de recursos económicos y humanos a tratar de mejorar la relevancia de los índices naturales. Es decir, nos esforzamos para que los resultados que ofrecemos para una búsqueda concreta de un usuario se acerquen lo máximo posible a los resultados más relevantes de Internet.

Esta es una de las principales actividades de los buscadores: ordenar correctamente los resultados encontrados en Internet a través de sus arañas de búsqueda. Los equipos de ingenieros trabajan constantemente en los algoritmos que permiten hacer esa organización. Cada buscador guarda celosamente estos algoritmos que permiten aflorar o desaparecer los links en la primera página de resultados (tal y como se dice en el sector, si no estás en la primera página de resultados de un buscador, no estas en Internet, ya que los usuarios sólo suelen chequear la primera página).

Para una web es muy importante estar presente en la primera página de resultados de ciertas búsquedas, ya que supone disponer de un gran volumen de tráfico y, además, de forma gratuita. Por poner un ejemplo, si un usuario busca “viajes” en un buscador y el enlace a una tu página web se encuentra en esa primera página de resultados, esto supondrá millones de visitas gratis al mes.

En un mundo ideal, los sitios más importantes ocuparían los primeros puestos en los buscadores y los menos relevantes los últimos, en función de la interpretación que realizasen los ingenieros de la relevancia a través de los algoritmos generados. El problema radica en que es una tentación para mucha gente aparecer en esa primera página. Muchas webs, que por su relevancia deberían aparecer muy por detrás de la primera página, logran aparecer en esa primera posición gracias a ciertas modificaciones que los algoritmos de los buscadores interpretan como una mejora en la relevancia de la página. Incluso se puede llegar a ocupar el primer puesto del índice en ciertas búsquedas, por lo que no es extraño que abunden las empresas que se centran exclusivamente en esta actividad.

Esta situación, genera tres perjudicados clarísimos:;

  1. En primer lugar, el propio buscador, que necesita invertir grandes sumas en tecnología para tratar de evitar esta actividad, y deja de percibir los ingresos que debería obtener de las páginas que quieren generar tráfico en el buscador.
  2. En segundo lugar, los usuarios, que ven como el índice que se les entrega está empeorado por esta actividad y las páginas realmente relevantes pieden posiciones.
  3. Y por último, y no menos importante, aquellas páginas web que realmente son relevantes y deberían aparecer en los primeros puestos. Al vivir en gran medida del tráfico generado por los buscadores, se ven sometidas a un gran estrés al cambiarse constantemente los algoritmos intentando limpiar las páginas que realizan spam.

Cuantos más usuarios y búsquedas tenga el buscador más se verá afectado por el spam. La gente que realiza spam optimiza sus páginas para mejorar las posiciones en el buscador más grande, de este modo obtiene mayor cantidad de tráfico hacia su página. Además, esto supone grandes quebraderos de cabeza para los ingenieros de los buscadores y afecta la calidad de su producto y los ingresos. Cada uno trata de afrontar esta problemática de forma distinta, pero el proceso de recuperación de la información de cada uno de ellos es clave.

Hace varios años, cuando Google comenzó a sentar las bases de su modelo tecnológico, introdujo una nueva y revolucionaria forma de ordenar los contenidos en la Red. Consideró que la relevancia la ofrece el número de enlaces que tienes desde tu página hacia otros sitios y el número de enlaces que tienes desde otros sitios hacia tu página. De este modo, si un usuario busca por ejemplo “ordenador”, la página más relevante será aquella que más links tenga hacia fuera y hacia dentro. Yahoo y MSN siguieron los mismos pasos que Google y lanzaron sus propios motores de búsqueda basados en la misma filosofía.

Sin embargo, Ask.com a través de TEOMA (empresa especializada en motores de búsqueda comprada por Ask.com), desarrolló su motor de búsqueda basado en esa misma funcionalidad, pero introduciendo una variante: ordenaban los contenidos del mismo modo (por los links entrantes y salientes) pero no consideraban todos los links por igual. Únicamente se consideran validos aquellos links que pertenecen a la comunidad del asunto que se está buscando. Es decir, divide automáticamente todo Internet en cientos de comunidades (por ejemplo, mascotas, finanzas, viajes, construcción, infancia….) y únicamente considera para realizar el índice aquellos links que salen o entran de la comunidad a la que pertenece.

Podemos verlo más claramente con un ejemplo. Si un usuario buscase “viajes” en Google, Yahoo! o MSN, obtendría una página de respuesta con miles de resultados ordenados de mayor a menor relevancia, en función del número de enlaces. Sin embargo, en Ask.com la ordenación se realiza contando únicamente los links que apuntan fuera y dentro de la comunidad de viajes.

Esta forma de ordenar la información ha servido para evitar en cierta medida el spam, ya que resulta mucho más complicado realizar mejoras en el posicionamiento de una página cuando tienes que controlar de dónde y hacia dónde van los links. Los buscadores no han encontrado la forma definitiva de contrarrestar esta práctica, pero cada uno, a través de sus algoritmos o de su propia configuración, lucha por eliminarla.


Compartir en :


Noticias relacionadas

Recomendamos




Comentarios