BAQUIA

Cómo evitar que alguien se apropie de los contenidos de nuestra página web.

Si traducimos literalmente del inglés, el término web scraping significa raspado de páginas web. En realidad se trata de una técnica empleada por los programadores informáticos que facilita la extracción y la recolección de los contenidos de páginas web para poder utilizarlos posteriormente.
El problema es que esta técnica puede ser usada de forma ilegal para plagiar contenidos; lo que afectaría negativamente a la competitividad de los negocios, ya que puede llegar a provocar el desvío de clientes, y pérdidas cuantiosas de beneficios.
El web scraping puede hacerse de forma manual copiando los datos desde el navegador web (Copiar + Pegar); no obstante la mayoría de los ataques de web scraping se realizan mediante herramientas que automatizan el rastreo y la copia de los contenidos en Internet.
Esta técnica es usada de forma lícita, por ejemplo, por los comparadores de precios; o por particulares que realicen investigaciones de datos. Pero esta práctica pasa de ser inocua a ilegal cuando se emplea para obtener beneficios económicos; y algunos ejemplos podrían ser:
– Recolección de direcciones de correo electrónico
– Obtención de perfiles de usuarios en redes sociales, o foros
– Detección de cambios en las páginas web de la competencia
– Plagio de contenidos como noticias, artículos, blogs, información médica, información financiera
– Republicar información de directorios telefónicos
Aunque muchos de los ataques de web scraping no se difunden, algunos llegan a tener repercusión internacional; como por ejemplo el caso denunciado por Ryanair en 2008, que puso en peligro las reservas de muchos de sus clientes.
La reconocida compañía de seguridad informática Imperva nos ofrece una serie de medidas para prevenir este tipo de ataques:
– Usar cookies o Javascript para verificar que el visitante es un navegador web
Como la mayoría de los web scrapers no procesan código javascript complejo, para comprobar que el usuario es un navegador web real se puede insertar en la página un cálculo javscript complicado, y verificar que ha sido correctamente calculado
– Introducir Captchas para asegurarse de que el usuario es un humano
Sigue siendo una buena medida para eliminar visitantes robots; aunque últimamente éstos se han sofisticado y consiguen saltárselos.
– Establecer límites de peticiones y conexiones
Se pueden mitigar las visitas de los scrapers ajustando el número de peticiones a la página, y conexiones; puesto que un usuario humano es más lento que uno automático.
– Ofuscar ó esconder los datos
Los web scrapers rastrean datos en formato texto; por tanto es una buena medida publicar los datos en formato imagen o flash.
– Detectar y bloquear fuentes maliciosas conocidas
– Localizar y frenar el acceso de site scrapers conocidos; entre los que se pueden encontrar nuestros competidores; y a los que podríamos bloquear su dirección IP
– Detectar y bloquear las herramientas de site scraping
La mayoría de las herramientas usan un firma identificable que sirve para su detección y consiguiente bloqueo
– Actualizar constantemente los HTML tags de la página
Los scrapers se programan para buscar determinados contenidos en los tags de la página web. Si cambiamos frecuentemente los tags mediante la introducción, por ejemplo, de espacios, comentarios, nuevas etiquetas, etc … se puede evitar que una mismo scraper repita el ataque
– Utilizar contenido web falso para atrapar a los atacantes
Si sospechas que tu información está siendo plagiada, se puede publicar contenido ficticio y monitorizar sus accesos para descubrir al scraper.

Evitar los ataques de scraping es difícil porque cada vez es más complicado distinguir a los scrapers de los usuarios legítimos. Es por ello que las compañías más expuestas al plagio de sus contenidos, como las tiendas online, las compañías aéreas, los sitios de apuestas, las redes sociales, o compañías con contenidos que estén sujetos a la propiedad intelectual, entre otras, deben reforzar las medidas de seguridad de sus contenidos publicados en Internet. Aunque hay algunos trucos para proteger los sitios web desde el código de las páginas, lo más efectivo es usar un Firewall de Aplicaciones Web, también denominado WAF; siendo uno de los más destacados la solución SecureSphere de Imperva; que también cuenta con su versión de Cloud WAF llamado Incapsula


Compartir en :


Noticias relacionadas

Recomendamos




Comentarios