Más allá de las cookies, hay un uso extendido de otras técnicas de rastreo poco conocidas por el público, como los web beacons
El Reglamento General de Protección de Datos fue aprobado por el Parlamento Europeo en el año 2016
Tan solo un pequeño porcentaje de las 500 webs más visitadas de España, entre las que se incluyen desde páginas gubernamentales hasta sitios de streaming o de contenido para adultos, implementa correctamente los requisitos que establece el Reglamento General de Protección de Datos (RGPD). Esta es una de las principales conclusiones de un estudio en el que han participado investigadores de la Universitat Oberta de Catalunya (UOC), la Universidad de Girona (UdG) y el Centro de Investigación en Ciberseguridad de Cataluña (CYBERCAT).
Los resultados, publicados en abierto en la revista científica Computers & Security bajo licencia de Creative Commons, se alcanzaron tras aplicar nuevos métodos de análisis automatizado de las técnicas de rastreo y del cumplimiento de las normativas de privacidad en internet.
Además del uso incorrecto y no consentido de cookies, estos algoritmos de análisis también detectaron la utilización de técnicas de rastreo poco conocidas por el usuario medio, como los web beacons (píxeles invisibles o espía, o balizas web) o las tecnologías que se basan en la huella digital del navegador.
Incumplimiento generalizado de las leyes de privacidad
La aprobación del Reglamento General de Protección de Datos por parte del Parlamento Europeo en 2016 estaba llamada a cambiar para siempre la gestión de los datos personales de los usuarios por parte de las empresas, las páginas web y las plataformas digitales. La normativa europea, que en España acabó tomando la forma de Ley orgánica de protección de datos personales y garantía de los derechos digitales en 2018, debía marcar un antes y un después en la protección de la privacidad de los ciudadanos. Sin embargo, seis años más tarde, la implementación real de la regulación avanza con paso desigual.
"Concluimos que aún queda mucho camino por recorrer para la implementación correcta en las webs de los requisitos establecidos por el Reglamento General de Protección de Datos", explica Cristina Pérez-Solà, quien participó en el análisis de esta cuestión como investigadora de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC). "Muchas de las páginas web analizadas informan al usuario del uso de cookies, pero o bien no esperan a tener el consentimiento del usuario para utilizarlas o bien adquieren este consentimiento de manera incorrecta".
Tras analizar con los algoritmos desarrollados por el equipo de investigadores los 500 sitios web más visitados en España, según el ranking de Alexa, el estudio señala que un gran porcentaje de páginas no cuenta con un formulario adecuado para recabar el consentimiento de los usuarios para el uso de cookies y otras herramientas de recopilación de datos. Las herramientas de análisis detectaron, además, el uso de casi 7 cookies de rastreo de media por web y 11 web beacons, pequeños fragmentos de código insertados en la página que sirven para recopilar de forma invisible ciertos tipos de información del tráfico web. Además, un 10 % de las páginas analizadas utiliza técnicas de huella digital del navegador, también difíciles de detectar.
"En general, todas estas técnicas tienen como objetivo registrar el comportamiento de los usuarios en internet para crear perfiles que después puedan ser usados para ajustar la publicidad que se mostrará o los precios que se ofrecerán por servicios o productos", señala la experta en seguridad y privacidad. Además, el análisis efectuado por los investigadores Pérez-Solà y Albert Jové (UOC), y David Martínez y Eusebi Calle (UdG) permite concluir que solo el 8,91 % de los sitios web que recogen el consentimiento de los usuarios de forma correcta lo aplica con éxito en la práctica.
Nuevos algoritmos para analizar el cumplimiento del RGPD
Más allá de los resultados del análisis, la importancia de la investigación está en los algoritmos utilizados para estudiar el cumplimiento de las leyes de privacidad en internet. El gran volumen de páginas y plataformas hace necesaria la automatización del proceso (estudiar cada caso de forma manual es imposible). Además, algunas de las técnicas de rastreo utilizadas son muy difíciles de detectar, ya que no existen marcadores claros que indiquen su presencia. Para solventar estos desafíos, los investigadores desarrollaron un método propio basado en cuatro algoritmos y un índice, el Websites Level of Confidence, con el que evaluar el estado del cumplimiento normativo.
"Nuestro método se basa en una combinación de automatización e inspección manual. Los algoritmos implementados navegan automáticamente por las páginas web analizadas y van tomando capturas de pantalla que después se inspeccionan manualmente", explica Cristina Pérez-Solà. "Además, para la detección de técnicas de rastreo también hacemos uso de una herramienta elaborada por el Supervisor Europeo de Protección de Datos llamada Website Evidence Collector. Esta herramienta está diseñada para hacer inspecciones de privacidad en sitios web y permite detectar el uso de cookies, web beacons (píxeles invisibles o balizas web) y herramientas de identificación de la huella del navegador".
Cada uno de los algoritmos utilizados por los investigadores tiene una función bien definida:
El algoritmo del inspector de consentimiento (CIA, por sus siglas en inglés) captura imágenes claras de los báneres de cookies del sitio web e identifica los botones que deberían permitir a los usuarios personalizar el uso de estos elementos de rastreo.
El Website Evidence Collector (WEC) recopila información sobre las diferentes técnicas de rastreo que se utilizan en cada página web.
El algoritmo detector de cookies (CDA) categoriza, basándose en los datos recogidos por el WEC, las cookies que los sitios web utilizan en los navegadores sin el consentimiento del usuario.
El algoritmo detector de web beacons (BDA) no solo extrae las balizas web o píxeles invisibles detectados por el WEC, sino que también identifica las técnicas de análisis de huellas digitales del navegador.
"Nuestro estudio se centra en analizar el cumplimiento del Reglamento General de Protección de datos por las páginas web más visitadas en España", añade Pérez-Solà. "Seleccionamos las 500 páginas más visitadas según el ranking Alexa y analizamos tanto el uso que hacen de estas técnicas de rastreo como la información que ofrecen sobre ellas a los usuarios y las alternativas de configuración que les proporcionan. Por último, combinamos los resultados de todo este análisis en un índice, el Websites Level of Confidence, que permite evaluar el estado actual del cumplimiento normativo".