Algoritmos de destrucción masiva

14 septiembre, 2016

Hace cosa de un año, antes de que DataLab empezara su andadura, comencé a interesarme acerca de diversos programas o proyectos que se focalizaban en utilizar la estadística, las matemáticas y la tecnología en favor de los más desfavorecidos. Gracias a este interés conseguí descubrir alguno de ellos (DataKind y Bayes Impact principalmente). Durante esta búsqueda, casi por casualidad, caí en una página web no menos interesante que las anteriores “Responsible Data Forum”. Este Foro desarrolla herramientas y estrategias para hacer frente a los desafíos éticos, de seguridad y privacidad que plantean el almacenamiento y uso de datos en la actualidad.

Hasta entonces no había abordado este tema en profundidad, no por falta de interés, si no por falta de base. Casi cada semana, desde el Foro, se plantean casos polémicos sobre el uso de datos. Muchos de los proyectos que se llevan a cabo desde entidades públicas o privadas con diferentes fines pueden conllevar, queriendo o no, a crear dilemas éticos.

OKCupid

Hace unos meses, un grupo de investigación danés extrajo datos de un lugar de citas on-line (OKCupid) para su propia investigación. Subiendo a continuación los resultados a Open Science Framework. Todos los datos personales fueron extraídos sin consentimiento expreso de OKCupid o de sus usuarios.

¿Cuál fue la excusa de los investigadores?

“Los datos eran públicos.”

Respondiendo por Twitter a muchas de las preguntas o críticas, el principal investigador no entendía bien cuáles eran las consecuencias de lo que había hecho. El hecho de utilizar datos sin consentimiento, la accesibilidad o visibilidad de los usuarios como conejillos de Indias o las consecuencias de hacer públicos datos de carácter personal parecían habérsele escapado de su entendimiento. De hecho, tras varias discusiones vía Twitter pidió “dejar la ética fuera de la discusión” (¿Por qué diablos la ética es relevante aquí?) los seudónimos son suficientes como para que los datos sean anónimos.

Cada vez existe más separación entre las prácticas de investigación y la regulación ética. Algunos de los compromisos básicos de ética de investigación existentes, tales como la distinción entre la investigación y la práctica, no se pueden desligar completamente de la investigación. Estas discontinuidades han llevado a algunos especialistas en la ciencia de datos e investigadores a moverse hacia el rechazo de los reglamentos de ética pura y simple.

Pero no es sólo el uso de datos lo que puede plantear disyuntivas. Los algoritmos que se emplean en muchas organizaciones públicas o privadas quieren obtener un resultado rápido y eficaz. Pasar de A a B sin mirar alrededor a veces puede afectar a terceras partes de forma negativa.

Weapons of Math Destruction

No hace mucho el diario inglés The Guardian publicó un artículo titulado “Cómo algoritmos gobiernan nuestra vida laboral.” En el mismo artículo se nos habla de las herramientas matemáticas que se emplean en muchas aplicaciones laborales de cualquier índole en las que el resultado está fuera de discusión pero no así sus daños colaterales.

Su autora Cathy O’Neal ha publicado recientemente un libro titulado “Weapons of Math Destruction.”

El libro expone de manera clara y convincente cómo ciertos algoritmos pueden llegar a ser – en contraste con su premisa amoral y objetiva – un medio eficiente para incrementar desigualdades sociales e injusticias. Ejemplo de ello son las pólizas de riesgo, las campañas de marketing agresivo o los préstamos abusivos.

Estos algoritmos se constituyen de tres características principales:

  1. Se tratan de modelos ocultos a los individuos a los que afecta. Restringiendo la posibilidad de buscar un modo de protegerse ante ellos.
  2. El modelo trabaja en contra del interés del sujeto al que se aplica.
  3. El modelo afecta a un número muy elevado de la población.

Con estas premisas no es sencillo identificar estos algoritmos. No obstante, como analistas o desarrolladores de algoritmos es fácil identificar si aquello que computamos cumple la característica 3 y en consecuencia, puede cumplir el resto. Es entonces cuando hemos de plantearnos qué hacer para que esto no suceda.

Pongamos un ejemplo ficticio: imaginemos que queremos etiquetar a los ciudadanos según su peligrosidad para la convivencia y nos basamos en su lugar de residencia, su trabajo y su edad. Estamos etiquetando a estas personas basándonos en sus circunstancias y obviando por completo sus cualidades individuales. Este hecho no va a hacer más que incrementar las desigualdades ya existentes.

Este ejemplo, muy simplificado, es espejo de lo que hoy en día sucede de manera muy generalizada en muchos estamentos. Cuando tratamos con personas, el número de inputs que introducimos en nuestro algoritmo afectan muy directamente a terceras personas aunque nuestro espíritu crítico nos diga lo contrario.

Víctor Vicente