Algoritmos que discriminan.

Analytikus
28 sept 2020
5 Min. de lectura

"El prejuicio es hijo de la ignorancia."

William Hazlitt, escritor

Hace ya más de dos años, a principios de 2018, tuvimos la suerte de participar en una de las sesiones del Party Parliamentary Group on Artificial Intelligence (APPG AI), en Londres.

Además de la increíble experiencia de entrar al edificio del parlamento, el tema de la sesión fue revelador: cuales deberían de ser los límites éticos que contuvieran a los algoritmos de Machine Learning (ML), para evitar que crearan situaciones de injusticia, en particular, de discriminación.

Después de llevar casi 15 años trabajando en temas de analítica avanzada jamás nos habíamos encontrado con una discusión tan seria al respecto. Evidentemente, este diálogo entre distintos expertos en el tema se tenía en el parlamento para poder definir leyes que garantizaran que este tipo de situaciones estén reguladas.

Cualquier persona que haya utilizado internet, ha experimentado, tal vez sin darse cuenta, un algoritmo analítico que decide qué puede o no acceder dependiendo de ciertas características de su perfil. Lo que hacen dichos algoritmos es identificar ciertas características que definen a una persona que está usando una aplicación, principalmente datos de registro (por eso los formularios para registrarte) o datos de uso (por eso las cookies, las cuales permiten trazar el uso que alguien hace de una aplicación: qué palabras teclea en el buscador, qué secciones navega, donde hace clic, etc.). A partir de dichos datos existen diversas formas de estructurar modelos analíticos para definir el acceso que el usuario en cuestión puede tener a diversos recursos dentro de la aplicación que está navegando, por ejemplo, qué película te recomiendo, qué anuncio te despliego, qué amistades te sugiero, en qué puesto de trabajo podrías encajar, etc.

Si bien muchos de los usos de estos algoritmos parecieran inofensivos a primera vista, pues están pensados para generan mejores experiencias de uso de los recursos de una aplicación digital, se pueden convertir, fácilmente, en maquinarias de manipulación y discriminación. Todo gira en torno a qué características de una persona usa el algoritmo para dar accesos a qué recursos. Además del evidente uso manipulativo que estos algoritmos pueden crear (basta ver documentales como The great Hack o The Social Dilemma para entender cómo se usan para convertir a los usuarios de redes sociales en pseudozoombie-productos para su monetización), pueden generar situaciones de exclusión o discriminación que vayan en contra de principios básicos de derechos humanos. Por ejemplo, un algoritmo que usa la etnia de una persona para dar acceso o no a un beneficio social.

Unos meses más tarde de haber asistido a la sesión de dicha discusión nos encontraríamos desarrollando un algoritmo que, precisamente, ponía al manifiesto este tipo de encrucijadas. La problemática se dio cuando estábamos realizando una de las primeras implementaciones de nuestra solución de Admissions Optimizer. Esta es una solución de lead scoring dirigida a las áreas de reclutamiento de las universidades la cual permite calcular la probabilidad que tiene un prospecto de terminar inscribiéndose. El objetivo es poder brindarle al equipo de reclutamiento una forma de priorizar aquellos prospectos que tienen mayor potencial de convertirse en alumnos para que sean atendidos con mayor énfasis o calidad. A primera vista esta solución pareciera no ser discriminatoria, sin embargo, pensándolo un poco más detenidamente, sí lo puede ser.

Para comprender cómo puede serlo intentemos entender, a grandes rasgos, qué hace el algoritmo de ML que constituye el corazón de esta solución.

Este algoritmo es construido a partir de data sobre todos los prospectos que han querido entrar históricamente a la universidad. En los sistemas de seguimiento de prospectos (CRM) de la universidad se guardan datos tales como: nombre, mail, teléfono, domicilio, escuela de procedencia, calificaciones, etc. Estos datos son utilizados para entrenar un algoritmo de clasificación de ML que es capaz de calcular si un prospecto tiene más o menos posibilidades de inscribirse. Si resulta que históricamente los prospectos de ciertas escuelas, que viven en ciertas colonias, que tienen ciertas características académicas son los que se han inscrito en mayor proporción, el algoritmo de ML identificará dichos patrones y le dará mayor probabilidad de inscripción a aquellos prospectos que cumplan con dichas características de perfil.

Ahora bien, ¿cómo podría este algoritmo discriminar? Muy fácil, sólo basta entender los resultados típicos que obtuvimos en casos reales de universidades: resulta que las escuelas de procedencia de los prospectos que mayores proporciones de inscripción han tenido son escuelas privadas, también resulta que las colonias o los municipios que mayores proporciones de inscripción han tenido son zonas geográficas con niveles socioeconómicos más altos. Incluso hay relaciones indirectas también, por ejemplo, los prospectos con mejores calificaciones tienden a tener menores tasas de problemáticas asociadas a necesidades educativas especiales y, obviamente, son los que tienen mayores tasas de inscripción.

¿Qué sucede con la recomendación que va a hacer un algoritmo respecto a si un agente debe o no contactar a un prospecto si se alimenta con esas variables y estas relaciones entre dichas variables? Haciendo alusión a la frase de William Haznitt, va a hacer recomendaciones ignorantes, basadas en prejuicios, pues va a recomendar que no se contacte a un segmento de estudiantes, claramente, vulnerable y, peor aún, va a perpetuar dicha vulnerabilidad al darle menos oportunidades de acceso a la educación a dicho segmento de individuos.

El algoritmo, en este caso, tiene un sesgo en la data que usa para aprender, un sesgo dado por una condición sociocultural de desigualdad en el contexto específico del acceso a la educación superior y, por lo tanto, va a amplificarlo haciendo recomendaciones basadas en dicho prejuicio. Nada tiene que ver con una cuestión de discriminación dirigida o consciente, sino con una discriminación intrínseca al contexto que está utilizando para predecir un comportamiento. En este sentido, no siempre es fácil para quién diseña o usa los algoritmos saber si esconden este tipo de sesgos.

¿Qué hacer entonces para no generar una solución que discrimine pero que al mismo tiempo genere valor? La solución no es tan sencilla, desde nuestra perspectiva, algunas tácticas que se pueden implementar para minimizar este tipo de sesgos en los algoritmos en este contexto en particular son: hacer consientes a los usuarios de la problemática que puede existir en el sesgo de este tipo de algoritmos para guiar su diseño, no utilizar variables que muestran correlaciones claramente discriminatorias (prejuicios en la data de entrenamiento) o definir una lógica de priorización de la atención que ordene los contactos pero no excluyan a nadie de ser contactado.

El tema, sin embargo, es amplio y con muchas aristas, no es sencillo garantizar que un algoritmo de ML no cometa este tipo de sesgos. Sin duda, un camino que debería guiar a estas prácticas es el de la regulación. La tecnología ha avanzado exponencialmente pero no las leyes que pueden establecer límites para que su uso no desemboque en posibles problemáticas de discriminación. Las regulaciones que se necesitarían definir, sin embargo, son difíciles de implementar por el alto grado de especialización que se requiere para diseñarlas y sobre todo para ejercerlas.

Como mencionamos, es muy difícil para quién diseña uno de estos algoritmos saber si tiene algún posible sesgo discriminatorio. De hecho, existen situaciones mucho más complejas desde una perspectiva técnica para establecer estos límites. Precisamente, aquel día de sesión de la APPG AI la discusión se centró en la imposibilidad de establecer dichos límites “éticos” a un conjunto de algoritmos de ML en particular, llamados de Deep Learning, debido a que quien los construye no tiene control sobre las interacciones entre las variables que se usan para generar una predicción (la explicación técnica de esta dificultad es un tema que da para uno de nuestros futuros artículos).

Una problemática apasionante y compleja, esperamos que este tipo de discusiones se comiencen a dar en foros más amplios en nuestro país para encaminar a estas tecnologías hacia la construcción de contextos donde sea posible minimizar sesgos y prejuicios en lugar de amplificarlos y, de esta forma, construir espacios de mayores oportunidades de acceso para todos. ¡Los mantendremos informados!

Por: Armando Álvarez

Conoce toda nuestra suite de soluciones para Educación Superior en https://es.analytikus.com/higher-ed

#data #bigdata #InteligenciaArtificial #MachineLearning #CienciadeDatos #Analíticas

BLOG