Cuando los gobiernos recurren a la IA: algoritmos, compensaciones y confianza

Por Anusha Dhasarathy , Sahil Jain y Naufal Khan

La inteligencia artificial puede ayudar a las agencias gubernamentales a resolver problemas complejos del sector público. Para aquellos que son nuevos en esto, aquí hay cinco factores que pueden afectar los beneficios y riesgos.

A medida que la inteligencia artificial (IA) y el aprendizaje automático cobran impulso, cada vez más agencias gubernamentales los están considerando o están empezando a utilizar para mejorar la toma de decisiones. Algunos ejemplos de aplicaciones convincentes incluyen aquellas que identifican patrones de evasión de impuestos, clasifican los datos de infraestructura para identificar las inspecciones de puentes o filtran datos de servicios sociales y de salud para priorizar los casos de asistencia y bienestar infantil. Permiten que los gobiernos se desempeñen de manera más eficiente, mejorando los resultados y manteniendo los costos bajos.

Los aspectos más apremiantes de adoptar tales soluciones son generalmente bien conocidos. Los algoritmos deben ser precisos y verificados conscientemente para detectar sesgos no deseados. Los demás lo son menos. Los algoritmos deben ser estables, lo que significa que los pequeños cambios en su entrada no cambian significativamente su salida. Ellos deben ser explicable , sobre todo en el sector público, donde miles de interesados revisarán cada paso. Y para garantizar una adopción exitosa, los usuarios del sector público deben prestar especial atención a cómo se implementan las soluciones de AI, dado que los gerentes del sector público generalmente tienen menos autoridad y control operativo para obligar a la adopción que los del sector privado. Si bien todos estos factores son relevantes para todas las entidades del sector público, no son necesariamente relevantes de la misma manera.

Obtener el equilibrio correcto es esencial no solo para minimizar los riesgos sino también para construir un caso de negocios adecuado para la inversión y para asegurar que los dólares de los contribuyentes se gasten bien. A continuación, exploraremos cada una de estas cinco dimensiones: precisión, imparcialidad, explicativo, estabilidad y adopción, según se apliquen al sector público.

Exactitud
Cuando se trata de algoritmos, los usuarios del sector público podrían medir el desempeño en términos de una mejor toma de decisiones. Dado que normalmente existen muchas medidas posibles y resultados probabilísticos, es improbable que un algoritmo pronostique cada una de ellas con precisión. Los usuarios pueden comenzar por identificar cuáles son los que tienen más probabilidades de conducir a las mejores decisiones para la situación. Recomendamos centrarse en dos o tres medidas que realmente importan para el caso de uso específico. Considere los siguientes ejemplos:

  • Decidir qué individuos reciben tratamiento de rehabilitación. Los oficiales correccionales o los trabajadores sociales en las prisiones pueden preferir que los algoritmos reduzcan el número de falsos negativos (individuos de alto riesgo clasificados falsamente como de bajo riesgo) en relación con falsos positivos, individuos de bajo riesgo clasificados falsamente como de alto riesgo. Esto se debe a que el impacto potencial de perder a un individuo de alto riesgo podría ser una mayor probabilidad de reincidencia, mientras que el de clasificar erróneamente a un individuo de bajo riesgo sería una programación adicional.
  • Decidir dónde enfocar las auditorías fiscales. Los funcionarios tributarios pueden desear optimizar para enfocarse solo en los evasores de impuestos más probables, dadas las posibles consecuencias de etiquetar falsamente a alguien como un alto riesgo de evasión.
  • Decidir qué estudiantes obtienen becas en función de la probabilidad de graduarse. Cuando el orden de clasificación de los estudiantes determina los montos de becas escalados, el orden en el que los estudiantes clasifican podría ser más importante que la calificación probabilística absoluta que el alumno individual recibe del modelo; en este caso, la probabilidad de graduación. En tales casos, a los administradores escolares les importaría más predecir el orden de clasificación correcto de los estudiantes que la exactitud del resultado probabilístico por sí mismo.

Una palabra de precaución: asegúrese de que exista una precisión de línea de base clara para la toma de decisiones antes de implementar un algoritmo, ya sea en base a decisiones humanas históricas, puntuación rudimentaria o enfoques basados ​​en criterios que se estaban utilizando. Saber cuándo el algoritmo se desempeña bien y cuándo no, en relación con la línea de base, es útil tanto para justificar el uso del mismo como para establecer incentivos para la mejora continua del algoritmo.

Según nuestra experiencia, el aprendizaje automático puede mejorar significativamente la precisión en relación con la mayoría de los procesos o sistemas tradicionales de toma de decisiones. Su valor puede provenir de mejores decisiones de asignación de recursos, como la combinación de los tipos correctos de programas de rehabilitación en una institución correccional con los reclusos que tienen más probabilidades de beneficiarse de ellos. Pero también puede ser valioso para mejorar la eficiencia, como ayudar a los trabajadores de casos de salud pública a priorizar los casos correctos, así como a la efectividad, como saber qué programas escolares son más efectivos para minimizar los abandonos.

Justicia
Hay muchas maneras de definir un algoritmo equitativo, o «equidad algorítmica». La noción refleja un interés en la toma de decisiones sin sesgos o, cuando están involucradas clases protegidas de individuos, para evitar el impacto dispar en clases legalmente protegidas. J Existe una extensa literatura sobre el sesgo en los algoritmos y cómo esto podría manifestarse. Los problemas comunes incluyen algunos tipos de sesgo en los conjuntos de datos y distorsiones en la técnica analítica del algoritmo, o en cómo los humanos interpretan los datos.

Un primer paso crítico es establecer qué significa la imparcialidad en el contexto específico del caso de uso, es decir, cuáles son las clases protegidas y cuáles son las métricas para la imparcialidad. Hay algunas formas de medir y abordar la imparcialidad, no todas ellas pueden ser igualmente eficaces en cada caso:

  • Ceguera voluntaria. Un enfoque que se usa comúnmente es crear un tipo de ceguera en el algoritmo, de modo que trate a los subgrupos de la misma manera independientemente de las distinciones tradicionales entre ellos, como la raza, el género u otros factores socioeconómicos.
  • Por ejemplo, si una escuela utiliza un algoritmo para identificar a los estudiantes que corren el riesgo de abandonar la escuela, los educadores podrían implementar un modelo que utilice registros enmascarados o neutrales para identificar a los que están en mayor riesgo. Sin embargo, incluso ese tipo de enfoque puede ser ingenuo si no tiene en cuenta las variables de correlación cruzada, como los códigos postales que podrían implicar raza, nivel de educación o género. Dicho enfoque podría conducir a resultados injustos o causar problemas con los datos de muestra utilizados para entrenar el modelo en sí. Termina creando un algoritmo que simplemente desconoce sin tener en cuenta la imparcialidad.
  • Paridad demográfica o estadística. Otra forma de abordar la imparcialidad es asegurar la paridad estadística en las decisiones que se habilitan o en los resultados, por ejemplo, seleccionando una proporción igual de personas de los grupos protegidos y no protegidos. Una forma de lograr esto sería establecer diferentes umbrales para que diferentes grupos aseguren la paridad en los resultados para cada grupo.
  • Un ejemplo de lo último sería un algoritmo escrito para aplicar diferentes umbrales de puntuación de crédito para diferentes grupos demográficos, a fin de seleccionar la misma proporción de solicitantes de cada uno. Sin embargo, este enfoque requiere que alguien verifique y modifique constantemente los umbrales y, a menudo, no tenga en cuenta las diferencias subyacentes en los subgrupos. Por lo general, solo es efectivo cuando a alguien le importa una sola medida de imparcialidad, en este caso, una proporción igual de los resultados de la aprobación del préstamo en todos los tipos de género.
  • Igualdad predictiva. Posiblemente el enfoque más equilibrado para abordar la imparcialidad es no forzarlo en el resultado de la decisión, sino en el rendimiento del algoritmo.(o exactitud) a través de diferentes grupos. En esta definición, imparcialidad significa que el algoritmo no es desproporcionadamente mejor o peor en la forma en que se toman las decisiones para subgrupos específicos. Eso significa, por ejemplo, que las tasas de error o la prevalencia de falsos positivos o falsos negativos para cada grupo son las mismas, al tiempo que se tienen en cuenta las variaciones en la población subyacente. En nuestro ejemplo de solicitante de préstamo, esto significa que es posible que no aprobemos una proporción igual de solicitantes de préstamo entre los géneros, pero el porcentaje de solicitantes aprobados que terminan en incumplimiento (es decir, los falsos positivos) sería el mismo para todos los géneros. En otras palabras, no estamos favoreciendo o afectando de manera desproporcionada a ninguno de los dos sexos, ya que estamos cometiendo la misma tasa de errores o errores en nuestra selección.
  • La equidad a través de la igualdad predictiva se puede lograr a través de un conjunto de prácticas de depuración matizadas que se utilizan en el campo de la ciencia de datos.

Pasos para los algoritmos donde deberías incluir lo siguiente:

  • Identifique los subgrupos específicos o las clases protegidas que sean relevantes.
  • Identifique el conjunto de métricas que definen la imparcialidad y cualquier jerarquía implícita dentro de ellas, si tiene más de una.
  • Evalúe el conjunto de datos de capacitación para determinar si es adecuado en subpoblaciones o clases protegidas, y recopile más datos cuando sea necesario.
  • Identifique características tales como códigos postales, niveles de ingresos u otros datos socioeconómicos que estén correlacionados con las variables o grupos de la clase protegida, y elimínelos o adáptelos. Los métodos avanzados podrían utilizar el aprendizaje automático para identificar el sesgo del modelo; como ejemplo, si la eliminación de la raza de un modelo no cambia los resultados en absoluto, entonces potencialmente otras variables están fuertemente correlacionadas.
  • Evalúe los resultados de imparcialidad para diferentes tipos de modelos, en diferentes períodos de tiempo. Considere si se pueden necesitar modelos específicos para diferentes clases o subgrupos (o se pueden requerir umbrales o ajustes).

Debemos tener en cuenta que la imparcialidad puede tener un costo de menor precisión. Por ejemplo, podemos encontrar que un modelo algorítmico es muy preciso para una población en general, pero no para algunos subconjuntos de la población donde hay menos datos. En el caso de los sistemas correccionales, los cambios en la demografía de la población penitenciaria podrían hacer que los modelos de comportamiento sean discutibles, si se basan en datos históricos. Además, podrían tener resultados más precisos para los grupos históricamente dominantes y, potencialmente, una tasa de error más alta o injusta para otros.

Puede haber un equilibrio entre una mayor precisión general al costo de un desempeño más pobre y menos justo para algunos y más equidad (al eliminar ciertas características) al costo de reducir la precisión general. Por ejemplo, si ciertas variables en los datos subyacentes, como los códigos postales, se correlacionan con la raza en ciertas geografías, agregar códigos postales al conjunto de datos utilizado por un modelo para ser más precisos podría introducir inadvertidamente un sesgo racial. Por lo tanto, al elegir el modelo correcto, es importante observar cómo los algoritmos califican en las cinco dimensiones que hemos descrito aquí.

Explicativo

Los algoritmos fácilmente explicados pueden ser críticos para alentar la adopción de una aplicación de AI, asegurando que los interesados ​​comprendan cómo y por qué se toman las decisiones. Según nuestra experiencia, la inteligencia artificial y el aprendizaje automático son más valiosos cuando se utilizan para respaldar, y no sustituyen, la toma de decisiones humanas, y para permitir que los mismos humanos comprendan los fundamentos de las recomendaciones del algoritmo. En nuestra experiencia, solo hacer que una persona real esté disponible para involucrarse con las personas afectadas por decisiones consecuentes puede hacer una diferencia, incluso si la decisión no se cambia. Muchos sistemas del sector público ya están diseñados para permitir esto, como audiencias judiciales y períodos de comentarios públicos sobre decisiones de políticas. Esta combinación de «humano más máquina» a menudo puede tomar decisiones sustancialmente mejores que la máquina o el humano por sí solo.

Esto es particularmente relevante con respecto a las decisiones para asignar un recurso escaso, como cuando la salida de un algoritmo ayuda a seleccionar un número limitado de solicitantes de becas, subvenciones o permisos. En casos extremos, una aplicación de AI de caja negra, una que no se puede explicar o no, puede causar más daño que ayuda. Las máquinas pueden cometer errores y llegar a conclusiones rígidas, especialmente en situaciones de límites estrechos. Por ejemplo, un algoritmo puede negar un préstamo para un solicitante con una puntuación de crédito de 728 cuando el límite es 730. Las personas solo pueden corregir errores o hacer excepciones cuando entienden cómo toma decisiones la máquina.

Al igual que la imparcialidad, la explicabilidad también puede dar lugar a concesiones difíciles. Los algoritmos más simples que usan heurísticas basadas en reglas o árboles de decisión pueden ser más fáciles de explicar, pero los algoritmos más matizados y complejos pueden ser más precisos o menos sesgados. La pregunta determinante es si es más importante que las personas entiendan la razón detrás de una decisión o más importante para ser precisos.

La respuesta es contextual. En algunos países, por ejemplo, varios sistemas de calificación crediticia pueden tener amplias implicaciones para la capacidad de un individuo para obtener un préstamo. En tales casos, un algoritmo más explicable daría a los solicitantes la oportunidad de mejorar sus variables de entrada, como evitar pagos atrasados, para influir en sus puntajes finales a lo largo del tiempo. Por el contrario, si un algoritmo identifica con precisión a los pacientes con alto riesgo de cáncer, es poco probable que a los pacientes les importe si el algoritmo se explica fácilmente.

Las organizaciones también pueden considerar pasar a algoritmos más complejos una vez que la base de usuarios se familiarice y confíe en los modelos más explicables.

Estabilidad
Con el tiempo, el rendimiento de la mayoría de los algoritmos se vuelve inestable, principalmente porque se desarrollaron utilizando datos recopilados en un mundo antes de que los algoritmos se usaran para tomar decisiones. Por ejemplo, los cambios en los patrones de sentencia judicial podrían cambiar cada vez más el tipo y las características de los delincuentes que ingresan en una prisión. Esos cambios en la población de delincuentes finalmente hacen que cualquier algoritmo predictivo sea cada vez más irrelevante para la población actual. Los sistemas tradicionales de calificación de riesgo o incluso las decisiones humanas enfrentan los mismos obstáculos.

Esto es particularmente importante en el sector público, donde intervienen muchos factores externos en la toma de decisiones. Para continuar con nuestro ejemplo de sistema de justicia penal, las leyes se relegislan. Los jueces cambian la forma en que sentencian y por qué delitos. Y las poblaciones carcelarias cambian a medida que evolucionan la edad, la economía, el entorno social y otras características demográficas. El solo hecho de introducir un modelo de aprendizaje automático para clasificar a los delincuentes puede llevar a cambios de comportamiento que afectan el conjunto de datos subyacentes. Por ejemplo, si el personal correccional prioriza el tratamiento de rehabilitación para los delincuentes de alto riesgo, entonces el mero hecho de que un delincuente se marque como alto riesgo puede reducir su riesgo con el tiempo. Esa es una tendencia que un conjunto de datos creado antes de la aparición del aprendizaje automático no se habría visto.

Para estimar la frecuencia con la que se deben actualizar los modelos, los usuarios deben comprender la velocidad a la que se degrada el rendimiento algorítmico. Una forma de hacer esto es probar su rendimiento utilizando datos retrospectivos en diferentes períodos de tiempo. Si el modelo tiene un gran rendimiento en los datos de prueba que caducaron hace un año pero no en los datos que caducaron hace dos años, entonces volver a capacitar al modelo en algún lugar entre uno y dos años probablemente ayudará a evitar la degradación. Idealmente, las organizaciones usarían dicha información para desarrollar una cadencia de pruebas y reentrenamientos regulares para actualizar y reconstruir continuamente sus heurísticas. Sin embargo, es posible que los modelos también deban actualizarse después de cualquier cambio importante en un conjunto de datos subyacentes. Estos pueden ser cambios internos, como la implementación de nuevas políticas, o externos, como la nueva legislación.

Adopción
Cuando pensamos en el impacto potencial de la IA, pensamos en tres grandes piezas de trabajo: desarrollar el modelo o algoritmo, obtener una perspectiva de su salida y adoptar su salida o recomendaciones. Al final, un gran modelo de aprendizaje automático, por sí solo, no es suficiente. A menudo, debe envolverse en una experiencia intuitiva centrada en el usuario e incorporarse a los flujos de trabajo, con el uso del pensamiento de diseño y con los empleados de primera línea para estimular la adopción.

Los algoritmos de aprendizaje automático son propensos al rechazo por las mismas razones por las que ofrecen excelentes resultados. Es decir, pueden generar información precisa pero contraria a la intuición debido a la gran cantidad de variables y datos que utilizan. Van contra el grano de las heurísticas tradicionales. Desafían las formas en que tradicionalmente se han hecho las cosas. Y a menudo requieren que las personas renuncien a herramientas y métodos conocidos.

Por lo tanto, es fundamental planificar e incorporar enfoques para fomentar la adopción desde el primer día. Esto podría incluir llevar a los usuarios objetivo al proceso de desarrollo de un modelo desde el principio, o al menos solicitar revisiones y comentarios frecuentes en el camino. También podría incluir el diseño de una forma sencilla de entregar y consumir las ideas del modelo. En la agencia de correcciones mencionada anteriormente, por ejemplo, los funcionarios experimentaron una excelente respuesta a la adopción porque los correccionales estaban muy entusiasmados con la información que ofrecían las aplicaciones, y debido a la interfaz de usuario intuitiva, que consolidó fuentes de datos dispares (incluido el papel) en una sola. Parte frontal fácil de usar. Eso hizo que su trabajo fuera menos tedioso, alentándolos a usar tanto la analítica como la herramienta.

Si bien es importante, la adopción es donde luchan los equipos de análisis típicos, ya sea internamente en agencias del sector público o en asociaciones externas con proveedores. La adopción adecuada requiere experiencia de extremo a extremo, desde la articulación de casos de uso hasta el desarrollo de modelos, el desarrollo de herramientas (entrega de conocimientos) y, en última instancia, la gestión de cambios y la implementación operativa. La necesidad de estas habilidades y experiencia multifuncionales hace que esta última milla sea a menudo la más desafiante.

A veces, en el apuro por emplear la inteligencia artificial, es fácil ignorar las limitaciones y los riesgos asociados con los algoritmos. La buena noticia es que estas limitaciones se pueden entender, gestionar y mitigar según sea necesario.