Empresas de todo tipo utilizan aprendizaje automático analizar los deseos, disgustos o rostros de las personas. Algunos investigadores ahora se están haciendo una pregunta diferente: ¿cómo hacer que las máquinas olviden?
Un campo incipiente de la informática llamado máquina desaprender está buscando formas de inducir amnesia selectiva en inteligencia artificial Software. El objetivo es eliminar todos los rastros de una persona en particular o un punto de datos de un sistema de aprendizaje automático, sin afectar su rendimiento.
Si se hace práctico, el concepto podría dar a las personas más control sobre sus datos y el valor que se deriva de ellos. Si bien los usuarios ya pueden pedir a algunas empresas que eliminen los datos personales, por lo general desconocen qué algoritmos ha ayudado a clasificar o entrenar su información. El desaprendizaje automático podría permitir que una persona se llevara tanto sus datos como la capacidad de una empresa para beneficiarse de ellos.
Si bien es intuitivo para cualquiera que se arrepienta de lo que compartieron en línea, esta noción de amnesia artificial requiere nuevas ideas en informática. Las empresas gastan millones de dólares en capacitar algoritmos de aprendizaje automático para reconocer rostros o clasificar publicaciones en redes sociales porque los algoritmos a menudo pueden resolver un problema más rápido que los codificadores humanos por sí solos. Pero una vez entrenado, un sistema de aprendizaje automático no se manipula fácilmente, o incluso entendido. La forma convencional de eliminar la influencia de un punto de datos en particular es reconstruir un sistema desde cero, un ejercicio potencialmente costoso. «Esta investigación tiene como objetivo encontrar un terreno común», dice Aaron Roth, profesor de la Universidad de Pensilvania que trabaja en el desaprendizaje automático. «¿Podemos eliminar toda influencia de los datos de alguien cuando solicitan su eliminación, evitando al mismo tiempo el costo total del reciclaje desde cero?» «
El trabajo en el desaprendizaje automático se debe en parte a la creciente atención a las formas en que la inteligencia artificial puede erosionar la privacidad. Los reguladores de datos de todo el mundo han tenido durante mucho tiempo el poder de obligar a las empresas a suprimir la información obtenida ilegalmente. Ciudadanos de determinadas localidades, como la ME y California, incluso tiene derecho a pedirle a una empresa que elimine sus datos si cambia de opinión sobre lo que ha revelado. Más recientemente, los reguladores de EE. UU. Y la UE han dicho que los propietarios de sistemas de inteligencia artificial a veces necesitan ir un paso más allá: eliminar un sistema que haya sido capacitado en datos confidenciales.
El año pasado, el regulador de datos del Reino Unido empresas informadas que algunos software de aprendizaje automático pueden estar sujetos a derechos de GDPR, como la eliminación de datos, porque un sistema de inteligencia artificial puede contener datos personales. Los investigadores de seguridad han demostrado que los algoritmos a veces pueden verse obligados a revelar datos confidenciales utilizados en su creación. A principios de este año, la Comisión Federal de Comercio de los Estados Unidos la startup de reconocimiento facial forzado Paravision para eliminar una colección de fotos de rostros obtenidos incorrectamente y algoritmos de aprendizaje automático entrenados con ellos. El comisionado de la FTC, Rohit Chopra, elogió la nueva táctica de aplicación de la ley como una forma de obligar a una empresa de ruptura de datos a «renunciar a los frutos de su engaño».
La pequeña área de la investigación sobre el desaprendizaje automático se enfrenta a algunas de las cuestiones prácticas y matemáticas que surgen de estos cambios regulatorios. Los investigadores han demostrado que pueden hacer que los algoritmos de aprendizaje automático se olviden bajo ciertas condiciones, pero la técnica aún no está lista para el horario de máxima audiencia. “Como es común en un dominio joven, existe una brecha entre lo que este dominio aspira a hacer y lo que sabemos hacer ahora”, dice Roth.
Un enfoque prometedor propuesto en 2019 por investigadores de las universidades de Toronto y Wisconsin-Madison es separar los datos de origen de un nuevo proyecto de aprendizaje automático en varias partes. Luego, cada uno se procesa por separado, antes de que los resultados se combinen en el modelo final de aprendizaje automático. Si es necesario olvidar un punto de datos más adelante, solo es necesario volver a procesar una fracción de los datos de entrada originales. Se ha demostrado que el enfoque funciona con datos de compras en línea y una colección de más de un millón de fotos.
Roth y sus asociados en Penn, Harvard y Stanford recientemente demostró una falla en este enfoque, mostrando que el sistema de desaprendizaje colapsaría si las solicitudes de eliminación enviadas llegaran en un orden particular, ya sea por casualidad o por un actor malintencionado. También mostraron cómo se podría aliviar el problema.
Gautam Kamath, profesor de la Universidad de Waterloo que también trabaja en el desaprendizaje, dice que el problema que encontró y resolvió el proyecto es un ejemplo de las muchas preguntas abiertas que quedan sobre cómo hacer que el desaprendizaje automático sea algo más que una simple curiosidad de laboratorio. Su propio grupo de investigación fue explorador cómo se reduce la precisión de un sistema al desaprender sucesivamente varios puntos de datos.
Kamath también está interesado en encontrar formas para que una empresa demuestre, o un regulador verifique, que un sistema realmente ha olvidado lo que se suponía que debía desaprender. «Siento que está un poco más lejos, pero tal vez terminen teniendo oyentes para estas cosas», dice.
Es probable que surjan razones regulatorias para explorar la posibilidad del desaprendizaje automático a medida que la FTC y otros analicen más de cerca el poder de los algoritmos. Reuben Binns, profesor de la Universidad de Oxford que estudia la protección de datos, dice que la idea de que las personas deberían tener voz en el destino y los frutos de sus datos ha crecido en los últimos años en Estados Unidos y Europa.
Se necesitará un trabajo técnico virtuoso antes de que las empresas de tecnología puedan implementar el desaprendizaje automático como una forma de dar a las personas más control sobre el destino algorítmico de sus datos. Incluso entonces, es posible que la tecnología no cambie mucho los riesgos de privacidad en la era de la IA.
Confidencialidad diferencial, una ingeniosa técnica para establecer límites matemáticos sobre lo que un sistema puede revelar sobre una persona, proporciona una comparación útil. Apple, Google y Microsoft celebran la tecnología, pero se usa con relativa poca frecuencia y los peligros para la privacidad son siempre numerosos.
Binns dice que si bien puede ser realmente útil, «en otros casos, es más algo que una empresa hace para mostrar su innovación». Sospecha que el desaprendizaje automático puede resultar similar, más una demostración de perspicacia técnica que un cambio importante en la protección de datos. Incluso cuando las máquinas aprenden a olvidar, los usuarios deberán recordar tener cuidado con quién comparten datos.
Esta historia apareció originalmente en wired.com.