Home Tecnología Las herramientas de inteligencia synthetic se entrenan en secreto con imágenes reales...

Las herramientas de inteligencia synthetic se entrenan en secreto con imágenes reales de niños

31
0

Más de 170 imágenes y detalles personales de niños de Brasil han sido extraídos de un conjunto de datos de código abierto sin su conocimiento o consentimiento, y utilizados para entrenar IA, afirma un nuevo reporte de Human Rights Watch publicado el lunes.

Las imágenes han sido extraídas de contenido publicado en 2023 y a mediados de la década de 1990, según el informe, mucho antes de que cualquier usuario de Web pudiera anticipar que su contenido podría usarse para entrenar IA. Human Rights Watch afirma que los datos personales de estos niños, junto con enlaces a sus fotografías, se incluyeron en LAION-5B, un conjunto de datos que ha sido una fuente in style de datos de entrenamiento para nuevas empresas de IA.

“Su privacidad se viola en primera instancia cuando su fotografía se extrae y se incluye en estos conjuntos de datos. Y luego estas herramientas de inteligencia synthetic se entrenan con estos datos y, por lo tanto, pueden crear imágenes realistas de niños”, cube Hye Jung Han, investigador de tecnología y derechos de los niños de Human Rights Watch e investigador que encontró estas imágenes. “La tecnología está desarrollada de tal manera que cualquier niño que tenga una foto o un video de sí mismo en línea ahora está en riesgo porque cualquier actor malicioso podría tomar esa foto y luego usar estas herramientas para manipularlos como quiera”.

LAION-5B se basa en Widespread Crawl, un depósito de datos creado mediante raspado de la net y puesto a disposición de los investigadores, y se ha utilizado para entrenar varios modelos de IA, incluida la herramienta de generación de imágenes Secure Diffusion de Stability AI. Creado por la organización alemana sin fines de lucro LAION, el conjunto de datos es de acceso abierto y ahora incluye más de 5.850 millones de pares de imágenes y leyendas, según su sitio net.

Las imágenes de niños que encontraron los investigadores procedían de blogs de mamás y otros blogs personales, de maternidad o de paternidad, así como imágenes fijas de vídeos de YouTube con un número reducido de visualizaciones, aparentemente subidos para ser compartidos con familiares y amigos.

“Simplemente mirando el contexto donde fueron publicados, disfrutaron de una expectativa y cierta privacidad”, cube Hye. “La mayoría de estas imágenes no fueron posibles de encontrar en línea mediante una búsqueda de imágenes inversa”.

El portavoz de LAION, Nate Tyler, cube que la organización ya ha tomado medidas. “LAION-5B fue retirado en respuesta a un informe de Stanford que encontró enlaces en el conjunto de datos que apuntaban a contenido ilegal en la net pública”, cube, y agrega que la organización está trabajando actualmente con “Web Watch Basis, el Centro Canadiense para la Infancia”. Safety, Stanford y Human Rights Watch para eliminar todas las referencias conocidas a contenido ilegal”.

YouTube términos de servicio no permitir el raspado excepto en determinadas circunstancias; estos casos parecen ir en contra de esas políticas. “Hemos dejado claro que la extracción no autorizada de contenido de YouTube es una violación de nuestros Términos de servicio”, cube el portavoz de YouTube, Jack Maon, “y continuamos tomando medidas contra este tipo de abuso”.

En diciembre, investigadores de la Universidad de Stanford descubrieron que los datos de entrenamiento de IA recopilados por LAION-5B contenían materials de abuso sexual infantil. El problema de los deepfakes explícitos está aumentando incluso entre los estudiantes de las escuelas estadounidenses, donde se los utiliza para intimidar a sus compañeros de clase, especialmente a las niñas. A Hye le preocupa que, más allá del uso de fotografías de niños para generar CSAM, la base de datos pueda revelar información potencialmente confidencial, como ubicaciones o datos médicos. En 2022, un artista radicado en EE. UU. encontró su propia imagen en el conjunto de datos LAIONy se dio cuenta de que period de sus registros médicos privados.

fuente