La primera ola de importantes herramientas de IA generativa se entrenaron en gran medida en “disponible públicamente” datos, básicamente, cualquier cosa que pueda extraerse de Web. Ahora, las fuentes de datos de entrenamiento están restringiendo cada vez más el acceso y presionando para obtener acuerdos de licencia. Con la intensificación de la búsqueda de fuentes de datos adicionales, han surgido nuevas empresas de licencias para mantener el flujo de materials de origen.
El Alianza de proveedores de conjuntos de datosun grupo comercial formado este verano, quiere hacer que la industria de la IA sea más estandarizada y justa. Con ese fin, acaba de publicar un documento de posición que describe sus posiciones sobre los principales problemas relacionados con la IA. La alianza está formada por siete empresas de licencias de IA, incluida una firma de gestión de derechos de autor de música Derechos de autorMercado de fotografías de archivo japonés Pixtay una startup de licencias de derechos de autor de inteligencia synthetic generativa Redes de Calliope(Se anunciarán al menos cinco nuevos miembros en el otoño).
La DPA aboga por un sistema de consentimiento explícito, es decir, que los datos solo se puedan utilizar después de que los creadores y los titulares de los derechos den su consentimiento explícito. Esto representa un cambio significativo con respecto a la forma en que operan la mayoría de las principales empresas de inteligencia synthetic. Algunas han desarrollado sus propios sistemas de consentimiento explícito, que imponen a los propietarios de los datos la carga de retirar su trabajo caso por caso. Otras no ofrecen ningún tipo de consentimiento explícito.
La DPA, que espera que los miembros respeten su regla de adhesión voluntaria, considera que esa vía es mucho más ética. “Los artistas y creadores deberían participar”, afirma Alex Bestall, director ejecutivo de Rightsify y la empresa de licencias de datos musicales. Bolsa mundial de derechos de autorquien encabezó la iniciativa. Bestall considera que la opción de participar es un enfoque pragmático y ethical: “Vender conjuntos de datos disponibles públicamente es una forma de ser demandado y perder credibilidad”.
Ed Newton-Rex, un ex ejecutivo de inteligencia synthetic que ahora dirige la organización sin fines de lucro Pretty Educated, dedicada a la inteligencia synthetic ética, afirma que las exclusiones voluntarias son “fundamentalmente injustas para los creadores” y agrega que algunos pueden ni siquiera saber cuándo se ofrecen. “Es particularmente bueno ver que la DPA exige exclusiones voluntarias”, cube.
Shayne Longpre, la líder de la Iniciativa de procedencia de datosun colectivo de voluntarios que audita conjuntos de datos de IA, considera admirables los esfuerzos de la DPA por obtener datos de manera ética, aunque sospecha que el estándar de aceptación voluntaria podría ser difícil de vender, debido al gran volumen de datos que requieren la mayoría de los modelos de IA actuales. “Con este régimen, o te quedarás sin datos o tendrás que pagar mucho”, afirma. “Podría ser que solo unos pocos actores, grandes empresas tecnológicas, puedan permitirse licenciar todos esos datos”.
En el documento, la DPA se opone a las licencias obligatorias por parte de los gobiernos y aboga por un enfoque de “libre mercado” en el que los creadores de datos y las empresas de inteligencia synthetic negocien directamente. Otras directrices son más granulares. Por ejemplo, la alianza sugiere cinco posibles estructuras de compensación para garantizar que los creadores y los titulares de derechos reciban una remuneración adecuada por sus datos. Entre ellas se incluyen un modelo basado en suscripciones, una “licencia basada en el uso” (en la que se pagan tarifas por uso) y una licencia “basada en los resultados”, en la que las regalías están vinculadas a las ganancias. “Estas podrían funcionar para cualquier cosa, desde música hasta imágenes, películas, televisión o libros”, cube Bestall.