Sarah Silverman y los novelistas demandan al creador de ChatGPT, OpenAI
Pregúntele a ChatGPT sobre las memorias de la comediante Sarah Silverman “The Bedwetter” y el chatbot de inteligencia artificial puede generar una sinopsis detallada de cada parte del libro.
¿Significa eso que efectivamente “leyó” y memorizó una copia pirateada? ¿O recopiló tantas reseñas de clientes y charlas en línea sobre el éxito de ventas o el musical que inspiró que pasa por un experto?
Los tribunales de EE. UU. ahora pueden ayudar a resolver eso después de que Silverman demandó al fabricante de ChatGPT, OpenAI, por infracción de derechos de autor esta semana, uniéndose a un número creciente de escritores que dicen que, sin saberlo, construyeron los cimientos de Silicon Valley. auge de la IA al rojo vivo.
Un súper PAC que apoya la candidatura del alcalde de Miami, Francis Suárez, a la nominación presidencial republicana ha lanzado un chatbot de inteligencia artificial para responder preguntas sobre él.
Más de 150 ejecutivos están instando a la Unión Europea a repensar las reglas más completas del mundo para la inteligencia artificial.
El líder de la mayoría del Senado, Chuck Schumer, dice que el desarrollo de la inteligencia artificial es un “momento de revolución” que requiere una acción rápida por parte del gobierno.
Los grupos de protección al consumidor de la Unión Europea están instando a los reguladores a investigar el tipo de inteligencia artificial que sustenta sistemas como ChatGPT sobre los riesgos que dejan a las personas vulnerables.
La demanda de Silverman dice que ella nunca le dio permiso a OpenAI para ingerir la versión digital de su libro de 2010 para entrenar sus modelos de IA, y probablemente fue robado de una “biblioteca en la sombra” de obras pirateadas. Dice que las memorias fueron copiadas “sin consentimiento, sin crédito y sin compensación”.
Es uno de una cantidad creciente de casos que podrían romper el secreto de OpenAI y sus rivales sobre los valiosos datos utilizados para entrenar, cada vez más utilizados. productos de “IA generativa” que crean nuevo texto, imágenes y musica. Y plantea interrogantes sobre la base ética y legal de las herramientas que, según los proyectos del McKinsey Global Institute, agregarán el equivalente de $ 2,6 billones a $ 4,4 billones a la economía global.
“Este es un secreto abierto y sucio de toda la industria del aprendizaje automático”, dijo Matthew Butterick, uno de los abogados que representan a Silverman y otros autores en la búsqueda de un caso de demanda colectiva. “Les encantan los datos de los libros y los obtienen de estos sitios ilícitos. Estamos haciendo sonar el silbato en toda esa práctica”.
OpenAI se negó a comentar sobre las acusaciones. Otra demanda de Silverman hace afirmaciones similares sobre un modelo de IA creado por la empresa matriz de Facebook e Instagram, Meta, que también se negó a comentar.
Puede ser un caso difícil de ganar para los escritores, especialmente después del éxito de Google en superando los desafíos legales a su biblioteca de libros en línea. En 2016, la Corte Suprema de EE. UU. dejó en pie los fallos de los tribunales inferiores que rechazaron la afirmación de los autores de que la digitalización de millones de libros por parte de Google y la exhibición de pequeñas porciones de ellos al público equivalen a una “infracción de derechos de autor en una escala épica”.
“Creo que lo que OpenAI ha hecho con los libros se parece mucho a lo que se le permitió hacer a Google con su proyecto Google Books y, por lo tanto, será legal”, dijo Deven Desai, profesor asociado de derecho y ética en el Instituto de Tecnología de Georgia.
Si bien solo un puñado ha demandado, incluidos Silverman y los novelistas más vendidos Mona Awad y Paul Tremblaylas preocupaciones sobre las prácticas de construcción de IA de la industria tecnológica han ganado terreno en la literatura y comunidades de artistas.
Otros autores prominentes, entre ellos Nora Roberts, Margaret Atwood, Louise Erdrich y Jodi Picoult, firmaron una carta a fines del mes pasado a los directores ejecutivos de OpenAI, Google, Microsoft, Meta y otros desarrolladores de IA acusándolos de prácticas de explotación en la construcción de chatbots que “imitan y regurgitar” su lenguaje, estilo e ideas.
“Millones de libros, artículos, ensayos y poesía con derechos de autor proporcionan el ‘alimento’ para los sistemas de IA, comidas interminables por las que no ha habido factura”, decía la carta abierta organizada por el Sindicato de Autores y firmada por más de 4.000 escritores. “Estás gastando miles de millones de dólares para desarrollar tecnología de IA. Es justo que nos compense por usar nuestros escritos, sin los cuales la IA sería banal y extremadamente limitada”.
Los sistemas de inteligencia artificial detrás de productos populares como ChatGPT, Bard de Google y el chatbot Bing de Microsoft se conocen como grandes modelos de lenguaje que han “aprendido” al analizar y recoger patrones de una gran cantidad de texto ingerido. Han asombrado al público con su gran dominio del lenguaje humano, aunque también son conocidos por su tendencia a decir falsedades.
Si bien los modelos también recibieron capacitación sobre artículos de noticias y redes sociales, los libros son particularmente valiosos, como reconoció OpenAI en un artículo de 2018 citado en la demanda de Silverman.
La primera versión del modelo de lenguaje grande de OpenAI, conocido como GPT-1, se basó en un conjunto de datos compilados por investigadores universitarios llamado Toronto Book Corpus que incluía miles de libros inéditos, algunos de los géneros de aventura, fantasía y romance.
“De manera crucial, contiene largos tramos de texto contiguo, lo que permite que el modelo generativo aprenda a condicionar información de largo alcance”, dijeron los investigadores de OpenAI en ese momento. Otras empresas tecnológicas como Google y Amazon también se basaron en los mismos datos, que ya no están disponibles en su forma original.
Pero desde entonces, OpenAI y otros importantes desarrolladores de IA se han vuelto más reservados sobre sus fuentes de datos, incluso cuando han ingerido cantidades aún mayores de trabajos escritos. Butterick dijo que la evidencia circunstancial apunta al uso de las llamadas bibliotecas ocultas de contenido pirateado que contenían las obras de Silverman y otros demandantes.
“Es importante para sus modelos porque los libros son la mejor fuente de escritura coherente, bien editada y de formato largo”, dijo. “Básicamente, no puedes tener un modelo de lenguaje de alta calidad a menos que tengas libros en tus datos de entrenamiento”.
Podrían pasar semanas o meses antes de que se deba una respuesta formal de OpenAI. Pero una vez que avance el caso, los ejecutivos de tecnología podrían tener que testificar, bajo juramento, sobre las fuentes de los libros que descargaron.
“Hasta donde sabemos, la otra parte no lo ha negado”, dijo Joseph Saveri, otro de los abogados de Silverman. “No tienen una explicación alternativa para esto”.
Saveri dijo que los autores no necesariamente están pidiendo a las empresas de tecnología que se deshagan de sus algoritmos y datos de capacitación y comiencen de nuevo, aunque la Comisión Federal de Comercio de EE. UU. sentó un precedente al obligar a las empresas a destruir datos de IA obtenidos de forma ilícita. Pero se necesita alguna forma de compensar a los escritores, dijo.