¿Qué sucede cuando se pide a un modelo de IA que analice los pensamientos humanos sobre la IA y los derechos de autor?
A medida que los gigantes tecnológicos y las nuevas empresas avanzan con modelos de IA, el panorama legal sigue lleno de incertidumbre en lo que respecta a las normas actuales y futuras sobre la IA y los derechos de autor.
A principios de esta semana, el representante estadounidense Adam Schiff presentó un nuevo proyecto de ley que requeriría que las empresas de inteligencia artificial divulguen contenido de capacitación en inteligencia artificial, incluidos textos, imágenes, música y videos. Mientras tanto, también están hablando más autores, músicos y otras profesiones creativas. La semana pasada, 200 músicos, entre ellos Billie Eilish, Jason Isbell, Nicki Minaj y Bon Jovi, firmaron una carta abierta pidiendo a las empresas que protejan a los artistas del “uso depredador de la IA”.
La oficina de Patentes y Marcas de EE. UU. también está considerando nuevas reglas relacionadas con la inteligencia artificial y los derechos de autor. Además de analizar si las obras asistidas por IA pueden recibir protección de derechos de autor, también se está considerando cómo se debería permitir a los sistemas de IA utilizar contenido que ya está protegido. Como parte del proceso de elaboración de normas, la USPTO recibió alrededor de 10.000 comentarios enviados por una variedad de partes interesadas (incluidas empresas, expertos en IA, artistas y organizaciones) que expresaron sus opiniones sobre los derechos de autor de la IA.
La enorme cantidad de comentarios llevó a una pregunta más amplia: ¿Qué notaría un sistema de IA si analizara lo que los humanos tenían que decir sobre los derechos de autor de la IA? ¿Hubo temas en el comentario que podrían ayudar a pintar una imagen de lo que varias partes interesadas quieren ver de la USPTO?
Para comprender mejor los sentimientos, Digiday trabajó con la empresa de inteligencia artificial IV.AI para analizar el conjunto de comentarios utilizando un subconjunto de inteligencia artificial llamado procesamiento del lenguaje natural (PNL), que utiliza lingüistas computacionales para analizar el lenguaje e identificar patrones en palabras y frases para identificar el significado. del texto. La compañía enmarcó su análisis para analizar cuatro preguntas clave que la USPTO invitó a presentar presentaciones: capacitación de la IA con materiales protegidos por derechos de autor, la capacidad de proteger los derechos de autor del contenido generado por la IA, la responsabilidad por las infracciones creadas por la IA y el tratamiento legal de la IA. producciones que imitan los estilos o identidades de los artistas humanos.
Si bien muchos de los comentarios tomados en masa representan las preocupaciones generales sobre los derechos creativos de los humanos, también reflejan cómo las empresas, individuos y organizaciones piensan sobre la propiedad del contenido y los datos a lo largo del tiempo. Así como las empresas de redes sociales aprendieron de los datos creados por los usuarios, muchas empresas de inteligencia artificial ahora están haciendo lo mismo al entrenar sus modelos de inteligencia artificial en el contenido publicado en las distintas plataformas.
“Es interesante cuando se trata de todas estas diferentes [companies] que ya estaban funcionando a partir de las ideas de otras personas”, dijo Vince Lynch, director ejecutivo y cofundador de IV.AI. “Lo mismo ocurre con las plataformas de redes sociales. Todos aprenden de todos los datos que creamos y simplemente nos dan un espacio para escribir y luego se benefician de ello… [saying] ‘Son nuestros datos’, pero en realidad nunca fueron tus datos en primer lugar… Todo el mundo sigue exprimiendo al hoi polloi general de la humanidad”.
Del análisis surgieron numerosos temas macro y micro. Muchos de los comentarios mencionaron alguna forma de fraude, con palabras como “robo”, “robo”, “infracción” y “plagio”, “amenaza” y “devaluación”. Otro tema que notó IV.AI fueron las innumerables demandas dentro de los envíos de comentarios, que usaban palabras como “consentimiento”, “compensación”, “permiso”, “protección” e “incentivo”.
Las presentaciones también señalaron lo que está en juego con el futuro de la IA y los derechos de autor: ¿Qué significará la tecnología para la creatividad humana, las creaciones originales y sus creadores?
Para comprender el sentimiento en los envíos, IV.AI también hizo que su modelo de IA examinara las primeras 500 palabras de cada envío y descubrió que el 74% de los comentarios se identificaron como negativos. El otro 26% fue identificado como más positivo, pero principalmente porque los comentaristas expresaron su esperanza de que las nuevas regulaciones pudieran ayudar a abordar las preocupaciones sobre la IA y los derechos de autor.
Muchos de los comentarios provinieron de artistas, escritores y músicos a quienes les preocupa que modelos de inteligencia artificial eliminen su contenido sin consentimiento ni compensación. Los actores de voz expresaron su preocupación por perder sus trabajos a causa de la IA. Los escritores de fan-fiction señalaron que no se les permite ganar dinero con su trabajo, pero los modelos de IA podrían hacer lo mismo y ganar dinero con él. Uno de los hallazgos más notables: más de 400 presentaciones provinieron de miembros del Writer’s Guild Of America, según IV.AI, que también señaló que muchos miembros de la WGA parecían copiar y pegar una declaración basada en una plantilla proporcionada por la WGA.
Los monogramas más populares identificados fueron palabras como “IA”, “trabajo” y “derechos de autor”. Sin embargo, al analizar los trigramas, el más popular fue “entrenar modelo de IA”, seguido de otros términos relacionados con el entrenamiento de IA, derechos de autor y contenido. La frase “sin permiso” apareció casi 900 veces, mientras que “robo” apareció casi 1.300 veces y “reemplazar la creatividad humana” apareció casi 500 veces.
IV.AI también identificó temas clave basados en los términos más utilizados y las palabras contiguas. Al identificar patrones y relaciones entre palabras, la empresa pudo extraer temas significativos de los comentarios. Por ejemplo, el análisis reveló que los términos “infracción” y “derechos de autor” frecuentemente aparecían juntos, lo que indica que la infracción de derechos de autor era un tema importante en las respuestas. También notó grupos de temas relacionados, como el uso de IA en modelos de entrenamiento, si el contenido generado por IA puede tener derechos de autor y cuestiones relacionadas con la responsabilidad legal con la IA y la infracción de derechos de autor.
La empresa más mencionada fue Google, con 183 menciones, seguida de Disney (138), Adobe (95), Amazon (95), YouTube (73), Microsoft (42), Netflix (31), Instagram (30). La plataforma más mencionada fue ChatGPT, que fue mencionada 319 veces. Otros con más menciones incluyeron Midjourney (204), Stable Diffusion (136), Photoshop (94), DALL-E (57), DeviantArt (48), Stability AI (44) y Glaze (39). Las plataformas que trabajan para proteger a los artistas de la IA también obtuvieron docenas de menciones, incluidas Glaze y Nightshade, que obtuvieron 39 y 26 menciones.
Las presentaciones también provinieron de cientos de empresas, desde gigantes tecnológicos, nuevas empresas y empresas de contenidos. Algunos ejemplos incluyen Qualcomm, Meta, Yelp, Adobe, Microsoft, OpenAI, Cohere, Getty Images, Shutterstock, The New York Times y National Public Radio. Otros procedían de The Recording Academy, Motion Picture Association y varias editoriales. También se presentaron marcas como The Knot, la NFL y Duolingo.
¿Qué revela la PNL sobre las demandas por derechos de autor relacionadas con la IA?
Otra cosa que analizó IV.AI fueron las demandas relacionadas con la IA y los derechos de autor contra empresas como OpenAI y otras. Utilizando PNL para analizar varias quejas iniciales, incluidas las presentadas por The New York Times, Getty Images, editores y grupos de autores, identificó términos y frases frecuentes para comprender temas clave, como “infracción de derechos de autor”. IV.AI también observó cómo ciertos términos, como “Getty Images” y “Microsoft”, variaban en frecuencia según el contexto de los documentos. El análisis ayudó a identificar temas comunes y la importancia de varios términos dentro de los debates legales sobre las tecnologías de IA, proporcionando información sobre áreas de preocupación o interés en estos procedimientos.
Otras empresas de IA también están utilizando sus propios modelos de IA para identificar contenido generado por IA y para rastrear qué editores están intentando impedir que los rastreadores de IA escaneen su contenido sin permiso. Otra startup, Originality.AI, creó un panel para rastrear cuántos de los principales sitios web han bloqueado a los rastreadores web de IA de varias empresas de IA. De los 1.000 sitios web principales por volumen de tráfico, el 34% había bloqueado GPTBot de OpenAI, el 19% había bloqueado Google-Extended de Google, el 11% había bloqueado Common Extended sin fines de lucro y solo el 5% había bloqueado Anthropic.
También vale la pena señalar qué sitios web bloquearon o permitieron varios rastreadores. Por ejemplo, YouTube permite los cuatro, pero Facebook e Instagram bloquean OpenAI y Google. Mientras tanto, Amazon bloquea OpenAI y Common Crawler, pero permite Anthropic y Google.
“Google Extended es realmente interesante”, dijo el fundador y director ejecutivo de Originality.AI, Jon Gilham. “¿Por qué tiene tres veces menos probabilidades de ser bloqueado que GPTBot? ¿Está Google utilizando su potencial poder monopólico en la búsqueda para obtener una ventaja injusta y un campo emergente de IA?
Otra startup de IA, Patronus AI, creó una herramienta llamada Copyright Catcher para detectar la probabilidad de que varios LLM produzcan contenido protegido por derechos de autor. El mes pasado, los resultados iniciales de la startup encontraron que GPT-4 de OpenAI produjo contenido protegido por derechos de autor en el 44% de las solicitudes, MIstral AI lo produjo en el 22%, Anthropic lo produjo en el 8% y Llama 2 en solo el 10%. Según el cofundador de Patronus, Anand Kannappan, las empresas que accidentalmente publican contenido protegido por derechos de autor todavía ponen en riesgo la marca o la reputación de la empresa.
“Muchas empresas todavía se sienten realmente incómodas porque no saben dónde está realmente la responsabilidad y quién está en riesgo o quién es responsable del riesgo”, dijo. “…Si usted es un usuario de un modelo básico y finalmente genera accidentalmente contenido protegido por derechos de autor, eso aún pone en riesgo la marca o la reputación de la empresa. Y entonces, incluso si no es una cuestión legal, hay otros tipos de cuestiones en las que sabes que la mayoría de las empresas simplemente no quieren involucrarse. [in].”
Con información de Digiday
Leer la nota Completa > ¿Pueden los análisis de IA sobre el contenido de IA revelar algo sobre la IA y los derechos de autor?