El juicio por infracción de derechos de autor entre The New York Times y OpenAI comenzó en una audiencia en un tribunal federal el martes.
Un juez escuchó los argumentos de ambas partes en una moción de desestimación presentada por OpenAI y su patrocinador financiero Microsoft. El New York Times, así como The New York Daily News y el Center for Investigative Reporting, que han presentado sus propias demandas contra OpenAI y Microsoft, afirman que OpenAI y Microsoft utilizaron el contenido de los editores para entrenar sus grandes modelos de lenguaje que impulsaban su IA generativa. chatbots. Hacerlo significa que las empresas de tecnología están compitiendo con esos editores utilizando su contenido responde a las preguntas de los usuarios, eliminando el incentivo para que un usuario visite sus sitios en busca de esa información y, en última instancia, perjudicando su capacidad de monetizar a esos usuarios a través de publicidad digital y suscripciones, afirman.
OpenAI y Microsoft dicen que lo que están haciendo está cubierto por el “uso justo”, una ley que permite el uso de material protegido por derechos de autor para crear algo nuevo que no compita con el trabajo original.
El resultado de esta demanda tiene grandes implicaciones para todo el ecosistema de medios digitales y determinará la legalidad de las herramientas de inteligencia artificial generativa que utilizan el trabajo protegido por derechos de autor del editor sin su consentimiento para la capacitación.
Estos fueron los principales argumentos durante el juicio:
El argumento del New York Times
Usar contenido protegido por derechos de autor
OpenAI está utilizando el contenido del New York Times para entrenar sus grandes modelos de lenguaje, a veces haciendo copias de ese contenido, afirman los demandantes. A veces, se devuelven varios párrafos o artículos completos que forman parte de ese conjunto de datos de entrenamiento en respuesta a la solicitud de un usuario. Y en algunos casos, el LLM también regurgita contenido nuevo que el LLM no usó para su capacitación (debido a una fecha límite) en respuesta a una solicitud. Los demandantes dieron ejemplos de resultados que contienen lenguaje literal o resúmenes de artículos sin atribución del New York Times.
Los LLM copian contenido porque no pueden procesar información como los humanos
Los humanos pueden leer algo, comprender la información subyacente y aprender algo nuevo, lo que no se considera copiar información. Pero los LLM no tienen la capacidad de hacer eso porque son máquinas, lo que significa que los modelos absorben la “expresión” de los hechos, no los hechos en sí, lo que debería considerarse una infracción de derechos de autor, según los abogados del New York Times.
La búsqueda generativa con IA es diferente de un motor de búsqueda tradicional
A diferencia de un motor de búsqueda tradicional (donde se proporcionan enlaces a la fuente original y un editor puede monetizar ese tráfico a través de publicidad o suscripciones), un motor de búsqueda generativo proporciona la respuesta a una pregunta con fuentes en las notas a pie de página. Las notas a pie de página, argumentan los abogados del New York Times, pueden contener una variedad de fuentes, lo que perjudica la capacidad del editor para llevar a ese usuario a su sitio.
Evadiendo los muros de pago
OpenAI tiene GPT personalizados en su tienda con productos que ayudan a los usuarios a eliminar los muros de pago. “Los usuarios publicaban en foros de Reddit y en las redes sociales cómo habían sorteado un muro de pago utilizando un producto llamado SearchGPT y, de hecho, OpenAI retiró el producto después de darse cuenta de que se estaban utilizando productos para infringir la ley”, dijo Ian Crosby, socio de Susman Godfrey y el abogado principal del New York Times.
El contenido urgente se elimina sin atribución
Los abogados del New York Times dijeron que se estaba utilizando contenido del sitio de recomendación de productos Wirecutter del Times sin la atribución adecuada, lo que significa que Wirecutter perdió ingresos debido a que las personas no hicieron clic en el sitio y en los enlaces de afiliados. Y ese contenido eliminado a veces era urgente, como las recomendaciones de productos durante el Black Friday. Afirman que el contenido debería estar protegido por una doctrina de “noticias candentes”, parte de la ley de derechos de autor que protege las noticias urgentes del uso de los competidores. Los abogados argumentaron que ChatGPT citó algunos productos como respaldados por Wirecutter cuando no lo estaban, lo que daña la reputación de la marca.
OpenAI y los argumentos de Microsoft
Doctrina de uso legítimo
Los abogados de OpenAI y Microsoft dijeron que los materiales protegidos por derechos de autor en cuestión están permitidos según la doctrina del uso justo. Las empresas de inteligencia artificial han sido firmes defensoras de la doctrina, que permite el uso de materiales protegidos por derechos de autor sin permiso siempre que el uso sea diferente de su propósito principal, se use en contextos no comerciales y no se use de una manera que pueda dañar a quien posee los derechos de autor. .
Annette Hurst, abogada que representa a Microsoft, dijo que los LLM entienden el lenguaje y las ideas que pueden adaptarse para “todo, desde curar el cáncer hasta la seguridad nacional: “Los demandantes, en sus propias palabras, han alegado que esta tecnología es capaz de comercializarse por una suma de miles de millones. de dólares sin tener en cuenta ninguna capacidad de cómo”.
Cómo funcionan los LLM
Los abogados defensores tampoco estuvieron de acuerdo con sus homólogos demandantes a la hora de describir cómo funcionan los modelos de lenguaje grandes. Por ejemplo, el abogado de OpenAI dijo que los LLM de la compañía en realidad no almacenan contenido protegido por derechos de autor, sino que simplemente dependen del peso de los datos derivados del proceso de capacitación.
“Si os digo: ‘Ayer todos mis problemas me parecían así’, todos pensaremos para nosotros mismos [think] “lejos” porque hemos estado expuestos a ese texto muchas veces”, dijo Joe Gratz, abogado de Morrison & Foerster que representó a OpenAI. “Eso no significa que tengas una copia de esa canción en algún lugar de tu cerebro”.
Estatuto de limitaciones
Los abogados afirmaron que la demanda no debería permitirse debido al plazo de prescripción de tres años para los casos de infracción de derechos de autor. Sin embargo, los abogados del Times señalan que en abril de 2021 no era posible saber si OpenAI utilizaría el contenido de los editores de forma que pudiera dañarlo.
Ejemplos ‘engañosos’
Los abogados del Times dicen que han encontrado millones de ejemplos para fundamentar su caso. Sin embargo, OpenAI argumentó que los demandantes han sido engañosos con ejemplos de cómo ChatGPT replica contenido protegido por derechos de autor y con ejemplos de cómo el contenido generado por IA cita al Times en respuestas inexactas. Los abogados defensores también afirman que el Times explotó aspectos de ChatGPT que ayudaron a utilizar indicaciones para generar contenido de IA que violaba los términos de OpenAI. (Los abogados también señalaron que OpenAI ha tratado de abordar las debilidades).
No hay pruebas de daño
Las afirmaciones del Times incluyen que OpenAI elimine la información de gestión de derechos de autor (CMI), como cabeceras, firmas de autores y otra información identificable. Sin embargo, OpenAI y Microsoft dicen que los demandantes no han demostrado cómo se vieron perjudicados al eliminar CMI. También afirman que los demandantes no han demostrado que OpenAI y Microsoft hayan infringido voluntariamente obras protegidas por derechos de autor. Sin embargo, los abogados demandantes dijeron que fallos judiciales anteriores han reconocido que copiar contenido protegido por derechos de autor era una infracción en sí misma sin necesidad de probar la difusión o la pérdida económica.
“Su mayor problema es que no tienen una historia plausible de cómo estarían mejor si el CMI que dicen que fue eliminado, en realidad lo fuera”, dijo Gratz. “… No hay manera en la que el mundo sería mejor para ellos en la forma en que dicen que el mundo no es bueno para ellos si el CMI que dicen que fue eliminado nunca fue eliminado”.
¿Qué viene después?
La demanda del Times es sólo una de las muchas demandas que enfrenta OpenAI. Si bien OpenAI ganó un caso en noviembre, otras demandas en curso incluyen quejas de un grupo de editores de noticias canadienses, un grupo de periódicos estadounidenses propiedad de Alden Capital y una demanda colectiva presentada por un grupo de autores. (OpenAI, Perplexity y Microsoft se involucraron en la demanda antimonopolio de búsqueda en curso de Google después de que Google envió citaciones a las tres empresas).
Otros gigantes y nuevas empresas tecnológicas importantes tienen sus propias batallas legales relacionadas con la inteligencia artificial y los derechos de autor. Meta se enfrenta a una demanda colectiva presentada por un grupo de escritores, entre ellos Sarah Silverman. Perplexity es uno de los acusados en una demanda presentada en octubre por News Corp. Google se enfrenta a una demanda presentada en su contra por el Authors Guild.
No está claro cuándo el juez estadounidense Sidney Stein emitirá su decisión sobre si se debe permitir que el caso avance. Megan Gray, abogada y fundadora de GrayMatters Law & Policy, asistió a la audiencia en persona y señaló que Stein parecía estar “en esto por mucho tiempo” y era poco probable que lo descartara tan pronto.
“El juez Stein estaba comprometido y curioso, algo notable dada su edad y su falta de sofisticación técnica”, dijo Gray. “Él entendió los casos y las posiciones, además tiene control estricto sobre su sala del tribunal. Normalmente no proporciona una línea de audio para el público y el hecho de que lo haya hecho aquí indica que está muy familiarizado con la importancia del caso y su impacto en la sociedad”.
Con información de Digiday
Leer la nota Completa > OpenAI y The New York Times debaten la infracción de derechos de autor de las empresas de tecnología de IA en los argumentos del primer juicio