Los modelos de lenguaje grande (LLM) como ChatGPT entrenan usando múltiples fuentes de información, incluido el contenido web. Estos datos forman la base de los resúmenes de ese contenido en forma de artículos que se producen sin atribuir ni beneficiar a quienes publicaron el contenido original utilizado para capacitar a ChatGPT.
Los motores de búsqueda descargan contenido del sitio web (llamado rastreo e indexación) para proporcionar respuestas en forma de enlaces a los sitios web.
Los editores de sitios web tienen la capacidad de optar por no permitir que los motores de búsqueda rastreen e indexen su contenido a través del Protocolo de exclusión de robots, comúnmente conocido como Robots.txt.
El Protocolo de exclusión de robots no es un estándar oficial de Internet, pero es uno que obedecen los rastreadores web legítimos.
¿Los editores web deberían poder usar el protocolo Robots.txt para evitar que los modelos de lenguaje grandes usen el contenido de su sitio web?
Los modelos de lenguaje grande usan contenido del sitio web sin atribución
Algunos de los que están involucrados con el marketing de búsqueda se sienten incómodos con la forma en que se utilizan los datos del sitio web para entrenar máquinas sin devolver nada, como un reconocimiento o tráfico.
Hans Petter Blindheim (perfil de LinkedIn), experto sénior de Curamando, compartió conmigo sus opiniones.
Hans comentó:
“Cuando un autor escribe algo después de haber aprendido algo de un artículo en su sitio, la mayoría de las veces vinculará a su trabajo original porque ofrece credibilidad y como cortesía profesional.
Se llama cita.
Pero la escala en la que ChatGPT asimila el contenido y no otorga nada a cambio lo diferencia tanto de Google como de las personas.
Un sitio web generalmente se crea con una directiva comercial en mente.
Google ayuda a las personas a encontrar el contenido, proporcionando tráfico, lo que tiene un beneficio mutuo.
Pero no es como si los grandes modelos de lenguaje le pidieran permiso para usar su contenido, simplemente lo usan en un sentido más amplio de lo que se esperaba cuando se publicó su contenido.
Y si los modelos de lenguaje de IA no ofrecen valor a cambio, ¿por qué los editores deberían permitirles rastrear y usar el contenido?
¿El uso que hacen de su contenido cumple con los estándares de uso legítimo?
Cuando ChatGPT y los propios modelos ML/AI de Google se entrenan en su contenido sin permiso, hacen girar lo que aprenden allí y lo usan mientras mantienen a las personas alejadas de sus sitios web, ¿no deberían la industria y también los legisladores intentar recuperar el control de Internet forzando hacer la transición a un modelo de “opt-in”?
Las preocupaciones que expresa Hans son razonables.
A la luz de la rapidez con la que evoluciona la tecnología, ¿deberían reconsiderarse y actualizarse las leyes relativas al uso justo?
Le pregunté a John Rizvi, un abogado de patentes registrado (perfil de LinkedIn) que está certificado por la junta en la Ley de Propiedad Intelectual, si las leyes de derechos de autor de Internet están desactualizadas.
Juan respondió:
“Sí, sin duda.
Una de las principales manzanas de la discordia en casos como este es el hecho de que la ley inevitablemente evoluciona mucho más lentamente que la tecnología.
En la década de 1800, esto quizás no importaba tanto porque los avances eran relativamente lentos y, por lo tanto, la maquinaria legal estaba más o menos equipada para igualar.
Hoy, sin embargo, los avances tecnológicos desbocados han superado con creces la capacidad de la ley para mantenerse al día.
Simplemente hay demasiados avances y demasiadas partes móviles para que la ley se mantenga al día.
Como actualmente está constituida y administrada, en gran parte por personas poco expertas en las áreas de tecnología que estamos discutiendo aquí, la ley está mal equipada o estructurada para seguir el ritmo de la tecnología… y debemos considerar que esto no es un cosa mala.
Entonces, en cierto sentido, sí, la ley de propiedad intelectual necesita evolucionar si pretende, y mucho menos espera, seguir el ritmo de los avances tecnológicos.
El problema principal es lograr un equilibrio entre mantenerse al día con las formas en que se pueden usar varias formas de tecnología y evitar la extralimitación flagrante o la censura absoluta para obtener ganancias políticas encubiertas con intenciones benévolas.
La ley también debe tener cuidado de no legislar contra los posibles usos de la tecnología de manera tan amplia como para estrangular cualquier beneficio potencial que pueda derivarse de ellos.
Fácilmente podría entrar en conflicto con la Primera Enmienda y cualquier número de casos resueltos que circunscriban cómo, por qué y en qué medida se puede usar la propiedad intelectual y por quién.
E intentar imaginar cada uso concebible de la tecnología años o décadas antes de que exista el marco para hacerlo viable o incluso posible sería una tontería extremadamente peligrosa.
En situaciones como esta, la ley realmente no puede evitar ser reactiva a cómo se usa la tecnología… no necesariamente a cómo se pretendía.
No es probable que eso cambie pronto, a menos que lleguemos a un estancamiento tecnológico masivo e inesperado que permita que la ley tenga tiempo de ponerse al día con los eventos actuales”.
Entonces, parece que el tema de las leyes de derechos de autor tiene muchas consideraciones que equilibrar cuando se trata de cómo se entrena la IA, no hay una respuesta simple.
OpenAI y Microsoft demandados
Un caso interesante que se presentó recientemente es uno en el que OpenAI y Microsoft usaron código fuente abierto para crear su producto CoPilot.
El problema con el uso de código fuente abierto es que la licencia Creative Commons requiere atribución.
Según un artículo publicado en una revista académica:
“Los demandantes alegan que OpenAI y GitHub ensamblaron y distribuyeron un producto comercial llamado Copilot para crear código generativo utilizando código de acceso público originalmente disponible bajo varias licencias de estilo de “código abierto”, muchas de las cuales incluyen un requisito de atribución.
Como dice GitHub, ‘…[t]llovió en miles de millones de líneas de código, GitHub Copilot convierte las indicaciones de lenguaje natural en sugerencias de codificación en docenas de idiomas.’
El producto resultante supuestamente omitió cualquier crédito a los creadores originales”.
El autor de ese artículo, que es un experto legal en el tema de los derechos de autor, escribió que muchos ven las licencias Creative Commons de código abierto como “gratis para todos”.
Algunos también pueden considerar la frase gratuita para todos una descripción justa de los conjuntos de datos compuestos por contenido de Internet se raspa y se utiliza para generar productos de IA como ChatGPT.
Antecedentes sobre LLM y conjuntos de datos
Los modelos de lenguaje grande se entrenan en múltiples conjuntos de datos de contenido. Los conjuntos de datos pueden consistir en correos electrónicos, libros, datos gubernamentales, artículos de Wikipedia e incluso conjuntos de datos creados de sitios web vinculados desde publicaciones en Reddit que tienen al menos tres votos a favor.
Muchos de los conjuntos de datos relacionados con el contenido de Internet tienen su origen en el rastreo creado por una organización sin fines de lucro llamada Common Crawl.
Su conjunto de datos, el conjunto de datos Common Crawl, está disponible de forma gratuita para su descarga y uso.
El conjunto de datos de Common Crawl es el punto de partida para muchos otros conjuntos de datos que se crearon a partir de él.
Por ejemplo, GPT-3 usó una versión filtrada de Common Crawl (los modelos de lenguaje son aprendices de pocas tomas) PDF).
Así es como los investigadores de GPT-3 utilizaron los datos del sitio web contenidos en el conjunto de datos de Common Crawl:
“Los conjuntos de datos para los modelos de lenguaje se han expandido rápidamente, culminando en el conjunto de datos Common Crawl… que constituye casi un billón de palabras.
Este tamaño de conjunto de datos es suficiente para entrenar nuestros modelos más grandes sin tener que actualizar la misma secuencia dos veces.
Sin embargo, hemos descubierto que las versiones sin filtrar o ligeramente filtradas de Common Crawl tienden a tener una calidad más baja que los conjuntos de datos más seleccionados.
Por lo tanto, tomamos 3 pasos para mejorar la calidad promedio de nuestros conjuntos de datos:
(1) descargamos y filtramos una versión de CommonCrawl en función de la similitud con una variedad de corpus de referencia de alta calidad,
(2) realizamos una deduplicación aproximada a nivel de documento, dentro y entre conjuntos de datos, para evitar la redundancia y preservar la integridad de nuestro conjunto de validación retenido como una medida precisa de sobreajuste, y
(3) también agregamos corpus de referencia conocidos de alta calidad a la combinación de capacitación para aumentar CommonCrawl y aumentar su diversidad”.
El conjunto de datos C4 de Google (Colossal, Cleaned Crawl Corpus), que se utilizó para crear el Transformador de transferencia de texto a texto (T5), también tiene sus raíces en el conjunto de datos Common Crawl.
Su artículo de investigación (Exploring the Limits of Transfer Learning with a Unified Text-to-Tex Transformer PDF) explica:
“Antes de presentar los resultados de nuestro estudio empírico a gran escala, revisamos los temas básicos necesarios para comprender nuestros resultados, incluida la arquitectura del modelo Transformer y las tareas posteriores que evaluamos.
También presentamos nuestro enfoque para tratar cada problema como una tarea de texto a texto y describimos nuestro “Colossal Clean Crawled Corpus” (C4), el conjunto de datos basado en Common Crawl que creamos como una fuente de datos de texto sin etiquetar.
Nos referimos a nuestro modelo y marco como el ‘Transformador de transferencia de texto a texto’ (T5)”.
Google publicó un artículo en su blog de IA que explica con más detalle cómo se usaron los datos de Common Crawl (que contienen contenido extraído de Internet) para crear C4.
Ellos escribieron:
“Un ingrediente importante para el aprendizaje por transferencia es el conjunto de datos sin etiquetar que se usa para el entrenamiento previo.
Para medir con precisión el efecto de aumentar la cantidad de capacitación previa, se necesita un conjunto de datos que no solo sea de alta calidad y diverso, sino también masivo.
Los conjuntos de datos previos al entrenamiento existentes no cumplen estos tres criterios; por ejemplo, el texto de Wikipedia es de alta calidad, pero tiene un estilo uniforme y es relativamente pequeño para nuestros propósitos, mientras que los web scrapes de Common Crawl son enormes y muy diversos, pero bastante baja calidad.
Para satisfacer estos requisitos, desarrollamos Colossal Clean Crawled Corpus (C4), una versión limpia de Common Crawl que es dos órdenes de magnitud más grande que Wikipedia.
Nuestro proceso de limpieza involucró la deduplicación, el descarte de oraciones incompletas y la eliminación de contenido ofensivo o ruidoso.
Este filtrado condujo a mejores resultados en las tareas posteriores, mientras que el tamaño adicional permitió que el tamaño del modelo aumentara sin sobreajustarse durante el entrenamiento previo”.
Google, OpenAI e incluso Open Data de Oracle utilizan contenido de Internet, su contenido, para crear conjuntos de datos que luego se utilizan para crear aplicaciones de IA como ChatGPT.
El rastreo común se puede bloquear
Es posible bloquear Common Crawl y, posteriormente, optar por no participar en todos los conjuntos de datos que se basan en Common Crawl.
Pero si el sitio ya se ha rastreado, los datos del sitio web ya están en los conjuntos de datos. No hay forma de eliminar su contenido del conjunto de datos Common Crawl y cualquiera de los otros conjuntos de datos derivados como C4 y .
El uso del protocolo Robots.txt solo bloqueará futuros rastreos de Common Crawl, no impedirá que los investigadores usen el contenido que ya está en el conjunto de datos.
Cómo bloquear el rastreo común de sus datos
El bloqueo de Common Crawl es posible mediante el uso del protocolo Robots.txt, dentro de las limitaciones mencionadas anteriormente.
El bot Common Crawl se llama CCBot.
Se identifica utilizando la cadena de agente de usuario de CCBot más actualizada: CCBot/2.0
El bloqueo de CCBot con Robots.txt se logra igual que con cualquier otro bot.
Aquí está el código para bloquear CCBot con Robots.txt.
User-agent: CCBot Disallow: /
CCBot rastrea desde las direcciones IP de Amazon AWS.
CCBot también sigue la metaetiqueta Robots nofollow:
<meta name="robots" content="nofollow">
¿Qué sucede si no está bloqueando el rastreo común?
El contenido web se puede descargar sin permiso, que es como funcionan los navegadores, descargan contenido.
Ni Google ni nadie más necesita permiso para descargar y usar contenido que se publica públicamente.
Los editores de sitios web tienen opciones limitadas
La consideración de si es ético entrenar a la IA en contenido web no parece ser parte de ninguna conversación sobre la ética de cómo se desarrolla la tecnología de IA.
Parece que se da por hecho que el contenido de Internet se puede descargar, resumir y transformar en un producto llamado ChatGPT.
¿Parece justo? La respuesta es complicada.
Imagen destacada de Shutterstock/Krakenimages.com
Con información de Search Engine Journal.
Leer la nota Completa > ¿Es justo el uso de ChatGPT del contenido web?