Varios editores, incluidos Bloomberg y The New York Times, se apresuraron a bloquear el acceso del rastreador web de OpenAI a sus sitios, para proteger su contenido de ser eliminado y utilizado para alimentar los grandes modelos de lenguaje (LLM) de la compañía de tecnología de inteligencia artificial. Pero es discutible si esta táctica es realmente efectiva, según conversaciones con cinco ejecutivos editoriales.
“Es un gesto simbólico”, dijo un alto ejecutivo tecnológico de una empresa de medios, que solicitó el anonimato para hablar libremente.
En agosto, OpenAI anunció que los editores ahora pueden bloquear el acceso de su rastreador web GPTBot al contenido de sus páginas web. Desde entonces, 26 de los 100 sitios más visitados (y 242 de los 1000 sitios principales) lo han hecho, según Originality AI.
Sin embargo, los modelos de distribución de contenido de los editores podrían hacer que la estrategia de protección sea discutible. Un ejecutivo editorial le dijo a Digiday que su empresa publica en ocho aplicaciones y sitios web de distribución diferentes. Debido a que el contenido ya es tan reconocible, parece que la medida de protección para bloquear el rastreador web de OpenAI fue un esfuerzo inútil, dijeron.
“Creo que fue un esfuerzo en vano de mi parte. Es inevitable que estas cosas sean ingeridas, rastreadas y aprendidas”, dijo el ejecutivo durante una sesión a puertas cerradas en la Cumbre de Publicaciones Digiday en Key Biscayne, Florida, la semana pasada.
A los editores les ha resultado difícil protegerse contra herramientas de inteligencia artificial generativa como el chatbot ChatGPT de OpenAI, que evitan sus muros de pago y eliminan su contenido para capacitar a sus LLM. Aunque los editores ahora pueden bloquear el rastreador de OpenAI, algunos ejecutivos editoriales no están convencidos de que sea suficiente para proteger su propiedad intelectual.
“Es un problema a largo plazo y no existe una solución a corto plazo”, dijo Matt Rogerson, director de políticas públicas de Guardian Media Group. “Es una señal de que los editores están recuperando un poco más de control y van a empezar a exigir más control sobre otras personas que hacen scraping con diferentes propósitos”.
Google y Microsoft están escuchando
OpenAI es solo una de las empresas de tecnología que utilizan rastreadores web para alimentar sus LLM con herramientas y sistemas de inteligencia artificial. Los rastreadores web de Google y Microsoft son esenciales para que el contenido de los editores se indexe y aparezca en los resultados de búsqueda de Google Search y Bing, pero esos rastreadores también extraen contenido para entrenar a los LLM y chatbots de IA de esas empresas tecnológicas. Rogerson, de The Guardian, los llamó “rascadores agrupados”.
“Lo tratan todo como un gran producto de búsqueda”, dijo el primer ejecutivo de tecnología. “Dicen: ‘No, no tienes la opción de granularidad’. Le damos la oportunidad de optar por no participar.’ Pero, obviamente, no queremos excluirnos del rastreo web”.
Esas empresas de tecnología están escuchando las preocupaciones de los editores. En julio, Google anunció que estaba explorando alternativas a su protocolo robots.txt (el archivo que indica a los rastreadores de los motores de búsqueda a qué URL pueden acceder) para dar a los editores más control sobre cómo se utiliza su IP en diferentes contextos. Y apenas el jueves, Google lanzó una nueva herramienta llamada Google-Extended que brinda a los propietarios de sitios web la posibilidad de optar por que sus sitios no sean rastreados en busca de datos utilizados para entrenar los sistemas de inteligencia artificial de Google y su chatbot generativo de inteligencia artificial, Bard. (Los ejecutivos entrevistados para esta historia hablaron con Digiday antes de ese anuncio).
Microsoft ha optado por tomar otro camino. La semana pasada, la compañía anunció que los editores pueden agregar un fragmento de código a sus páginas web para comunicar que el contenido no debe usarse para LLM (un poco como una etiqueta de derechos de autor). Microsoft ofrece a los propietarios de sitios web dos opciones: una etiqueta “NOCACHE” que permite que solo aparezcan títulos, fragmentos y URL en el chatbot de Bing o entrenar sus modelos de IA, o una etiqueta “NOARCHIVE”, que impide cualquier uso en su chatbot o IA. capacitación.
“Están indicando que agregarán más granularidad”, dijo Rogerson. “Estamos examinando eso en detalle”.
El New York Times tomó el asunto en sus propias manos y el mes pasado añadió texto a sus Términos de servicio que prohíbe el uso de su contenido para entrenar sistemas de aprendizaje automático o inteligencia artificial, lo que le dio al Times la capacidad de emprender acciones legales contra las empresas que utilizan sus datos.
Una táctica de negociación
Entonces, ¿por qué los editores bloquean el rastreador web de OpenAI, si la medida no garantiza la protección de su contenido?
Los ejecutivos le dijeron a Digiday que es una táctica de negociación.
“Poner en marcha el bloqueador es al menos un… punto de partida para las inevitables negociaciones que tendremos como editores con OpenAI y otras empresas. Podremos tener eso como punto de influencia y decir: lo quitaremos si podemos llegar a un acuerdo”, dijo el ejecutivo editorial en la Cumbre de Publicaciones Digiday.
Las acciones protectoras de los editores están creando un “mercado de licencias para extracción de datos”, con potencial de compensación por compartir sus datos, dijo Rogerson. OpenAI firmó una asociación de licencia con Associated Press en julio, en la que OpenAI está pagando por la licencia de parte del archivo de texto de AP para entrenar sus modelos.
Pero no todos los editores se sienten lo suficientemente poderosos como para negociar el uso de su contenido con estas grandes empresas tecnológicas.
“No somos lo suficientemente grandes como para flexionar nuestros músculos y bloquearlo”, dijo un segundo ejecutivo editorial que pidió permanecer en el anonimato. El ejecutivo tampoco estaba seguro de si bloquear el rastreador web de OpenAI afectaría su uso de GPT, la tecnología de inteligencia artificial en la que se basa ChatGPT y que OpenAI ha puesto a disposición de desarrolladores externos para que la concedan.
“Si empiezas a bloquear el rastreador, ¿te impiden utilizar la herramienta? ¿La herramienta también deja de funcionar? Realmente no está claro”, dijo el ejecutivo editorial. “Probablemente haya una manera de resolverlo eventualmente, pero no sin un montón de trabajo de detective”, agregaron.
Con información de Digiday
Leer la nota Completa > Por qué los editores cuestionan la eficacia de bloquear los rastreadores web de IA