¿Cuál es el valor de los datos utilizados en el entrenamiento de la IA? Ésa es una pregunta existencial que una nueva startup quiere ayudar a responder.
Trainspot está lanzando un mercado de IA para ayudar a los creadores de contenido a monetizar su propiedad intelectual para la capacitación en IA, al tiempo que brinda a los desarrolladores y empresas una forma de obtener datos de capacitación con licencia. La compañía con sede en San Francisco, que surgió ayer del modo sigiloso, tiene como objetivo atraer una variedad de creadores para vender libros, imágenes, videos y códigos de escritores, cineastas y desarrolladores.
Las empresas que sienten curiosidad por el uso de la IA también se muestran cautelosas respecto de áreas grises como la legalidad, la confiabilidad y la explicabilidad de los resultados de la IA. El objetivo de Trainspot es ayudar con los tres para entrenar modelos básicos, realizar ajustes y mejorar la precisión con técnicas como la generación aumentada de recuperación (RAG).
Cómo funciona Trainspot
En una entrevista, los cofundadores de Trainspot, Ron Palmeri y David Temkin, dijeron a Digiday que el mercado bilateral tiene características tanto para compradores como para vendedores. Los creadores pueden configurar un perfil y elegir establecer un precio para su contenido, permitir que se use de forma gratuita o bloquear el uso de modelos de IA. Cada usuario elige categorías y subcategorías para formatos de contenido y temas. También pueden agregar otra información como metadatos para ayudar con la capacidad de descubrimiento. Trainspot verificará la cuenta de un creador antes de permitirle vender, donar o bloquear contenido.
Para comprar conjuntos de datos en Trainspot, las empresas pueden filtrar según factores como el formato del contenido, los términos de la licencia y los temas. Después de seleccionar, un proceso de pago de estilo de comercio electrónico impulsado por Stripe procesará la compra. Los precios establecidos por los creadores se pueden actualizar en cualquier momento.
Los cofundadores de Trainspot tienen muchas analogías para explicar cómo creen que podría ser el mercado. Dicen que es el equivalente de Spotify para datos de entrenamiento después de la era Napster. O es como eBay cuando se trata de un mercado bilateral donde los productos se venden y se compran fácilmente. Trainspot tiene como objetivo ayudar con los precios de los datos de capacitación del mismo modo que Zillow proporciona estimaciones de vivienda basadas en el mercado. También esperan ofrecer un catálogo de datos de entrenamiento como lo ofrece Hugging Face con código fuente abierto.
Según Temkin, muchos de los acuerdos de datos de IA que se han realizado hasta ahora han sido a gran escala y, a menudo, opacos sin revelar los términos.
“Cuando se trata del valor de los datos, una de las cosas más fascinantes de todo este mercado es que realmente no lo sabemos”, dijo Temkin. “Sin un mercado abierto y transparente, no está claro cuánto vale algo. Y al crear este producto y este tipo de marco, nos alejaremos del estado actual del estado”.
Temkin y Parmeri tienen experiencia en la creación e introducción de productos iniciales en nuevas industrias. Temkin anteriormente dirigió el desarrollo de My Ad Center de Google y antes de eso fue director de producto de Brave, donde ayudó a escalar el navegador de Internet centrado en la privacidad. Palmeri tiene experiencia complementaria como cofundador de la empresa de inteligencia artificial visual Skylabs y como cofundador de la empresa de análisis social Scout Labs. También tiene experiencia en capital de riesgo en lugares como Minor Ventures, que respaldó a GrandCentral antes de que se convirtiera en Google Voice.
La aparición de modelos de IA ha provocado un debate sobre el valor económico de los datos de entrenamiento: algunos observadores señalan que los datos utilizados para entrenar modelos básicos tienen un valor diferente que los datos para fundamentar las respuestas de IA. Los estándares de la industria para el precio de los datos y la compensación de los creadores aún están evolucionando, con plataformas como Shutterstock, Adobe, Picsart y Bria AI explorando varios modelos de pago. Otras empresas, como la startup de música AI Rightsify, han comenzado a formar grupos comerciales que promueven datos obtenidos de forma ética.
Los expertos en marketing y tecnología ven la necesidad de una plataforma como Trainspot para ayudar a las empresas a obtener datos adicionales para aplicaciones de IA. Sin embargo, también existe el clásico desafío del huevo y la gallina al que suelen enfrentarse muchos tipos de nuevas tecnologías. ¿La escala de datos comercialmente viables atraerá a más empresas a pagar por ellos en la plataforma? ¿O el interés de una variedad de compradores atraerá más interés de vendedores potenciales?
La primera prioridad para escalar es proporcionar al mercado suficientes datos de capacitación antes de centrarse en aumentar la demanda, dijeron Palmeri y Temkin. Para empezar, habrá una gran cantidad de contenido disponible públicamente el día cero que será gratuito y tendrá licencia previa. Trainspot también quiere permitir a los creadores subir su contenido desde plataformas como YouTube y GitHub, pero también pueden subirlo directamente. A medida que los datos del contenido se convierten en un diferenciador clave para los modelos de IA, la esperanza es que los creadores de contenido con grandes audiencias o comunidades integradas también hagan correr la voz.
“Realmente se requiere una masa crítica de personas que caen en estas diferentes categorías – ya sean autores de libros o YouTubers o personas que tienen sitios web – para entender que esta es una acción que pueden tomar”, dijo Palmeri. “Es una acción que podría ayudar a protegerlos y establecer sus derechos, pero también es una manera de que participen en la oportunidad”.
La plataforma parece tener potencial para empoderar a los creadores de contenido y abordar la creciente demanda de datos de capacitación de alta calidad, dijo el analista de Gartner Andrew Frank. Aunque Trainspot pretende hacer que la plataforma sea fácil de usar, también señaló que un enfoque de baja fricción podría no ser lo mejor a la hora de examinar los datos para la IA. Esto se debe a que verificar la calidad de los datos será tan importante como verificar su propietario.
Frank sugirió que el éxito de Trainspot depende de establecer una “confianza de marca” para el contenido, similar a la credibilidad asociada con publicaciones de noticias acreditadas. Hizo hincapié en la necesidad de mecanismos que mantengan esta confianza durante todo el proceso de entrenamiento de IA, permitiendo a los desarrolladores rastrear los orígenes y evaluar la confiabilidad de los datos de entrenamiento. También expresó curiosidad sobre cómo evolucionará el modelo de Trainspot, reconociendo tanto el potencial como los importantes desafíos que se avecinan.
“Se podría ver como un problema de marca”, dijo Frank. “La gente confía en los bienes y servicios por su marca. Podría reconocer una marca y, por lo tanto, comprarla aunque cueste más que una versión genérica. Necesitamos el mismo tipo de certificación de integridad de mercado para el contenido… Es más probable que confíe en un artículo del Wall Street Journal que en el de una persona desconocida que publica en X”.
Ver y escalar oportunidades
Puede resultar difícil determinar precios justos para los datos, afirmó Soren Larson, cofundador de Crosshatch, una startup que crea una capa de identidad para la personalización del usuario. Esto se debe a que el verdadero valor de los datos para aplicaciones específicas de IA a menudo se oculta a los vendedores, lo que genera disparidades de precios. Larson mencionó que las tácticas estratégicas de fijación de precios, como las utilizadas por los fondos de cobertura, pueden distorsionar aún más el mercado.
Según Larson, un número limitado de compradores y la falta de transparencia agravan estos problemas. Sugiere que la integración vertical (donde los proveedores de datos crean valor directamente a través de los servicios) puede ser un enfoque más viable que depender de los mercados de datos. Para proponer una manera de que los creadores obtengan su “participación justa”, también es necesario preguntar sobre la definición de “participación justa”. Otra pregunta es si los términos son un acuerdo único o algo que se renueva con el tiempo. Por ejemplo, compensar a una empresa de noticias cuando alguien hace clic en un enlace podría ser más fácil que las partes anteriores del proceso de capacitación en IA.
“El camino hacia el valor a partir del entrenamiento o el ajuste es mucho más difícil de calcular porque es una función de cómo termina usándose el modelo y cómo ese uso termina generando valor, lo cual en sí mismo es complicado de calcular”, dijo Larson.
Otros ven mucho valor en el papel que podría desempeñar un mercado de datos de IA cuando se trata de mejorar la atribución con modelos de IA. Nikolaos Vasiloglou, vicepresidente de investigación de ML en RelationalAI, señaló que las empresas se están quedando sin datos de alta calidad y enfrentan límites cuando se trata de utilizar datos sintéticos. Al igual que Larson, dijo que fijar precios para productos en nuevos mercados puede ser un desafío, pero agregó que el primer paso es hacer que los datos estén disponibles para que, con el tiempo, demuestren su valor. Él cree que Trainspot podría querer considerar la estrategia de crecimiento inicial de YouTube, que se centró en contenido generado por el consumidor antes de buscar licencias de contenido de los principales estudios.
“Nos falta un lugar en el mercado para esto, pero tal vez el momento no sea el adecuado”, dijo Vasiloglou. “Tal vez aún no hayamos llegado al punto en el que las empresas adopten tanto modelos lingüísticos que anhelen nuevas [data]. Entonces ese es el mayor riesgo”.
Con información de Digiday
Leer la nota Completa > Esta startup está creando un mercado de datos de capacitación en inteligencia artificial para ayudar a los creadores y las empresas a comprar y vender contenido con licencia.