Dado que los datos de entrenamiento son similares en los principales modelos de lenguajes grandes, es cada vez más importante encontrar formas de hacerlos más creativos y diferenciados. Esa realidad ha dejado a los clientes pidiendo formas de hacer que la IA sea más creativa, tanto en cómo usarla para pensar como para generar contenido o ideas más creativas.
Para abordar esto, la startup de IA Writer lanzó un nuevo LLM el mes pasado llamado Palmyra Creative que tiene como objetivo ayudar a las empresas a extraer más creatividad de la IA generativa. El objetivo no es sólo ayudar con resultados más creativos; también es para ayudar a las empresas a utilizar la IA de formas más creativas mientras generan ideas.
La IA ya ha avanzado mucho en términos de pensamiento creativo. Por ejemplo, algunos investigadores han descubierto que los LLM son más creativos que los humanos en áreas como el pensamiento divergente. (Algunos artículos publicados el año pasado han explorado la capacidad de los modelos de IA para generar múltiples ideas creativas, encontrar diversas soluciones a problemas y explorar varios ángulos). Sin embargo, los LLM actuales todavía están limitados en gran medida a su propio conocimiento a través de datos de capacitación, en lugar de experiencias vividas. o lecciones aprendidas que los humanos pueden aprovechar.
El proceso implica la creación de modelos de IA que se adaptan o evolucionan automáticamente, dijo el escritor CTO Waseem Al Shikh. En lugar de preocuparse por qué tan grande o pequeño es un modelo, dijo que la compañía se centró en desarrollar un modelo con un marco construido en torno a tres categorías separadas: conocimiento del modelo, razonamiento del modelo y comportamiento del modelo.
“No basta con tener un modelo creativo”, dijo Al Shikh a Digiday. “Es como un humano, ¿verdad? Si todos tienen las mismas bibliotecas con muchos libros, cada uno tendrá ideas, pero lo curioso es que no estamos creando todas las ideas con un tema claro. Así que el plan para el futuro ahora es tener opciones de evolución automática para todos nuestros modelos y que la creatividad esté en la parte superior de la lista”.
El proceso también se beneficia de la asociación de Writer con Nvidia mediante el uso de NIM (abreviatura de Nvidia Inference Microservices) que ayudan a simplificar y acelerar la forma en que los modelos de IA se implementan y escalan en diversos usos específicos de la empresa. En cierto modo, los NIM sirven como una especie de controlador de vuelo que ayuda a decidir qué modelo de IA y cuándo usarlo dependiendo de la empresa, su conocimiento y la tarea deseada.
Desbloquear nuevas formas de pensar de manera más creativa podría brindarles a los especialistas en marketing y a otras personas nuevas formas de encontrar nuevas ideas, salir de las cámaras de eco de la IA y escapar de los patrones uniformes que plagan muchos resultados de la IA.
“Con los flujos de trabajo, uno conoce el inicio y los pasos”, dijo. “Este concepto de NIM es muy futurista, podemos llegar allí, pero necesitarás todos estos modelos. Es por eso que estamos creando modelos de dominios específicos. Puedes tener tres, cuatro o cinco modelos específicos y evolucionan automáticamente según el comportamiento de los clientes”.
Esta conversación ha sido editada para mayor brevedad y claridad.
¿Qué diferencia a Palmyra Creative de otros modelos?
Nuestro modelo y modelos más amplios (por ejemplo, el financiero o el médico) se centran más en lo que llamamos conocimiento. Queremos que sean precisos para cada fórmula y cada medicamento que utilizan. Cuando se recurre a un modelo financiero, se trata de centrarse en el razonamiento básico y las ecuaciones matemáticas. El comportamiento también cambiará. Los modelos generales intentan equilibrar esos [knowledge, reasoning and behavior].
¿Qué tiene de diferente el nuevo modelo y la forma en que fue desarrollado?
Dado que todos los modelos tienen arquitecturas similares y datos de entrenamiento similares, sabes que solo se trata de encontrar similitudes con los pesos y cuánto se ve realmente este peso. Lo que decidimos hacer es tomar los mismos datos de entrenamiento que tenemos hoy, pero fuimos más creativos con los pesos creativos. Entrenamos tres modelos separados y luego comenzamos a fusionar los modelos y mezclarlos entre las capas. Lo que sucede entonces es que tienes una relación única que no existe en ningún otro modelo. También descubrimos que el modelo tiene comportamientos interesantes: el modelo en realidad puede retroceder y no sigue el camino tradicional de los demás porque el peso es exclusivo del modelo en sí. Lo llamamos fusión dinámica entre las capas.
Fusionar un modelo no es una idea nueva, pero lo que sí es nuevo es la técnica en sí y la utilización de la técnica. Lo diferente aquí es que estamos dividiendo el modelo entre ellos y tenemos una forma específica de asegurarnos de que la relación entre ellos no se rompa para que no termines teniendo un galimatías o una alucinación extraña. Hay una delgada línea entre lo que termina siendo una alucinación y lo que parece la creatividad.
Me recuerda cómo la creatividad a menudo surge en la brecha entre la realidad y la ficción..
100%. Tenemos que definirlo, especialmente con los clientes empresariales. Queremos que el modelo diga lo que quiera, pero necesitamos que tenga cuidado con lo que llamamos afirmaciones. Hay una diferencia entre “déjame darte una idea loca” y una afirmación que parecía no verificada. Trabajamos mucho en torno a lo que llamamos reclamos controlados. No tenemos la fuente de la verdad. [for the model] porque no podemos considerar a Wikipedia como la fuente de la verdad, ¿verdad? Tiene muchas cosas aleatorias. No podemos considerar que todo lo que proviene de cada gobierno del planeta sea la fuente de la verdad. Pero decidimos decir que mantengamos el modelo creativo, pero no reclamemos declaraciones.
Las alucinaciones a menudo vienen acompañadas de más preguntas sobre la explicabilidad cuando tienen que justificarse. ¿Quizás eso sea un problema menor sin necesidad de verificar las afirmaciones?
Decidimos empezar desde la raíz del mismo y controlar el reclamo… El [Palmyra] El modelo creativo tiene menos que ver con el conocimiento y más con el comportamiento. Creemos que a las empresas les encantará este modelo creativo para escribir un estudio de caso, encontrar nuevos casos de uso o escribir historias más creativas sobre cómo adoptar sus productos y cómo explicarlos sin lo que suena a IA. Pero controlar el reclamo fue la parte más importante. Como dijiste, si no tienes un reclamo, no tienes que explicarlo.
¿Cómo guías el modelo sobre cuándo debe evolucionar o ser creativo y cuándo debe ser consistente?
Hemos estado trabajando en ello desde principios de verano. ¿Qué pasaría si pudiéramos hacer que estos modelos pensaran más como humanos? ¿Y si los modelos pudieran reflexionar, girar y recordar? Básicamente, ¿podemos hacer que comiencen a trabajar fuera del conjunto de capacitación en tiempo real? Todos los modelos actuales todavía están apegados a los datos de entrenamiento; sin los datos de entrenamiento, es realmente difícil lograr que hagan algo. Esto es lo que llamamos autoevolución. Los modelos que evolucionan a sí mismos significan que no es necesario enseñarles. El modelo actualizará su peso en tiempo real. El modelo realmente reflejará. Y el modelo en sí puede garantizar la información.
Para darle un mal ejemplo: si digo que mi nombre es Waseem y soy el presidente de los Estados Unidos, el modelo será lo suficientemente inteligente como para saber: “Tal vez tu nombre sea Waseem, pero no eres el presidente de los Estados Unidos”. Estados Unidos.’ Esto es realmente importante, lo que significa que si lo usas más, el modelo obtendrá más control y más conocimiento. Es de más alto nivel y lleva mucho tiempo explicarlo, pero es un diseño de transformador estándar con una nueva característica llamada Memoria. Porque cada capa dentro de la red neuronal tiene la capa de memoria al lado. Entonces puedes hablar con él y verlo cambiar.
Porque el modelo básicamente no cometerá el mismo error dos veces porque conocemos la respuesta incorrecta. Recuerda el mal [one] Y lo intentaremos de manera diferente la próxima vez que pensemos en la pregunta. Me encanta decirle a mi equipo que la mayoría de los humanos (no todos) aprendemos de nuestros errores y no cometemos los mismos errores dos veces.
Avisos y productos: noticias y anuncios relacionados con la IA
- Rembrandt, una startup de inteligencia artificial generativa que ayuda a las marcas a colocar productos en videos de YouTube y otros contenidos, recaudó 23 millones de dólares.
- Lucid Motors, la compañía de automóviles eléctricos, se está asociando con SoundHound AI para integrar un nuevo asistente de voz en los automóviles para brindar a los conductores información en tiempo real y más controles dentro del vehículo.
- Una nueva campaña de TurboTax promueve agentes de inteligencia artificial y “expertos humanos con tecnología de inteligencia artificial” en la aplicación propiedad de Intuit para ayudar a las personas a presentar sus impuestos.
- La IA estará en toda Las Vegas la próxima semana durante CES 2025 cuando los gigantes tecnológicos, las nuevas empresas y las marcas desciendan al desierto de Nevada para promover sus diversas actualizaciones y asociaciones.
Historias de IA de todo Digiday
Con información de Digiday
Leer la nota Completa > Informe sobre IA: el CTO del escritor sobre cómo hacer que los modelos de IA piensen de forma más creativa