La visión de Google de un mundo asistido por IA se volvió más clara ayer cuando el gigante tecnológico anunció una amplia gama de actualizaciones para sus capacidades de IA generativa en varios dispositivos de software y hardware.

En su conferencia anual de desarrolladores Google I/O, la compañía presentó formas de utilizar agentes de inteligencia artificial para todo, desde buscar en mundos en línea y fuera de línea hasta crear contenido y realizar tareas. Impulsado por su familia Gemini de modelos de IA y otros, Google presentó nuevos modelos de IA para diversas tareas con el fin de ayudar a que la IA sea más rápida, más eficiente y potencialmente más privada. Otras actualizaciones incluyeron permitir mayores cantidades de información digerida por IA y nuevas formas para que sus plataformas procesen video, audio, imágenes y texto.

Por otra parte, Google presentó nuevas formas de crear y editar videos a través de un nuevo modelo de video con IA llamado Veo. También promocionó formas de crear música a través de Music AI Sandbox, que Google creó en colaboración con YouTube y artistas importantes como Björn (de ABBA) y Wyclef Jean. Si bien Veo competirá con plataformas rivales como Runway y Sora de OpenAI, la función de música lo enfrenta a aplicaciones como Suno AI que se han vuelto cada vez más populares.

Cuando se trata de imágenes, Google implementó mejoras para su generador de imágenes de IA, Imagen 3, que está disponible para los desarrolladores en modo de vista previa privada. Una mejora para las imágenes es mostrar texto que es realmente legible en lugar de distorsionarse como palabras irreconocibles. Sin embargo, las distorsiones del texto han sido una de las formas más fáciles de identificar imágenes generadas por IA en el pasado, incluso si no tienen marcas de agua.

Las actualizaciones de Google no son necesariamente un cambio radical en la forma en que las empresas podrían usar la IA, según Rowan Curran, analista de Forrester centrado en la IA y el aprendizaje automático. En cambio, muestra un mayor enfoque en mejorar los casos de uso existentes con capacidades multimodales.

“Ya hemos visto a lo largo de este año que la multimodalidad realmente ha surgido como uno de los principales campos de batalla sobre quién ha tenido la oportunidad. [advantage] en la carrera por los modelos en este momento”, dijo Curran. “Se espera mucho que veamos una especie de evolución continua en esta dirección”.

Proyecto Astra y agentes de IA

Una de las formas en que Google planea escalar sus capacidades es a través del Proyecto Astra, un nuevo asistente de inteligencia artificial que puede responder consultas a través de texto, audio, imágenes y video. La incorporación de vista, sonido y texto permitirá al Proyecto Astra “comprender y responder a nuestro mundo complejo y dinámico tal como lo hacemos nosotros”, dijo Sir Demis Hassabis, cofundador de Deepmind, que Google adquirió en 2014.

“Tendría que asimilar y recordar lo que ve para [it] puede comprender el contexto y tomar medidas”, dijo Hassabis. “Y tendría que ser proactivo, enseñable y personal para que puedas hablar con él de forma natural, sin retrasos ni demoras”.

En muchos sentidos, algunas de las capacidades del Proyecto Astra son similares a las nuevas actualizaciones de ChatGPT del nuevo modelo de IA GPT-4o de OpenAI, que debutó un día antes en un aparente intento de eclipsar a Google I/O. También es similar a lo que Meta debutó hace unas semanas con su actualización para Meta AI, que impulsa varias aplicaciones Meta y sus gafas inteligentes Meta Ray-Ban. Muchos han notado similitudes entre las últimas actualizaciones en la carrera armamentista de la IA y las capacidades de la IA imaginadas hace una década en la película de ciencia ficción de 2013 del director Spike Jonze, “Her”, protagonizada por Joaquin Phoenix y Scarlett Johansson.

Los profesionales del marketing querrán saber cómo los agentes de IA influyen en las personas, según Geoffrey Colon, cofundador de Feelr Media, una nueva agencia creativa centrada en el diseño, la producción y la estrategia. Aunque es demasiado pronto para decir qué tan bueno será Veo, podría beneficiar a YouTube al brindarles a los creadores herramientas para crear videos cinematográficos sin conocimientos técnicos, lo que podría brindar contenido de mayor producción para dispositivos más pequeños y televisores conectados más grandes.

Al realizar tareas en nombre de los usuarios, Colón dijo que el Proyecto Astra finalmente podría cumplir lo que prometieron anteriormente asistentes anteriores como Cortana de Microsoft. Habiendo liderado anteriormente equipos de marketing y contenido en Microsoft y Dell, cree que el Proyecto Astra no debería verse como IA sino como IA: “asistentes inteligentes”.

“La historia de la IA se centrará menos en los modelos en sí y más en lo que pueden hacer por ti”, dijo Colón. “Y esa historia trata sobre agentes: robots que no sólo hablan contigo sino que realmente logran cosas en tu nombre. Algunos de estos agentes serán herramientas ultrasimples para hacer las cosas, mientras que otros serán más bien colaboradores y compañeros”.

Cómo aborda Google los deepfakes de IA, la desinformación y la privacidad

Google abordó las preocupaciones sobre el uso indebido del contenido generado por IA en forma de deepfakes y desinformación. Por ejemplo, los ejecutivos en el escenario anunciaron que la herramienta SynthID de Google para marcas de agua se ampliará para su uso en contenido de texto y video generado por IA, incluido el contenido de video con marcas de agua de Veo.

Los ejecutivos de Google también discutieron cómo la compañía planea mejorar la protección de la privacidad en sus diversas plataformas y dispositivos. Otra forma es a través de un nuevo modelo de IA llamado Gemini Nano, que aparecerá en los dispositivos Google Pixel a finales de este año y permitirá a las personas tener capacidades de IA generativa multimodal en su teléfono en lugar de enviar datos desde un dispositivo. Google también está agregando formas para que los dispositivos detecten intentos de fraude, como estafas de IA a partir de deepfakes de video y audio o estafas de texto.

IA generativa y el futuro de la búsqueda

Google planea ampliar la forma en que utiliza la IA generativa para la búsqueda con nuevas formas para que los usuarios interactúen con la Búsqueda de Google y nuevas funciones de búsqueda para Gmail, Google Photos y otras aplicaciones. Una forma es a través de AI Overviews, que resume los resultados de búsqueda tradicionales. La función, que se implementará en los EE. UU. esta semana y luego a nivel mundial para mil millones de usuarios para fines de 2024, se basa en el año de pruebas de Google con Search Generative Experience (SGE) a través de Search Labs, que debutó en Google I/O 2023. .

Otras actualizaciones de IA para la búsqueda ayudarán a las personas a encontrar sus fotos, crear planes de comidas, planificar viajes y dividir las consultas en varias partes de una pregunta. Sin embargo, Google va más allá del texto para incluir formas para que los usuarios realicen búsquedas en tiempo real con entradas de audio y video para hacer preguntas sobre el mundo que los rodea. Google fundamenta las respuestas indexando información sobre ubicación, horario comercial y calificaciones para garantizar que las consultas basadas en lugares proporcionen información actualizada.

Combinar datos de ubicación con otro contexto del idioma ayuda a mejorar la precisión, dependiendo de lo que esté buscando una persona. Cuando Yext examinó las ubicaciones de más de 700.000 empresas, descubrió que las empresas que tenían información completa y precisa en línea experimentaron un aumento del 278 % en la visibilidad en los resultados de búsqueda. Sin embargo, eso también hace que sea más importante para las empresas asegurarse de que su información en línea sea precisa y esté actualizada.

A medida que la búsqueda basada en chat se vuelve más común y más útil, algunas plataformas podrían pasar de ser modelos basados ​​en anuncios a modelos basados ​​en ofertas, según Christian Ward, director de datos de Yext. Cree que Google está en una posición sólida para pasar de los anuncios a las ofertas, pero añadió que la transición no será fácil.

“Google está en una posición fenomenal para pasar de un modelo de publicidad a un motor de ofertas”, afirmó Ward. “Incluso pueden hacerlo como una subasta de la forma en que ya están diseñados con anuncios. La gente apuesta contra Google, pero no es una gran idea… Por favor, comprendan que esta es la tierra del Dilema del Innovador, donde se verán arrastrados a patadas y gritos”.

A pesar de todas las innovaciones expuestas en Google I/O, otro comodín también podría hacer que Google pataleara y gritara: la decisión pendiente de un juez federal que supervisa el caso antimonopolio en curso. Aunque todavía no está claro qué podría dictaminar en las próximas semanas o meses, los expertos han dicho que un fallo podría afectar las ambiciones de búsqueda de Google dependiendo del resultado.

Con información de Digiday

Leer la nota Completa > Google presenta nuevos agentes, herramientas de creación de contenido y funciones de búsqueda impulsadas por IA generativa

LEAVE A REPLY

Please enter your comment!
Please enter your name here