El nuevo Genie 3 de Google te permite crear mundos interactivos que puedes explorar
Google DeepMind ha anunciado Genie 3, un modelo de mundo frontera que puede generar entornos interactivos. Genie 3 es un modelo de mundo de propósito general, diseñado para generar mundos dinámicos a partir de indicaciones de texto, permitiendo a los usuarios navegar dentro del mundo simulado. Es un gran avance del equipo de DeepMind, ya que los modelos de mundo son un "peldaño clave en el camino hacia la AGI".
Genie 3 puede generar entornos interactivos en tiempo real a 24 FPS con una resolución de 720p manteniendo la coherencia durante unos minutos. Anteriormente, Genie 2 solo podía generar entornos en 360p que duraban de 10 a 20 segundos, y estaba limitado a entornos 3D. Ahora, Genie 3 puede generar cualquier entorno que abarque varios minutos.
No solo eso, Genie 3 mantiene la coherencia ambiental durante varios minutos durante la simulación. Esto significa que los objetos y ubicaciones permanecen igual incluso cuando los usuarios se alejan, navegan y vuelven a la vista. DeepMind dice que la memoria visual de Genie 3 se extiende a un minuto, lo que permite al modelo hacer referencia a imágenes pasadas de hasta un minuto.
Lo que es sorprendente es que esta coherencia ambiental ha surgido naturalmente de su entrenamiento. No se emplean métodos especiales, como NeRFs o Gaussian Splatting, para hacer el entorno coherente. El modelo de mundo de Genie 3 genera el mundo dinámico fotograma a fotograma basándose en las descripciones y acciones del usuario, lo que lo hace mucho más dinámico y diverso.

Los usuarios también pueden indicar y cambiar el mundo mediante instrucciones basadas en texto. Puedes cambiar las condiciones climáticas, añadir nuevos objetos y personajes, y cambiar la ubicación. En mi reseña de Veo 2, mencioné que el modelo de generación de video de Google tiene una coherencia visual mucho mejor que otros modelos de IA existentes. Con el último Veo 3, Google lo ha mejorado aún más, y ahora, Genie 3 hace que el mundo sea navegable.
Si te preguntas cuál es el caso de uso de modelos de mundo como Genie 3, bueno, puede generar juegos interactivos a partir de descripciones simples. Simplemente mediante indicaciones, los usuarios pueden generar mundos de juego infinitos y explorarlos por completo. Microsoft ya mostró su Modelo de Mundo y Acción Humana (WHAM) llamado Muse que generó secuencias de juego de Quake II usando IA.
Aparte de eso, Genie 3 puede ser útil en robótica, donde los robots pueden ser entrenados en escenarios simulados ilimitados. De hecho, Google ya está probando su agente SIMA en mundos generados por Genie 3. Esto permitirá a los laboratorios de IA entrenar robots para lograr objetivos en el mundo real.