El generador de imágenes de IA MidJourney ha lanzado la versión 6 de su popular herramienta, que permite indicaciones más largas, mayores niveles de detalle e incluso agregar texto a una foto.
MidJourney entró en versión beta abierta por primera vez en julio de 2022 y ha logrado un progreso rápido e impresionante en la calidad y precisión de la imagen con cada lanzamiento posterior.
Este lanzamiento llega en un momento en que MidJourney está bajo una presión cada vez mayor por parte de los competidores, incluido DALL-E 3 de OpenAI, que puede generar texto. Asimismo, las herramientas y servicios gratuitos de Meta como Leonardo también ofrecen cada vez más control sobre la generación de imágenes.
¿Qué hay de nuevo en MidJourney v6?
La última versión de MidJourney incluye mensajes de mayor duración, un control más granular sobre el color y el sombreado, el texto y la capacidad de refinar el resultado a través de una conversación con MidJourney de la misma manera que ChatGPT le permite «refinar las imágenes DALL-E».
La última actualización ha estado en desarrollo durante algún tiempo, con grupos selectos de suscriptores probando y comparando el resultado para mejorar la calidad general.
Una de las actualizaciones más llamativas es cómo interpreta y comprende las indicaciones. Por ejemplo, ahora puede comprender los matices de la puntuación y la gramática, diferenciando entre comer, disparar y salir.
¿Dónde se puede acceder a MidJourney v6?
Como todas las versiones anteriores de MidJourney, la versión seis está disponible a través de Discord. Una vez pagada la suscripción, tendrás acceso al bot en mensajes donde podrás/imaginar la creación de tu elección.
Para acceder a la versión seis, deberá seleccionarla como plantilla predeterminada en la configuración o agregar –v 6 al final de cualquier mensaje. Esto garantizará que utilice la plantilla correcta y aún le permitirá continuar usando la versión 5.2 de forma predeterminada.
MidJourney ha comenzado a abrir el acceso a una versión web a los usuarios que han generado más de 10.000 imágenes. Esto incluye la capacidad de cambiar la configuración a través de diferentes entradas en lugar de depender del modelo de IA para comprender un solo mensaje de texto.
¿Cómo se ven las imágenes de MidJourney v6?
Para probar la última versión (que, según señala MidJourney, todavía está en modo alfa y de revisión), configuré una serie de mensajes y comparé el resultado con el mismo mensaje en v5.2.
Prueba el texto
Para el primer mensaje, le pedí a MidJourney v6 que creara un póster para una película llamada Moon Pups, pero no pudo agregar el texto a la imagen.
Decidí ser más explícito y decirle que incluyera palabras específicas, poniéndolas entre comillas para darle énfasis. Esto solucionó el problema, aunque MidJourney v6 tenía el mismo problema que DALL-E con la ortografía.
Comparación lado a lado
A continuación, MidJourney v5.2 (izquierda) y MidJourney v6 (derecha) generaron cada uno una imagen a partir del mismo mensaje para comparar. Descubrí que, si bien la versión 6 era más rica en detalles, la versión 5.2 se benefició de meses de refinamiento y tenía más carácter.
El mensaje: «un catador de vinos mirando a través de una copa de vino».
Gente real
Finalmente, pedí a v5.2 (izquierda) y v6 (derecha) que crearan una imagen de una persona real. Algunos modelos de IA se niegan a producir una imagen de un ser humano vivo, incluido DALL-E, pero MidJourney no sufre los mismos problemas.
Les pedí a los dos que crearan una imagen de Elon Musk montando un unicornio. Ninguno de los dos recibió aclaraciones inmediatas ni más instrucciones. La versión 5.2 creó una representación similar a una caricatura, mientras que la versión 6 se parece a una fotografía.