Una semana después de su último gran anuncio sobre IA, Google parece haberse esfumado. El jueves pasado, Google lanzó Gemini Ultra 1.0, que se dice que representa el mejor modelo de lenguaje de IA que Google puede reunir, disponible como parte del renombrado asistente de IA «Gemini» (anteriormente Bard). Hoy Google anuncio Gemini Pro 1.5, que según él «alcanza una calidad comparable a 1.0 Ultra, mientras utiliza menos computación».
Felicitaciones, Google, lo has logrado. Ha socavado su propio producto de IA, el mejor de su clase. Si bien Ultra 1.0 puede ser incluso mejor que Pro 1.5 (¿qué estamos diciendo aquí), Ultra ha sido promocionado como un punto de venta clave de su nivel «Gemini Advanced» de su servicio de suscripción Google One? Y ahora las cosas parecen mucho menos avanzadas que hace siete días. Todo esto se suma a la confusión de nombres que Google ha estado haciendo recientemente. (Para que quede claro, aunque no está nada claro, la versión gratuita de Bard/Gemini actualmente utiliza el modelo Pro 1.0. ¿Entendido?)
Google afirma que Géminis 1.5 representa una nueva generación de LLM que «ofrece un gran avance en la comprensión del contexto a largo plazo» y puede procesar hasta 1 millón de tokens, «logrando la ventana emergente más larga de cualquier modelo de fundación a gran escala hasta la fecha». Los tokens son fragmentos de una palabra. La primera parte de la afirmación sobre la «comprensión» es controvertida y subjetiva, pero la segunda parte probablemente sea correcta. El GPT-4 Turbo de OpenAI podría manejar 128.000 tokens en algunas circunstancias, y 1 millón es mucho más, o alrededor de 700.000 palabras. Una ventana emergente más grande le permite procesar documentos más largos y tener conversaciones más largas. (La familia de modelos Gemini 1.0 admite un máximo de 32.000 tokens).
Pero cualquier avance técnico es casi irrelevante. ¿Qué deberíamos pensar de una empresa que acaba de promocionar su supremacía en IA ante el mundo la semana pasada, sólo para reemplazarla parcialmente una semana después? ¿Es esto un testimonio del rápido ritmo del progreso técnico de la IA en los laboratorios de Google, una señal de que la burocracia ha frenado Ultra 1.0 durante demasiado tiempo, o simplemente una señal de mala coordinación entre investigación y marketing? Sinceramente, no lo sabemos.
Así que volvamos a Géminis 1.5. ¿Qué es realmente y cómo estará disponible? Google insinúa que, al igual que la versión 1.0 (que tenía versiones Nano, Pro y Ultra), estará disponible en varios tamaños. Actualmente, Pro 1.5 es el único modelo revelado por Google. Google dice que 1.5 usa un nuevo mezcla experta (MoE), lo que significa que el sistema activa selectivamente diferentes «expertos» o submodelos especializados dentro de una red neuronal más grande para tareas específicas basadas en los datos de entrada.
Google dice que Gemini 1.5 puede realizar «razonamiento complejo sobre grandes cantidades de información» y dar un ejemplo analizar una transcripción de 402 páginas de la misión Apolo 11 a la Luna. Es impresionante procesar documentos tan grandes, pero es muy probable que el modelo, como cualquier modelo de lenguaje grande, combine interpretaciones en contextos grandes. No confiaríamos en que analizara exhaustivamente 1 millón de chips sin errores, confiando así en manos de LLM poco comprendidas.
Para aquellos que quieran profundizar en los detalles técnicos, Google tiene publicó un informe técnico En Gemini 1.5, esto parece mostrar que Gemini se desempeña favorablemente en comparación con GPT-4 Turbo en varias tareas, pero también es importante tener en cuenta que la selección e interpretación de estos puntos de referencia pueden ser subjetivas. El informe da algunas cifras sobre la calidad de la versión 1.5 en comparación con la versión 1.0, indicando que es un 28,9% mejor que la versión 1.0 Pro en las áreas de «Matemáticas, Ciencias y Razonamiento» y un 5,2% mejor en estas áreas que la versión 1.0. Ultra.
Pero por ahora, todavía estamos un poco sorprendidos de que Google esté lanzando este modelo en particular en este momento en particular. ¿Está tratando de anticipar algo que sabe que podría ser inminente, como el inédito GPT-5 de OpenAI, por ejemplo? Seguiremos investigando y le informaremos lo que encontremos.
Google dice que una vista previa limitada de 1.5 Pro ahora está disponible para los desarrolladores a través de AI Studio y Vertex AI con una ventana emergente de 128.000 tokens, que se expandirá a 1 millón de tokens más adelante. Al parecer, Gemini 1.5 aún no ha llegado al chatbot Gemini (anteriormente Bard).