📣 Esta madrugada, Elon Musk presentó Grok 4, el nuevo modelo de inteligencia artificial desarrollado por su empresa xAI, y los resultados son simplemente devastadores para la competencia. No solo se ha metido de lleno en el podio… directamente lo destruyó y se sentó solo arriba.
💥 Para quienes no entienden de “benchmarks” o pruebas técnicas: son exámenes estandarizados diseñados para evaluar qué tan inteligente o capaz es un modelo de IA frente a desafíos matemáticos, lógicos, de comprensión o razonamiento. Bueno… Grok 4 no los aprobó: los dejó obsoletos.

🧪 ¿Qué significa que “los supera”?
📊 Grok 4 no solo responde bien. En pruebas como AMI25 (un test que se usa para seleccionar a los candidatos para las Olimpíadas Matemáticas), el modelo obtuvo un 100% de efectividad. Eso significa que no se equivocó en absolutamente nada, y lo más impactante: lo hizo al primer intento, sin repetir.
🎯 En otro test brutal como “Humanity’s Last Exam” —pensado para ser tan difícil que incluso científicos humanos apenas sacan un 5%—, Grok 4 Heavy llegó a un escalofriante 50% de aciertos. ¡Y eso sin usar imágenes ni vídeos, solo texto!
🤖 ¿Qué lo hace tan especial?
- Razonamiento siempre activo: A diferencia de otros modelos que pueden tener versiones “rápidas” o “livianas”, Grok 4 siempre razona en profundidad.
- Agentes múltiples: En su versión más potente (Grok 4 Heavy), simula un “grupo de expertos” internos que analizan el problema desde distintos ángulos y luego llegan a una conclusión conjunta. Es como tener un comité de sabios debatiendo para vos antes de darte la mejor respuesta.
- Entrenamiento reforzado: Además de haber sido entrenado con enormes cantidades de datos, recibió “recompensas” durante su entrenamiento, como si fuera un perro al que se le da una galletita cuando lo hace bien. Eso mejora notablemente su precisión.
🧠 ¿Es la IA más inteligente del mundo?
📈 Sí. Según los promedios de todos los benchmarks actuales, Grok 4 pasó de la sexta a la primera posición mundial. Superó a Google, OpenAI, Anthropic y cualquier otra empresa en este campo.
📚 Incluso en pruebas de razonamiento abstracto como ARC, que los humanos resuelven fácilmente pero las IA no, Grok 4 duplicó la puntuación del mejor modelo anterior.
🧩 Pero… ¿sirve para el día a día?
🤔 Si bien es la IA más inteligente en teoría, aún no es la más útil para todo el mundo. La plataforma de Grok todavía está en desarrollo, no tiene tantas herramientas integradas como ChatGPT (como intérprete de código, carga de archivos o funciones visuales avanzadas). Pero está creciendo a una velocidad impresionante, y promete ponerse al día muy pronto.
🧨 ¿Y ahora qué?
📅 Musk promete lanzar en los próximos meses:
- 🧑💻 Un modelo especializado en programación (agosto)
- 🎥 Un modelo multimodal que razona con texto, imágenes, audio y video (septiembre)
- 📺 Un generador de video capaz de producir media hora de contenido “nivel televisión” en un clic (octubre)
Sí, una IA que haga una película completa sin intervención humana.
🧐 Curiosidad que pocos saben: El benchmark AMI25, donde Grok 4 sacó 100%, fue diseñado específicamente para ser “imposible de saturar”. Eso significa que nadie esperaba que una IA pudiera hacerlo perfecto. Ahora, literalmente no sirve más para comparar modelos porque Grok lo destruyó. Van a tener que inventar nuevos exámenes… más difíciles aún 😮.