¡Hey, amigos! Hoy les traigo un tema que está dando mucho de qué hablar en el mundo de la tecnología: Grok 3, el nuevo modelo de inteligencia artificial de xAI, la empresa de Elon Musk.
Andrej Karpathy, un experto en la materia, tuvo acceso temprano a Grok 3 y compartió sus impresiones. ¡Vamos a darle un vistazo!
Grok 3: ¿El nuevo rey de los modelos de IA?
Primero, Grok 3 tiene un modelo de pensamiento de estado del arte ("botón Pensar") que funcionó genial desde el principio. Por ejemplo, cuando le pedí que creara una página web para un juego de tablero tipo "Settlers of Catan", lo hizo sin problemas. Eso es algo que pocos modelos logran hacer bien.
Sin embargo, no todo fue perfecto. En una pregunta de "misterio de emojis", donde había un mensaje oculto en los selectores de variación Unicode, Grok 3 no pudo resolverlo, incluso con una pista en código Rust. Aquí, DeepSeek-R1 tuvo más éxito, aunque solo parcialmente
En cuanto a los juegos de tres en raya, Grok 3 resolvió algunos tableros con un razonamiento bastante limpio, lo cual es impresionante. Pero cuando le pedí que generara tableros "truculentos", falló al crear tableros sin sentido. Incluso el modelo o1-pro de OpenAI tuvo el mismo problema
Una cosa que me gustó fue que Grok 3 intentó resolver la hipótesis de Riemann cuando se lo pedí. Mostró coraje, aunque tuve que detenerlo porque sentí lástima por él. Pero eso demuestra que no se da por vencido fácilmente
DeepSearch: La búsqueda profunda de Grok 3
DeepSearch es una oferta muy interesante que combina algo similar a la "investigación profunda" de OpenAI con el pensamiento. Puede producir respuestas de alta calidad a preguntas de investigación, como "¿Qué pasa con el próximo lanzamiento de Apple?" o "¿Por qué sube la acción de Palantir?". Sin embargo, encontré algunas imperfecciones: a veces inventaba URLs que no existían y decía cosas que parecían incorrectas sin citar fuentes.
Otros retos para Grok 3
Probé algunas preguntas divertidas y difíciles para los modelos de IA. Grok 3 acertó en cosas como contar letras en palabras ("strawberry" y "LOLLAPALOOZA") y resolver problemas matemáticos simples, pero solo cuando activaba el modo de pensamiento. En humor, no pareció mejorar mucho. Y en cuestiones éticas complejas, tendió a ser demasiado cauteloso.
Conclusión
En resumen, después de unas dos horas probando Grok 3, parece estar en el mismo nivel que los modelos más fuertes de OpenAI, como o1-pro, y ligeramente por delante de DeepSeek-R1 y Gemini 2.0 Flash Thinking. Es impresionante considerando que xAI comenzó desde cero hace solo un año. Aunque hay que tener en cuenta que los modelos son estocásticos y pueden dar respuestas diferentes cada vez, y aún es muy temprano para sacar conclusiones definitivas.
Así que, amigos,GroK 3 es un gran paso adelante y estoy emocionado de ver cómo evoluciona. ¡Felicidades al equipo de xAI por su logro! Y no se olviden de seguirnos para más actualizaciones sobre esta tecnología y otras novedades en el mundo de la IA. ¡Hasta la próxima!
https://x.com/karpathy/status/1891720635363254772