Existen decenas de miles de productos de IA diferentes, aunque la mayoría de nosotros sólo hemos oído hablar de unos pocos de ellos. Comparar dos de los sistemas de inteligencia artificial más importantes (ChatGPT y Gemini) no es una tarea sencilla. Por un lado, las cosas pueden cambiar de la noche a la mañana. En diciembre de 2025, la gente especulaba sobre si OpenAI estaba perdiendo la carrera armamentista de la IA y, un par de días después, lanzó ChatGPT-5.2 y comenzó a encabezar las tablas de clasificación nuevamente.
Entonces, ¿cómo puedes saber qué IA hace mejor las cosas? Hace unos años, podríamos haber realizado algunas comparaciones lado a lado. Las generaciones anteriores de modelos de lenguaje grande (LLM) de IA podrían ser notablemente diferentes entre sí. Pero las brechas se están cerrando rápidamente, especialmente cuando se habla de marcas de renombre como OpenAI y Google. Aunque todavía encontrará algunos artículos recientes en los que alguien colocó un único mensaje en ambos sistemas y clasificó qué respuesta prefiere, este método es irremediablemente defectuoso. Por un lado, los resultados del LLM son “estocásticos”, lo que significa que las respuestas incluyen un elemento de aleatoriedad, por lo que el mismo mensaje puede dar lugar a diferentes respuestas. Además, hay muy pocas cosas que ChatGPT y Gemini no puedan hacer en estos días. Cualquier preferencia en las respuestas se relacionaría realmente con el estilo de chatbot preferido. Y esa será sólo su personalidad innovadora. El tono y el estilo de conversación de un chatbot se pueden personalizar según sus preferencias.
Entonces, dado que no vamos a realizar múltiples ensayos utilizando evaluaciones ciegas y resultados agregados, dejaremos las clasificaciones a los expertos. Existe una variedad de puntos de referencia que prueban los sistemas de inteligencia artificial en aspectos como el razonamiento, la lógica y la resolución de problemas. Cubriremos tres de los más importantes en los que ChatGPT funciona bien. Hay una explicación de cómo elegimos qué puntos de referencia incluir al final de este artículo.
Responda preguntas científicas difíciles a prueba de Google
El primer punto de referencia que veremos es GPQA Diamond. Está diseñado para evaluar el razonamiento a nivel de doctorado en física, química y biología. GPQA significa Preguntas y respuestas a prueba de Google. Hay una prueba estándar y la ‘Diamante’, que tiene preguntas particularmente difíciles. Ser a prueba de Google significa que estas no son solo preguntas con una respuesta simple que puedes buscar. Requieren habilidades de razonamiento complejas.
Para responder correctamente, una IA necesitaría aplicar múltiples conceptos científicos, resistirse a hacer suposiciones o tomar atajos e ignorar las pistas falsas. Estas son preguntas de opción múltiple, por lo que un modelo de IA no obtiene ningún punto por fluidez conversacional o confianza. O llega a la respuesta correcta o no.
Tanto ChatGPT como Gemini obtienen una puntuación alta en esto, y ChatGPT actualmente lidera con menos del 1%. GPT-5.2 obtiene una puntuación del 92,4% frente al 91,9% de Gemini 3 Pro. A modo de comparación, se esperaría que un graduado de doctorado obtuviera una puntuación del 65% y que los humanos normales y no expertos obtuvieran una puntuación del 34%. Por razones obvias, las preguntas reales a prueba de Google no están disponibles en línea, pero puedes ver un ejemplo del tipo de preguntas que incluye la prueba aquí.
Solucionar problemas de codificación del mundo real
Independientemente de lo que piense sobre la codificación de IA y los riesgos de seguridad que plantea, la capacidad de corregir errores y resolver otros problemas de software es una habilidad necesaria para los sistemas de IA actuales. Los puntos de referencia SWE-Bench vienen en una variedad de versiones, con múltiples variantes diseñadas para probar diferentes aspectos de la ingeniería de software. La variante en la que ChatGPT supera a sus rivales es SWE-Bench Pro (Private Dataset).
SWE-Bench Pro evalúa si un sistema de IA puede resolver tareas reales de ingeniería de software extraídas de problemas reales en la plataforma de desarrollador GitHub. Cada tarea requiere comprender una base de código desconocida, interpretar la intención detrás de un informe de error, realizar los cambios apropiados y producir una solución viable. El conjunto de datos privado no es público, lo que lo hace más difícil que el conjunto de datos público.
Los resultados muestran que ChatGPT-5.2 resolvió alrededor del 24% de los problemas, mientras que Gemini solo resolvió alrededor del 18%. Si estos números no parecen impresionantes, es porque esta es la prueba SWE-Bench más complicada de completar. En pruebas comparativas de codificación más sencillas, las IA solucionan alrededor del 75% de los problemas. Sin embargo, a modo de comparación, el 100% de estos desafíos de ingeniería de conjuntos de datos privados fueron resueltos por humanos. Tener una solución conocida y viable es uno de los criterios para cada una de las tareas de la prueba. Por lo tanto, la IA tiene un camino por recorrer antes de igualar las habilidades de los expertos en ingeniería de software humanos.
Resuelve acertijos visuales abstractos
¿Conoces esos acertijos que tienes que resolver para demostrar que no eres un robot? Existe un punto de referencia para probar ese tipo de razonamiento visual intuitivo. La prueba ARC-AGI original se ideó en 2019, antes de que existieran los LLM, y fue diseñada para “medir una forma humana de inteligencia fluida general”. ARC-AGI-2 es una versión actualizada lanzada en marzo de 2025. Está diseñada para evaluar la capacidad de la IA para aplicar razonamiento abstracto a desafíos desconocidos. Necesita descubrir un patrón subyacente a partir de una pequeña cantidad de ejemplos y luego aplicarlo correctamente a un nuevo ejemplo. Estas tareas a menudo requieren identificar qué aspectos de un problema son relevantes e ignorar cualquier distracción. Fundamentalmente, es algo en lo que los humanos, en general, somos bastante buenos y donde la inteligencia artificial todavía lucha por dar la respuesta correcta.
En el punto de referencia ARC-AGI-2, ChatGPT-5.2 Pro obtuvo una puntuación del 54,2%. Géminis aparece varias veces en la lista. Una versión mejorada y refinada obtuvo un 54% y Gemini 3 Deep Think obtuvo un 45,1. Sin embargo, Gemini 3 Pro solo obtuvo un 31,1%, considerablemente menos que ChatGPT. Este es el modelo análogo al ChatGPT-5.2 Pro, ya que ambos son modelos de suscripción paga en el mismo rango de precios, mientras que Gemini Deep Think es mucho más caro. Al igual que SWE-Bench Pro Private Dataset, ARC-AGI-2 es un punto de referencia donde la puntuación de IA es relativamente baja porque es algo complicado para la IA. Sin embargo, parece ser un área en la que ChatGPT no sólo está superando a Gemini, sino también a todos sus demás rivales.
Metodología
Los resultados de las pruebas comparativas de IA cambian rápidamente y cualquier número que hayamos incluido aquí cambiará con la próxima versión de OpenAI o Google AI. Para este artículo, consideramos las versiones más actualizadas, que son GPT-5.2 y Gemini 3. Como las versiones Pro pagas fueron las que obtuvieron una clasificación más alta en las pruebas comparativas, estas fueron las versiones en las que nos centramos.
Buscamos ejemplos en los que ChatGPT funciona mejor que Gemini. Hay muchos casos en los que Gemini ocupa un lugar más alto que ChatGPT, por ejemplo, SWE-Bench Bash Only y Humanity’s Last Exam. Aquí nos centramos solo en tres puntos de referencia, ya que representaban una buena variedad de diferentes habilidades de IA: conocimiento y razonamiento, resolución de problemas y pensamiento abstracto. Hay muchos otros puntos de referencia disponibles, incluidos otros en los que ChatGPT obtiene buenos resultados, como GDPval-AA y FrontierMath. No pudimos incluirlo todo.
Al centrarnos en los puntos de referencia, nos aseguramos de obtener resultados más precisos que si realizamos nuestras propias comparaciones limitadas en paralelo. Para mantener ese enfoque, también excluimos los resultados de estudios subjetivos a gran escala como LLMArena, aunque reconocemos que estas son formas increíblemente útiles de comparar sistemas de IA, ya que agregan una gran cantidad de preferencias de las personas en estudios ciegos. Entonces, para completar, probablemente deberíamos mencionar que Gemini actualmente supera con creces a ChatGPT en cuanto a preferencia de usuario en LLMArena.