OpenAI lanza GPT-5 con ventana de contexto de 2M tokens
OpenAI presenta GPT-5 con una ventana de contexto de 2 millones de tokens, capacidades multimodales mejoradas y un salto significativo en razonamiento matemático y científico.
GPT-5 redefine lo que esperamos de un modelo de lenguaje
OpenAI ha presentado oficialmente GPT-5, el sucesor de GPT-4o, en un evento técnico celebrado hoy en San Francisco. El modelo establece nuevos benchmarks en prácticamente todas las métricas relevantes de la industria, pero la característica que más ruido está haciendo es su ventana de contexto de 2 millones de tokens — casi diez veces la de GPT-4 Turbo y cuatro veces la del Claude 3.5 anterior.
La ventana de contexto de 2M tokens: ¿qué significa en la práctica?
Dos millones de tokens es una cantidad difícil de hacer tangible. Para contextualizarlo: equivale aproximadamente a 1.500.000 palabras, o el equivalente a 15 novelas de longitud estándar, o el código fuente completo de proyectos de software medianos (el código fuente de SQLite, por ejemplo, tiene unos 150.000 tokens).
En la práctica, esto permite casos de uso que hasta ahora eran imposibles o requerían arquitecturas complejas de RAG (Retrieval-Augmented Generation):
Análisis de codebases completos: Un desarrollador puede ahora pasar el repositorio completo de su proyecto (incluyendo todos los archivos de código, tests y documentación) directamente al contexto y hacer preguntas que requieren entender las dependencias entre múltiples archivos. No más fragmentación artificial del código para hacerlo caber en el contexto.
Análisis de documentos legales o financieros: Los contratos complejos, informes anuales de grandes empresas o el historial completo de comunicaciones de un caso legal pueden analizarse en una sola llamada. Los despachos de abogados han sido de los primeros en expresar interés.
Conversaciones con memoria completa: Las sesiones de trabajo de larga duración ya no necesitan resúmenes periódicos para gestionar el contexto. GPT-5 puede mantener el hilo de una conversación técnica de horas sin perder detalles de los pasos tempranos.
Capacidades multimodales: video y audio nativo
GPT-5 introduce procesamiento de video y audio como entrada nativa, sin necesidad de conversión previa. El modelo puede analizar vídeos de hasta 30 minutos directamente, incluyendo la comprensión de la relación entre el audio y los elementos visuales.
Las capacidades de visión también han dado un salto cualitativo. GPT-5 puede leer diagramas de circuito electrónico, interpretar gráficos científicos complejos y seguir instrucciones escritas en fotos de pizarras con una precisión que GPT-4o no podía alcanzar de forma consistente.
Benchmarks: los números que la industria está analizando
OpenAI ha publicado resultados en los benchmarks estándar de la industria:
- MMLU (conocimiento general): 92.3% (vs 88.7% GPT-4o)
- HumanEval (código Python): 97.1% (vs 90.2% GPT-4o)
- MATH (matemáticas avanzadas): 89.4% (vs 76.6% GPT-4o)
- GPQA (preguntas de doctorado): 75.2% (vs 53.6% GPT-4o)
- SWE-bench (resolución de issues de GitHub): 48.3% (vs 38.8% GPT-4o)
El salto más significativo es en GPQA (Graduate-Level Google-Proof Q&A), que mide la capacidad para responder preguntas de nivel doctorado en ciencias. El 75.2% supera al promedio de doctores humanos (que se sitúa alrededor del 65%) en esas mismas preguntas.
Velocidad y coste: el compromiso esperado
Una ventana de contexto de 2M tokens tiene un coste computacional considerable. La latencia hasta el primer token (TTFT) con el contexto completo es de 8-12 segundos, significativamente mayor que los 1-2 segundos de GPT-4o con contextos cortos.
- El precio de GPT-5 en la API es:
- Input: $15 por millón de tokens
- Cached input: $7.5 por millón de tokens (para contextos repetidos)
- Output: $60 por millón de tokens
Esto representa aproximadamente el doble del costo de GPT-4o. Para aplicaciones que necesitan la ventana completa de 2M tokens, una sola llamada puede costar entre $1 y $30 dependiendo del tamaño del contexto y la longitud de la respuesta, lo que limita los casos de uso prácticos a aplicaciones de alto valor.
Disponibilidad y acceso
GPT-5 está disponible hoy para usuarios ChatGPT Plus y Teams a través de la interfaz web, con acceso API en fase beta para desarrolladores en la lista de espera. El acceso completo a la API se espera para finales de abril de 2026.
OpenAI ha anunciado también un modelo «GPT-5 mini» optimizado para velocidad y coste, con una ventana de contexto de 128K tokens y precios similares a GPT-4o-mini, previsto para el segundo trimestre de 2026. Este modelo apunta directamente a los casos de uso de alta frecuencia donde el coste por llamada es el factor determinante.
Análisis: ¿cambia GPT-5 el equilibrio del mercado?
La presentación de GPT-5 llega en un momento de intensa competencia. Anthropic acaba de anunciar mejoras en la ventana de contexto de Claude, Google ha presentado Gemini 2.0 Ultra con capacidades similares y Meta lleva meses con Llama 4 disponible en código abierto.
Lo que diferencia a GPT-5 no es solo la ventana de contexto: es la combinación de esa ventana con los benchmarks de razonamiento científico más altos publicados hasta la fecha. Para aplicaciones que requieren tanto largo contexto como razonamiento sofisticado — investigación científica, análisis legal complejo, ingeniería de software avanzada — GPT-5 se posiciona claramente por delante. Para casos de uso más simples y de alto volumen, el precio hará que muchos usuarios se queden con modelos más económicos de la misma generación.
Recibe el mejor contenido tech cada mañana
Gratis · Sin spam · Cancela cuando quieras