NVIDIA anuncia GB300: El superchip que redefine el entrenamiento de IA
NVIDIA presenta el Blackwell Ultra GB300, un superchip con 288 GB de memoria HBM4 y 20 petaFLOPS de rendimiento FP4, diseñado específicamente para entrenar modelos de lenguaje de próxima generación.
NVIDIA no frena: el GB300 lleva la arquitectura Blackwell al extremo
En el marco del AI Hardware Summit celebrado esta semana en San José, California, NVIDIA ha presentado oficialmente el GB300, la iteración «Ultra» de su arquitectura Blackwell que promete ser el hardware más potente jamás construido para el entrenamiento de modelos de inteligencia artificial. El chip, que comenzará a enviarse a clientes seleccionados en el tercer trimestre de 2026, representa un salto generacional incluso respecto al GB200 que domina los centros de datos de IA desde finales de 2024.
Especificaciones técnicas: los números que importan
El GB300 Ultra no es simplemente más rápido: es una arquitectura diferente diseñada desde cero para los patrones de carga de los modelos de lenguaje masivos actuales.
Memoria HBM4: Con 288 GB de memoria HBM4 (frente a los 192 GB HBM3e del GB200), el GB300 puede alojar completamente en memoria un modelo de 70.000 millones de parámetros en precisión BF16, eliminando el costoso movimiento de datos entre GPU y almacenamiento externo que era un cuello de botella en generaciones anteriores.
Ancho de banda de memoria: 14 TB/s de ancho de banda de memoria, un 35% más que el GB200. Para el entrenamiento de transformers, donde el movimiento de datos entre capas es constante, este incremento se traduce directamente en velocidad de entrenamiento.
FP4 Tensor Cores: La novedad más significativa arquitecturalmente son los nuevos núcleos Tensor de cuarta generación con soporte nativo FP4 (punto flotante de 4 bits). Con una precisión de 4 bits suficiente para la fase de inferencia de muchos modelos, el rendimiento en FP4 alcanza 20 petaFLOPS por chip, el doble que el GB200 en FP8.
NVLink 5.0: La interconexión NVLink de quinta generación permite comunicación entre GPUs a 1.8 TB/s bidireccionales, esencial para el entrenamiento de modelos que no caben en un solo chip y deben distribuirse entre decenas o cientos de GPUs.
El sistema DGX GB300: 576 GPUs, un modelo
NVIDIA ha presentado también el sistema DGX SuperPOD GB300, una configuración de referencia que combina 576 chips GB300 interconectados mediante NVLink para ofrecer un total de 10,5 exaFLOPS de rendimiento FP4. Este sistema es capaz de entrenar un modelo de un billón de parámetros en semanas en lugar de meses, según datos de NVIDIA basados en benchmarks internos.
El coste del sistema completo no ha sido divulgado oficialmente, pero analistas del sector estiman precios entre $200 y $350 millones por DGX SuperPOD GB300, una inversión que solo los grandes laboratorios de IA (OpenAI, Anthropic, Google DeepMind, Meta AI) y los proveedores cloud (AWS, Azure, GCP) pueden afrontar.
Implicaciones para el ecosistema de IA
La presentación del GB300 tiene implicaciones que van más allá de las especificaciones técnicas:
Carrera de capacidades: Con hardware capaz de entrenar modelos de un billón de parámetros en plazos razonables, la siguiente generación de modelos de lenguaje podría superar en un orden de magnitud la complejidad de GPT-4 o Claude 3. Esto accelera la carrera de capacidades entre los grandes laboratorios.
Concentración del mercado: El precio extremo del hardware refuerza la ventaja competitiva de los pocos actores que pueden permitírselo. Las startups de IA y universidades quedan cada vez más dependientes del acceso a través de APIs a modelos entrenados por las grandes empresas.
Consumo energético: Un sistema DGX GB300 completo consume aproximadamente 3 megavatios de potencia eléctrica. A medida que proliferan estos sistemas, el impacto energético del sector IA se convierte en un desafío de infraestructura crítica, con varios gobiernos ya anunciando regulaciones sobre el consumo energético de centros de datos de IA.
La respuesta de AMD e Intel
AMD presentó su roadmap de GPUs para IA la semana pasada, con la MI450X prometiendo competir en rendimiento con el GB300 a un precio un 20-25% inferior. Intel, tras los problemas con su línea Gaudi, ha anunciado una asociación estratégica con TSMC para producir sus próximas GPUs Falcon Shores usando el proceso de fabricación N2P de 2nm.
Sin embargo, el ecosistema de software de NVIDIA (CUDA, cuDNN, TensorRT) sigue siendo el factor diferenciador más difícil de replicar. Ningún competidor ha logrado convencer a los grandes laboratorios de IA para migrar su infraestructura de entrenamiento a plataformas no-NVIDIA, al menos de forma masiva.
Recibe el mejor contenido tech cada mañana
Gratis · Sin spam · Cancela cuando quieras