Meta lanza Llama 4 con 405B parámetros bajo licencia Apache 2.0
Meta lanza Llama 4, su modelo de lenguaje de mayor tamaño hasta la fecha con 405 mil millones de parámetros, disponible completamente en código abierto bajo licencia Apache 2.0.
Meta democratiza los grandes modelos de lenguaje una vez más
Meta AI ha anunciado hoy el lanzamiento de Llama 4, la cuarta iteración de su serie de modelos de lenguaje de código abierto. La novedad más impactante no es solo el tamaño del modelo — 405 mil millones de parámetros, el mayor modelo de código abierto de la historia — sino la licencia: Apache 2.0 sin restricciones comerciales, en contraste con las licencias más restrictivas de algunas versiones anteriores de Llama.
La familia Llama 4: modelos para cada necesidad
Meta ha lanzado simultáneamente tres variantes del modelo:
Llama 4 Scout (17B): El modelo más pequeño de la familia, con 17 mil millones de parámetros y una arquitectura Mixture of Experts (MoE) que activa solo 3.4B parámetros por token. Esto lo hace sorprendentemente eficiente: puede ejecutarse en una GPU de consumidor de 24GB de VRAM con cuantización a 4 bits, y su rendimiento supera a modelos mucho más grandes de generaciones anteriores. Scout incluye soporte nativo para ventana de contexto de 10 millones de tokens — el mayor de cualquier modelo disponible públicamente.
Llama 4 Maverick (400B MoE): Un modelo Mixture of Experts de 400 mil millones de parámetros totales pero con solo 17B activos por inferencia. Esta arquitectura permite el rendimiento de un modelo masivo con el costo computacional de uno significativamente más pequeño. Meta afirma que Maverick supera a GPT-4o y Gemini 2.0 Flash en la mayoría de benchmarks de razonamiento y código.
Llama 4 Behemoth (405B denso): El modelo denso de 405B parámetros, en entrenamiento activo según Meta, con acceso limitado para investigadores. Este es el modelo de referencia que los ingenieros de Meta usan como «teacher» para destilar el conocimiento en los modelos más pequeños de la familia.
Por qué Apache 2.0 importa
La elección de la licencia Apache 2.0 para Llama 4 es una decisión estratégica deliberada de Meta. A diferencia de la licencia Llama 2 (que requería permiso especial para uso comercial con más de 700 millones de usuarios) o Llama 3 (con restricciones similares), Apache 2.0 permite:
- Uso comercial sin restricciones ni notificaciones a Meta
- Modificación y redistribución del modelo
- Creación de productos derivados sin obligación de liberar el código
- Uso en productos SaaS sin limitaciones de usuarios
Esto cambia el panorama competitivo radicalmente. Empresas que antes evitaban Llama por las restricciones de licencia pueden ahora construir productos comerciales sobre él. Para startups de IA, Llama 4 Maverick ofrece capacidades de nivel GPT-4 sin costos de API.
Capacidades técnicas: benchmarks y análisis
Meta ha publicado resultados extensos en benchmarks estándar:
- MMLU: Maverick obtiene 87.5%, comparable a GPT-4o (88.7%) y superior a Claude 3.5 Sonnet anterior
- HumanEval: 89.3% en generación de código Python
- MATH: 73.8% en resolución de problemas matemáticos
- Multilingüismo: Llama 4 ha mejorado significativamente en idiomas que los modelos anteriores manejaban mal, incluyendo árabe, hindi, bengalí y swahili
La ventana de contexto de 10 millones de tokens de Scout es el record absoluto para un modelo de código abierto y supera incluso a la mayoría de modelos propietarios. Esto lo hace especialmente atractivo para casos de uso de análisis de documentos largos y codebases completas.
Capacidades multimodales: entrada de vídeo nativa
Llama 4 Scout y Maverick soportan entrada de imagen y video de forma nativa, una primera vez para la familia Llama. El procesamiento de video acepta hasta 30 segundos de video en resolución 720p, con comprensión de la relación temporal entre frames.
La calidad de comprensión de imágenes es notable: en el benchmark de comprensión visual MMMU, Maverick obtiene 73.5%, superando a GPT-4V original y acercándose a los modelos multimodales más avanzados actuales.
Cómo descargar y ejecutar Llama 4
El modelo está disponible inmediatamente en:
- Hugging Face: `meta-llama/Llama-4-Scout-17B-16E` y variantes
- Ollama: `ollama run llama4:scout` para uso local inmediato
- Together AI, Fireworks, Groq: APIs de inferencia con el modelo ya disponible
- AWS Bedrock y Azure AI: Disponibilidad anunciada para las próximas semanas
Para ejecutar Maverick localmente, necesitas hardware de servidor: mínimo 2x NVIDIA A100 80GB para la versión cuantizada a 4 bits. Scout es significativamente más accesible y puede ejecutarse en una RTX 4090 con cuantización.
El impacto en el ecosistema de IA
El lanzamiento de Llama 4 bajo Apache 2.0 tiene implicaciones que van más allá del modelo en sí. Presiona a los proveedores de APIs comerciales a mejorar la relación precio-rendimiento de sus ofertas. Democratiza el acceso a capacidades de IA de nivel frontier para investigadores, startups y empresas sin los presupuestos para llamadas constantes a APIs propietarias. Y refuerza el argumento de Meta de que el código abierto en IA no solo es viable sino estratégicamente superior a largo plazo, ya que el ecosistema de mejoras, fine-tuning y aplicaciones que construye la comunidad supera lo que cualquier empresa puede hacer internamente.
Recibe el mejor contenido tech cada mañana
Gratis · Sin spam · Cancela cuando quieras