OpenAI presenta Jalapeño: su primer chip personalizado para inferencia, construido con Broadcom

OpenAI lanza Jalapeño, su primer chip de inferencia diseñado con Broadcom. Analizamos qué significa para la economía de la IA y por qué todas las big tech están siguiendo el mismo camino.

OpenAI ha presentado su primer chip propietario diseñado específicamente para inferencia de modelos de IA. Bautizado como Jalapeño, el procesador ha sido desarrollado en colaboración con Broadcom y representa la primera incursión de la empresa en el hardware personalizado.

El anuncio oficial describe un chip diseñado desde cero para las cargas de trabajo concretas de OpenAI, con resultados preliminares que muestran un rendimiento significativamente mejor en términos de energía consumida por operación (rendimiento por vatio) comparado con las alternativas actuales del mercado.

Por qué importa esto

El movimiento tiene sentido por tres razones interconectadas:

Reducción de dependencia de Nvidia. Los centros de datos de IA consumen GPUs H100 a un ritmo que ha puesto en tensión la cadena de suministro y los márgenes de las empresas. Google lleva años con sus TPUs, Amazon con Trainium e Inferentia. OpenAI, que hasta ahora dependía casi enteramente de Nvidia, da el paso lógico hacia la verticalización.

Economía de inferencia. El pre-entrenamiento sigue necesitando clusters masivos de GPUs, pero la inferencia —el proceso de ejecutar el modelo ya entrenado para responder a un usuario— es donde se juega el dinero recurrentemente. Greg Brockman lo explicaba en un podcast interno: “Tenemos un conocimiento profundo de la carga de trabajo. Llevamos tiempo buscando cargas específicas que están desatendidas y preguntándonos cómo podemos construir algo que acelere lo que es posible.” Optimizar inferencia es optimizar la línea de resultados.

Control vertical de la stack. OpenAI lo dice sin rodeos en su comunicado: “OpenAI no solo desarrolla modelos frontera o construye productos sobre ellos; está diseñando la infraestructura debajo: arquitectura de chips, kernels, sistemas de memoria, networking, scheduling, sistemas de despliegue y experiencia de producto.” Es la visión de una empresa que quiere controlar toda la cadena, no solo el modelo.

Qué es un chip de inferencia y por qué es diferente

Un chip de IA (AI accelerator) no es una CPU general. Está diseñado para las operaciones matemáticas que dominan los modelos de aprendizaje automático: multiplicación de matrices, convoluciones, operaciones sobre tensores. Una GPU convencional puede hacer esto, pero un AI accelerator está optimizado específicamente para esas operaciones, eliminando lo que no necesita (la parte gráfica) y multiplicando lo que sí.

La diferencia clave entre entrenar y hacer inferencia también importa aquí. Entrenar un modelo implica cálculos de retropropagación sobre millones de ejemplos —una operación masiva y paralela. La inferencia es más diversa: a veces es una sola pasada sobre una pregunta corta (baja latencia), a veces es generar un texto de miles de tokens (alta throughput). Un chip diseñado solo para inferencia puede optimizarse para esos patrones concretos.

El chip Jalapeño se enfoca precisamente ahí: en hacer la inferencia más barata y eficiente, especialmente para modelos de codigo en tiempo real. OpenAI menciona específicamente el coste operativo bajo como uno de los objetivos de diseño.

Qué no es esto todavía

Es importante matizar. OpenAI no está diciendo que vaya a abandonar Nvidia. El pre-entrenamiento de modelos frontera sigue requiriendo clusters que ninguna empresa puede construir por su cuenta a este nivel de rendimiento. Nvidia tiene años de ventaja en software (CUDA), ecosistema y madurez de hardware. El chip de OpenAI es un complemento, no un sustituto.

Tampoco es un producto para terceros (al menos de momento). Jalapeño es un chip diseñado para las necesidades internas de OpenAI. La colaboración con Broadcom sugiere que el volumen de producción está optimizado para consumo interno, no para venta como chip independiente.

Además, el chip está todavía en fase de pruebas. Las cifras de rendimiento que OpenAI publica son resultados internos preliminares, no benchmarks independientes. Habrá que ver cómo escala en producción.

La tendencia más amplia

Lo que está ocurriendo es una fragmentación del ecosistema de hardware de IA. Hace tres años, decir “voy a entrenar un modelo grande” equivalía a decir “voy a comprar GPUs Nvidia”. Esa dependencia creó una situación incómoda para las big tech: eran rehénes de un proveedor con márgenes enormes.

Google tiene TPUs desde 2016. Amazon tiene Trainium e Inferentia. Microsoft está trabajando en sus propios chips. Meta tieneinferencias. Apple tiene sus Neural Engine. Todos están siguiendo el mismo playbook: construir silicio propietario optimizado para sus necesidades concretas, reduciendo la dependencia de Nvidia y mejorando los márgenes.

OpenAI joining that club era inevitable. Lo interesante es la velocidad a la que están avanzando: el anuncio de la colaboración con Broadcom fue en octubre de 2025, y el chip ya está funcionando en pruebas internas. Ese ritmo sugiere que OpenAI tiene claro qué quiere resolver y no está dispuesta a esperar.

En resumen

Jalapeño es un movimiento estratégico, no un producto disruptivo inmediato. Representa la intención de OpenAI de controlar su propia infraestructura, reducir costes de inferencia y diferenciarse en un momento en el que los modelos frontier se parecen cada vez más entre sí. Que eso se traduzca en ventajas tangibles para el usuario final dependerá de cómo escale el chip y de cuánto mejore realmente el coste por request.

Fuente: OpenAI Blog