El problema de latencia que obliga a SpaceX a alquilar su centro de datos estrella a Anthropic y Google
SpaceX construyó el mayor centro de datos de IA del mundo para entrenar Grok. Pero conectar tres campuses a más de 10 millas de distancia generó problemas de latencia que forzaron a alquilarlos a sus competidores. Qué significa esto para la infraestructura de IA.
SpaceX tenía un plan ambicioso: entrenar sus modelos Grok más avanzados usando un cluster de tres campuses de centros de datos. El mayor esfuerzo de compute de la historia de una empresa privada. La realidad fue otra cosa.
Según documentos internos citados por Bloomberg, el centro de datos Colossus 1 en Memphis —anunciado por Elon Musk como el cluster de IA más grande del mundo— encontró problemas de latencia insalvables al intentar conectar con dos campuses adicionales ubicados a más de 10 millas de distancia. La infraestructura de red envejecida completó el problema.
El resultado: SpaceX terminó alquilando capacidad de ese mismo cluster a sus supuestos competidores. Anthropic paga 15.000 millones de dólares anuales por acceder a Colossus. Google, 920 millones de dólares al mes. SpaceX se convirtió en proveedor de sus propios rivales.
Este episodio revela algo que el ruido alrededor de la compute de IA suele ocultar: la distancia importa. Física y económicamente.
La latencia de red entre centros de datos se mide en milisegundos, pero esos milisegundos acumulan consecuencias. Cada paso de comunicación entre chips durante el entrenamiento de un modelo paralelo introduce sincronización. Si el overhead de comunicación supera cierto umbral, el speedup de añadir más hardware se evapora — y en algunos casos lo empeora.
Técnicamente, cuando se entrena un modelo grande con paralelismo de datos o tensor, los GPUs necesitan intercambiarse gradientes constantemente. Si esos gradientes tienen que viajar por fibra entre sites a kilómetros de distancia, el tiempo de comunicación puede dominar sobre el tiempo de compute. El resultado práctico es que más GPUs no ayudan; pueden ralentizar el entrenamiento.
Este no es un problema exclusivo de SpaceX. Cualquiera que intente escalar clusters de IA más allá de un solo campus se encuentra con el mismo muro. Las hyperscalers lo resuelven con campuses colocalizados y redes dedicadas de baja latencia. Pero eso requiere planificación de infraestructura a años vista — y SpaceX claramente subestimó la complejidad.
Hay una ironía adicional: mientras los problemas de Colossus 1 beneficiaban a Anthropic y Google con capacidad de compute accesible, la propia capacidad de SpaceX para entrenar Grok quedó limitada. Grok 3 reportedly necesitó más tiempo del previsto para entrenarse, y los primeros despliegues fueron más modestos de lo que Musk había prometido.
El mensaje para la industria es claro. En la carrera por la compute de IA, el hardware es solo una parte de la ecuación. La infraestructura de red, la disposición geográfica de los centros de datos y la arquitectura de clusters son igual de críticas. Y cuando incluso la empresa con más recursos financieros del mundo tropieza con estos detalles, es un recordatorio de que la física de los sistemas distribuidos sigue siendo el factor limitante — no el dinero.