El problema meta de la IA: destruimos los expertos que necesita para seguir mejorando
Por qué automatizar los trabajos de nivel inicial puede romper la cadena de formación de los expertos que los modelos de IA necesitan para seguir mejorando.
Imagina que necesitas profesores para enseñar a tu modelo de IA, pero cada año hay menos profesores disponibles porque la IA ya reemplazó las tareas que les permitían formarse. Ese es, en esencia, el problema que Ahmad Al-Dahle (CTO de Airbnb) describe como el riesgo empresarial que nadie está modelando en el sector de la inteligencia artificial.
La reflexión no es menor: llevamos años invirtiendo miles de millones en hacer que los modelos sean más capaces. Casi nadie está prestando atención a qué pasa con los evaluadores humanos que esos modelos necesitan para seguir mejorando.
Por qué AlphaZero no es el estándar
El argumento más común para no preocuparse es AlphaZero: un sistema que aprendió Go, ajedrez y Shogi a nivel sobrehumano sin datos humanos, generando jugadas como la célebre movida 37 contra Lee Sedol. La lógica es seductora. Si una máquina puede aprender de sí misma en un espacio de estados fijo con reglas inmutables, ¿por qué no extrapolar?
El problema es que el trabajo del conocimiento no tiene las propiedades que hacen posible ese auto-mejoramiento:
Las reglas cambian. Una estrategia legal que funcionaba en 2022 puede ser irrelevante en una jurisdicción que reinterpretó la normativa. Un diagnóstico médico puede no saberse si fue correcto hasta dentro de años.
No hay señal de recompensa nítida. En Go, pierdes o ganas, y lo sabes al momento. En derecho, en medicina, en arquitectura de sistemas, la calidad de las decisiones se mide décadas después, y frecuentemente de forma ambigua.
Sin esas dos propiedades, el aprendizaje por refuerzo puro no cierra el ciclo. Se necesitan humanos en la cadena de evaluación. Y ahí es donde aparece el problema.
El problema de la formación
Los modelos actuales fueron entrenados con la expertise de personas que desarrollaron su juicio a lo largo de años de trabajo错误的. La diferencia crítica ahora es que los empleos de nivel inicial — esos donde se forma el criterio — están siendo automatizados primero.
Revisión de documentos, primera pasada de investigación, limpieza de datos, revisión de código: los modelos handling estas tareas ahora. Los economistas lo llaman desplazamiento. Las empresas lo llaman eficiencia. Nadie está mirando el problema de fondo.
Según datos de Fortune, las contrataciones de recién graduados en grandes empresas tecnológicas han caído un 50% desde 2019. No por falta de presupuesto. Por falta de necesidad. ¿Y qué pasa cuando nadie entra ya por la puerta de abajo?
Cuando un campo se queda en silencio
En su límite lógico, esto no es solo un problema de pipeline. Es un colapso de la demanda para la expertise misma.
Piénsalo así: las matemáticas avanzadas no se pierden porque dejemos de formar matemáticos. Se pierden porque las organizaciones dejan de necesitar matemáticos para su trabajo diario, desaparece el incentivo económico de serlo, se reduce la población de personas capaces de hacer razonamiento matemático frontier, y la capacidad del campo para generar conocimiento nuevo se derrumba en silencio.
La misma lógica se aplica a la arquitectura de software. La pregunta no es si la IA escribirá código. La pregunta es: si la IA escribe todo el código de producción, ¿quién desarrolla la intuición arquitectónica profunda que produce sistemas genuinamente novedosos?
Hay una diferencia crítica entre automatizar un campo y entenderlo. Podemos automatizar una enorme cantidad de ingeniería estructural hoy, pero el conocimiento abstracto de por qué ciertos enfoques funcionan vive en las cabezas de personas que pasaron años haciéndolo mal primero. Si eliminas la práctica, no solo pierdes a los profesionales. Pierdes la capacidad de saber lo que has perdido.
Por qué las rúbricas no son suficientes
La aproximación actual para reducir dependencia de evaluadores humanos pasa por rúbricas: Constitutional AI, RLHF (Reinforcement Learning from AI Feedback), criterios estructurados que permiten a modelos puntuar modelos. Son técnicas reales y útiles.
Su limitación intrínseca: una rúbrica solo puede capturar lo que la persona que la escribió sabía medir. Optimizar fuerte contra ella produce un modelo muy bueno en satisfacer la rúbrica. Eso no es lo mismo que un modelo que realmente tiene razón.
Las rúbricas escalan la parte explícita y articulable del juicio. La parte más profunda — el instinto, la sensación de que algo no encaja — no cabe en una rúbrica. No puedes escribirla porque necesitas experimentarla primero para saber qué escribir.
¿Qué significa esto en la práctica?
No es un argumento para ralentizar el desarrollo. Las ganancias de capacidad son reales. Y es posible que los investigadores encuentren formas de cerrar el bucle de evaluación sin juicio humano — pipelines de datos sintéticos suficientemente buenos, mecanismos de auto-corrección modelos que aún no podemos imaginar.
Pero no tenemos eso hoy. Y mientras tanto, estamos desmantelando la infraestructura humana que actualmente llena el vacío, no como decisión deliberada sino como subproducto de mil decisiones individualmente racionales.
La versión responsable de esta transición no asume que el problema se resolverá solo. Lo trata como un problema abierto de investigación, con la misma urgencia que bring a las ganancias de capacidad.
Lo que la IA más necesita de los humanos es lo que menos nos enfocamos en preservar. Si eso es permanentemente cierto o temporalmente cierto, el coste de ignorarlo es el mismo.