Cómo funciona el mecanismo de Attention en los LLMs: más simple de lo que parece

Attention es el corazón de los transformers. Te explicamos la intuición detrás de Query, Key y Value, cómo funciona Multi-Head Attention y por qué es relevante para la ciberseguridad.

Este artículo forma parte de nuestra serie sobre los fundamentos de la inteligencia artificial. Si lo estás leyendo tras una búsqueda sobre transformers, bienvenido: lo que viene a continuación es lo que necesitabas para entender por qué los modelos actuales funcionan como funcionan.

Por qué Attention importa

Antes de 2017, las redes neuronales procesaban secuencias palabra por palabra, en orden, con una memoria limitada. Ese enfoque tenía un problema obvio: a veces la palabra clave para entender una frase estaba lejos, y el modelo la había olvidado. El mecanismo de Attention, presentado en el paper Attention Is All You Need de Google Brain, eliminó esa limitación.

La idea central es simple: en vez de procesar la frase secuencialmente, el modelo mira todas las palabras a la vez y decide cuáles son relevantes para entender cada una. Es el equivalente a leer una frase subrayando mentalmente las palabras que más importan para entender el resto.

Query, Key, Value: la intuición

Attention funciona con tres vectores por cada palabra: Query (qué busco), Key (qué ofrezco) y Value (qué información doy si me eligen). El cálculo es conceptualmente directo:

  • Para cada palabra, multiplico su Query por las Keys de todas las demás palabras
  • Esos productos me dan una puntuación de relevancia
  • Normalizo con softmax para tener una distribución de probabilidad
  • Multiplico esos pesos por los Values correspondientes
  • Lo que sale es la representación "atenta" de esa palabra

En la práctica, este cálculo se hace con matrices de proyección (W<sub>Q</sub>, W<sub>K</sub>, W<sub>V</sub>) que el modelo aprende durante el entrenamiento. La fórmula final, en notación matemática, es:

Attention(Q, K, V) = softmax(QK<sup>T</sup> / √d<sub>k</sub>) V

El factor √d<sub>k</sub> no es decorativo: evita que los productos escalares se vuelvan demasiado grandes, lo que saturaría el softmax y haría imposible el entrenamiento.

Multi-Head Attention: varias perspectivas a la vez

Un único mecanismo de atención aprende un patrón. Multi-Head Attention ejecuta varios en paralelo, cada uno con sus propias matrices W<sub>Q</sub>, W<sub>K</sub>, W<sub>V</sub>. Las salidas se concatenan y se proyectan de nuevo.

¿Por qué? Porque diferentes cabezas aprenden a detectar cosas distintas: una puede fijarse en relaciones sintácticas (sujeto-verbo), otra en correferencias (qué pronombres apuntan a qué sustantivos), otra en patrones de sentimiento. Es como tener varios expertos mirando el mismo texto con lentes distintas.

Lo que esto significa para seguridad

Si trabajas en seguridad de IA, Attention es relevante por dos motivos. Primero, los prompt injections explotan el hecho de que el modelo presta atención a todo el input por igual, sin distinguir entre instrucciones del sistema y datos del usuario. Segundo, los jailbreaks funcionan porque Attention no evalúa la intención de quien escribe, solo patrones de coocurrencia.

En el lado defensivo, interpretar qué palabras atiende el modelo ante un input sospechoso es una técnica útil para detectar prompt injection o data leakage. Hay herramientas open source como TransformerLens que lo hacen directamente.

El resto del transformer

Attention por sí solo no es el transformer completo. Faltan las feed-forward layers (redes densas que procesan cada posición de forma independiente), las residual connections (que permiten entrenar redes muy profundas sin que el gradiente desaparezca), y la layer normalization. Pero Attention es la pieza que define la arquitectura y la que la hace funcionar.

Si quieres profundizar, te recomiendo el paper original, el curso de Andrej Karpathy sobre GPT desde cero, y la implementación de minbpe para entender la tokenización. La intuición es lo que cuenta; los detalles matemáticos vienen después.

¿Te ha resultado útil? En próximos artículos veremos self-attention vs cross-attention, y cómo la técnica de flash attention hace todo esto más rápido en GPUs modernas.