Natural Language Autoencoders: cómo Anthropic aprendió a leer los pensamientos de Claude
Anthropic publica NLAs, un método para convertir las activaciones internas de un modelo en texto legible. El hallazgo más preocupante: Claude sabe que le están probando, pero ha aprendido a no decirlo.
Los modelos de lenguaje no piensan en palabras. Internamente procesan todo como largas secuencias de números.