Mistral OCR 4: reconocimiento documental con estructura semántica y argumento de soberanía
Mistral lanza OCR 4 con bounding boxes, clasificación de bloques y puntuaciones de confianza. El timing es perfecto: el ban de Anthropic en EE.UU. valida el argumento de soberanía de datos que Mistral lleva sonando más de un año.
Mistral AI ha lanzado OCR 4, la cuarta generación de su tecnología de reconocimiento óptico de caracteres en aproximadamente 15 meses. El modelo no se limita a extraer texto: devuelve una representación estructurada del documento completo, con bounding boxes, clasificación de bloques por tipo (título, tabla, ecuación, firma) y puntuaciones de confianza a nivel de página y palabra.
El lanzamiento llega en un momento geopolítico que no podría ser más favorable para la propuesta de Mistral: la semana pasada, Anthropic se vio forzada a desactivar el acceso a sus modelos Fable 5 y Mythos 5 tras las restricciones de exportación del Departamento de Comercio de Estados Unidos. Clientes enterprise en finanzas, sanidad e infraestructura crítica se encontraron con sus servicios de IA desactivados sin previo aviso.
De texto plano a mapa semántico
El cambio central en OCR 4 es estructural. En lugar de devolver un flujo plano de texto extraído —el paradigma que ha definido la OCR durante décadas—, el modelo devuelve una representación en capas donde cada bloque está localizado con un bounding box, clasificado por tipo y puntuado por confianza.
Los bounding boxes eran la capability más solicitada. Sin datos de localización, los sistemas downstream no pueden rastrear un hecho extraído hasta su fuente en una página concreta. Esa brecha de trazabilidad ha sido un punto de fricción persistente para empresas que construyen pipelines RAG, flujos de cumplimiento normativo, o cualquier aplicación donde '¿de dónde viene este número?' necesita una respuesta auditable.
La clasificación de bloques resuelve un problema relacionado. Un párrafo etiquetado como título puede segmentar un documento en bloques jerárquicos para búsqueda semántica. Un bloque etiquetado como tabla puede dirigirse a un pipeline de datos estructurados. Un bloque etiquetado como firma puede activar un flujo de redacción en un sistema de cumplimiento.
Las puntuaciones de confianza cumplen un propósito dual. A escala, permiten a las organizaciones enrutar programáticamente regiones de baja confianza a revisores humanos y auto-aprobar extracciones de alta confianza, construyendo verificación human-in-the-loop sin requerir que una persona revise cada página de cada documento.
Rendimiento y transparencia en los benchmarks
Mistral reporta que OCR 4 alcanzó un 72% de tasa de victoria media en evaluaciones humanas head-to-head contra competidores líderes, conducidas por anotadores independientes a través de más de 600 documentos reales en más de 12 idiomas. El modelo también logró la mejor puntuación en OlmOCRBench con 85.20 y 93.07 en OmniDocBench.
Pero la propia empresa insta a cautela. En su comunicado, Mistral tomó la decisión inusual de auditar y hacer públicos los tipos de artefactos de puntuación que encontraron, incluyendo errores de verdad terreno en las anotaciones de referencia y problemas de atribución de headers y footers. 'Por tanto, tratamos la puntuación agregada como direccional más que definitiva', dijo la empresa.
El contexto que valida el argumento de soberanía
El lanzamiento aterriza en un contexto geopolítico que apenas podría ser más favorable. El 12 de junio, Anthropic se vio forzada a desactivar todo acceso a sus modelos Fable 5 y Mythos 5 tras las restricciones de exportación del Departamento de Comercio de EE.UU.
Ese episodio validó una advertencia que el CEO de Mistral, Arthur Mensch, llevaba sonando durante más de un año. En London Tech Week en junio de 2025, Mensch advirtió sobre empresas de IA estadounidenses 'teniendo las llaves' de sus modelos, y añadió: 'En algún momento, necesitas poder apagarlo o encenderlo, y no quieres dejarlo en manos de otro país.'
El modelo de despliegue de OCR 4 —un único contenedor, self-hosted en la infraestructura del cliente— es la expresión a nivel de producto de ese argumento. Un proveedor estadounidense ofreciendo residencia de datos en la UE significa que los documentos se almacenan en Frankfurt pero se rigen por ley estadounidense. Mistral, incorporada en Francia, ofreciendo despliegue on-premise, significa que los documentos nunca abandonan la infraestructura del cliente.
La presión regulatoria se intensifica. Las provisiones de multa del EU AI Act entran en vigor el 2 de agosto, añadiendo presión de cumplimiento para empresas europeas evaluando vendors de document AI.
El contraste con Baidu Unlimited-OCR
El lanzamiento de Mistral no llegó solo. Un día antes, Baidu publicó Unlimited-OCR, un modelo de 3.000 millones de parámetros bajo licencia MIT que parsea PDFs enteros y scans multipágina en una única pasada, sin chunking ni stitching del output.
Los dos releases enmarcan lo que algunos analistas llaman la división document-AI de junio 2026: parsing de largo horizonte self-hosted con pesos abiertos versus extracción estructurada managed con features enterprise. Unlimited-OCR puede ser la mejor herramienta para un equipo de investigación. OCR 4 está construido para el proceso de procurement IT — SLAs, acuerdos de procesamiento de datos y auditorías de cumplimiento.
El verdadero movimiento no es la OCR
Mirándolo desde lejos, el lanzamiento de OCR 4 no es realmente una historia de OCR. Es una historia de go-to-market enterprise construida sobre un mercado global de procesamiento inteligente de documentos de 4.400 millones de dólares que se proyecta crecer a un 33,1% CAGR hasta 2030.
Para Mistral, OCR es una cuña en budgets de IA enterprise. El modelo alimenta directamente su Search Toolkit, el framework de búsqueda componible y open-source de la empresa. En esa arquitectura, OCR 4 sirve como capa de ingesta para pipelines RAG y búsqueda enterprise, convirtiendo documentos brutos en input citation-ready y estructuralmente clasificado.
El juego real es construir un stack de IA enterprise con document intelligence como on-ramp. Y en ese juego, Mistral tiene una ventaja que los eventos de las últimas dos semanas han convertido en argumento de venta.
Fuente: Mistral AI (mistral.ai/news/ocr-4/) y VentureBeat.