Analizar documentos antiguos a partir de fotografías o archivos digitalizados siempre ha sido un desafío técnico, pero también una necesidad para preservar la memoria histórica. En respuesta a ello, la compañía china DeepSeek, reconocida por competir con ChatGPT en el campo de la inteligencia artificial, presentó DeepSeek-OCR, un sistema que promete transformar la forma en que se procesan materiales históricos y científicos.
El nuevo modelo está diseñado para comprender contextos extensos y digitalizar documentos de manera eficiente, sin requerir grandes recursos de almacenamiento ni potencia computacional. Basado en la tecnología OCR (Reconocimiento Óptico de Caracteres), DeepSeek-OCR convierte imágenes de texto en contenido digital editable y accesible, logrando una reducción de tokens de entre 7 y 20 veces, lo que optimiza el uso de recursos.
El sistema combina dos componentes principales —DeepEncoder y DeepSeek3B-MoE-A570M— que, según la empresa, le permiten procesar más de 200,000 páginas al día con una sola GPU, ofreciendo un potencial enorme para generar datos de entrenamiento de alta calidad para otros modelos de IA.
Además, DeepSeek-OCR destaca por su capacidad para interpretar gráficos, tablas, fórmulas químicas, figuras geométricas e incluso documentos multilingües, ampliando sus aplicaciones en investigación, educación y archivística.
La compañía también lanzó una versión de código abierto, permitiendo a investigadores y desarrolladores reproducir resultados, validar avances y adaptar el sistema a diferentes usos. Con esta innovación, DeepSeek busca posicionarse como líder en la preservación digital del conocimiento histórico mediante inteligencia artificial.






