Desarrolla una Plataforma de Procesamiento de Documentos Potenciada por IA con un Modelo NER de Código Abierto y LLM en Amazon SageMaker

Elena Digital López

Un laboratorio nacional en Estados Unidos ha puesto en marcha una innovadora iniciativa para solucionar los problemas de accesibilidad y localización de documentos en sus extensos archivos históricos. A pesar de albergar una vasta cantidad de conocimiento, muchos de estos documentos permanecen ocultos detrás de metadatos insuficientes y un etiquetado inconsistente. Las búsquedas tradicionales, basadas en palabras clave, suelen ser ineficaces, lo que obliga a realizar arduas revisiones manuales para extraer información valiosa.

Para enfrentar estos desafíos, el laboratorio ha implementado una plataforma de procesamiento de documentos impulsada por inteligencia artificial. Esta plataforma une las capacidades del reconocimiento de entidades nombradas (NER, por sus siglas en inglés) y modelos de lenguaje de gran escala en Amazon SageMaker. La solución moderniza el acceso a los registros archivados mediante la automatización del enriquecimiento de metadatos, la clasificación de documentos y la generación de resúmenes. Utilizando el modelo Mixtral-8x7B para crear resúmenes y títulos, junto con un modelo NER basado en BERT para extraer metadatos estructurados, el sistema mejora considerablemente la organización y recuperación de documentos escaneados.

Con un diseño sin servidor optimizado en costos, esta plataforma ofrece endpoints de SageMaker de manera dinámica, asegurando una utilización eficiente de los recursos y manteniendo la escalabilidad. La integración de tecnologías modernas de procesamiento de lenguaje natural (NLP) y modelos de lenguaje de gran escala (LLM) incrementa la precisión de los metadatos, permitiendo una búsqueda más precisa y una gestión documental más eficiente. Este enfoque no solo apoya la transformación digital, sino que también garantiza que los datos archivados se empleen eficazmente para la investigación, el desarrollo de políticas y la retención del conocimiento institucional.

Denominada NER & LLM Gen AI Application, la solución combina los beneficios del NER y los LLM para automatizar el análisis de documentos a gran escala. Emplea un enfoque modular con distintos componentes que manejan variados aspectos del procesamiento de documentos, desde resúmenes extractivos hasta la extracción de autores. El sistema se activa al detectar documentos en el bucket de extracciones, evitando operaciones redundantes al orquestar la necesaria creación de endpoints de modelo y procesar documentos en lotes para asegurar la eficiencia.

Más allá de su rendimiento, esta innovadora solución se destaca por su capacidad para procesar 100,000 documentos en un periodo de 12 horas, subrayando su efectividad tanto en costo como en rendimiento. Al implementar resúmenes extractivos como un primer paso, se logra reducir la carga de trabajo en un 75-90%, resultando en un procesamiento más rápido y menor costo operativo. Esta plataforma se perfila como una respuesta robusta ante las crecientes demandas de procesamiento documental eficiente en el ámbito de la investigación y la gestión del conocimiento.

Scroll al inicio