Empresas de todo el mundo enfrentan desafíos significativos al intentar gestionar y acceder a sus vastos activos de datos. Estos activos se encuentran dispersos a través de numerosas fuentes, como resultado de la creciente complejidad en la gestión de grandes volúmenes de información. Los métodos de búsqueda tradicionales a menudo no logran proporcionar resultados comprensivos y contextuales, especialmente cuando se trata de datos no estructurados o consultas complejas. En este contexto de manejo de grandes datos, se hace imperativo contar con soluciones de búsqueda que sean no solo eficientes, sino también precisas y capaces de adaptarse al ingreso continuo de nuevos activos.
Las demandas actuales de los usuarios van más allá de simplemente buscar información. Ellos desean poder acceder a todos los datos y aplicaciones de su organización de manera integral, y obtener no solo la fuente de los documentos recuperados, sino también los metadatos relevantes asociados con estos activos de datos. Para enfrentar estos desafíos, las nuevas soluciones deben ofrecer conexiones sólidas entre las entidades y las fuentes de datos relacionadas, unificar sistemas fragmentados de catalogación de datos, y explicar el razonamiento detrás de los resultados de las búsquedas.
En respuesta a estas necesidades, se ha desarrollado una solución de búsqueda semántica potenciada por inteligencia artificial generativa. Esta solución innovadora permite a los usuarios empresariales encontrar de manera rápida y precisa activos de datos relevantes, distribuidos en diversas fuentes dentro de la organización. Integrando modelos de lenguaje de gran escala alojados en Amazon Bedrock y respaldados por un grafo de conocimiento construido en Amazon Neptune, esta nueva solución proporciona un paradigma de búsqueda robusto. Los usuarios pueden realizar preguntas en lenguaje natural y efectuar búsquedas en documentos almacenados en Amazon Simple Storage Service (Amazon S3), tablas de data lake en el catálogo de AWS Glue y activos en Amazon DataZone.
Además, la solución emplea modelos base en Amazon Bedrock para generar texto y llevar a cabo tareas lingüísticas, combinándolos con grafos de conocimiento para proporcionar un razonamiento estructurado y capacidades de inferencia. Este enfoque híbrido permite a los modelos mantener su capacidad inductiva mientras integran su comprensión del lenguaje con conocimientos de dominio claramente estructurados y razonamiento lógico.
La solución se integra de manera fluida con los catálogos de datos y repositorios existentes dentro de las organizaciones, creando una capa semántica unificada y escalable. Esto no solo mejora la disponibilidad de los datos a nivel empresarial, sino que también facilita búsquedas dentro de la compañía con la misma accesibilidad y simplicidad de un motor de búsqueda convencional, pero con la profundidad y especificidad que demandan las organizaciones.
Este nuevo sistema habilita una aplicación donde los usuarios pueden ingresar consultas en lenguaje natural, permitiéndoles descubrir activos de datos a través de una comprensión semántica que mejora la toma de decisiones, la eficiencia y la innovación organizacional. Con esto, queda claro que la solución desbloqueará el potencial completo de los activos de datos empresariales, ampliando las posibilidades de descubrimiento de información y llevando a nuevas alturas la capacidad de generar innovaciones a partir de recursos ya existentes.