Recientemente, las empresas han enfrentado un desafío creciente en la gestión de conjuntos de datos complejos que abarcan múltiples dominios, como finanzas, recursos humanos y seguridad. La diversidad de plataformas en las que se almacenan estos datos complica su recuperación efectiva, ya que se requiere de conocimientos específicos. Sin embargo, la inteligencia artificial generativa está cambiando el panorama con el desarrollo de tecnologías de conversión de lenguaje natural a SQL (NL2SQL), que buscan simplificar el acceso a estas bases de datos. A pesar de estos avances, la conversión precisa de consultas en lenguaje natural a SQL complejo sigue siendo un reto considerable.
Uno de los principales obstáculos radica en los esquemas de bases de datos, que suelen estar optimizados para el almacenamiento en lugar de la recuperación. Esto conlleva a que las consultas sean complejas y frecuentemente involucren estructuras anidadas y datos multidimensionales. Para mitigar estos problemas, equipos de AWS y Cisco han ideado un enfoque innovador que reduce el procesamiento necesario para generar SQL. Este enfoque permite utilizar modelos generativos más simples y económicos, mejorando así la accesibilidad a los datos empresariales.
Los retos específicos que enfrenta NL2SQL a nivel empresarial incluyen la complejidad inherente de los esquemas de bases de datos, la diversidad de las consultas en lenguaje natural y las limitaciones en el conocimiento de los modelos de lenguaje. Además, la atención requerida por estos modelos puede aumentar el tiempo de latencia en la generación de consultas, intensificando la inexactitud de los resultados.
La estrategia propuesta por los equipos de AWS y Cisco se basa en restringir el enfoque a dominios de datos específicos, lo cual facilita la construcción de prompts para los modelos generativos. Este enfoque se centra en optimizar el uso de recursos de la base de datos mediante la identificación precisa de las entidades mencionadas en las consultas de los usuarios y su conversión en identificadores únicos, simplificando así la generación de consultas SQL más precisas y manejables.
Las pruebas realizadas con este nuevo método han demostrado que se pueden alcanzar altos niveles de precisión y consistencia en la generación de consultas SQL, así como una mejor escalabilidad. Esto representa un avance significativo en la capacidad de las empresas para manejar y recuperar datos valiosos de manera eficiente. En definitiva, el desarrollo de esta metodología podría revolucionar la forma en que las organizaciones acceden a sus datos, haciéndolo más seguro y eficaz.