En la era digital contemporánea, la capacidad para analizar datos tabulares con eficacia ha revolucionado numerosas industrias gracias al uso de modelos de lenguaje grandes (LLMs). Recientemente, se ha propuesto un nuevo enfoque denominado Aprendizaje Generativo Tabular (GTL) como una solución innovadora para generar análisis precisos y relevantes de datos estructurados, empleando un lenguaje específico de cada industria.
El GTL se destaca por ofrecer resultados semejantes a los obtenidos con el ajuste fino de modelos LLM, sin la complejidad inherente de estos procesos. Esta técnica facilita la utilización de modelos de lenguaje preentrenados para analizar conjuntos de datos tabulares, proporcionando ejemplos de contexto dentro de las indicaciones, lo que mejora la comprensión y relevancia del análisis generado.
Desarrollado a partir del documento técnico «From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models», el método emplea JupyterLabs completamente gestionados en Amazon SageMaker. Este enfoque interactúa con los modelos Meta Llama, alojados en plataformas como Amazon SageMaker y Amazon Bedrock. Para facilitar su implementación, se ha habilitado el acceso a cuadernos de referencia adicionales a través de GitHub, permitiendo guiar a los usuarios en el uso de estos modelos.
Para implementar esta estrategia, es necesario contar con acceso a modelos LLM como los Llama de Meta, configuraciones específicas de Amazon SageMaker, y conocimientos sobre la ingeniería de indicaciones generativas y las técnicas para evaluar la precisión de los resultados generados. El sector financiero, en particular, puede aprovechar significativamente esta tecnología debido a que sus conjuntos de datos suelen estar en formato tabular, como archivos PDF o bases de datos estructuradas. Por ejemplo, uno de los datasets utilizados para probar esta solución contenía detallada información sobre fondos cotizados en bolsa (ETFs).
Un aspecto notable de este enfoque es la capacidad de un usuario para formular preguntas relacionadas con el negocio o la industria de manera tal que el modelo LLM pueda generar una respuesta adecuada utilizando lenguajes específicos del sector. De esta forma, se pueden responder consultas sobre los ETFs más seguros con rendimientos de dividendos más altos y menor volatilidad, basándose en el rendimiento y la volatilidad a cinco, tres y un año.
La propuesta de un marco GTL como una solución intermedia antes de considerar el ajuste fino de modelos ofrece un camino más sencillo y potencialmente más rentable. Esto permite a las organizaciones generar salidas específicas de la industria a partir de las LLM mediante la fabricación de conjuntos curados de instrucciones GTL que detallan características y etiquetas relevantes.
Este enfoque es especialmente útil para crear aplicaciones interactivas que permitan a los usuarios comerciales, que quizás no sean expertos en grandes conjuntos de datos, obtener insights significativos mediante preguntas en lenguaje natural. En conclusión, aunque los modelos de lenguaje grandes siguen mejorando, existe un espacio significativo para optimizar el análisis de datos estructurados con técnicas como GTL. Las organizaciones pueden así abordar sus necesidades de análisis sin recurrir inmediatamente al costoso y laborioso proceso del ajuste fino de modelos.