Nuevos Modelos de Investigación en IA para Acelerar la Innovación a Gran Escala

La investigación en inteligencia artificial ha experimentado un considerable avance en la última década, gracias en gran parte al equipo Fundamental AI Research (FAIR) de Meta. Este grupo de investigadores se ha enfocado en innovar mediante la investigación abierta y la colaboración con la comunidad global de IA, un enfoque que se considera más crucial que nunca a medida que el campo de la IA progresa rápidamente.

Hoy, Meta ha anunciado la liberación de cinco nuevos modelos de investigación FAIR, incluyendo modelos de generación de imagen a texto y de texto a música, un modelo de predicción multi-token y una técnica para detectar discursos generados por IA. Al compartir públicamente esta investigación, Meta espera inspirar nuevas iteraciones y contribuir al avance responsable de la IA.

Uno de los componentes clave que Meta ha presentado es Chameleon, una familia de modelos mixto-modal que puede entender y generar tanto imágenes como texto. Chameleon se destaca por su capacidad de procesar y entregar simultáneamente texto e imágenes, lo cual le permite tomar cualquier combinación de texto e imagen como entrada y generar cualquier combinación de texto e imagen como resultado.

Además, Meta ha propuesto una nueva técnica para entrenar modelos de lenguaje grandes conocida como predicción multi-token. Este enfoque permite que los modelos predigan múltiples palabras futuras a la vez, mejorando así la eficiencia y rapidez de los mismos. Esta innovación se ha liberado bajo una licencia de investigación únicamente no comercial.

En el ámbito de la generación de música a partir de texto, Meta ha presentado JASCO, un modelo que permite un mayor control sobre la salida musical generada. A diferencia de los modelos existentes que se basan principalmente en entradas de texto, JASCO puede aceptar una variedad de entradas, como acordes o ritmos, lo que mejora la calidad y versatilidad de la música generada.

En términos de detección, Meta ha lanzado AudioSeal, una técnica de marca de agua de audio diseñada para detectar segmentos generados por IA en archivos de audio. AudioSeal permite detectar con precisión y rapidez segmentos de audio generados por IA, siendo hasta 485 veces más rápida que los métodos tradicionales. Esta herramienta se ha liberado bajo una licencia comercial y forma parte de los esfuerzos de Meta para evitar el mal uso de las herramientas de IA generativa.

Finalmente, para abordar la diversidad en los sistemas de generación de imágenes a partir de texto, Meta ha desarrollado indicadores automáticos que evalúan las disparidades geográficas en dichos modelos. Además, se realizó un amplio estudio de anotación para entender cómo varían las percepciones de representación geográfica en distintas regiones, recogiendo más de 65,000 anotaciones y muchas respuestas de encuestas para mejorar las evaluaciones automáticas y humanas de los modelos de texto a imagen. Los resultados de este estudio y el código de evaluación se han puesto a disposición de la comunidad para mejorar la diversidad y representación en las imágenes generadas por IA.

Con estos lanzamientos, Meta reafirma su compromiso con la investigación abierta y responsable en el campo de la inteligencia artificial, facilitando herramientas y conocimientos que permitan a la comunidad global de IA avanzar de manera ética y eficiente.
Fuente: Zona de prensa de Meta.

Scroll al inicio