OpenAI, conocido por sus modelos de inteligencia artificial (IA) como GPT-4, se encuentra actualmente en una encrucijada debido a la escasez de datos de entrenamiento de alta calidad y diversidad. Esta falta de datos ha ralentizado el ritmo de mejora de su nuevo modelo «Orion», según fuentes internas. Aunque el rendimiento general de Orion es superior a los modelos previos, la diferencia en su capacidad de aprendizaje es menos significativa que en actualizaciones anteriores, como el salto de GPT-3 a GPT-4. Además, en áreas especializadas como la programación y tareas de razonamiento complejo, Orion no muestra mejoras consistentes.
La escasez de datos de calidad está afectando a toda la industria de la IA, y en respuesta, OpenAI ha conformado un equipo especializado en los datos fundamentales para el desarrollo de IA. Este equipo está explorando el uso de datos sintéticos, generados artificialmente por otros modelos de IA, con el objetivo de incrementar la variabilidad y matices en los datos de entrenamiento. La idea es que los datos sintéticos puedan complementar la información del mundo real y, así, ampliar la comprensión del modelo en escenarios complejos.
Aparte del uso de datos sintéticos, OpenAI también planea aplicar técnicas de aprendizaje por refuerzo y ajustes específicos tras el entrenamiento inicial del modelo. Estas estrategias buscan cerrar brechas de rendimiento en aquellas áreas donde los datos tradicionales, tanto reales como sintéticos, no logran cubrir todas las exigencias.
La desaceleración en el desarrollo de modelos de IA, producto de la limitación en el acceso a datos adecuados, plantea inquietudes sobre el futuro de esta tecnología. Si bien los métodos propuestos por OpenAI podrían marcar el camino, la industria sigue pendiente de la efectividad de estas innovaciones en el impulso de la IA hacia nuevas fronteras.