OpenAI publica su guía de prompt engineering para GPT-4

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

OpenAI ha publicado una guía de prompt engineering destinada a quienes trabajan con sus modelos de lenguaje de gran escala (LLM), en particular GPT-4. El documento, disponible en la plataforma de OpenAI, recoge seis estrategias principales y una serie de tácticas concretas para obtener respuestas más precisas, útiles y ajustadas al contexto. La guía va dirigida tanto a desarrolladores que integran la API como a usuarios que usan ChatGPT de forma habitual y quieren mejorar sus resultados.

Las seis estrategias que recomienda OpenAI

La guía organiza sus recomendaciones en seis bloques. No son reglas rígidas, sino principios que se combinan según el tipo de tarea:

Dar instrucciones claras: cuanto más contexto y detalle incluye el prompt, más ajustada es la respuesta. Preguntas vagas generan respuestas genéricas. Preguntas con especificaciones concretas generan respuestas útiles.
Asignar un rol al modelo: pedir al modelo que actúe como experto en un dominio concreto (abogado, médico, editor) orienta el tono y el nivel de detalle de la respuesta.
Usar delimitadores: separar con comillas triples, corchetes o etiquetas las distintas partes del prompt (el texto a analizar, la instrucción, el contexto) evita confusiones al modelo.
Desglosar la tarea en pasos: para tareas complejas, enumerar los pasos que debe seguir el modelo produce resultados más estructurados que pedir todo en una sola frase.
Incluir ejemplos (few-shot prompting): mostrar uno o dos ejemplos del formato o estilo deseado antes de la pregunta real mejora la consistencia de la respuesta.
Especificar la longitud: indicar si se quiere un resumen de tres frases, una tabla o un análisis de 500 palabras ahorra iteraciones posteriores.

Herramientas externas y evaluación sistemática

La guía dedica una sección específica a combinar los LLM con herramientas externas: búsqueda web, bases de datos, calculadoras o código ejecutable. Esta integración no es cosmetics: los modelos de lenguaje, por definición, no tienen acceso a información en tiempo real ni pueden ejecutar cálculos exactos sin apoyo. Conectarlos con herramientas externas compensa esas limitaciones.

OpenAI también subraya la importancia de evaluar los cambios en los prompts de forma sistemática, no por intuición. La recomendación es usar conjuntos de pruebas o evals: conjuntos de preguntas con respuestas conocidas que permiten medir si una modificación en el prompt mejora o empeora el rendimiento global. Sin este tipo de evaluación, es fácil mejorar el resultado en un caso y empeorar diez sin darse cuenta.

Quienes ya han probado herramientas como ChatGPT y Copilot en tareas de trabajo diario saben que la calidad del prompt marca una diferencia notable en los resultados, independientemente del modelo que estén usando.

Por qué importa el prompt engineering ahora

Los LLM son potentes pero no inteligentes en el sentido humano del término: responden a lo que se les pregunta, no a lo que se quiso decir. Un prompt mal formulado puede generar una respuesta correcta gramaticalmente pero inútil en la práctica. El prompt engineering —la disciplina de formular instrucciones eficaces para estos modelos— ha pasado en dos años de ser un truco de power users a un conocimiento básico para cualquiera que use estas herramientas en su trabajo.

Con la llegada de GPT-4 y sus capacidades multimodales (texto e imágenes), las posibilidades de los prompts se han ampliado: se puede pedir al modelo que analice una imagen adjunta, que genere código a partir de un esquema visual o que responda en función de un documento PDF. En ese contexto, saber formular bien la instrucción es más importante que nunca. Los modelos de código abierto que compiten con GPT-4, como Code Llama 70B de Meta, también responden mejor a prompts bien estructurados que a instrucciones vagas.

Preguntas frecuentes

¿Qué es el prompt engineering?

Es la práctica de formular instrucciones (prompts) para modelos de lenguaje de forma que produzcan respuestas más precisas, útiles y ajustadas al contexto. Incluye técnicas como dar contexto detallado, asignar roles, usar ejemplos o desglosar la tarea en pasos.

¿Para qué tipo de usuarios es útil la guía de OpenAI?

Para dos perfiles principalmente: desarrolladores que integran GPT-4 mediante la API de OpenAI y quieren que sus aplicaciones generen respuestas consistentes, y usuarios que usan ChatGPT en su trabajo diario y quieren obtener mejores resultados sin cambiar de modelo.

¿Qué son las evals y para qué sirven?

Las evals son conjuntos de pruebas con preguntas y respuestas correctas conocidas que se usan para medir si un cambio en el prompt mejora o empeora el rendimiento del modelo. Sin ellas, es prácticamente imposible saber si una modificación en el prompt funciona de forma general o solo en el caso que se ha probado manualmente.

¿Qué es el few-shot prompting?

Es una técnica que consiste en incluir uno o varios ejemplos del resultado esperado dentro del propio prompt, antes de la pregunta real. El modelo aprende del patrón de los ejemplos y produce una respuesta más consistente en formato y estilo. El término few-shot indica que se usan pocos ejemplos, a diferencia del fine-tuning, que requiere cientos o miles.

Fuente: OpenAI Prompt Engineering Guide