Microsoft abre la puerta a la “IA que usa el ordenador”: así es Fara-7B, su modelo agéntico ligero para automatizar tareas en local

La carrera por la Inteligencia Artificial ya no se mide solo en quién escribe mejor un texto o resume más rápido un documento. El siguiente salto —más cercano a la vida real— consiste en que un modelo sea capaz de usar un ordenador como lo haría una persona: mirar la pantalla, mover el ratón, hacer clic, escribir en formularios y completar una tarea de principio a fin. En ese contexto, Microsoft ha presentado Fara-7B, un modelo agéntico de tamaño reducido que la compañía define como su primer small language model (SLM) diseñado específicamente para “computer use”.

La promesa es ambiciosa, pero el enfoque es muy concreto: Fara-7B no se limita a responder con texto, sino que actúa como un “agente” que ejecuta pasos en un navegador para completar objetivos: desde buscar información y resumirla hasta reservar un viaje, rellenar formularios o comparar productos en distintas tiendas. Microsoft insiste en que el tamaño —7.000 millones de parámetros— es parte del mensaje: el modelo es lo bastante compacto como para acercar este tipo de automatización al uso en local, reduciendo latencia y, en teoría, mejorando la privacidad al evitar que ciertos flujos dependan de la nube.

Un agente que “ve” la web, no que la lee por dentro

La clave técnica (y también la diferencia que se entiende sin ser ingeniero) está en cómo opera. Fara-7B trabaja de manera visual: recibe capturas de pantalla del navegador y, a partir de ahí, decide qué hacer: desplazarse, hacer clic en unas coordenadas, teclear un texto o abrir una URL. En lugar de apoyarse en mecanismos “internos” de la web —como árboles de accesibilidad o parsers externos—, el modelo intenta comportarse como un usuario humano que solo dispone de lo que ve en pantalla.

Ese planteamiento tiene dos consecuencias directas. La primera: si funciona, puede enfrentarse mejor a páginas mal estructuradas o interfaces cambiantes, porque no depende de que el sitio web esté “bien descrito” por debajo. La segunda: también eleva el listón de seguridad y control, porque un agente que hace clic puede cometer errores con impacto real (compras, envíos, cambios de configuración), algo muy distinto a un chatbot que solo “opina”.

Datos sintéticos, entrenamiento rápido y un objetivo: eficiencia

Microsoft explica que entrenar agentes de este tipo con datos humanos reales es caro y lento, porque una tarea puede implicar decenas de acciones y cada paso requeriría anotación. La respuesta ha sido una tubería de generación de datos sintéticos basada en un marco multiagente (Magentic-One), con 145.000 trayectorias que cubren distintos sitios web, tipos de tarea y niveles de dificultad.

En la ficha del modelo se detallan además cifras que llaman la atención por lo “industriales” que suenan para un modelo de este tamaño: entrenamiento entre finales de octubre de 2.025, una ventana de contexto larga (hasta 128.000 tokens), y una puesta a disposición pública con un enfoque de apertura poco habitual en productos comerciales. Fara-7B puede ejecutarse en local con herramientas habituales del ecosistema (por ejemplo, Playwright para automatización de navegador y servidores de inferencia), pero también se ofrece a través de Microsoft Foundry para quienes prefieran una vía gestionada.

Resultados en benchmarks… y un aviso: sigue siendo experimental

La presentación llega acompañada de métricas comparativas en pruebas de agentes web. En benchmarks como WebVoyager, Online-Mind2Web, DeepShop y el nuevo WebTailBench (impulsado por la propia Microsoft), Fara-7B aparece con resultados competitivos para su tamaño. En números divulgados por los autores, el modelo marca, por ejemplo, un 73,5 % en WebVoyager, y destaca especialmente en WebTailBench, una batería pensada para tareas “de la vida real” que a menudo quedan fuera de las pruebas clásicas.

Pero el mensaje de Microsoft no se vende como un producto cerrado. Al contrario: lo define como lanzamiento experimental, con recomendaciones explícitas de uso: probarlo en entornos aislados, supervisar su ejecución y evitar dominios de alto riesgo o datos sensibles. La compañía también subraya medidas de seguridad propias del concepto de agente: el modelo debe reconocer “puntos críticos” (acciones irreversibles o que requieren consentimiento) y detenerse para pedir confirmación.

En paralelo, el debate de fondo es evidente: la industria se mueve hacia asistentes capaces de actuar, no solo de conversar. En esa transición, los modelos pequeños pueden tener ventaja si reducen coste y dependencia de infraestructura, pero también deben demostrar que el control humano y las barreras de seguridad están realmente a la altura.


Preguntas frecuentes

¿Qué significa que Fara-7B sea un “modelo agéntico” para usar el ordenador?
Significa que no solo genera texto: puede planificar y ejecutar acciones en un navegador (clic, scroll, escritura) para completar tareas paso a paso, como si fuera un usuario.

¿Se puede ejecutar Fara-7B en local en un PC sin enviar datos a la nube?
Ese es uno de los objetivos del proyecto: por tamaño y diseño, Microsoft lo orienta a escenarios on-device. Aun así, la ejecución práctica depende del hardware disponible y del método elegido (local o vía servicio gestionado).

¿Qué tipo de tareas reales puede automatizar un agente como Fara-7B en el navegador?
Búsquedas con resumen, rellenado de formularios, gestión de cuentas, comparación de precios, reservas (viajes, restaurantes) o localización de ofertas de empleo, entre otras tareas similares.

¿Qué es WebTailBench y por qué importa en la evaluación de estos agentes?
Es un benchmark presentado junto a Fara-7B que intenta medir tareas web más cercanas a casos reales (por ejemplo, compras comparativas o procesos multi-paso), donde muchos agentes suelen fallar.

Scroll al inicio