cover

Le dimos a un agente una computadora entera y lo dejamos usarla

author photo

Héctorbliss

@hectorbliss

Mira el video:

Le dimos a un agente una computadora entera y lo dejamos usarla.

No una API. No un conjunto de funciones que nosotros elegimos de antemano. Un escritorio Linux completo —XFCE, con su navegador Chromium abierto, su terminal, su mouse— corriendo dentro de un microVM aislado. El agente toma el control: ve la pantalla, mueve el cursor, escribe. Lo armamos como experimento. Salió tan bien que ya lo estamos llevando a producción en EasyBits.

Este es el reporte de qué construimos, qué nos sorprendió y por qué creemos que esta es la dirección de la plataforma.

Qué es

Se llama computer-ghosty. La pieza central es un escritorio Linux real arrancado dentro de un microVM Firecracker —la misma infraestructura que ya enciende sandboxes para tus agentes en EasyBits, lista en unos cinco segundos y a costo de centavos por hora.

El agente opera ese escritorio con un ciclo simple: toma una captura de pantalla, decide la siguiente acción, la ejecuta con teclado y mouse, vuelve a capturar para ver el resultado, y repite hasta terminar la tarea. Del otro lado no hay una interfaz pensada para máquinas: hay una computadora normal, con las mismas fricciones que tendrías tú frente a ella.

Lo ves todo en vivo. El escritorio se transmite por noVNC dentro del panel de control, y al lado corre el historial de la conversación. Si quieres meter mano directo, hay también una terminal web compartida.

Lo que nos sorprendió

Le dimos al agente tres herramientas, no una: el control del escritorio gráfico, acceso directo a la terminal y la capacidad de leer y escribir archivos. Y le dimos una instrucción en el system prompt que define todo: decide primero si la tarea es de shell o de interfaz; si se puede resolver por línea de comandos, hazlo por ahí; reserva el escritorio gráfico para lo que de verdad necesita ojos.

El ejemplo que le damos en el prompt es literal: crear un archivo en la raíz es touch /Perro.md, no abrir un editor gráfico ni pelear con el menú de aplicaciones.

El agente lo entendió y actúa en consecuencia. Cuando la tarea es de sistema —crear archivos, instalar algo, clonar un repo— va directo a la terminal y la resuelve en una fracción del tiempo. Guarda el mouse y las capturas para lo que solo existe en una pantalla: navegar la web en Chromium, llenar un formulario que nadie diseñó para automatizar, revisar algo visual.

Que el agente sepa cuándo no usar su capacidad más vistosa fue la señal de que esto pasó de truco de demo a algo que aguanta trabajo real.

Diagrama del ciclo: captura de pantalla, decisión del modelo, acción de teclado o mouse, nueva captura

Lo construimos dos veces

Para no amarrar la capacidad a un solo proveedor, hicimos el mismo agente con dos cerebros distintos: uno con Claude Opus 4.8 de Anthropic, otro con el modelo de computer-use de Google. Mismo escritorio, misma estructura interna, distinto modelo manejando.

Cada uno tiene su carácter. Claude es el generalista: razona bien sobre cuándo conviene la terminal y cuándo la interfaz, y maneja ambas. El de Google está afinado para el navegador, donde entiende la estructura de las páginas con buena precisión.

Los dos encajan en el mismo contrato interno sin reescribir lo importante. El cerebro queda intercambiable; lo que permanece fijo es la capacidad de operar la computadora. Eso es lo que nos dice que esto es una pieza de arquitectura que podemos mantener y ofrecer, no un montaje de una sola vez.

También se rompió

No fue un camino sin cicatrices, y prefiero contarlas.

El modelo más nuevo rechazaba la versión vieja de la herramienta de control de escritorio con un error seco hasta que dimos con la versión correcta. Cuando el proceso del agente se atoraba y se reiniciaba, se llevaba por delante toda la conversación —hasta que aprendimos a guardar el estado en disco para que sobreviva un reinicio. Y como una sola caja tiene un solo escritorio, hay que serializar: un turno a la vez, sin pisarse.

La regla más importante que dejamos escrita: antes de cualquier acción irreversible —pagar, enviar un formulario, borrar datos— el agente se detiene, describe qué va a hacer y espera confirmación. Un agente con manos es tan útil como riesgoso, y eso se diseña desde el primer día.

Vista en vivo del escritorio dentro del panel de control, con el historial de la conversación al lado

Hacia dónde va

Esta capacidad se está integrando a EasyBits como una pieza más de la plataforma. La misma infraestructura de microVMs que enciende sandboxes en segundos puede encender un agente con escritorio propio: uno que ve lo que verías tú y puede tocar lo que tocarías tú, dentro de una caja aislada y desechable que tú controlas.

El terreno que abre es concreto. Interfaces que nunca expusieron una API y que hoy obligan a hacer todo a mano. Probar tu propia aplicación web como la usaría una persona, paso por paso. Tareas que viven atrapadas en pantallas viejas. Cosas que hasta ahora un agente solo podía mirar desde afuera.

Empezamos hablándole a los agentes por texto, y va a seguir siendo útil. Pero la superficie natural de una computadora es la computadora misma, y los modelos ya están listos para usarla. Lo probamos, funcionó, y ya viene en camino.

El ghost de EasyBits frente a una pantalla con la mano en el mouse

¿Tienes un proceso atrapado en una interfaz que hoy alguien hace a mano, clic por clic? ¿Quieres un agente que opere herramientas dentro de tu empresa, dentro de una caja aislada que tú controlas? Eso es justo lo que construimos en EasyBits. Si quieres implementar computer-use en tu emprendimiento o automatizar un flujo de tu operación, escríbenos a brenda@fixter.org y lo armamos para tu caso.

Te dejo el video donde lo muestro funcionando para que lo veas con tus propios ojos. Y si te gusta ver estas cosas mientras se construyen —los experimentos que salen y los que se incendian en vivo—, ese es mi canal de YouTube.

Abrazo. bliss.

meta cover

Orquestación de Agentes IA: Qué es, por qué importa, y cómo elegir tu camino

Checa este otro Post

meta cover

Una de las grandes razones para preferir NanoClaw sobre OpenClaw

Checa este otro Post

¡Nuevo curso!

Animaciones web con React + Motion 🧙🏻