Home Tecnología Todo lo que necesita saber sobre el agente, operador basado en navegador...

Todo lo que necesita saber sobre el agente, operador basado en navegador de OpenAI

9
0

Tabla de contenido Tabla de contenido ¿Qué es el operador? ¿Cuándo se lanzó el operador? ¿Cómo funciona el operador? ¿Qué puede hacer el operador y qué tan bien puede hacerlo? ¿Cómo puedo probar el operador por mí mismo?

Operai finalmente ingresó a la carrera de AI de Agente con el lanzamiento de su IA operadora en enero. El sistema de agente está diseñado para funcionar de forma autónoma en nombre de su usuario y está preparado para competir contra rivales de la industria ya establecidos como la API de uso informático de Claude y los agentes de copilot de Microsoft, al menos, una vez que arroja su estado de “vista previa de investigación”. Aquí está todo lo que necesita saber sobre el nuevo agente de Openai y cuándo puede probarlo usted mismo.

¿Qué es el operador?

El operador de OpenAI es un agente IA, lo que significa que está diseñado para tomar medidas autónomas en función de la información disponible. Pero a diferencia de los programas convencionales, los agentes de IA pueden revisar las condiciones cambiantes en tiempo real y reaccionar en consecuencia, en lugar de simplemente ejecutar comandos predeterminados. Como tal, los agentes de IA pueden realizar una variedad de tareas complejas y de varios pasos que van desde la transcripción, resumen y generación de artículos de acción desde una reunión de negocios hasta reservar el vuelo, alojamiento de hoteles y un automóvil de alquiler para unas próximas vacaciones basadas en las de su familia. Varios horarios para investigar de forma autónoma y ensamblar estudios de varias páginas sobre esos sujetos.

El operador funciona de manera ligeramente diferente que otros agentes actualmente disponibles. Mientras que el uso de la computadora de Claude es una API y los agentes de IA de Microsoft funcionan dentro de la interfaz de usuario de Copilot Chat, el operador está diseñado para, bueno, operar, dentro de una ventana de navegador web dedicada que se ejecuta en los servidores de OpenAi y ejecuta sus tareas de forma remota. Su navegador web local no tiene nada que ver con el proceso y se puede usar normalmente incluso cuando el operador se está ejecutando.

La aplicación del operador funciona con un nuevo modelo de “agente de uso informático” (CUA) que, a su vez, se construye en la cima de GPT-4O, que proporciona las habilidades multimodales de la aplicación. Operai dice que CUA fue entrenado de manera similar a sus modelos de razonamiento O1 y O3. Como tal, el modelo CUA desglosará tareas complejas en sus problemas de componentes antes de tratar de resolverlas secuencialmente, retrocediendo si se encuentra en algún obstáculo lógico.

Introducción al operador y agentes

¿Cuándo se lanzó el operador?

OPERAI lanzó Operator el 23 de enero de 2025. Actualmente solo está disponible para usuarios Pro de $ 200/mes en los EE. UU. A través del sitio web de operador.chatgpt.com. “Nuestro plan es expandirse a los usuarios de Plus, Team y Enterprise e integrar estas capacidades en ChatGPT en el futuro”, escribió la compañía en su publicación de anuncios.

¿Cómo funciona el operador?

Los usuarios pueden activar el agente desde la pantalla de inicio de ChatGPT, que aparece una página de navegador web dedicada en una ventana lateral para que el operador realice sus tareas. La IA proporciona una narración en ejecución de lo que está haciendo actualmente y el usuario puede hacerse cargo del proceso en cualquier momento. El operador solicitará la ayuda del usuario en ciertas tareas, como iniciar sesión en sitios web garantizados específicos, así como obtener la confirmación del usuario antes de ejecutar tareas importantes. Puede interactuar con los sitios web tanto visualmente (es decir, a través de capturas de pantalla) como tácticamente, cuando imita los grifos del teclado del usuario y los clics del mouse.

¿Qué puede hacer el operador y qué tan bien puede hacerlo?

Dado que se limita al navegador, el operador solo puede realizar tareas simples basadas en Internet actualmente, como reservar entradas para conciertos, ordenar Doordash o completar los pedidos de Instacart. La compañía también afirma que el agente podrá automatizar tareas como reservar hoteles y aerolíneas, reservar mesas en restaurantes e incluso hacer sus compras en línea.

Operai ha enfrentado al operador contra el uso de la computadora de Anthrope, así como al agente marinero de Google Deepmind, en varios puntos de referencia de la industria y afirmaciones de que el operador los ha derrotado en todos los ámbitos. En el punto de referencia de OSWorld, que mide qué tan bien un agente puede completar tareas como fusionar archivos PDF, CUA superó al uso de la computadora de 38.1% a 22.0%, para referencia, los humanos promedian alrededor del 72% de éxito en esas tareas. En el WebVoyager Benchmark CUA superó a Mariner 87% a 83.5%. El uso de la computadora obtuvo un miserable 56%.

Sin embargo, las reacciones iniciales del usuario al agente de IA se han mezclado. Por ejemplo, el columnista del New York Times, Kevin Roost, escribió: “En total, descubrí que usar el operador generalmente era más problemas de lo que valía. La mayor parte de lo que hizo por mí podría haber hecho más rápido, con menos dolores de cabeza “.

“Incluso cuando funcionó”, continuó, “pidió tantas confirmaciones y garantías antes de actuar que me sentí menos como si tuviera un asistente virtual y más como si estuviera supervisando al pasante más inseguro del mundo”.

¿Cómo puedo probar el operador por mí mismo?

Para obtener acceso al agente de operadores de OpenAI, deberá registrarse para la suscripción Pro de nivel Pro Operai y luego acceder a ella a través del sitio web Operator.chatgpt.com.

LEAVE A REPLY

Please enter your comment!
Please enter your name here