tecnologia

Operator di OpenAI, cos’è e come funziona l’agente che svolge compiti sul web in autonomia



Indirizzo copiato

Pubblicato il 24 gen 2025

Si tratta di un’anteprima di ricerca, ha quindi delle limitazioni e si evolverà in base al feedback. Permette di imparare dagli utenti e dal più ampio ecosistema, perfezionandosi e migliorando man mano. È già disponibile per i clienti Pro, anche in Europa. OpenAI prevede di estendere il servizio agli abbonati Plus, Team ed Enterprise e di integrarne le funzionalità in ChatGPT




Operator openAI

Operator è l’ultima novità di OpenAI. Lanciato il 23 gennaio, Operator è un agente in grado di andare sul web per eseguire compiti per noi. Utilizzando il proprio browser, può guardare una pagina web e interagire con essa digitando, facendo clic e scorrendo. Attualmente si tratta di un’anteprima di ricerca, il che significa che ha delle limitazioni e che si evolverà in base al feedback degli utenti.

Operator è già disponibile per i clienti Pro (al costo di 200 dollari euro al mese), anche in Europa. Quest’anteprima di ricerca permette di imparare dagli utenti e dal più ampio ecosistema, perfezionandosi e migliorando man mano. Il piano prevede di estendere il servizio agli abbonati Plus, Team ed Enterprise e di integrarne le funzionalità in ChatGPT in futuro.

Operator, che cos’è

Operator è uno dei primi agenti di OpenAI. Gli si può chiedere di gestire un’ampia gamma di attività ripetitive del browser, come compilare moduli, ordinare la spesa e persino creare meme. La capacità di utilizzare le stesse interfacce e gli stessi strumenti con cui gli esseri umani interagiscono quotidianamente amplia l’utilità dell’AI, aiutando le persone a risparmiare tempo nelle attività quotidiane e aprendo nuove opportunità di coinvolgimento per le aziende.

Introduction to Operator & Agents

Come funziona Operator

Operator si basa su un nuovo modello chiamato Computer-Using Agent (CUA). Combinando le capacità di visione di GPT-4o con un ragionamento avanzato attraverso l’apprendimento per rinforzo, CUA è addestrato a interagire con le interfacce grafiche (GUI) – i pulsanti, i menu e i campi di testo che le persone vedono su uno schermo.
L’operatore può “vedere” (attraverso le schermate) e “interagire” (utilizzando tutte le azioni consentite da mouse e tastiera) con un browser, consentendogli di agire sul web senza richiedere integrazioni API personalizzate.
Se incontra difficoltà o commette errori, Operator può sfruttare le sue capacità di ragionamento per autocorreggersi. Quando si blocca e ha bisogno di assistenza, restituisce semplicemente il controllo all’utente, garantendo un’esperienza fluida e collaborativa.
Sebbene CUA sia ancora in fase iniziale e presenti dei limiti, ha stabilito nuovi risultati di benchmark all’avanguardia in WebArena e WebVoyager, due benchmark fondamentali per l’utilizzo del browser.

OpenAI sostiene che Operator supera strumenti simili della concorrenza, tra cui Computer Use di Anthropic (una versione di Claude 3.5 Sonnet in grado di svolgere semplici compiti su un computer) e Mariner di Google DeepMind, un agente di navigazione web costruito sulla base di Gemini 2.0.

Come Computer Use e Mariner, Operator prende le schermate di un computer e analizza i pixel per capire quali azioni può intraprendere. CUA esamina lo schermo, compie un’azione, lo esamina di nuovo, compie un’altra azione e così via. In questo modo il modello è in grado di svolgere le attività sulla maggior parte dei siti web che una persona può utilizzare.

CUA suddivide i compiti in fasi più piccole e cerca di risolverli uno per uno, tornando indietro quando si blocca. OpenAI afferma che CUA è stato addestrato con tecniche simili a quelle utilizzate per i suoi cosiddetti “modelli di ragionamento”, o1 e o3.

Il fatto che tre delle più importanti aziende di AI del mondo convergano sulla stessa visione di ciò che potrebbero essere i modelli basati su agenti indica che la battaglia per la supremazia dell’AI ha un nuovo fronte: gli schermi dei nostri computer.

“Tradizionalmente, il modo in cui i modelli utilizzano il software è attraverso API specializzate”, afferma Reiichiro Nakano, scienziato di OpenAI. Questo mette fuori gioco molte applicazioni e la maggior parte dei siti web. “Ma se si crea un modello in grado di utilizzare la stessa interfaccia che gli esseri umani usano quotidianamente – spiega Nakano – si apre un’intera nuova gamma di software che prima era inaccessibile”.

Operator


Operator, come si usa

Per iniziare, è sufficiente descrivere l’attività che si desidera svolgere e Operator si occuperà del resto. Gli utenti possono scegliere di assumere il controllo del browser remoto in qualsiasi momento e Operator è addestrato a chiedere proattivamente all’utente di assumere il controllo per le attività che richiedono il login, i dati di pagamento o la risoluzione di captcha.
Gli utenti possono personalizzare i loro flussi di lavoro in Operator aggiungendo istruzioni personalizzate, per tutti i siti o per siti specifici, come l’impostazione delle preferenze per le compagnie aeree su Booking.com. Operator consente agli utenti di salvare le istruzioni per un accesso rapido alla homepage, ideale per attività ripetute come il rifornimento di generi alimentari su Instacart.

Analogamente all’utilizzo di più schede in un browser, gli utenti possono far eseguire a Operator più attività contemporaneamente creando nuove conversazioni; OpenAi porta come esempi ordinare una tazza smaltata personalizzata su Etsy e contemporaneamente prenotare un campeggio su Hipcamp.

Operator


Operator, a cosa serve

Operator trasforma l’intelligenza artificiale da strumento passivo a partecipante attivo nell’ecosistema digitale. Semplificherà le attività per gli utenti e porterà i vantaggi degli agenti alle aziende che vogliono esperienze innovative per i clienti e desiderano tassi di conversione più elevati.

OpenAI sta collaborando con aziende come DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber e altre per garantire che l’operatore risponda alle esigenze del mondo reale, rispettando le norme consolidate.

Oltre a queste collaborazioni, c’è un grande potenziale per migliorare l’accessibilità e l’efficienza di alcuni flussi di lavoro, in particolare nelle applicazioni del settore pubblico. Per esplorare ulteriormente questi casi d’uso, OpenAi sta lavorando con organizzazioni – come la città di Stockton – per rendere più facile l’iscrizione ai servizi e ai programmi della città.

Operator


“Man mano che impareremo a conoscere meglio Operator durante la sua anteprima di ricerca, saremo meglio attrezzati per identificare i modi in cui l’IA può rendere l’impegno civico ancora più semplice per i nostri residenti”, ha dichiarato Jamil Niazi, direttore della tecnologia dell’informazione della città di Stockton.
Rilasciando Operator a un pubblico inizialmente limitato, OpenAI punta a imparare rapidamente e a perfezionare le sue capacità in base al feedback del mondo reale, assicurandosi di bilanciare l’innovazione con la fiducia e la sicurezza. Questo approccio collaborativo contribuisce a garantire che Operator offra un valore significativo a utenti, creatori, aziende e organizzazioni del settore pubblico.

Operator OpenAI


Come OpenAI ha testato Operator

OpenAI ha testato CUA rispetto a una serie di benchmark industriali progettati per valutare la capacità di un agente di svolgere compiti su un computer.

Ad esempio, in OSWorld, che verifica la capacità di un agente di eseguire compiti come l’unione di file PDF o la manipolazione di un’immagine, CUA ottiene un punteggio del 38,1% rispetto al 22,0% di Computer Use. Su un benchmark chiamato WebVoyager, che verifica la capacità di un agente di eseguire compiti in un browser, CUA ottiene l’87%, Mariner l’83,5% e Computer Use il 56%. Va detto, comunque, che Mariner può svolgere attività solo in un browser e quindi non ottiene un punteggio su OSWorld.

Per ora, anche Operator può svolgere attività solo in un browser. OpenAI prevede di rendere disponibili in futuro le capacità più ampie di CUA tramite un’API che altri sviluppatori potranno utilizzare per creare le proprie applicazioni. È così che Anthropic ha rilasciato Computer Use a dicembre.

Sicurezza e privacy con Operator

A garantire che Operator sia sicuro da usare sono stati creati tre livelli di protezione, per prevenire gli abusi e assicurare che gli utenti abbiano il pieno controllo.
In primo luogo, Operator è addestrato per garantire che la persona che lo utilizza abbia sempre il controllo e chiede un input nei punti critici.

  • Modalità di acquisizione: Operator chiede all’utente di prendere il controllo quando inserisce informazioni sensibili nel browser, come le credenziali di accesso o le informazioni di pagamento. Quando è in modalità di acquisizione, l’operatore non raccoglie né screenshotta le informazioni immesse dall’utente.
  • Conferme dell’utente: prima di finalizzare qualsiasi azione significativa, come l’invio di un ordine o di un’e-mail, Operator deve chiedere l’approvazione.
  • Limitazioni delle attività: Operator è addestrato a rifiutare alcune attività sensibili, come le transazioni bancarie o quelle che richiedono decisioni ad alto rischio, come la decisione su una domanda di lavoro.
  • Modalità di controllo: su siti particolarmente sensibili, come la posta elettronica o i servizi finanziari, Operator richiede una stretta supervisione delle sue azioni, consentendo agli utenti di cogliere direttamente eventuali errori.
    La gestione della privacy dei dati in Operatoè stata semplificata.
  • Formazione opt-out: disattivando la voce “Migliora il modello per tutti” nelle impostazioni di ChatGPT, i dati presenti in Operator non verranno utilizzati per addestrare i nostri modelli.
  • Gestione trasparente dei dati: gli utenti possono cancellare tutti i dati di navigazione e disconnettersi da tutti i siti con un solo click nella sezione Privacy delle impostazioni di Operator. Anche le conversazioni passate in Operator possono essere cancellate con un solo click.
    Infine, sono state realizzate delle difese contro i siti web avversari che possono tentare di ingannare Operator attraverso prompt nascosti, codice maligno o tentativi di phishing:
  • Navigazione prudente: Operator è progettato per rilevare e ignorare le iniezioni di messaggi.
  • Monitoraggio: un “modello di monitoraggio” dedicato osserva i comportamenti sospetti e può mettere in pausa l’attività se qualcosa sembra non funzionare.
  • Pipeline di rilevamento: i processi di revisione automatizzati e umani identificano continuamente nuove minacce e aggiornano rapidamente le protezioni.

Poiché i malintenzionati potrebbero tentare di abusare di questa tecnologia, Operator è stato progettato per rifiutare le richieste dannose e bloccare i contenuti non consentiti. I sistemi di moderazione possono emettere avvisi o addirittura revocare l’accesso in caso di ripetute violazioni; inoltre sono stati integrati ulteriori processi di revisione per individuare e risolvere gli abusi.
Sebbene Operator sia stato progettato con queste salvaguardie, nessun sistema è impeccabile e questa è ancora un’anteprima di ricerca; OpenAI si impegna a migliorare continuamente attraverso il feedback del mondo reale e test rigorosi.


Limitazioni

Operator è attualmente in una fase iniziale di ricerca e, sebbene sia già in grado di gestire un’ampia gamma di compiti, sta ancora imparando, evolvendo e può commettere errori. Per esempio, attualmente incontra difficoltà con interfacce complesse come la creazione di slideshow o la gestione di calendari. I primi feedback degli utenti svolgeranno un ruolo fondamentale nel migliorare la sua precisione, affidabilità e sicurezza, aiutandoci a rendere Operator migliore per tutti


Il prossimo passo

CUA nell’API: OpenAI ha in programma di esporre presto il modello che alimenta Operator, CUA, nell’API, in modo che gli sviluppatori possano utilizzarlo per creare i propri agenti che utilizzano il computer.
OpenAI continuerà a migliorare la capacità di Operator di gestire flussi di lavoro più lunghi e complessi.

Articoli correlati