
L’intelligenza artificiale ora può controllare il tuo computer – Microsoft lancia il nuovo Tool che trasforma l’AI in un agente che controlla il tuo Pc
Microsoft lancia il nuovo Tool che trasforma l’AI in un agente che controlla il tuo Pc
Microsoft ha lanciato OmniParser V2, un innovativo strumento che consente ai modelli linguistici di interagire con le interfacce grafiche degli utenti. L’automazione delle GUI (interfacce grafiche utente) è una sfida, poiché richiede che il modello comprenda e navighi efficacemente attraverso gli schermi, identificando correttamente le icone interattive e associano le azioni appropriate agli elementi visivi. Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) hanno avuto difficoltà a gestire questo compito.
OmniParser risolve questo problema trasformando gli screenshot delle interfacce da semplici immagini in dati strutturati che possono essere facilmente interpretati dall’AI, migliorando la capacità del modello di prevedere e compiere le azioni necessarie. Con il rilascio di OmniParser V2, Microsoft ha potenziato ulteriormente la tecnologia, aumentando l’accuratezza nel rilevare anche gli elementi più piccoli e riducendo il tempo di latenza del 60% rispetto alla versione precedente. Questo è stato possibile grazie all’addestramento su un set di dati molto più ampio, che ha migliorato il riconoscimento delle icone e la loro corretta interpretazione.
Un esempio significativo dei miglioramenti ottenuti è dato dall’uso combinato di OmniParser e GPT-4o, che ha raggiunto un’accuratezza media del 39,6% nel benchmark ScreenSpot Pro, un test avanzato per identificare icone ad alta risoluzione. Questo segna un notevole progresso rispetto all’accuratezza di solo 0,8% ottenuta da GPT-4o in precedenza.
Per semplificare l’adozione e la sperimentazione di questa tecnologia, Microsoft ha sviluppato OmniTool, un sistema Docker per Windows che integra strumenti essenziali per gli agenti AI. OmniParser può essere utilizzato in combinazione con modelli avanzati come quelli di OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) e Anthropic (Sonnet), consentendo una comprensione più profonda degli schermi, l’interpretazione semantica degli elementi visivi e l’esecuzione delle azioni pianificate.