18/02/2025

Territorio

L’intelligenza artificiale ora può controllare il tuo computer – Microsoft lancia il nuovo Tool che trasforma l’AI in un agente che controlla il tuo Pc

CONDIVIDI

Microsoft lancia il nuovo Tool che trasforma l’AI in un agente che controlla il tuo Pc

Microsoft ha lanciato OmniParser V2, un innovativo strumento che consente ai modelli linguistici di interagire con le interfacce grafiche degli utenti. L’automazione delle GUI (interfacce grafiche utente) è una sfida, poiché richiede che il modello comprenda e navighi efficacemente attraverso gli schermi, identificando correttamente le icone interattive e associano le azioni appropriate agli elementi visivi. Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) hanno avuto difficoltà a gestire questo compito.

OmniParser risolve questo problema trasformando gli screenshot delle interfacce da semplici immagini in dati strutturati che possono essere facilmente interpretati dall’AI, migliorando la capacità del modello di prevedere e compiere le azioni necessarie. Con il rilascio di OmniParser V2, Microsoft ha potenziato ulteriormente la tecnologia, aumentando l’accuratezza nel rilevare anche gli elementi più piccoli e riducendo il tempo di latenza del 60% rispetto alla versione precedente. Questo è stato possibile grazie all’addestramento su un set di dati molto più ampio, che ha migliorato il riconoscimento delle icone e la loro corretta interpretazione.

Un esempio significativo dei miglioramenti ottenuti è dato dall’uso combinato di OmniParser e GPT-4o, che ha raggiunto un’accuratezza media del 39,6% nel benchmark ScreenSpot Pro, un test avanzato per identificare icone ad alta risoluzione. Questo segna un notevole progresso rispetto all’accuratezza di solo 0,8% ottenuta da GPT-4o in precedenza.

Per semplificare l’adozione e la sperimentazione di questa tecnologia, Microsoft ha sviluppato OmniTool, un sistema Docker per Windows che integra strumenti essenziali per gli agenti AI. OmniParser può essere utilizzato in combinazione con modelli avanzati come quelli di OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) e Anthropic (Sonnet), consentendo una comprensione più profonda degli schermi, l’interpretazione semantica degli elementi visivi e l’esecuzione delle azioni pianificate.

22/03/2025 

Territorio

Torino – Domani si corre la Deejay Ten. Strade chiuse e deviazioni: ecco le modifiche viabili

Torino – Domani si corre la Deejay Ten. Strade chiuse e deviazioni Domenica 23 marzo la […]

leggi tutto...

22/03/2025 

Territorio

Torino – Dopo 50 anni condannato medico per morti amianto: ora ha 85 anni

Torino – Dopo 50 anni condannato medico per morti amianto Un medico di 85 anni è […]

leggi tutto...

22/03/2025 

Territorio

Torino – Serata evento: successo per la cena con Cruciani

Nella serata di sabato 15 Marzo 2025, presso il ristorante “Lago dei Salici” a Caramagna Piemonte […]

leggi tutto...

22/03/2025 

Sport

Clamoroso Juve – Thiago Motta a un passo dall’esonero: è pronto Roberto Mancini

Juve – Thiago Motta ad un passo dall’esonero: è pronto Roberto Mancini L’ex commissario tecnico italiano […]

leggi tutto...

21/03/2025 

Territorio

A Torino tornano le giornate FAI: un viaggio nelle straordinarie bellezze della città – Ecco i gioielli da visitare

A Torino tornano le giornate FAI: un viaggio nelle straordinarie bellezze della città abato 22 e […]

leggi tutto...

21/03/2025 

Territorio

Torinesi travolti da una valanga in vacanza in Svezia – Muoiono a 45 e 50 anni

Torinesi travolti da una valanga in vacanza in Svezia Tragedia in Svezia. Due fratelli provenienti dalla […]

leggi tutto...
Privacy Policy Cookie Policy