Si chiama SAM (Segment Anything Model) il modello di intelligenza artificiale messo a punto dai ricercatori di Meta che ha il potenziale per rivoluzionare il modo in cui le immagini vengono identificate nella visione artificiale. SAM, infatti, può identificare in modo più rapido, semplice e preciso quali pixel di un’immagine o di un video appartengono a un oggetto. Può persino imparare da solo a identificare un oggetto per il quale non è stato addestrato. Questa capacità può essere ampiamente applicata ad attività che vanno dall’editing delle immagini all’analisi di immagini scientifiche, tra gli altri usi.
In futuro, SAM potrebbe diventare parte di sistemi di intelligenza artificiale più ampi per una più “comprensione multimodale generale del mondo”, come la comprensione delle immagini e del contenuto testuale di una pagina web, hanno detto i ricercatori.
SAM, come funziona
SAM utilizza una combinazione di segmentazione interattiva e automatica delle immagini per creare un modello di uso più generale. È progettato per essere facile e flessibile da usare in quanto elimina la necessità per gli utenti di raccogliere i propri dati di segmentazione e mettere a punto un modello per un caso d’uso specifico.
I ricercatori di Meta sostengono che SAM potrebbe essere utilizzato in auricolari AR e VR, dove lo sguardo di un utente è l’input per identificare gli oggetti. SAM “consente un maggiore grado di espressività rispetto a qualsiasi progetto che Meta abbia mai fatto prima”, ha affermato Joelle Pineau, vicepresidente della ricerca di Meta AI.
Meta ha rilasciato il modello sotto una licenza aperta permissiva e sta rilasciando anche il set di dati, in particolare per i ricercatori; la società afferma che si tratta del più grande set di dati di segmentazione di sempre. È possibile accedere al set di dati tramite GitHub per aiutare ulteriori ricerche nei casi d’uso della visione artificiale.
Video: SAM di Meta
SAM può identificare i pixel appartenenti a un oggetto in un’immagine per la rimozione o la modifica. Gli utenti possono fare clic sull’oggetto per aggiungere una maschera e quindi ritagliarla dall’immagine per creare un oggetto separato. Gli utenti possono anche utilizzare un prompt in linguaggio naturale per selezionare l’oggetto che si desidera mascherare dal modello.
Meta spiega i dettagli tecnici: “un codificatore di immagini produce un incorporamento una tantum per l’immagine, mentre un codificatore leggero converte qualsiasi prompt in un vettore di incorporamento in tempo reale. Queste due fonti di informazioni vengono quindi combinate in un decodificatore leggero che prevede maschere di segmentazione. Dopo aver calcolato l’incorporamento dell’immagine, SAM può produrre un segmento in soli 50 millisecondi con qualsiasi richiesta in un browser Web”.
Gli utenti possono provare SAM qui, anche se è una demo da utilizzare per la ricerca e non per scopi commerciali. Meta ha detto che tutte le immagini caricate nella demo verranno cancellate alla fine della sessione.
Video: SAM di Meta
La creazione di Segment Anything segna un’altra pietra miliare nell’AI per Meta. Nonostante il rilascio di modelli linguistici come LLaMA e OPT-175B, il genitore di Facebook ha in gran parte concentrato la sua ricerca sull’intelligenza artificiale nell’ultimo anno su modelli più incentrati su immagini e video dato il suo perno verso il metaverso.
Secondo Yann LeCun, capo scienziato di Meta sull’intelligenza artificiale, i modelli di AI generativa multimodale come SAM saranno sempre più utilizzati in futuro.