Approfondimento

Vision Transformer, cosa sono e perché rivoluzioneranno l’industria

Secondo Markets & Markets, il mercato delle applicazioni industriali dei ViT passerà da 100 milioni di dollari nel 2022 a 1,2 miliardi nel 2028, con un CAGR del 34%. Analizziamo in dettaglio questo genere di algoritmi

Pubblicato il 28 dic 2023

Giuseppe Scarpi

R2M Solution S.r.l. – Divisione Innovation – Business Development Manager

La Computer Vision (CV), che applica l’informatica a immagini e video, da decenni ha contribuito al miglioramento dei processi industriali in ambiti come il controllo qualità o la robotica. Da un paio di anni, sono apparsi nuovi algoritmi di CV detti Vision Transformer che rappresentano un grande passo avanti rispetto allo stato dell’arte, per riconoscere il contenuto di un’immagine.

Indice degli argomenti:

Che cosa sono i Vision Transformer

Era il giugno del 2021 quando Alexey Dosovitskiy e altri colleghi del Google Research Brain Team presentarono i Vision Transformer o ViT (^[1]), algoritmi di intelligenza artificiale che si stavano rivelando molto efficaci sulle immagini, in particolare per capirne il contenuto. Le potenzialità erano talmente interessanti che poco tempo dopo i ViT uscirono dal laboratorio, attirando l’attenzione dell’industria.

A che cosa servono i ViT e perché sono così interessanti?

Per rispondere, dobbiamo prima parlare di una tipica applicazione della CV: la cosiddetta classificazione, che consiste nel capire che cosa rappresenta una immagine: ad esempio, un algoritmo di classificazione riconoscerà la foto come una spiaggia tropicale con palme.

Spiaggia con palme: Rachel Knopf su Pexels (https://www.pexels.com/photo/beach-florida-palmtree-sunset-365516) + elaborazione dell’autore per la segmentazione.

Attenzione: classificare un’immagine non significa identificare dove sono gli oggetti (questo si chiama segmentazione ed il risultato è visibile nell’immagine a destra). Tuttavia, per molte applicazioni industriali, la comprensione globale dell’immagine è sufficiente – anzi, spesso è preferibile perché più rapida della segmentazione. Ad esempio, nei sistemi automatici per lo smistamento di rifiuti urbani non serve capire dove si trova un oggetto riciclabile (poniamo, una bottiglia) ma solo se è presente.

Le applicazioni industriali dei ViT

In precedenza, gli algoritmi più usati per la classificazione (e non solo) erano le cosiddette CNN, Reti neurali convoluzionali. Ma, dopo l’introduzione dei ViT, la situazione è cambiata perché i vantaggi che essi offrono sono davvero notevoli. Ecco alcuni punti che rendono le applicazioni industriali dei ViT particolarmente interessanti:

I Vit sono eccellenti dove serve un’analisi globale dell’immagine, ad esempio nella verifica di assemblati complessi, dove non basta identificare i singoli elementi, ma bisogna valutarli nel loro insieme e in relazione l’uno all’altro (^[2]).
Essi offrono anche la notevole accuratezza nella classificazione, richiesta dal controllo qualità. La maggior parte degli algoritmi di IA va “addestrato” per svolgere un certo compito, ma non è detto che un addestramento più lungo porti per forza a maggiore accuratezza. Ad esempio, le CNN mostrano una saturazione, per cui imparano progressivamente sempre meno. I ViT, invece, continuano a migliorare e possono raggiungere accuratezze davvero notevoli.
Infine, il ViT presenta grande flessibilità che può tradursi in risparmio di tempo perché consente di fare un addestramento relativamente generico (ad esempio, riconoscere carpenteria cilindrica), e poi specializzarlo con piccoli training aggiuntivi (ad esempio per viti, bulloni, chiodi). Tecnicamente, questo si chiama Transfer Learning ed è una caratteristica di eccellenza dei ViT.

Le CNN richiedono meno energia per funzionare e sono più veloci, ma la ricerca sta riducendo il loro vantaggio. Dopo questa full immersion tecnologica, pronti a passare agli aspetti business?

I ViT nel mondo business

Secondo Markets & Markets (^[3]), il mercato delle applicazioni industriali dei ViT passerà da 100 milioni di dollari nel 2022 a 1,2 miliardi nel 2028, con un CAGR del 34%. L’interesse sta sicuramente crescendo, ma per ora la maggior parte delle applicazioni è nella diagnostica medica (^[4]). Si ha l’impressione che l’industria veda i ViT come interessanti, ma ancora troppo innovativi per applicazioni mission-critical.

Tuttavia, la situazione sta cambiando.

Il controllo qualità è il campo con maggiore interesse verso le applicazioni industriali dei ViT e dove si trovano già casi interessanti (^[5]). Esistono anche altri risultati sperimentali: ad esempio, in un articolo pubblicato su Industrial Artificial Intelligence, i ViT vengono applicati nel controllo a bassa quota di droni (^[6]), mentre un recente paper descrive le applicazioni dei ViT su piattaforma edge computing (^[7]) per mettere la potenza di questi algoritmi direttamente a bordo della videocamera.

Oggi vorremmo arricchire ancora di più il panorama delle applicazioni industriali dei ViT presentando un caso concreto dedicato alla carpenteria metallica. Questo risultato, nato dallo sforzo congiunto di R2M Solution e Università di Cagliari, è probabilmente il primo caso in assoluto di impiego dei ViT in questo specifico campo.

Classificare la carpenteria metallica con i ViT

Grazie a un progetto concluso a metà del 2023, R2M Solution e l’Università di Cagliari – Dipartimento di Matematica e Informatica, hanno messo a punto un sistema ViT per classificare la carpenteria metallica.

R2M Solution è una PMI lombarda che opera come acceleratore di innovazione, con la missione di “scaricare a terra” le tecnologie più innovative, supportando le aziende nella crescita verso Industria 4.0/5.0. L’Università di Cagliari, da anni leader nelle tecnologie AI-based, collabora da tempo con R2M Solution, e nel corso di questa esperienza ha dato un preziosissimo contributo di ricerca.

Il lavoro è nato da una reale esigenza del settore della carpenteria metallica: durante l’inserimento di nuovi componenti nell’archivio informatico, ad esempio per caricarli a magazzino, l’operatore deve riempire numerosi campi con le caratteristiche del componente. Paradossalmente, il campo più difficile da valorizzare è il nome del pezzo che si ha davanti (fisicamente o come immagine). La carpenteria metallica conta centinaia di tipi diversi, con varianti che a volte si differenziano solo per piccoli dettagli: si può ricorrere alla classificazione DIN definisce in modo preciso ogni elemento, ma il suo utilizzo è poco agevole, rallenta le operazioni e porta ad affaticamento. Di conseguenza, capita di inserire il pezzo con un nome generico (es. vite) oppure sbagliato, rendendo inefficace la successiva ricerca e vanificando lo sforzo di informatizzazione.

Per affrontare questo tema, R2M Solution e Università di Cagliari hanno avuto l’idea di impiegare i ViT. In pratica, l’operatore passa al ViT l’immagine del pezzo, ottenendo in modo automatico il nome ufficiale e il codice DIN: queste informazioni, utilizzate per riempire alcuni valori del database, garantiscono che in fase di inserimento il pezzo sia classificato correttamente. I risultati sono promettenti: usando quaranta tipologie di pezzi si è raggiunta una accuratezza superiore a 80% dopo un training molto leggero. Sfruttando la capacità dei ViT di migliorare a mano a mano che il training prosegue, confidiamo di poter aumentare notevolmente l’accuratezza e il numero di codici riconoscibili. Vale la pena di osservare che, grazie alla flessibilità dei ViT, si potrebbe portare la soluzione anche a settori affini come l’orologeria o la bigiotteria.

Conclusioni

I Vision Transformer sono imbattibili nel riconoscere (“classificare”) immagini e si presentano all’industria manufatturiera con grande potenziale, soprattutto nel controllo qualità, verifica post-assemblaggio e identificazione componenti. La tecnologia sembra ancora immatura per entrare a pieno titolo nel mondo industriale, ma senza dubbio è da tenere d’occhio, specialmente guardando al crescente numero di applicazioni industriali dei ViT.

Alle aziende interessate suggeriamo di prendere contatto con partner tecnologici veramente esperti, che sapranno suggerire modi efficaci per sfruttare al meglio questa promettente innovazione.

Si ringrazia il prof. Diego Reforgiato dell’Università di Cagliari per la revisione scientifica.

Note

In realtà ViT e Vision Transformer non sono più sinonimi: ViT è l’algoritmo presentato da Google, il primo Vision Transformer: ma da allora ne sono nati altri. ↑
I ViT esaminano l’immagine con “attenzione globale” ipotizzando che ogni sua parte possa avere relazioni con altre parti anche non vicine. Le CNN usano “attenzione locale”, descrivibile come una finestra che scorre sull’immagine: questo spiega la capacità di segmentare, ma anche la difficoltà nel cogliere l’essenza dell’intera scena.
https://www.marketsandmarkets.com/Market-Reports/vision-transformers-market-190275583.html. ↑
Al-hammuri, K., Gebali, F., Kanan, A. et al. Vision transformer architecture and applications in digital health: a tutorial and survey. Vis. Comput. Ind. Biomed. Art 6, 14 (2023). https://doi.org/10.1186/s42492-023-00140-9. ↑
Hütten, N., Meyes, R., & Meisen, T. (2022). Vision Transformer in Industrial Visual Inspection. Applied Sciences, 12(23), 11981. MDPI AG. Retrieved from http://dx.doi.org/10.3390/app122311981. ↑
Ercolino, S., Devoto, A., Monorchio, L. et al. On the robustness of vision transformers for in-flight monocular depth estimation. Industrial Artificial Intelligence 1, 1 (2023). https://doi.org/10.1007/s44244-023-00005-3. ↑
Shashank Nag, Gourav Datta, Souvik Kundu, Nitin Chandrachoodan, Peter A. Beerel: ViTA: A Vision Transformer Inference Accelerator for Edge Applications. 2023 IEEE International Symposium on Circuits and Systems (ISCAS). https://arxiv.org/abs/2302.09108v1. ↑