La Commissione europea ha da poco adottato (29 novembre 2022) la “Strategia europea sui droni 2.0 (Drone Strategy 2.0)”, che delinea una visione per l’ulteriore sviluppo del mercato europeo dei droni. I velivoli a pilotaggio remoto (dall’inglese unmanned aerial vehicles, UAV), comunemente noti come droni, sono sempre più utilizzati in molti settori, dalle consegne rapide alla videosorveglianza e al monitoraggio aereo. La loro crescente popolarità è dovuta principalmente alla disponibilità commerciale di un’ampia varietà di droni, anche a prezzi molto bassi. Inoltre, alcuni di questi sono dotati di videocamere e GPU integrate, economiche ma potenti, che li rendono eccellenti piattaforme per strumenti decisionali. Infatti, queste capacità sensoristiche e di calcolo, combinate con i recenti progressi nel Deep learning e nella computer vision, offrono ora la possibilità di implementare sistemi di AI direttamente a bordo del drone, rendendolo letteralmente un dispositivo di “AI volante”. Queste direzioni di ricerca, che rientrano in quella che comincia a essere conosciuta come Drone vision.
Ciò dischiude l’opportunità di automatizzare compiti che richiedono ancora un intenso sforzo umano e apre anche uno scenario in cui il volo del drone è completamente autonomo.[1] Molte applicazioni potrebbero trarre vantaggio dall’uso dei droni, in quanto questi possono fornire un’alternativa a basso costo alle metodologie tradizionali. In effetti, lo sviluppo di servizi basati su velivoli senza pilota può contribuire in modo significativo alla duplice transizione dell’UE verso un’economia verde e digitale.
Droni e computer vision
Presso il Laboratorio di Intelligenza Computazionale del Dipartimento di Informatica dell’Università degli Studi di Bari Aldo Moro, gli autori di questo articolo hanno sinora condotto ricerche sullo sviluppo di soluzioni di Deep learning e computer vision lungo due direzioni: il rilevamento di persone/folle da droni per garantire un atterraggio sicuro e lo stesso compito per dare supporto alle missioni di salvataggio. A queste ricerche viene data la denominazione di Drone vision.
Come tutte le innovazioni di frontiera, tali prospettive, per quanto affascinanti, non sono esenti da limiti e sfide. Da un lato, gli algoritmi di computer vision applicati alle immagini aeree sono gravati da ulteriori difficoltà perché i tipici problemi di scala e prospettiva sono portati all’estremo. Dall’altro lato, i metodi comunemente applicati in questo campo, sofisticati e ad alta intensità di calcolo, devono soddisfare i requisiti computazionali spesso stringenti imposti dagli UAV (principalmente, batteria limitata e necessità di risposte in tempo reale). In altre parole, diventa fondamentale trovare il miglior compromesso possibile tra l’efficacia e l’efficienza dei sistemi di AI, in particolare nelle riprese aeree.
Un’altra sfida è la necessità di una maggiore quantità di dati di benchmark su larga scala, la cui assenza ostacola lo sviluppo e la valutazione degli algoritmi progettati per funzionare sui droni. Ciò è dovuto alle difficoltà intrinseche nella raccolta e nell’annotazione dei video ripresi dai droni, nonché alle normative legali che, soprattutto nell’UE, sono severe e, ad esempio, obbligano i droni a rimanere a una specifica distanza orizzontale (variabile) dalle persone. Data l’urgente necessità di tali benchmark, di recente sono stati proposti alcuni dataset e competizioni, come VisDrone.[2]
Drone vision: atterraggio sicuro
Come già detto, in molti Paesi, tra cui l’Italia, il sorvolo dei droni su assembramenti di persone è comunemente vietato. Pertanto, aree riservate sono tipicamente determinate in base a condizioni specifiche. Tuttavia, problemi imprevisti, come condizioni meteorologiche avverse, possono portare a operazioni pericolose, compresa la possibilità di tentare un atterraggio d’emergenza in aree in cui si radunano persone. Inoltre, può essere utile svincolare i velivoli da rigidi divieti nei loro piani di volo, pur mantenendo un “occhio” sulla situazione del terreno sottostante. Questo è particolarmente importante per i droni completamente autonomi, che, come detto, sembrano essere la prossima generazione di droni. Per questo motivo, possono essere utili meccanismi automatici che dotino i droni della capacità di distinguere tra percorsi “sicuri” e percorsi “rischiosi”, dimodoché i piani di volo possano essere adattati in modo appropriato.
Per fornire una soluzione a questo problema, il gruppo di ricerca lo ha affrontato come un compito di “classificazione binaria” volto a distinguere tra scene “affollate” e “non affollate”.[3] In particolare, è stato progettato e sviluppato un modello di Deep learning basato sulle cosiddette Fully-Convolutional Network per ridurre il carico computazionale mantenendo prestazioni accettabili. Questo modello si è in effetti rivelato adatto ai requisiti real-time dell’applicazione perché notevolmente efficiente. Sfruttando un metodo di explainable AI,[4] il modello sviluppato consente anche di estrarre una mappa di calore che enfatizza le regioni dell’immagine in cui la rete neurale ha maggiore confidenza sulla presenza di folla. Tali mappe di calore possono essere utilizzate per arricchire in modo “semantico” le mappe di volo e localizzare al meglio le aree sicure. Figura 1 mostra esempi di mappe di calore prodotte in output dal sistema di explainable AI sviluppato.
Figura 1. Esempi di mappe di calore prodotte come output. Le regioni più scure sono quelle in cui il modello è più sicuro dell’assenza di persone e quindi possono rappresentare aree più sicure su cui atterrare se strettamente necessario.
Drone vision: supporto a missioni di soccorso
Le missioni di soccorso mirano a cercare persone in difficoltà o in pericolo imminente. Tali operazioni devono essere svolte il più rapidamente possibile, poiché qualsiasi ritardo può aggravare la situazione o addirittura provocare la perdita di vite umane. Inoltre, gli ambienti in cui esse si svolgono sono spesso ostili, come scenari post-catastrofe, situazioni di scarsa illuminazione, aree inaccessibili e così via. In questo contesto, i droni sono sempre più utilizzati come strumenti di supporto tecnologico. Infatti, essi possono sorvolare rapidamente regioni difficili da raggiungere, come montagne, isole e deserti, coprendo vaste aree in poco tempo. Possono consegnare attrezzature di soccorso, come i medicinali, molto più velocemente delle squadre di soccorso. Inoltre, rispetto ai classici elicotteri utilizzati per questi scopi, i droni possono volare al di sotto dell’altitudine tipica del traffico aereo, hanno costi inferiori, risposte più rapide e, come detto, possono avvicinarsi molto di più all’area di interesse.
I droni sono già utilizzati con successo in ambito umanitario. Tuttavia, il rilevamento di persone nelle immagini riprese durante i voli di ispezione è ancora una sfida per gli operatori umani. In primo luogo, è necessaria una lunga concentrazione per eseguire contemporaneamente le operazioni di volo e di ricerca. In secondo luogo, gli operatori lavorano spesso in condizioni precarie, soprattutto a causa delle dimensioni tipicamente ridotte del monitor di cui sono dotati e della luminosità dello schermo monitorato dall’operatore all’aperto. Pertanto, sarebbe utile se il processo di ispezione fosse supportato da modelli di IA in grado di suggerire o rilevare potenziali esseri umani nell’immagine. In questi casi, a differenza del rilevamento della folla, è essenziale disporre di un modello che non si limiti a una stima anche approssimativa della densità della folla, ma che sia in grado di rilevare con precisione anche un singolo individuo nella scena. A tal fine, abbiamo sperimentato modelli cosiddetti di object detection, come le recenti versioni di YOLO.[5] Gli esperimenti hanno dimostrato prestazioni competitive nel rilevamento delle persone rispetto allo stato dell’arte.[6] In particolare, la velocità di rilevamento consente di individuare rapidamente le persone, garantendo così una rapida organizzazione dei soccorsi. Questo aspetto è importante anche per mitigare gli errori che possono essere commessi con questi metodi giacché, data l’elevata frequenza dei fotogrammi, un rilevamento mancato può comunque essere recuperato in un fotogramma successivo in tempi molto brevi. La figura 2 mostra esempi di rilevamento di persone.
Figura 2. Esempi di rilevamento di persone. Come si può notare, sono state sperimentate scene ad alta quota in cui a volte è difficile rilevare le persone, anche a occhio nudo. Ciononostante, il modello di Computer Vision si è dimostrato efficace (oltre che efficiente).
Droni, ricerca attuale e sviluppi futuri
Oltre alle attività di ricerca sopra descritte, il gruppo di ricerca sta esplorando altre direzioni. Una di queste è il rilevamento dei “flussi” di una folla. Invece di considerare il rilevamento della folla o una stima della sua densità in fotogrammi statici, il rilevamento del flusso pone una nuova sfida in quanto l’obiettivo non è solo quello di riconoscere la presenza di persone in una singola scena ad alta quota, ma anche di determinare come una folla si muove in funzione del tempo. Un tale modello potrebbe consentire l’implementazione di sistemi utili nel contesto della smart city, in quanto potrebbe consentire un’analisi del comportamento della folla per migliorare la logistica urbana e la prevenzione dei disastri. In uno studio preliminare, gli autori hanno sperimentato un approccio a più fasi basato sulla stima della densità della folla e sul successivo raggruppamento delle mappe di calore risultanti.[7] Tuttavia, pur essendo efficace, questo approccio si è rivelato troppo oneroso dal punto di vista computazionale. La sfida consiste nell’integrare le varie fasi del processo in un unico modello.
Una seconda direzione riguarda lo sfruttamento delle lezioni apprese e il loro perfezionamento in un altro dominio applicativo che ha attirato una crescente attenzione negli ultimi anni: l’agricoltura di precisione. Infatti, il settore agricolo utilizza sempre più spesso satelliti civili, robot da campo autonomi e, soprattutto, droni.[8] In particolare, gli UAV stanno diventando un’alternativa sempre più preferita al telerilevamento satellitare perché possono svolgere compiti come l’elaborazione delle immagini, la navigazione e la raccolta dei dati in modo più semplice, economico e veloce. I dati acquisiti, a seconda del sensore montato sul drone, possono variare da semplici immagini RGB a dati multispettrali o persino iperspettrali. Anche in questo caso, queste capacità sensoristiche possono essere sfruttate con metodi di Deep learning e computer vision per eseguire compiti di agricoltura di precisione in tempo reale, come il rilevamento di erbe infestanti, l’identificazione delle piante, il rilevamento di parassiti e il monitoraggio dei nutrienti. In particolare, il gruppo di ricerca sta ora lavorando al rilevamento automatico delle erbe infestanti,[9] che rappresenta un problema molto sentito anche in Italia. Modelli efficienti ed efficaci possono portare l’agricoltura di precisione a un livello superiore, riducendo le attività guidate dall’uomo per costruire sistemi automatizzati, ma anche affrontare le sfide della produzione agricola in termini di produttività, impatto ambientale e sostenibilità.
Conclusioni
In conclusione, lo sviluppo di applicazioni di Drone Vision efficaci, efficienti e sicure può aumentare la fiducia in questa tecnologia, con la prospettiva di allentare alcune norme e diffonderne l’uso. Mentre questo articolo viene scritto, un’analoga rassegna dei risultati dell’attività di ricerca qui riassunta sarà presentata alla 21ª conferenza internazionale dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA 2022), la cui comunità è da sempre particolarmente attenta a simili tematiche.
Note
- Akbari, Y., Almaadeed, N., Al-Maadeed, S., & Elharrouss, O. (2021). Applications, databases and open computer vision research from drone videos and images: a survey. Artificial Intelligence Review, 54(5), 3887-3938. ↑
- Ding, J., Xue, N., Xia, G. S., Bai, X., Yang, W., Yang, M. Y., … & Zhang, L. (2021). Object detection in aerial images: A large-scale benchmark and challenges. IEEE transactions on pattern analysis and machine intelligence, 44(11), 7778-7796. ↑
- Castellano, G., Castiello, C., Mencar, C., & Vessio, G. (2020). Crowd detection in aerial images using spatial graphs and fully-convolutional neural networks. IEEE Access, 8, 64534-64544. ↑
- Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017). Grad-CAM: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE international conference on computer vision (pp. 618-626). ↑
- Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). ↑
- Caputo, S., Castellano, G., Greco, F., Mencar, C., Petti, N., & Vessio, G. (2022). Human Detection in Drone Images Using YOLO for Search-and-Rescue Operations. In International Conference of the Italian Association for Artificial Intelligence (pp. 326-337). Springer, Cham. ↑
- Castellano, G., Mencar, C., Sette, G., Troccoli, F. S., & Vessio, G. (2022, July). Crowd Flow Detection from Drones with Fully Convolutional Networks and Clustering. In 2022 International Joint Conference on Neural Networks (IJCNN) (pp. 1-8). IEEE. ↑
- Puri, V., Nayyar, A., & Raja, L. (2017). Agriculture drones: A modern breakthrough in precision agriculture. Journal of Statistics and Management Systems, 20(4), 507-518. ↑
- Sa, I., Popović, M., Khanna, R., Chen, Z., Lottes, P., Liebisch, F., … & Siegwart, R. (2018). WeedMap: A large-scale semantic weed mapping framework using aerial multispectral imaging and deep neural network for precision farming. Remote Sensing, 10(9), 1423. ↑