approfondimento

SWE-bench: cos’è la piattaforma che mette l’AI alla prova in ingegneria informatica

Addentriamoci in una piattaforma che si prefigge di standardizzare i test per il codice scritto dall’intelligenza artificiale. Uno strumento per valutare l’efficacia dei modelli nel trovare soluzioni a problemi di ingegneria del software

Pubblicato il 30 mag 2025

Aggiungi tra i preferiti su Google

Gioele Fierro

CEO e Founder Promezio Engineering

Le ultime iterazioni dei modelli generativi per il coding hanno ormai superato la nostra capacità di valutarli efficacemente. L’ingegneria del software diventa così una disciplina di frontiera, un banco di prova per comprendere e valutare le prossime generazioni di intelligenza artificiale.

L’impiego dell’AI nell’ingegneria del software solleva questioni critiche legate alla cybersecurity. Un codice generato o modificato da un’intelligenza artificiale, per quanto funzionale, potrebbe celare vulnerabilità inedite o ereditare debolezze dai dati di addestramento, esponendo i sistemi a rischi difficilmente prevedibili. La velocità con cui l’AI è in grado di produrre o alterare software impone quindi una capacità di validazione rigorosa, per prevenire la creazione involontaria di falle di sicurezza o, peggio, la loro introduzione deliberata tramite la manipolazione dei modelli stessi.

SWE-bench rappresenta una delle possibili vie percorribili per standardizzare questi processi di valutazione. Si tratta di un framework costituito da problemi di sviluppo software in Python, generati a partire da segnalazioni su GitHub. La risoluzione di tali problemi richiede una comprensione profonda di tutte le componenti del progetto, oltre a capacità di coordinamento per gestire modifiche estensive che comportano l’editing di sorgenti multipli.

@RIPRODUZIONE RISERVATA