Giancarlo Porcu Network Automation and Analytics, Senior Business Development, Italtel

La gestione di ogni infrastruttura complessa e in particolare di un’infrastruttura di telecomunicazioni richiede la presenza di organizzazioni dedicate e strutturate per gestire sia le attività operative e di manutenzione ordinarie, che preservano la continuità del servizio, sia le attività straordinarie relative al verificarsi di eventi che possono determinare importanti disservizi e che richiedono processi articolati per la loro gestione. In molti casi, inoltre, alcune organizzazioni operano separatamente dalle altre e la mancanza di integrazione tra dipartimenti e sistemi impedisce l’automazione di molti processi così che le aziende restano gravate da processi manuali, lenti e incoerenti (errori manuali, passaggi di consegne e problemi di coordinamento tra i team) che richiedono troppo tempo e causano ritardi nell’erogazione del servizio. Gli operatori telco possono risolvere queste difficoltà strutturali affrontando un percorso verso l’automazione di processo in modo da consentire alle organizzazioni aziendali di progettare, distribuire e amministrare l’automazione di soluzioni integrate di processo sia per le attività ordinarie sia per quelle straordinarie dotandosi degli appositi strumenti.

I tipi di attività e procedure in ambito operations si possono classificare in due categorie:

processi per attività ordinarie

processi per attività straordinarie.

Processi di operations ordinari

Sono attività ordinarie quelle relative ai processi di supervisione e monitoring dello stato dei sistemi, dei flussi di traffico e del corretto funzionamento della parte applicativa. Tra le attività routinarie si possono menzionare anche quelle relative a una serie di operazioni da eseguire su tutte le componenti dell’infrastruttura, la cui complessità gestionale cresce all’aumentare degli elementi e dei servizi implementati sull’infrastruttura stessa: alcune di queste attività sono i cambi release, gli aggiornamenti software, gli interventi di tipo hardware, l’allineamento delle configurazioni tra sistemi differenti, gli interventi di ripristino per nodi e link messi fuori servizio. Attività di questo tipo hanno una componente rilevante di ripetibilità e sono usualmente inserite in un processo di pianificazione interno all’organizzazione operativa.

L’esecuzione delle attività ordinarie segue infatti un processo predefinito che comprende la fase preparatoria, la composizione di squadre di intervento, le segnalazioni in anticipo di fuori servizio. Ciò implica il coinvolgimento di diverse figure operative che svolgono verifiche (di stato apparati, di anagrafica, di impatto su sistemi, informano gli operatori dei sistemi di supervisione, etc.), che devono essere superate prima di procedere con l’attività secondo una sequenza che tende a ripetersi simile a se stessa.

Anche la fase di chiusura dell’intervento richiede una serie di passaggi per aggiornare o chiudere ticket e comunicare il fine lavori a enti, ed eventualmente a clienti, interessati.

I processi descritti, principalmente in carico a diversi operatori umani, opportunamente analizzati e codificati, possono essere oggetto di automazione.

Un processo automatico, che emula quello manuale, è tipicamente costituito da una sequenza di task che presentano complessità differente in funzione del numero e tipo di sistemi coinvolti (molteplici sistemi da cui attingere informazioni diverse e spesso con interfacce diverse) e dalla numerosità e articolazione dei task (ad esempio ci sono situazioni in cui i task sono dei punti di decisione).

Un importante ausilio per la pianificazione e il tracking dei lavori programmati è ad esempio la disponibilità di un unico portale, una sorta di job scheduler, che provvede ad avviare e controllare l’esecuzione delle attività. Alcune possono essere interamente realizzate tramite un ininterrotto processo automatico, altre intervengono in maniera automatica solo in specifiche fasi, come ad esempio quella di start del processo, in cui vengono inviate mail di allerta agli operativi che devono realizzare effettivamente l’attività di manutenzione (o a chi deve essere semplicemente informato), e contestualmente viene gestita l’apertura proattiva di ticket.

Un esempio di processo automatizzato è quello relativo all’upgrade di release da realizzare su un insieme di nodi di rete che richiede la gestione della fase di comunicazione e preparazione, la messa fuori servizio dei nodi, l’esecuzione dell’operazione e il ripristino. Ciò si ottiene sviluppando il relativo workflow sulla piattaforma di gestione, lo sviluppo di interfacce specifiche con relative logiche verso i diversi sistemi coinvolti (Job scheduler, TTS, Controller della rete, etc.). La piena automazione che supporta l’intero processo può anche essere raggiunta in maniera progressiva in funzione del livello di disponibilità delle organizzazioni coinvolte.

Processi di operations straordinari

Accanto alle attività ordinarie vengono gestite anche quelle straordinarie, tipiche delle situazioni in cui si verificano importanti eventi di guasto sulla rete che possono creare disservizi rilevanti.

In questo caso occorre certamente predisporre un processo interno dedicato, ma non solo. Occorre anche gestire verso i clienti interessati la comunicazione dalla problematica che si è verificata in rete sia nella fase iniziale che nella sua evoluzione fino alla risoluzione.

Nella fase iniziale in cui vengono generati e ricevuti allarmi e segnalazioni, occorre indagare e capire quale sia la “causa prima” che ha poi generato a catena gli allarmi successivi. Tale attività di indagine richiede del tempo e l’analisi congiunta di più operatori.

Parallelamente occorre identificare i servizi e i clienti impattati dal problema in esame, se si tratta di clienti consumer oppure di tipo business e in questo caso il tipo di SLA (Service Level Agreement) che hanno sottoscritto. Questo richiede l’accesso e le verifiche del caso verso diversi sistemi, dal CRM al Network Inventory e altri. Necessariamente l’operazione non è istantanea e richiede tempo. In particolare, lo SLA con i diversi clienti guida anche il livello di escalation che seguono i processi operativi e la relativa comunicazione verso il cliente. Un’attività essenziale è l’organizzazione interna per la risoluzione del problema che si è manifestato, con l’identificazione delle figure specialistiche necessarie in funzione del tipo di problema. Pur appoggiandosi a piattaforme di supporto per il tracciamento dei progressi, come ad esempio una piattaforma di Trouble Ticketing, questa richiede sempre un’importante attività manuale anche per la semplice gestione del processo in sé (apertura, assegnazione, risoluzione e chiusura del ticket).

C’è poi il punto centrale relativo alle azioni da mettere in campo per circoscrivere il disservizio, bonificare la causa, testare il buon funzionamento della bonifica e infine ripristinare pienamente il servizio.

Le decisioni da prendere per il rimedio o per circoscrivere il disservizio devono basarsi su una serie di dati e misure, spesso residenti su sistemi diversi, di non facile sintesi e rappresentazione.

In questo ambito l’automazione raramente può sostituire l’intero processo manuale, in cui le decisioni chiave vengono prese dall’operatore, ma funge principalmente da supporto per un sottoinsieme di operazioni aggregabili in famiglie. Questo sia a causa dell’elevato numero di operazioni richieste dal processo sia per la complessità di alcune di queste (ad es. il decidere cosa fare per problemi particolarmente complicati).

Automazione di processo: esempi di attività automatiche

Esempi di attività automatiche a supporto possono essere la root cause analysis, che a partire dai diversi allarmi ricevuti li classifica e li correla identificando e suggerendo la causa primaria, costruita su logiche di classificazione proprie del machine learning. Oppure la presentazione delle misure più significative in forma aggregata che fungano da guida per le decisioni da prendere secondo una logica ad esempio di what if analysis. Un po’ come un navigatore che offre delle alternative rispetto al percorso da seguire per raggiungere un punto corredato dalle relative metriche.

In ultimo la gestione automatica delle notifiche verso il cliente che informano sullo stato di avanzamento nella risoluzione del problema è un altro esempio di procedure automatiche a supporto.

Naturalmente è verosimile che la catena automatica diventi sempre più completa con l’affinarsi delle tecniche di decisione e di affidabilità, e con l’aumento di confidenza che le Telco mostreranno verso questo tipo di transizione.

Conclusioni

Come descritto, nell’automazione di processo le procedure operative si differenziano tra quelle di normale gestione della rete e quelle da attuare in casi di eventi che impattano sul servizio erogato o in caso di gravi malfunzioni.

L’automazione di queste procedure può fruire della grande flessibilità offerta dallo sviluppo software che consente di ritagliare il giusto automatismo per le due situazioni: un automatismo che può sostituire l’intero processo nel primo caso, e più frequentemente fungere da supporto specifico per le situazioni che si presentano nel secondo caso.

In entrambe le situazioni i vantaggi sono molteplici e indubbi: miglioramento dell’efficienza operativa che consente di ridurre drasticamente i tempi di disservizio nelle varie situazioni ordinarie e straordinarie che è necessario gestire; avere una gestione molto più controllata e predicibile del funzionamento della rete e dei servizi, grazie a procedure eseguite in maniera standard e che limitano grandemente eventuali errori umani; ridurre i costi operativi per attività ricorrenti facilmente automatizzabili.