Big data, sense

making e storytelling nell’era dell’intelligenza artificiale: il percorso dal dato grezzo al messaggio significante, dall’oggettivo al soggettivo, dall’osservazione all’interpretazione, dalla macchina all’uomo e viceversa.

 

I sistemi di tracciamento permettono di raccogliere una quantità di dati di ogni genere come mai era accaduto in precedenza. Ognuno di noi ogni giorno rilascia uno sciame di dati, dalle ricerche web al navigatore satellitare, dal bancomat alle immagini delle telecamere di sorveglianza, per non parlare delle informazioni che ogni giorno pubblichiamo sui social network. L’intelligenza artificiale permette di raccogliere e organizzare queste enormi quantità di dati, e di organizzarli in modo da trarne significati, previsioni, decisioni.

I dati appena raccolti sono grezzi e privi di significato. Per renderli utili devono essere selezionati, ordinati, organizzati, interpretati, visualizzati e spiegati. L’immagine mostra il percorso che da un insieme di dati grezzi arriva a qualcosa di comprensibile, di riconoscibile, di utilizzabile, come il mucchio di pezzetti di plastica che alla fine può diventare una casetta di bambola. Il percorso è comune a qualsiasi processo cognitivo, in cui si acquisiscono percezioni sensoriali che il cervello classifica e ordina fino a dar loro un senso. E’ come addentrarsi in un bosco, dove all’inizio le piante sono tutte uguali, ma a poco a poco si distinguono l’una dall’altra ed emergono frutti, fiori, tracce di animali, sentieri, radure, fino alla capanna della fatina buona. Vediamo dunque come si svolge il percorso che dal dato grezzo arriva al dato strutturato e significante.

Raccolta. Si comincia con la raccolta, fatta su un insieme composto da elementi che agiscono in un territorio per un certo periodo di tempo (un giorno, una settimana, un secolo). I dati vengono acquisiti con vari strumenti e formati, sono quantitativi o qualitativi, e vengono accumulati in un contenitore fisico o virtuale. La raccolta produce dati grezzi, ossia acquisiti e stivati così come arrivano.

Ordinamento. Alla raccolta segue l’ordinamento, fatto in base ad una tassonomia prestabilita, che decide se mettere da una parte le mele e dall’altra le pere, o se metterle insieme nel contenitore “frutta”. La tassonomia può ordinare i dati per tipologia, per grandezza, per colore, per età, ecc.

Organizzazione. Una volta separate le mele dalle pere, o la frutta dalla verdura, i dati vanno organizzati secondo una struttura più o meno complessa. La struttura può essere gerarchica, come un armadio che ha reparti e cassetti sempre più piccoli, o atonale, come una rete bi- o tri-dimensionale. I dati quantitativi vengono valutati secondo i criteri di misura più adatti, i dati qualitativi vengono quantificati (per esempio il livello di benessere o di soddisfazione di un gruppo di persone, espresso con una scala numerica). In base alla struttura ogni dato viene corredato di metadati che servono a collocarlo nel posto giusto. Per esempio in una biblioteca (struttura) il dato è un singolo libro, i metadati sono l’autore, il titolo, l’editore, la data di pubblicazione. Questi servono a collocare il libro nel posto che gli spetta, e a ritrovarlo quando se ne ha bisogno.

Visualizzazione. I dati strutturati possono essere presentati sotto forma di tabelle numeriche, che però sono di difficile lettura, o visualizzati con grafici a barre, a linee e a torta, con diagrammi di flusso, mappe, organigrammi. In tal modo un insieme più o meno complesso di dati può essere visualizzato con un colpo d’occhio che dà subito un’idea di quale sia il dato più importante o più interessante, secondo il punto di vista di chi fa la visualizzazione.

Narrazione. Infine, i dati organizzati possono essere raccontati, per diventare seducenti e convincenti. La storia crea un senso, una finalità, una direzione verso cui andare, e un significato che può essere etico (la morale della favola) o pratico (l’uccisione del drago e la liberazione della principessa).

Man mano che si va avanti, il percorso diventa sempre più soggettivo, in quanto si adatta alle esigenze di chi lo compie. Un mattone qualsiasi diventa così un insostituibile pezzo della propria casa. Da un lato questo è un bene, perché dati freddi e insignificanti si trasformano in storie avvincenti. Dall’altro però si va fatalmente verso visioni parziali del problema, senz’altro utili, ma limitanti. Basta tenerne conto, per ricordare che non siamo di fronte alla visione globale, ma solo ad un punto di vista che esclude o nasconde altri punti di vista.

Questo percorso avviene anche a livello mediatico: si parte dai dati, li si organizza in modo da trarne uno o più significati, ci si costruisce sopra una storia fatta di titoli, sommari, articoli, immagini, inchieste, che presenta l’insieme di dati a sostegno del punto di vista della testata o dell’autore.

Ancora ritroviamo il percorso nel problem solving, per esempio con lo strumento dei sei cappelli di De Bono. Si parte col cappello bianco – oggettivo, incolore e imparziale – per la raccolta dei dati, si procede con i cappelli giallo e nero per separare i dati favorevoli da quelli contrari, col cappello blu si organizza la strategia, col cappello verde si inventa la soluzione e la storia che la racconta in modo persuasivo, e col cappello rosso arriva ad emozionare, a spaventare o a rassicurare.

Si può utilizzare il percorso anche in senso inverso, partendo dalla storia o dalla tesi che si vuole sostenere, e cercando e organizzando i dati che servono a renderla credibile. E’ quanto si fa con la comunicazione manipolatoria, semplificando al massimo per esempio quando si dice che i ristoratori non trovano personale per colpa del reddito di cittadinanza (la storia) e si vanno a cercare dati per sostenere la tesi, o si omette di cercarli quando sono contrari, come accade nel caso specifico.

E’ importante considerare che man mano che si procede dal dato verso la storia, aumenta l’interpretazione soggettiva. Già al momento della raccolta si può decidere quali e quanti dati raccogliere, dove prenderli, per quale periodo di tempo, chi e come li deve raccogliere. L’ordinamento richiede una classificazione che deriva da un sistema di pensiero. Quando c’è da mettere in ordine una quantità di libri, è ben diverso se lo fa un addetto alle pulizie, un ingegnere o un bibliotecario. L’organizzazione dipende dalle strutture che scelgo e dagli obiettivi che mi pongo. Potrei organizzare i dati in ordine alfabetico, o cronologico, o per importanza, o per genere. Potrei creare contenitori grandi che contengono contenitori più piccoli, come un sistema gerarchico di cartelle informatiche, oppure una rete in cui le relazioni sono più importanti dei nodi. In base ad una mia scala di valori posso decidere quali siano i dati più importanti, quali invece vadano addirittura trascurati o eliminati. La visualizzazione è ancora più personalizzante. Scegliendo il tipo di grafico posso decidere di mettere in evidenza gli elementi più importanti o le tendenze più marcate, e posso usare scale diverse per evidenziare fenomeni che altrimenti sarebbero poco rilevanti. Per esempio, in una mappa topografica possiamo decidere se rappresentare solo le strade e le città, o anche rilievi, vegetazione, produzione industriale, sismicità, e così via. Infine la storia è il significato ultimo che voglio comunicare o nascondere, la tesi che voglio dimostrare o confutare, la spiegazione chiarificatrice di un evento, o la manipolazione volta ad intorbidire le acque. Dallo stesso dato di partenza si possono trarre storie diverse e perfino opposte. Quando Renoir fu biasimato per l’immoralità di un suo quadro raffigurante una donna in déshabillé di fronte ad un uomo in abito da sera, disse: “No, la signora sta finendo di vestirsi per uscire col marito a festeggiare il loro anniversario di matrimonio”. E aggiungeva che l’immoralità è nell’occhio di chi guarda.

Le cose si complicano quando all’intelligenza umana si aggiunge l’intelligenza artificiale, essenziale quando la quantità dei dati è tale da superare la capacità umana di elaborarli. In che modo l’uomo collabora con la macchina? Come ha sempre fatto. Ponendo domande. Fin dall’antichità l’uomo interroga il cielo, il volo degli uccelli, le viscere degli animali, per ottenere risposte alla sue domande. Oppure osserva come crescono gli alberi, come camminano gli animali, come la corrente del fiume trasporta tronchi d’albero e imbarcazioni, e  fa domande, pone problemi che risolve in modo sempre meno approssimativo e impreciso. Le domande non servono solo a sapere, servono ad avere, ad ottenere benefici tangibili, risposte concrete. Ai campi si chiedono cereali e ortaggi, agli alberi legname e frutta, agli animali carne e lavoro, al fiume di azionare mulini e gualchiere. E si arriva così all’automazione, a macchine che fanno da sole cose che prima richiedevano l’intervento umano, che eseguono compiti come regolare la temperatura con un termostato, che producono cose come le catene di produzione meccanizzata.

Ma oggi all’automazione si è aggiunta l’informazione, il controllo numerico, i robot, le macchine che apprendono. La macchina automatica esegue un compito nel modo prestabilito, la macchina informatizzata applica un algoritmo di risoluzione di un problema e produce un output altrettanto prestabilito, la macchina intelligente migliora i suoi algoritmi di soluzione apprendendo dall’esperienza, ossia dalla crescente acquisizione ed elaborazione di dati, e produce output sempre più evoluti.

Il percorso dall’input (richiesta, dato grezzo) all’output (risposta, dato elaborato) è simile a quello degli impulsi nei neuroni del cervello biologico, ed è rappresentato dallo schema di una rete neurale, dove un input attraversa una serie di livelli di elaborazione che lo trasformano combinandolo con altri input, fino a produrre l’output a valle del percorso. La rete si arricchisce man mano che entrano altri input, e in tal modo la macchina apprende. Ne facciamo esperienza con Amazon o Netflix che imparano i nostri gusti e ci suggeriscono titoli che potrebbero piacerci sempre di più.

Lo schema che segue rappresenta un processo decisionale con supporto di data intelligence e data mining. Procedendo dal basso in alto osserviamo la progressiva riduzione di quantità di dati che si aggregano in cluster informativi da cui si traggono modelli che portano alla conoscenza, e quindi alla decisione, aumentando l’utilità dell’informazione, e quindi il suo valore. L’uomo può limitarsi ai due livelli più alti, knowledge e decision making.

Anche in questo caso si va verso la soggettività, perché le decisioni sono per forza di cose scelte parziali e limitanti, prese in base a conoscenze incomplete e condizionate dall’emotività e dalla personalità del decisore, anche se le conoscenze possono essere il risultato di elaborazioni sempre più potenti e accurate.

I livelli di elaborazione possono tendere ad arricchire i particolari con modelli sempre più complessi e particolareggiati, o procedere in senso inverso, semplificando verso modelli più poveri. A seconda del tipo di problema da risolvere può essere più utile andare in un senso o nell’altro. Se si vuole avere una visione generale della struttura, si arriva al primo triangolo a sinistra. Oppure si può andare ad approfondire per prendere in considerazione i piccoli triangoli che frastagliano il profilo della forma complessa di destra. Le macchine che apprendono compiono più volte questo percorso nei due sensi, aggiungendo la sintesi o l’analisi alle operazioni di classificazione, ordinamento e organizzazione viste più sopra.

Le macchine intelligenti possono sia produrre output compiuti e utilizzabili, sia fornire supporto a decisioni e comportamenti umani. Ma anch’esse nell’elaborazione dei dati risentono delle idee, a volte dei pregiudizi, di chi le ha progettate e costruite. E’ stato rilevato che l’algoritmo della guida automatica di un’auto Tesla è per il 5% meno attento ad evitare pedoni neri rispetto ai bianchi. E l’apprendimento automatico potrebbe rinforzare queste tendenze, invece di correggerle.

 

 

Ecco alcuni link alle rispettive voci del mio “Atlante di Problem Solving” che trattano gli argomenti di questo articolo.

Che cosa sono i dati? E i metadati? http://www.umbertosantucci.it/atlante/dati/

Che cos’è un data MART? http://www.umbertosantucci.it/atlante/data-mart/

Come il data mining costruisce i modelli di analisi di dati? http://www.umbertosantucci.it/atlante/data-mining/

Che cos’è un magazzino di dati, o data warehouse? http://www.umbertosantucci.it/atlante/data-warehouse/

Quali sono gli otto tipi di data intelligence? http://www.umbertosantucci.it/atlante/data-intelligence/

Che differenza c’è fra machine learning e deep learning? http://www.umbertosantucci.it/atlante/deep-learning/

Come si possono prendere decisioni proattive col supporto di EIS ed ESS? http://www.umbertosantucci.it/atlante/eis-e-ess/