Numero 78 Registrazione al tribunale di Roma N° 3/2004 del 14/01/2004

Semantic Metadata Strategy

Aiutare le imprese ad aderire ai paradigmi del Semantic Web per diventare attori della Data Economy

di Luca Severini

 

Premessa

Intraprendere nell'Era Digitale significa aderire alle forme di economia che si manifestano all’interno del “nuovo mondo elettronico” formato dai computer e dalle reti: la Digital Economy.
Chi produce e commercializza beni e servizi reali, cioè oggetti materiali e servizi erogabili solo da umani o da strumenti meccanici, non può inquadrare completamente la propria attività all'interno di questa forma di economia, poiché essa è gravata dalla “fisicità” del prodotto. Tuttavia, queste imprese possono aderire parzialmente alla Digital Economy automatizzando quei processi che interessano le aree di comunicazione, marketing e vendita, poiché essi trattano informazioni, cioè beni immateriali, che si manifestano attraverso la loro rappresentazione digitale.
In generale, gli attori principali dell’economia digitale sono le cosiddette “Digital Content Company”, imprese “native digitali”, i cui beni sono puri “oggetti digitali”, beni cosiddetti “dematerializzati”.  


 
Le imprese che meglio aderiscono alla Digital Economy sono però quelle che trattano il bene primario dell'Era Digitale: i DATI. I dati sono infatti il vero “petrolio dell’Era Digitale”. E queste sono le imprese protagoniste di una forma di economia completamente sconosciuta in passato: la DATA ECONOMY.
La Data Economy è una particolare forma della Digital Economy in cui il valore viene prodotto grazie al “lavoro automatico dei computer”, e sostenuta da una comunicazione digitale “senza mediazione umana”.
Viene automatico dedurre che per ottenere questo risultato non sia possibile utilizzare le tecnologie sintattiche tradizionali. Esse infatti non offrono la possibilità di rendere i computer completamente autonomi nella scelta dei dati e dei servizi da utilizzare nei processi di automazione delle attività informative.
La Data Economy si manifesta e viene sospinta perciò non dalle Information Technologies, ma dalle Semantic Technologies. Esse sono nuove tecnologie progettate per offrire una rappresentazione della conoscenza sui dati e sui servizi secondo formalismi decidibili, ovvero utilizzabili dai computer per effettuare inferenze ed operare in modo automatico. Non più programmi che usano istruzioni per procedere, ma computer che usano conoscenza formalizzata per decidere come procedere. Questa conoscenza è contenuta all’interno di metadati semantici.
Grazie all’avvento di queste nuove tecnologie, anche il Web che ora conosciamo si sta trasformando in una versione più progredita, il Web 3.0.  Esso è un Semantic Web animato da automi capaci di porsi come medium tra le fonti informative e gli utilizzatori finali, sia essi umani che macchine, in cui la difficoltà di “trovare ciò che ancora non si conosce” sarà per sempre superata.
In questa prospettiva si inquadra il lavoro di Tim Berners-Lee che a fianco del Web dei documenti, il Web che oggi conosciamo, teorizzò la nascita di un nuovo Web: il Web dei dati. Esso trae le sue ragioni dall’uso nativo delle tecnologie semantiche per rappresentare la conoscenza sui dati esposti nel Web, affinché le macchine possano riuscire ad interpretarne univocamente il significato ed impiegare i dati in modo opportuno, senza intermediari umani, ovvero istruzioni preliminari. Dati comprensibili a tutti poiché la semantica fornita li descrive in modo univoco, tanto da renderli universalmente intelligibili e svincolati dalle lingue naturali.
L’idea alla base del Web dei dati è quindi la proiezione sul Web di tutti i dati contenuti all’interno dei Database. Un’idea concreta di World Wide Database, la “ultimate repository” di tutti i dati prodotti sulla Terra. 
Quanti più Dataset saranno resi pubblici sul Web dei dati, tanto più si potrà sviluppare la Data Economy. Una forma di economia in cui il computer non sarà più e solamente uno strumento dell’uomo, ma inizierà a diventare sempre più un soggetto autonomo, abile lavoratore capace di produrre valore e ricchezza dall’elaborazione automatica dei dati.   

Il valore dei dati

Chi produce dati possiede un “pozzo petrolifero dell’Era Digitale”.
In questa metafora, produrre dati e lasciarli in un Database è come produrre petrolio in superficie e immetterlo in un bacino minerario. Difficilmente si potrà sfruttare e trasformare l’attività produttiva in ricchezza. Favorire lo sfruttamento automatico dei dati prodotti, significa entrare nella Data Economy.
In questa prospettiva però, i dati devono essere “liberati” dai vincoli “sintattici” del Web dei documenti e offerti sul Web dei dati. Per fare questo è necessario:

  1. produrre i Dati,
  2. popolare i Database,
  3. estrarre i Dataset,
  4. fornirgli una semantica adeguata, 
  5. pubblicarli sul Web dei dati,

affinché chiunque possa:

  1. rintracciarli facilmente,
  2. coglierne il vero significato,
  3. comprenderne il “valore d’uso” nel proprio contesto,
  4. utilizzarli opportunamente per fini di business.

L’uso dei dati può essere libero, Linked Open Data, o a pagamento.
In questo secondo caso, sul Web dei dati sarà presente un “catalogo semantico” arricchito da tutta la conoscenza che possa far comprendere, oltre al significato, anche il valore d’uso dei dati posseduti.
Ecco un esempio pratico di un Dataset semantico che rappresenta un Catalogo di Pneumatici:

<owl:Ontology rdf:about="">
    <rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
    >&lt;p style="margin-top: 0"&gt;&#xD;
 L'ontologia ha lo scopo di organizzare le informazioni contenute nei due &#xD;
 cataloghi degli Pneumatici Trelleborg: il listino prezzi Giugno 2012 e la &#xD;
 brochure VisualFolder del 2011.&#xD; &lt;/p&gt;</rdfs:comment>
  </owl:Ontology>
  <rdfs:Class rdf:about="http://sw.opencyc.org/concept/Mx4rvVjB1pwpEbGdrcN5Y29ycA"/>
  <rdfs:Class rdf:about="http://live.dbpedia.org/page/Environmental_impact_assessment"/>
  <rdfs:Class rdf:about="http://live.dbpedia.org/page/Vehicle"/>
  <rdfs:Class rdf:about="http://live.dbpedia.org/page/Tractor"/>
  <rdfs:Class rdf:about="http://rdf.freebase.com/ns/en.tire"/>
  <rdfs:Class rdf:about="http://live.dbpedia.org/page/Tire"/>
  <rdfs:Class rdf:about="http://dbpedia.org/page/Forestry"/>
  <rdfs:Class rdf:about="http://live.dbpedia.org/page/Braking_distance"/>
  <rdfs:Class rdf:about="http://live.dbpedia.org/page/Saving"/>

Il soggetto interessato a un particolare Dataset esposto a listino, potrà selezionarlo, attivare una procedura d’acquisto automatica, così come avviene in tutte le transazioni di e-commerce, ed effettuare il download.
Però le imprese non offrono sul mercato solamente i dati, ma generalmente li compendiano anche con servizi correlati. Anche in questo caso è sempre possibile realizzare un catalogo sottoforma di un Dataset semantico adatto ad essere pubblicato sul Web del dati.
Tuttavia, proprio a causa della natura spesso complessa dei servizi, essi si prestano meglio ad essere “raccontati” all’interno di documenti, piuttosto che ad essere “rappresentati” all’interno di un Dataset contenente solamente dati essenziali.
Normalmente, cataloghi e listini sono realizzati sottoforma di documenti contenenti definizioni, spiegazioni e  dati. E i concetti illustrati attraverso immagini, animazioni, filmati, ecc. Questi documenti sono pubblicati generalmente sui siti Web delle imprese o in altri ambienti on-line, come ad esempio i Social Media e altri ambienti di comunicazione digitale, cioè nel Web dei documenti.
Trattandosi d’informazione commerciale, i dati contenuti in questo tipo di documenti sono di estremo valore per le imprese: la possibilità di diffondere facilmente questo tipo d’informazione è fondamentale per le attività di business.

 

Oltre ai dati, i metadati semantici

Nell’attuale Web dei documenti, servizi come i motori di ricerca rappresentano gli strumenti per risolvere il problema della rintracciabilità delle informazioni. Purtroppo però, motori come Google, Bing, Yahoo, etc., indicizzano i contenuti secondo metodi che tengono conto esclusivamente del lessico.
Termini contenuti nel testo e termini inseriti come metadati sintattici (tag), permettono ai motori di ricerca di creare cluster di documenti omogenei che si assomigliano al netto della probabilità introdotta dalla specificità degli algoritmi di indicizzazione impiegati. I motori di ricerca che conosciamo, producono perciò risultati secondo un modello statistico.  Ciò dipende dal fatto che tutte le tecnologie impiegate, anche le più sofisticate, si preoccupano di trattare la sintassi del codice, ovvero di trattare i dati secondo il loro “valore alfanumerico”.
Tutti gli sforzi dei produttori di siti web sono indirizzati a fare in modo che i risultati della ricerca effettuati per certi termini, mostrino le loro pagine web nella posizione più alta possibile (ranking). Il processo si chiama SEO (Search Engine Optimization).  Viceversa, i gestori dei motori di ricerca tendono a fare business costruendo dei meccanismi per cui solo chi acquista certi servizi possa godere di una “visibilità” migliore (Eg. ADWords).
Tutta la filiera si inquadra nell’ormai noto SEM – Search Engine Marketing.
I più grandi problemi di questo approccio alla “visibilità” sul Web sono:

  • rumore: all’aumentare dei contenuti pubblicati sul Web, i motori di ricerca producono enormi quantità di risultati
  • ambiguità: all’aumentare della complessità del soggetto di cui si pubblicano i contenuti sul Web, essi tendono a entrare in conflitto tra loro

Ciò si somma al problema “logico” della ricerca per keyword, cioè che se non si conosce già qualcosa di ciò che si va cercando, difficilmente si riesce ad effettuare una buona ricerca, poiché non si padroneggia il lessico che serve a rappresentare quel dominio di conoscenza. Vedere http://www.epistematica.com/2012/05/the-paradox-of-j-w-goethe/ 
Il Web dei dati sta però fornendo una nuova prospettiva verso la soluzione di questi problemi: anche il Web dei documenti si sta arricchendo di metadati semantici che permettono l’automazione dei servizi. In questa prospettiva, anche i motori di ricerca del Web non saranno più gli stessi.
Attualmente stiamo assistendo al lancio di alcuni interessanti servizi che vanno direttamente in questa direzione: Google ha lanciato Knowledge Graph; Facebook ha creato Search Graph; ecc. Questi servizi sfruttano metadati semantici costruiti secondo l’ Open Graph Protocol.
Il vantaggio offerto da questi nuovi servizi è sostanziale.
I nuovi motori di ricerca presentano i risultati in modo diverso, arricchiti da relazioni non lessicali che permettono a colui che effettua la ricerca di utilizzare la conoscenza contenuta nei metadati semantici. Ciò può accadere poiché chi costruisce un contenuto per il Web, di norma sa di cosa si sta occupando e quindi è sempre in grado di formalizzare la propria conoscenza utilizzando tecnologie semantiche e inserirla all’interno delle pagine Web sottoforma di metadati semantici.
Ecco un esempio di metadati semantici all’interno di una pagina Web, secondo l’Open Graph Protocol:
<meta property='og:locale' content='en_US'/>
<meta property='og:title' content='Thinking Knowledge as a Service - Epistematica'/>
<meta property='og:url' content='http://www.epistematica.com/'/>
<meta property='og:site_name' content='Epistematica'/>
<meta property='og:type' content='article'/>
<meta property='og:image' content='http://www.epistematica.com/wp-content/uploads/2012/04/products.png'/>
<meta property='og:image' content='http://www.epistematica.com/wp-content/uploads/2012/04/esa.gif'/>
Ecco infine un esempio in cui la ricerca su Google effettuata per il termine “Leonardo da Vinci” presenta sulla destra del browser risultati correlati http://bit.ly/147iHW6, non legati da forme lessicali ma semantiche, azionate da metadati semantici non dissimili a quelli mostrati sopra.

m.guerra x caos

Semantic Web

Un’organizzazione che intende diventare protagonista nella Data Economy deve necessariamente essere in grado di descrivere e formalizzare la propria conoscenza, padroneggiare le tecnologie semantiche, costruire il proprio compendio di metadati semantici. Aderire cioè ai paradigmi del Semantic Web.
Ciò non è facile ed intuitivo come usare un editor di testo o inserire dei semplici tag nelle pagine Web. E non è possibile contare su semplici competenze informatiche per poterlo fare.
Una buona descrizione della conoscenza implica non solamente la necessità di possedere ottime competenze nell’uso delle tecnologie per formalizzarla, ma anche e soprattutto un discreto livello di astrazione e cultura adeguata.  Le figure normalmente impiegate per questa attività sono i “Data & Knowledge Modeller”, umanisti con competenze in logica, capaci di descrivere la conoscenza e formalizzarla attraverso l’uso di tecnologie semantiche mediante costrutti complessi, adeguati a rappresentare dati e informazione.
Questa attività non può essere effettuata da tecnici con competenze informatiche poiché essi sono generalmente affetti da “vizio mentale” dovuto alla padronanza di strumenti tecnologici specializzati, come RDBMS e linguaggi di programmazione. Tale costrizione induce questi professionisti a una visione della realtà “filtrata” dalle stesse funzionalità degli strumenti tecnologici. Approccio inaccettabile dal punto di vista filologico che porta a risultati deludenti e spesso inconsistenti.
Dunque, un’organizzazione che intende aderire ai paradigmi del Semantic Web deve necessariamente essere in grado di creare tutti i costrutti semantici adatti a rappresentare se stessa sul Web, al fine di consentire ai nuovi servizi del Web 3.0 di utilizzarli in autonomia per mostrare dati e informazioni in modo coerente rispetto ai bisogni di comunicazione, marketing e vendita d’impresa. 
In pratica l’organizzazione deve attuare la propria “Semantic Metadata Strategy”.

Semantic Metadata Strategy

Le imprese sono ormai abituate a comunicare sul Web e considerano essenziale la presenza in rete. La loro complessità organizzativa è spesso rivelata dalla vastità del proprio sito Web che presenta numerose sezioni e grandi quantità di pagine e oggetti digitali. Spesso le imprese pubblicano diversi siti specializzati per le proprie esigenze di comunicazione, marketing e vendita. Sempre più spesso le imprese comunicano anche attraverso diversi sistemi on-line con lo scopo di coinvolgere meglio i propri clienti, formando comunità all’interno dei social network.
Per quanto riguarda i dati, le imprese sono portate a esporli in formato “row”, all’interno di documenti statici presenti sul proprio sito Web. Spesso creano applicazioni software che implementano interfacce Web ai propri Database. Esse permettono di costruire dinamicamente documenti che contengono dati e aggregazioni di essi in funzione di una selezione o di una ricerca testuale.
Tutta la comunicazione delle imprese è perciò imperniata nel Web dei documenti, l’attuale Web 2.0., un Web non ancora semantico e perciò affetto, come citato precedentemente, da endemici problemi di rumore e ambiguità. Tali problemi nascono proprio dalla complessità del modo con cui le imprese si presentano sul Web e dal modo in cui usano i servizi del Web 2.0.
La stragrande maggioranza delle imprese non usa ancora il Web dei dati. E non ha avviato nessuna politica per l’impiego di tecnologie semantiche per pubblicare i propri dati, e fornire ai propri documenti i metadati semantici necessari per far funzionare al meglio i nuovi motori di ricerca “semantici”.
Con il termine “Semantic Metadata Strategy” si intende perciò quel complesso di azioni necessarie alla progettazione della presenza on-line delle imprese, alla luce dell’affermarsi della natura “semantica” del Web.
Queste attività non mirano alla ristrutturazione dei singoli ambienti di comunicazione, ma si limitano a fornire una visione di più alto livello. A comporre un quadro in cui ogni servizio Web possa godere di una “visibilità” coerente rispetto agli obiettivi della comunicazione. A esplicitare uno scenario in cui l’identità, la reputazione e il “valore” dell’impresa perdano di ambiguità e vengano giustamente enfatizzati. A fornire una “semantica” d’impresa, tale che possa essere impiegata per creare il compendio di “metadati semantici” adatti a perseguire gli obiettivi di comunicazione desiderati.
Per ottenere questo, è necessario compiere diversi passi operativi:

  1. analizzare i servizi Web utilizzati, comprese le Banche Dati esposte sul Web, e i social media impiegati 
  2. realizzare l’ontologia dell’impresa, ovvero la rappresentazione del modo in cui l’impresa si presenta sul Web
  3. realizzare la “semantic metadata image” dell’impresa:
    1. partendo dall’ontologia d’impresa, servizio per servizio, creare il compendio di metadati semantici da inserire nelle pagine del Web dei documenti
    2. creare il compendio di metadati semantici per esporre i Dataset sul Web dei dati
  4. intervenire su dizionari, database, e servizi che pilotano il Semantic Web al fine di azionare correttamente i motori di ricerca semantici 

Al termine di queste attività i metadati semantici prodotti dovranno essere inseriti fisicamente all’interno dei sistemi che gestiscono i diversi servizi Web. Ne consegue una certa attività tecnico/informatica che dovrà essere effettuata dai gestori dei singoli servizi.           

Conclusioni

Per le imprese, aderire a questi nuovi paradigmi non è mai un’operazione banale. Spesso è travagliata, poiché contro intuitiva. A volte addirittura sconvolgente.
Ciò dipende essenzialmente dal fatto che l’approccio tradizionale alla formalizzazione e alla diffusione della conoscenza di poggia sull’impiego della grammatica delle lingue naturali: chi desidera trasmettere a terzi la propria conoscenza scrive generalmente dei documenti di testo. L’uso delle Information Technologies, e dei computer in genere, non ha modificato il paradigma: ha solo dematerializzato i supporti.
Invece, il nuovo approccio alla formalizzazione e alla diffusione della conoscenza si basa prevalentemente sull’uso dei costrutti della logica. L’impiego delle Semantic Technologies induce perciò l’uomo a ragionare in modo diverso, in modo “aristotelico”. Induce quindi ad utilizzare la logica che, a differenza delle lingue naturali, possiede la poderosa caratteristica di essere comune a tutto il genere umano. Ciò rappresenta un notevole progresso, che sconvolge vecchi schemi mentali ed abitudini consolidate, suscitando perciò forti forme di resistenza al cambiamento.
Tuttavia la strada è segnata, ineluttabile: ogni organizzazione dovrà necessariamente attrezzarsi, pena l’annichilimento.
La strada è stata ormai intrapresa dalle grandi organizzazioni come Google, Facebook, Twitter, Yahoo, ecc. Esse sono imprese nativamente digitali che aderiscono completamente ai paradigmi della Data Economy. E la centralità di questa nuova forma di economia emergente è rimarcata dal fatto che queste imprese siano ormai le compagnie più capitalizzate al mondo.
Aderire ai paradigmi del Semantic Web è obbligatorio!

 

 

Luca Severini: è la persona che ha coniato il termine “epistematica”. Nel dizionario italiano esiste il termine “epistematico” [deduttivo] impiegato come aggettivo maschile. Il sostantivo femminile “epistematica” è una nuova voce composta dai termini "epistème" [conoscenza] e "informatica" [trattamento automatico dell'informazione], che assume per analogia il significato di "trattamento automatico della conoscenza". L'Epistematica studia, crea e applica tecnologie che permettono ai calcolatori elettronici di simulare comportamenti intelligenti mediante processi inferenziali effettuati su apposite basi dati arricchite semanticamente, dette basi di conoscenza. Vedi anche http://it.wikipedia.org/wiki/Epistematico Luca Severini è il fondatore della società che prende come denominazione il termine da lui coniato. Epistematica Srl è l’impresa che per prima in Italia si è specializzata nell’applicazione delle tecnologie semantiche per la formalizzazione e il trattamento automatico di conoscenze.
luca@severini.org