|
|
Verso l'interoperabilità semantica
Oreste Signore
1.Introduzione
Condividere la conoscenza sul Web significa poter disporre di strumenti
e tecnologie che consentano di esprimere i contenuti, strutturarli e
presentarli in modo adeguato, rendendone esplicita la semantica e consentendo
la fruizione dell’informazione a tutti, indipendentemente dal particolare
retroterra culturale e dal contesto tecnologico.
Nel settore dei beni culturali, in cui coesistono tradizioni e impostazioni
culturali ben radicate e difficilmente modificabili, è importante
raggiungere l’interoperabilità semantica, abbattendo le
differenze culturali, senza imporre a nessuno di rinunciare alle proprie.
Questa problematica sembra trovare possibili soluzioni nel contesto dell’attività di
ricerca nota come semantic Web, che coagula competenze e interessi diversi,
perseguendo l’obiettivo di realizzare un Web in cui assume grande
rilevanza l’interazione tra macchine, e le informazioni, arricchite
da metadati, possono essere utilizzate in maniera più efficace
da agenti software intelligenti.
2.Le esigenze
2.1. La specificità del settore dei beni culturali
Una caratteristica essenziale del settore dei beni culturali è l’approccio
altamente multi e interdisciplinare. Gli oggetti culturali non sono entità isolate,
ma ogni informazione va posta nel suo contesto spaziale, temporale e
culturale, secondo paradigmi associativi basati su spazio, tempo e relazioni
semantiche tra concetti, e talvolta su loro combinazioni. Gli approcci
comunemente adottati in altri ambienti applicativi non sempre sono adeguati.
Per esempio, l’aspetto temporale ha una valenza particolare, in
quanto sia la geografia che il significato di alcuni termini possono
essere variati nel tempo, e molte date sono note con approssimazione,
a volte, anche di secoli, per cui occorre definire un’adeguata
algebra temporale che permetta di gestire correttamente le date (puntuali
o durative), il loro ordinamento e le eventuali sovrapposizioni o disgiunzioni
di intervalli temporali.
Inoltre, il dominio dei beni culturali è caratterizzato dalla
transnazionalità delle informazioni. Gli artisti possono essere
noti, nei vari paesi, con nomi diversi, esattamente come accade con i
toponimi. Questi problemi rendono particolarmente delicata la realizzazione
di siti multilingue, che non sono banalmente interfacce con comandi in
varie lingue, ma sistemi capaci di adattarsi a culture e conoscenze diverse1,
per le quali anche elementi informativi che appaiono banali possono essere
del tutto incomprensibili o semanticamente ambigui2.
In un settore così semanticamente ricco, in cui convivono e devono
interoperare persone con tradizioni culturali solide e diverse, è praticamente
impossibile riuscire a definire un modello di rappresentazione unico.
Infine, ma non ultimo per importanza, gli utenti di un sito web culturale
sono persone dalle più svariate competenze e con interessi molto
diversi, ed è necessario potersi adattare alle diverse tipologie
di utente, fornendo supporti per la comprensione delle informazioni,
o informazioni a diverso livello di dettaglio, o interazioni di tipo
diverso3.
2.2.Knowledge management e ricerca di informazioni
Due processi essenziali nel knowledge management sono, da un lato, la
possibilità di reperire le fonti di conoscenza rilevanti per il
problema specifico, e, dall’altro, fornire le fonti di conoscenza
da utilizzare per risolvere i problemi. Schematicamente, possiamo individuare
cinque processi: acquisizione, rappresentazione, elaborazione, condivisione
e utilizzo della conoscenza. Il Web, e in particolare il semantic Web,
che ne è la naturale evoluzione, costituisce un formidabile componente
per supportare gran parte di questi processi. Un elemento significativo è che
la conoscenza codificata nel semantic Web è rappresentata in maniera
elaborabile dalla macchina, e quindi può essere utilizzata da
componenti automatizzati, denominati agenti software.
La ricerca di informazioni è uno dei principali punti deboli
del Web, nonostante il gran numero di motori di ricerca esistenti, che
sono poveri di semantica sia in fase di indicizzazione che in fase di
ricerca. In fase di ricerca viene consentito di combinare le parole con
operatori di contesto (“tutte le parole”, “una parola
qualunque”, “nel titolo”), ma in definitiva il risultato
scaturisce sempre da una ricerca sulla presenza di parole chiave e dall’identificazione
dei documenti più affini alla domanda posta.
L’esistenza di proposizioni più ricche dal punto di vista
espressivo permette invece agli utenti di ritrovare in maniera più facile
ed efficace le informazioni necessarie. Tra l’altro, la presenza
di queste proposizioni condizionali consente di indicizzare le risorse
esistenti sul Web in maniera più ricca rispetto al metodo tradizionale
di associare alle risorse parole chiave o concetti. Diventa allora possibile
formulare richieste più sofisticate, migliorando sia la precisione
delle risposte ottenute che il richiamo dei documenti pertinenti. Giusto
a titolo di esempio, in assenza di questo tipo di arricchimento una query
che richiedesse la restituzione di tutti i documenti in cui compaiono
le parole chiave:“Giulio II” AND “Michelangelo” restituirebbe
sia i documenti che descrivono opere/eventi in cui Giulio II è committente
di un’opera di Michelangelo che quelli in cui Giulio II è soggetto
rappresentato in un’opera di Michelangelo.
3.Le ontologie
Nell’organizzare le informazioni, si ricorre spesso al meccanismo
della classificazione. Tale meccanismo può presentare diversi
problemi, derivanti essenzialmente dalle differenze di dominio, terminologia,
scelta e diverso significato delle varie caratteristiche ritenute importanti,
differenze tra le relazioni più significative.
È importante distinguere le ontologie dai meccanismi di classificazione.
Questi ultimi prestano attenzione alle esigenze di accesso all’informazione,
basato su criteri predeterminati codificati mediante elementi sintattici.
Le ontologie, invece, si concentrano sul significato dei termini e su
natura e struttura di un dominio. Ne deriva che i problemi essenziali
sono sostanzialmente quello della corrispondenza semantica (semantic
matching) e dell’integrazione semantica.
Sono spesso importanti anche sottili differenze tra le diverse terminologie,
e la definizione di vocabolari standard non è la soluzione al
problema: essi sono il risultato di un’impresa lunga e difficile,
non sempre si adattano bene, soprattutto in presenza di domini di conoscenza
eterogenei, e, infine, non sempre vengono utilizzati in maniera corretta.
Un’ontologia, almeno nel senso in cui questo termine viene impiegato
nel settore informatico, è un oggetto specifico, progettato per
esprimere il senso inteso (intended meaning) di un vocabolario. Una caratteristica
importante di un’ontologia è il suo livello di precisione,
cioè il modo in cui è in grado di esprimere i concetti
in maniera non ambigua. Una buona ontologia è in grado di esprimere
un concetto con un buon grado di copertura e di precisione rispetto al
modello inteso. Il livello di formalizzazione dei concetti, e quindi
di precisione ontologica, cresce a mano a mano che si passa da cataloghi,
glossari, tassonomie (sistemi di classificazione in cui i termini sono
in relazione gerarchica, come in Iconclass), a tesauri (vocabolari controllati
strutturati in modo da evidenziare le relazioni semantiche tra termini
e concetti, come AAT) o, infine, a teorie assiomatizzate [DigiCULT].
In un contesto ampio e decentralizzato come quello del patrimonio culturale
e del Web, assume una particolare importanza l’integrazione dell’informazione.
In questo processo risulta essenziale il ruolo giocato da una core ontology,
il cui obiettivo è fornire un modello globale ed estensibile in
cui possono essere messi in corrispondenza e integrati i dati provenienti
da fonti eterogenee. Questa forma canonica è in grado di fornire
una singola base di conoscenza per strumenti e servizi cross-domain (resource
discovery, browsing, data mining). L’esistenza di un unico modello
riduce la complessità combinatoria che deriverebbe dal tentativo
di mettere in corrispondenza a due a due i singoli formati di metadati
o le ontologie.
La distinzione [Doerr 2003] tra una core ontology e la definizione di
core metadata (come Dublin Core) è sottile ma importante. Pur
essendo entrambe finalizzate all’integrazione dell’informazione,
esse differiscono per quanto concerne l’importanza attribuita alla
comprensibilità da parte di un lettore umano. I metadati sono
compilati e utilizzati principalmente da esseri umani, mentre una core
ontology è un modello formale utilizzato da strumenti che provvedono
all’integrazione di varie fonti di dati e svolgono varie altre
funzioni. Di conseguenza, mentre i fattori umani, e principalmente la
leggibilità, costituiscono un elemento cardine nella definizione
dei core metadata, una core ontology può accettare un livello
di complessità maggiore, privilegiando la completezza e la correttezza
logica rispetto alla comprensibilità umana.
Un interessante esempio di core ontology è CIDOC-CRM, costituita
da circa 80 classi e 130 relazioni, che si pone come modello di riferimento
per il patrimonio culturale e per altri contesti, e consente di supportare,
ad esempio, il ragionamento spaziale e quello temporale [CIDOC].
4.Il (semantic) Web
Il Web, essendo un’applicazione costruita su Internet, ne ha ereditato
i principi informatori: interoperabilità, evoluzione (apertura
alle tecnologie emergenti) e decentralizzazione (senza dubbio il principio
più nuovo e difficile da applicare).
Due applicazioni sono interoperabili se si possono scambiare dati e
servizi in modo efficace e consistente, permettendo la comunicazione
tra piattaforme hardware e software eterogenee. Tuttavia, l’interoperabilità non è un
aspetto meramente tecnologico. Bisogna tenere presenti le differenti
culture e il diverso modo di percepire i concetti, quindi occorre considerare
non solo l’interoperabilità tecnologica, ma anche quella
semantica.
4.1. I metadati
Nel navigare sul Web, si seguono dei link, che portano a quella che
formalmente viene detta risorsa (resource) identificata univocamente
da un URI4. Le informazioni sulla risorsa5 vengono generalmente dette
metadati. Si può quindi dire che i metadati sono informazioni,
comprensibili dalla macchina, relative a una risorsa web o a qualche
altra cosa. Il punto chiave è il fatto che i metadati sono comprensibili
dalla macchina (machine understandable) e quindi costituiscono un tipo
di informazione che può essere utilizzata in maniera opportuna
dai software agent.
Va tenuto presente che i metadati sono dati, e quindi possono essere
memorizzati come dati e essere descritti da altri metadati, e così via.
4.2. Il Resource Description Framework
L’uso efficace dei metadati richiede che vengano stabilite delle
convenzioni per la semantica, la sintassi e la struttura. Le singole
comunità interessate alla descrizione delle loro risorse specifiche
definiscono la semantica dei metadati pertinenti alle loro esigenze.
La sintassi, cioè l’organizzazione sistematica dei data
element per l’elaborazione automatica, facilita lo scambio e l’utilizzo
dei metadati tra applicazioni diverse. La struttura può essere
vista come un vincolo formale sulla sintassi, per una rappresentazione
consistente della semantica.
Resource Description Framework (RDF) è lo strumento base per
la codifica, lo scambio e il riutilizzo di metadati strutturati, e consente
l’interoperabilità tra applicazioni che si scambiano sul
Web informazioni machine-understandable. RDF permette di definire la
semantica dei tag XML, e fornisce un modello per descrivere le risorse6
che hanno delle proprietà (o anche attributi o caratteristiche).
Il data model RDF, che consente di rappresentare statement RDF in modo
sintatticamente neutro, è molto semplice ed è basato su
tre tipi di oggetti: Resources (sempre individuate da un URI), Properties
(un aspetto specifico, identificato da un nome, che assume un valore),
Statements (una tripla composta da un soggetto, un predicato e un oggetto,
ovvero una tripla composta da una risorsa, una proprietà e un
valore).
RDF, che permette di descrivere anche fatti complessi, supporta l’utilizzo
di convenzioni che rendono più agevole l’interoperabilità tra
insiemi separati di metadati, e consente di pubblicare vocabolari machine
readable, ma anche leggibili da utenti umani, definiti dalle singole
comunità disciplinari, favorendo enormemente il riuso e l’estensione
della semantica tra comunità diverse.
RDF identifica univocamente le proprietà mediante il meccanismo
dei namespace XML [XMLns], che forniscono un metodo per identificare
in maniera non ambigua la semantica e le convenzioni che regolano l’ utilizzo
delle proprietà, identificando l’authority che gestisce
il vocabolario. Uno degli esempi più noti è la Dublin Core
Initiative [DC]. Si può utilizzare un namespace XML per identificare
in maniera non ambigua lo schema per il vocabolario Dublin Core puntando
alla risorsa Dublin Core che ne definisce la semantica. La descrizione
di una risorsa può utilizzare le proprietà definite nel
namespace Dublin Core, o alcune di esse, eventualmente aggiungendo altre
proprietà che rispondano a esigenze specifiche, semplicemente
puntando al namespace che ne definisce la semantica.
È importante sottolineare che siamo così in presenza di
un’architettura decentralizzata e peer-to-peer, in cui le varie
comunità disciplinari hanno a priori pari dignità e possono
conquistarsi la loro autorevolezza.
4.3. L’architettura del semantic Web
Nella visione di Tim Berners-Lee, il semantic Web7 ha un’architettura
a livelli (fig. 1).
Per chiarezza di terminologia, va ricordato che la filosofia di base
del Web è quella di uno spazio informativo universale, navigabile,
con un mapping da URI (Uniform Resource Identifier) alle risorse. Il
semantic Web potrà funzionare solo se le macchine potranno accedere
a un insieme strutturato di informazioni e a un insieme di regole di
inferenza da utilizzare per il ragionamento automatico. La sfida del
semantic Web, quindi, è fornire un linguaggio per esprimere dati
e regole per ragionare sui dati, che consenta l’esportazione sul
Web delle regole da qualunque sistema di rappresentazione della conoscenza.
XML (con Name Space e xmlschema), che consente di dare ai documenti
una struttura arbitraria, gioca un ruolo di base. RDF può essere
usato per esprimere il significato, asserendo che alcuni particolari
elementi hanno delle proprietà (per esempio, autore-di).
Un terzo componente è l’ontology (livello ontologico),
inteso come il contenitore che definisce in modo formale le relazioni
fra i termini. Le ontologie possono svolgere un ruolo fondamentale nel
migliorare il funzionamento del Web (ricerca di concetti, collegamento
delle informazioni contenute in una pagina alle strutture di conoscenza
associate, etc.). Il linguaggio definito dal W3C [OWL] per definire ontologie
strutturate, in architettura web, è OWL (Ontology Web Language).
Il livello logico è il livello immediatamente superiore al livello
ontologico. A questo livello le asserzioni esistenti sul Web possono
essere utilizzate per derivare nuova conoscenza. Dato che i sistemi deduttivi
non sono normalmente interoperabili, si potrebbe pensare di definire
un linguaggio universale per rappresentare le dimostrazioni. I sistemi
potrebbero quindi autenticare con la firma digitale queste dimostrazioni
ed esportarle ad altri sistemi che le potrebbero incorporare nel semantic
Web.
La firma digitale (digital signature) è di significativa importanza
in diversi strati nel modello astratto del semantic Web. In questo modello
si ritiene necessaria un’infrastruttura in cui le parti possano
essere riconosciute e accettate come credibili in specifici domini. Con
una granularità così fine, la firma digitale potrebbe essere
utilizzata per stabilire la provenienza delle ontologie e delle deduzioni,
oltre che dei dati.
5.Un’architettura possibile
Riguardo al semantic Web, è opportuno sottolineare che già da
molti anni esistono, nel settore dell’Intelligenza Artificiale,
sistemi per la gestione della conoscenza, in grado di operare ragionamenti
e deduzioni.
Una caratteristica importante del semantic Web è, coerentemente
con i principi del Web, la sua totale decentralizzazione e l’interoperabilità tra
applicazioni, macchine, ontologie diverse. In questa visione, l’opera
di armonizzazione delle ontologie e degli schemi descrittivi viene affidata
ad agenti software che, disponendo di una rappresentazione della conoscenza
e di regole di deduzione espresse con un linguaggio interoperabile, operano
per armonizzare conoscenze diverse.
Un problema rilevante nel considerare l’interoperabilità semantica è costituito
dall’armonizzazione degli schemi descrittivi e delle ontologie,
due aspetti fortemente interconnessi. Infatti, va tenuto presente che
l’organizzazione dei concetti (aspetto ontologico) non può essere
considerata a sé stante, scorrelata dallo schema adottato per
rappresentare le informazioni. In altri termini, la complessità derivante,
per esempio, dalla specializzazione degli oggetti per funzione o tipo
(per esempio, arco rampante, vasetto per unguenti, colonna a tortiglione)
deve necessariamente trovar posto o in un sistema di classificazione
(thesaurus) o in un’articolazione della scheda descrittiva (quindi
campo, sottocampo, attributo). Ne consegue che l’interoperabilità semantica
tra collezioni non può essere affrontata semplicemente trovando
degli equivalenti terminologici, impresa peraltro già non semplice,
ma deve tener conto di come una determinata organizzazione dei concetti
può essere tradotta verso uno specifico schema di rappresentazione.
Un’architettura possibile, coerente con quella del semantic Web,
vede un ruolo centrale giocato da agenti software intelligenti che sfruttano
la rappresentazione del modello mentale dell’utente per personalizzare
il contenuto dei documenti, effettuare le ricerche sul Web, proporre
un adeguato paradigma di interazione [Signore 2005].
Tutti i dati sono corredati di metadati, la cui semantica è coerente
con quella definita dal modello concettuale del dominio. Le possibili
relazioni tra i vari elementi descrittivi e i metadati sono contenute
in uno spazio dei concetti (concept space), che viene utilizzato dagli
agenti software per individuare le possibili associazioni tra i documenti,
e implementare gli adeguati paradigmi di interazione (spazio, tempo,
classificazione, e loro combinazioni). Lo spazio dei concetti non è necessariamente
unico, e quindi è da prevedere una funzione di traduzione e armonizzazione
tra uno schema descrittivo (dei dati o della terminologia) all’altro.
6.Conclusioni
Il progetto MINERVA costituisce un sicuro punto di riferimento per realizzare
siti di qualità, fruibili anche da persone che hanno limitazioni
fisiche o funzionali. Un ulteriore passo verso la qualità dei
siti web culturali è costituito dall’interoperabilità semantica.
Il contesto tecnologico in cui va cercata una soluzione è quello
del semantic Web, che prevede un’ampia decentralizzazione e una
forte interazione macchina-macchina e permette di valorizzare lavori
importantissimi nel settore della modellizzazione della conoscenza.
Riferimenti bibliografici
[CIDOC]
The CIDOC Conceptual Reference Model, <http://cidoc.ics.forth.gr/>
[DC]
Dublin Core Metadata Initiative, <
http://www.dublincore.org/>
[DigiCULT]
DigiCULT - Towards a Semantic Web for Heritage Resources,
Thematic Issue 3, May 2003,
<
http://www.digicult.info/downloads/ti3_high.pdf>
[Doerr 2003]
M. Doerr, J. Hunter, C. Lagoze, Towards a Core Ontology
for Information Integration, «Journal of Digital Information»,
vol. 4, issue 1, article 169, 2003-04-09, (April 2003),
<
http://jodi.ecs.soton.ac.uk/Articles/v04/i01/Doerr/>
[Martelli 2002] S. Martelli, O Signore, Semantic Characterisation of
Links and Documents, «ERCIM News», n. 51, Special: Semantic
Web, October, 2002, <
http://www.ercim.org/publication/Ercim_News/enw51/signore.html>
[OWL] Web Ontology Language (OWL),
<http://www.w3.org/2004/OWL/>
[RDF] Resource Description Framework (RDF),
<
http://www.w3.org/RDF/>
[SemWeb] Semantic Web,
<http://www.semanticweb.org/>
[Signore 2001] O. Signore, Culture across Cultures: a Quality Challenge,
Experts Meeting on European Cultural Heritage on the Web, Position paper,
17 luglio 2001, <
http://www.w3c.it/papers/cultureAcrossCultures.pdf>
[Signore 2002] O. Signore, A Simple Architecture for Adaptive Hypertext,
Adaptive Hypermedia and Adaptive Web-Based Systems, Proceedings of Second
International Conference, AH2002, Malaga, Spain, May 2002, Lecture Notes
in Computer Science, n. 2347, Springer Verlag, p. 568-571.
Signore 2003] O. Signore, Strutturare la conoscenza: XML, RDF, Semantic
Web - Clinical Knowledge 2003 (1st edition) - Udine, 20-21 September
2003, <http://www.w3c.it/papers/ck2003.pdf,
http://www.w3c.it/talks/ck2003/>
[Signore 2004] O. Signore, Representing Knowledge in Semantic Cultural
Web - EVA 2004 Jerusalem Conference on the Digitisation of Cultural Heritage
- Jerusalem, 11-12 October 2004, <
http://www.w3c.it/talks/eva2004Jerusalem/>
[Stevenson 2003] A. Stevenson, M. Addis , M. Boniface, S. Goodall, P.
Grimwood, S. Kim, P. Lewis, K. Martinez, Semantic Web techniques for
multimedia museum information handling,
<
http://eprints.ecs.soton.ac.uk/8920/01/SCULPTEUR_CIDOC_2003.pdf>
[Signore 2005] O. Signore, Ontology Driven Access to Museum Information
- CIDOC 2005 Documentation & Users, Proceedings of the CIDOC Annual
Conference, Zagreb, May 2005, <
http://www.w3c.it/papers/cidoc2005.pdf>
(slides: <http://www.w3c.it/talks/2005/cidoc2005/>)
[TBL1999] T. Berners-Lee, Weaving the Web: The Original Design and Ultimate
Destiny of the World Wide Web by Its Inventor, San Francisco: Harper,
1999.
[TBL2001] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web,
Scientific American, May 2001,
<
http://www.scientificamerican.com/2001/0501issue/0501berners-lee.html>
[WorkshopSW] Progetto MINERVA: 1° Workshop: Rappresentazione della
conoscenza nel semantic Web culturale,Roma, 6 luglio 2004, <
http://www.w3c.it/events/minerva20040706/>
[XMLns]
Namespaces in XML - World Wide Web Consortium Recommendation, 14-January-1999,
http://www.w3.org/TR/REC-xml-names/
1] Si può quindi parlare di barriere culturali, unostacolo difficile
da superare, ma talvolta sottovalutato [Signore 2001].
2] Per esempio, una data espressa con il calendario gregoriano nella
notazione europea potrebbe essere ambigua, se espressa numericamente
(per esempio, 9/11), per un cittadino USA. Anche se espressa in chiaro,
soprattutto se si riferisce a periodi remoti, potrebbe essere del tutto
priva di significato per un utente di cultura musulmana o ebraica.
3] Si può parlare, in questi casi, di siti adattabili e adattivi
[Signore 2002].
4] URI (Uniform Resource Identifier). è il generico insieme di
tutti i nomi/indirizzi che costituiscono le brevi sequenze di caratteri
che fanno riferimento ad una risorsa. URL (Uniform Resource Locator) è un
termine informale, non più utilizzato nelle specifiche tecniche,
associato con gli schemi URI più noti e diffusi (http, ftp, mailto
ecc.).
5] Nel linguaggio corrente una risorsa viene anche detta “documento” od “oggetto”,
per mettere in evidenza il fatto che sia leggibile da un essere umano
o da una macchina.
6] RDF definisce una risorsa come un qualsiasi oggetto che sia identificabile
univocamente mediante un URI.
7] L’ntera comunità scientifica sta investendo molte energie
nel settore del semantic Web. Molti riferimenti utili si trovano in [SemWeb].
|
|
|