Cosa si intende di solito in pratica, quando si parla di open data? Mettiamo che voglia fare una piccola applicazione, per localizzare opere d’arte in diversi luoghi. L’esperienza più comune è andare su siti come dati.gov.it, oppure data.gov, cercare qualcosa (di solito per parole chiave), scaricare file interessanti (in formati come CSV, XML, JSON), aprirli uno ad uno, e vedere cosa c’è dentro. Spesso, dopo questa fase preliminare, bisogna anche ‘pulire' tutti i file ritenuti interessanti, e convertirli in un formato unico (spesso reinventato per l’ennesima volta), che verrà usato dalla nostra applicazione.
Ma devono essere per forza così i dati aperti?! E’ risaputo che la risposta è no, almeno per una data tipologia di dati (per esempio, le opere d’arte, oppure la descrizione delle organizzazioni/musei in cui queste si trovano, compresa la loro geolocalizzazione), l’ideale è che:
- i file/documenti pubblicati da vari detentori dei dati fossero in un unico formato (esempio, Europeana), o quantomeno non in una pletora di formati incompatibili e poco documentati
- le entità descritte dai dati avessero identificatori comuni (per esempio, che le amministrazioni pubbliche italiane facessero riferimento al registro IPA)
- i dati fossero caratterizzati tramite vocabolari, tassonomie, ontologie comuni e standardizzate
- i dati fossero integrati da opportuni riferimenti, secondo i principi dei linked data
Pubblicare dati in questo modo potenzia enormemente le opportunità degli open data, permettendo un accesso pieno a dei dati inter-operabili: in pratica, le ricerche sono più precise (grazie a vocabolari ed ontologie), non ho bisogno di riconvertire i file (formati unici e standardizzati), riconosco al volo i duplicati (identificatori), accedo anche automaticamente ai dati correlati (linked data).
Si fa tutto questo? Quanto? A che punto siamo? La risposta più probabile è che non si fa o si fa poco: perché? Come bisognerebbe muoversi per promuovere una maggiore standardizzazione dei dati aperti, soprattutto favorire la loro integrazione nella visione dei linked data? Quali iniziative sarebbe bello e utile mettere in piedi per la comunità degli open data, comprese le pubbliche amministrazioni?
Possibili risposte (al 'che fare', o cosa si fa già) potrebbero essere:
- Organizzare dei volontari per raccogliere (ad esempio in un wiki) un catalogo di formati, vocabolari, ontologie, tool per la pulizia e conversione dei dati (in parte si fa già, per esempio con joinUp, Biosharing, Bioportal)
- Progetti pilota per standardizzare dati esistenti (uno dei vari esempi), promuovendo l'engagement della comunità in modi originali
- Un servizio web che guidi un editore di un/molti file di dati (es, CSV) nella scelta del formato standard in cui convertirlo, pulizia, identificazione ed integrazione dei record/entità presenti nel file e, infine, consenta di pubblicare sia il file originale, che dati in formato avanzato ottenuti dal file, i.e., linked data. Open Refine (con relativa estensione RDF) e COEUS potrebbero essere degli esempi ispiratori
-
Un servizio web che, sfruttando la standardizzazione di cui stiamo parlando aiuti a consumatore i dati, sia l’utente finale (es, ricerche integrate per parole chiave, analisi e visualizzazione), sia l’utente sviluppatore (es, catalogo di API, qualcosa di simile per esempi SPARQL)
Questa sessione si propone innanzitutto di mettere insieme le persone interessate a questi temi, per rispondere alle domande qui poste. Magari potrebbe nascerne un progetto di medio/lungo periodo.
Lista partecipanti
|
|
|
|
|
|||