Standard per i dati aperti, ovvero: liberare i dati per davvero, che fare?

Tipo di attività: 
(Un)Conference 06/05/2016
Livello di difficoltà: 
Semplice
Durata: 
120 minuti

Cosa si intende di solito in pratica, quando si parla di open data? Mettiamo che voglia fare una piccola applicazione, per localizzare opere d’arte in diversi luoghi. L’esperienza più comune è andare su siti come dati.gov.it, oppure data.gov, cercare qualcosa (di solito per parole chiave), scaricare file interessanti (in formati come CSV, XML, JSON), aprirli uno ad uno, e vedere cosa c’è dentro. Spesso, dopo questa fase preliminare, bisogna anche ‘pulire' tutti i file ritenuti interessanti, e convertirli in un formato unico (spesso reinventato per l’ennesima volta), che verrà usato dalla nostra applicazione.

 

Ma devono essere per forza così i dati aperti?! E’ risaputo che la risposta è no, almeno per una data tipologia di dati (per esempio, le opere d’arte, oppure la descrizione delle organizzazioni/musei in cui queste si trovano, compresa la loro geolocalizzazione), l’ideale è che:

  • i file/documenti pubblicati da vari detentori dei dati fossero in un unico formato (esempio, Europeana), o quantomeno non in una pletora di formati incompatibili e poco documentati
  • le entità descritte dai dati avessero identificatori comuni (per esempio, che le amministrazioni pubbliche italiane facessero riferimento al registro IPA)
  • i dati fossero caratterizzati tramite vocabolari, tassonomie, ontologie comuni e standardizzate
  • i dati fossero integrati da opportuni riferimenti, secondo i principi dei linked data

 

Pubblicare dati in questo modo potenzia enormemente le opportunità degli open data, permettendo un accesso pieno a dei dati inter-operabili: in pratica, le ricerche sono più precise (grazie a vocabolari ed ontologie), non ho bisogno di riconvertire i file (formati unici e standardizzati), riconosco al volo i duplicati (identificatori), accedo anche automaticamente ai dati correlati (linked data).

 

Si fa tutto questo? Quanto? A che punto siamo? La risposta più probabile è che non si fa o si fa poco: perché? Come bisognerebbe muoversi per promuovere una maggiore standardizzazione dei dati aperti, soprattutto favorire la loro integrazione nella visione dei linked data? Quali iniziative sarebbe bello e utile mettere in piedi per la comunità degli open data, comprese le pubbliche amministrazioni?

 

Possibili risposte (al 'che fare', o cosa si fa già) potrebbero essere: 

  • Organizzare dei volontari per raccogliere (ad esempio in un wiki) un catalogo di formati, vocabolari, ontologie, tool per la pulizia e conversione dei dati (in parte si fa già, per esempio con joinUp, Biosharing, Bioportal)
  • Progetti pilota per standardizzare dati esistenti (uno dei vari esempi), promuovendo l'engagement della comunità in modi originali
  • Un servizio web che guidi un editore di un/molti file di dati (es, CSV) nella scelta del formato standard in cui convertirlo, pulizia, identificazione ed integrazione dei record/entità presenti nel file e, infine, consenta di pubblicare sia il file originale, che dati in formato avanzato ottenuti dal file, i.e., linked data. Open Refine (con relativa estensione RDF) e COEUS potrebbero essere degli esempi ispiratori
  • Un servizio web che, sfruttando la standardizzazione di cui stiamo parlando aiuti a consumatore i dati, sia l’utente finale (es, ricerche integrate per parole chiave, analisi e visualizzazione), sia l’utente sviluppatore (es, catalogo di API, qualcosa di simile per esempi SPARQL)
     

Questa sessione si propone innanzitutto di mettere insieme le persone interessate a questi temi, per rispondere alle domande qui poste. Magari potrebbe nascerne un progetto di medio/lungo periodo.