/* ************************* */ /* per gallery responsive */ /* ************************* */ Salta al contenuto principale
 

Biblioteconomia dei dati: Definizioni e panoramica

Definizioni e panoramica

Definizione di dati

Non è univoca per tutti gli ambiti disciplinari. In genere, per dati si intende principalmente un insieme di valori (misurazioni o caratteristiche di un fenomeno), cioè di variabili quantitative o qualitative. Nello specifico sono fatti, osservazioni, esperienze, sui quali si costruisce, si ipotizza, o si testa una teoria o un argomento. I dati possono essere numerici, alfanumerici, testuali, descrittivi, quantitativi e qualitativi, essere prodotti in formato audio, video, tridimensionali (manufatti, reperti, campioni, prototipi, ecc...); possono essere primari/grezzi o secondari/processati, ossia frutto di elaborazioni di dati primari/grezzi da parte di software o altri strumenti.

Definizione di dataset

Un dataset è una raccolta, una collezione di dati con caratteristiche comuni. Fanno parte dei dataset non solo i file di dati con caratteristiche comuni, ma anche la documentazione esplicativa della modalità di raccolta e del trattamento dei dati; ulteriore corredo di un dataset sono i metadati che lo descrivono e lo rendono ricercabile anche attraverso un identificativo permanente.

Processo di creazione dei dati

Nel corso di una ricerca il processo legato alla creazione e all'utilizzo dei dati, si potrebbe rappresentare con questa immagine: 

Tale processo è ciclico e potenzialmente soggetto a continue ripetizioni, perché l'analisi dei dati è di per sé un processo dinamico.

All'interno di tale processo si possono distinguere diverse attività come il “Data Management”, ossia la gestione finalizzata all'accesso e alla conservazione dei dati, la "Data Analysis", vale a dire le operazioni di manipolazione dei dati ai fini di analisi per poter generare ipotesi a partire dai modelli proposti dai dati. La "Data Curation" che sottende le diverse fasi di analisi dei dati come: la raccolta dei dati, la loro integrazione, il “munging”, ovvero il cambiamento dei formati dei dati per la loro conservazione nel lungo periodo, ma anche per una loro manipolazione ("processare" i dati), lo storage inteso come gestione dei data-set e della loro accessibilità sia verso il produttore che verso terzi per l'eventuale condivisone/riutilizzo. Lo storage o deposito dei dati nella fase di analisi non è da considerarsi come deposito definitivo, perché i dati possono essere oggetto di analisi seguenti (versioning), in quanto l’analisi dei dati è un processo ciclico ripetibile. Normalmente, lo storage dei data-set avviene sui computer di chi ha prodotto il data-set, a meno che non venga utilizzato spazio computazionale messo a disposizione da terzi (su server o su client).

Per chi ha creato il data-set, solo a conclusione dell'attività di ricerca, il deposito dei dati potrà considerarsi definitivo e verosimilmente procederà alla pubblicazioni degli stessi, in un "Data journal", o rivista specializzata nella pubblicazione dei dati, nei repository indicati dal finanziatore della ricerca, o nei repository disciplinari, per la loro comunicazione alla comunità scientifica di appartenenza.

Biblioteconomia dei dati

o Data Librarianship: l’organizzazione della conoscenza attraverso la gestione della sua rappresentazione (catalogo), descrizione (meta-datazione) e diffusione (OPAC)

Che senso ha parlare di dati: cultura della ricerca, etica ed integrità della ricerca, interdisciplinarietà e condivisione dei dati

Grazie alla maggiore disponibilità di dati, la ricerca scientifica sta evolvendo in tutte le discipline, da ricerca guidata da ipotesi a ricerca guidata dai dati, ovvero ricerca effettuata attraverso l’uso massiccio dei dati (Cultura della ricerca).

Sono le singole comunità scientifiche di appartenenza che hanno gli strumenti per valutare se ipotesi di ricerca supportate dai dati siano valide e per mezzo della possibilità di ripetere l’esperimento o riformulare l’ipotesi di partenza, verificare che i dati siano stati utilizzati in modo corretto ed etico (etica ed integrità della ricerca).

Allo stesso tempo i dati utilizzati per fare ricerca possono essere riutilizzati in base ad ipotesi diverse o ad altri approcci metodologici, di qui l’importanza di mettere a disposizione i dati utilizzati perché potrebbero essere non solo ri-utilizzati in ricerche simili, ma utilizzati ex-novo in tutto o in parte per analisi diverse ed avere un secondo utilizzo consentendo il pieno sfruttamento del lavoro di raccolta ed analisi dei dati (interdisciplinarietà e condivisione dei dati).

Si tratta in questo caso di un passaggio concettuale da un approccio "soggettivo" alla ricerca, ovvero l'opinione e la capacità di ricerca del singolo autore, ad un approccio "collettivo e collaborativo", ovvero la contribuzione di più autori alla formulazione e allo svolgimento della ricerca.

L'attività di ricerca sta diventando anche sempre più multidisciplinare ed approcci e strumenti di ricerca sono sempre più condivisi fra diverse comunità scientifiche, di conseguenza i dati prodotti in un settore disciplinare possono diventare interessanti anche per un altro settore scientifico, come possibili cooperazioni fra settori disciplinari possono svilupparsi in futuro.

Infine, nei bandi di finanziamento della ricerca internazionale, in particolare europei, la tendenza è quella di richiedere una attenzione alla gestione dei dati, il loro deposito, volto anche alla loro condivisione. Allo stesso tempo l'Unione europea sta costituendo un mercato di servizi diretti alla gestione dei dati volto a creare uno spazio unico di condivisione dei dati (progetto EOSC, European Open Science Cloud e creazione di uno spazio unico di circolazione dei dati).

Il nuovo approccio scientifico della Data Science

La Data Science è un processo che permette di trarre dai dati la risposta a domande che ci si è posti prima di effettuare l'analisi. Informazioni e previsioni si ottengono dai dati attraverso elaborazioni statistiche, computazionali e visualizzazioni.

La Data Science opera attraverso la Data analysis ovvero il processo di raccolta ed integrazione dei dati ai quali sottoporre un quesito di ricerca per la sua risoluzione. L’analisi dei dati inizia con la formulazione dell’ipotesi di ricerca, segue la raccolta delle informazioni e dei dati ed infine l’analisi e valutazione dei dati raccolti che potrebbe portare ad una revisione dell’ipotesi iniziale e/o ad una nuova raccolta di dati.

La domanda iniziale deve essere posta da un esperto della materia al fine dii trarre il massimo possibile dall’analisi dei dati che verrà in seguito effettuata. La raccolta, elaborazione ed analisi dei dati deve essere effettuata da un esperto degli strumenti informatici in uso per l’analisi dei dati applicati ad uno specifico settore disciplinare. Tale figura è il Data Scientist.

Di qui l’importanza del quesito iniziale di ricerca, e della attività di raccolta dei dati che rappresentano un modello della realtà analizzata, della loro interpretazione per la verifica della corrispondenza o meno rispetto al quesito iniziale e alla realtà dei fatti o delle osservazioni ed infine la comunicazione dei dati. Normalmente la comunicazione dei dati avviene anche attraverso la creazione di una visualizzazione dei dati che ne permettono una rappresentazione sintetica ed esplicativa, oltre che attraverso la narrazione.

Esempio Open Science e Humanities

title
Loading...