LibGuides: Biblioteconomia dei dati: Analizzare e trattare i dati

Analizzare e trattare i dati

Analisi dei dati

Gli strumenti di analisi dei dati possono essere: statistici, linguistici ed informatici, ovvero misurazioni quali indicatori di frequenze e variabili di fenomeni, valori lessicometrici di corpus di testi, valori quantitativi, come ad esempio il numero di tweet raccolti a seguito di una informazione divulgata via Internet.

L’analisi dei dati può essere effettuata attraverso: la statistica classica quella descrittiva e multivariata, il Natural Language Processing, l'analisi testuale, il Machine Learning, l'intelligenza artificiale applicata ai Big Data.

Normalmente, i dati sono conservati nel data-base prodotto dagli stessi strumenti informatici di analisi utilizzati. Perché i dati possano essere condivisi devono essere arricchiti da strumenti di corredo che spieghino il lavoro di raccolta del dato originario e le manipolazioni effettuate per trasformare il dato originario in un dato elaborato.

Il processo della Data Science

Le fasi del processo della Data Science possono essere rappresentate dai seguenti stadi: acquisire, preparare, analizzare, comunicare e una possibile ripetizione dell'intero processo.

L'obiettivo dell'analisi dei dati è la costruzione di un data-set di dati grezzi (dati non ancora processati o sottoposti a software), l'operazione richiede la verifica della sufficienza, completezza, accuratezza dei dati raccolti, l'arricchimento del data-set attraverso meta-dati descrittori e code-book (documentazione prodotta sugli strumenti ed elaborazioni effettuate attraverso software informatici).

Acquisire i dati: insieme delle tecniche e delle tecnologie per recuperare i dati. L'analisi dei dati prevede:
- l'identificazione dei database idonei ad essere utilizzati come fonti,
- il recupero dei dati, attraverso l'interrogazione di data-base,
- l'accesso ai dati e l'importazione dei dati.

Normalmente per importare dei dati, vengono utilizzate due modalità: il ricorso allo SQL, Structured Query Language, utilizzato per effettuare le estrazioni dei dati dai data-base tradizionali. La seconda modalità è rappresentata dalle query fatte sui browser che servono per esplorare i dati nei files di testo, e gli scripting languages per ricavare i dati dai files.

Preparare i dati: prima dell'esplorazione dei dati è necessario guardare ai dati raccolti per verificarne la qualità, la completezza e il formato:
- analisi preliminare (il "pre-processing"), la pulizia dei dati (eliminare i valori inutilizzabili),
- integrazione (aggiungere i valori mancanti),
- predisposizione dei dati per l’analisi utilizzando un formato specifico ("munging") compatibile con il software di analisi che si intende utilizzare,
- se necessario, un'ulteriore integrazione delle serie di dati a partire da altri data-set o data-base.

Il pre-processing e la pulizia dei dati sono fasi importanti dell'analisi perché da queste lavorazioni si ottengono i dati processati o i dati puliti, normalmente la manipolazione del data-set (pre-processing) avviene applicando dei codici sui dati.

Una prima visualizzazione dei dati permette di farsi un'idea dei dati a disposizione, in questa fase avviene anche il primo storage, ovvero i dati sono raccolti nel data-base, normalmente un data-base SQL sul quale si sta lavorando.

Analizzare i dati:
- selezionare le tecniche di analisi più adeguate da utilizzare,
- costruire dei modelli ed esaminare i risultati.

I principali strumenti di data analisi utilizzati in questa fase sono i seguenti: R linguaggio di programmazione utilizzato per le misurazioni statistiche e Phyton, linguaggio utilizzato per applicare i codici ai dati raccolti. I software di analisi consentono di sistematizzare e standardizzare le attività di analisi dei dati, processare grandi quantità di dati e formalizzare le diverse operazioni in un’interfaccia utente.

E' probabile che serva spazio computazionale per effettuare le analisi (applicare i codici dei software di analisi ai data-set), nel caso di grandi quantità di dati la memoria di un PC potrebbe non bastare e potrebbero essere necessarie soluzioni client e/o su server .

Visualizzazione definitiva dei dati e comunicazione
- l'ultima visualizzazione serve per per poterne fare la presentazione e la comunicazione dell'analisi effettuata,
- la comunicazione dei risultati può avvenire attraverso la redazione di relazioni.
Ulteriori attività svolte sui dati
- il ri-uso dei dati da parte di terzi per altre analisi,
- la necessità di riprendere il ciclo raccogliendo altri dati per procedere ad una nuova analisi.

Ogni comunità di ricerca utilizza strumenti propri di analisi e accompagna i dati con una documentazione adeguata per la corretta interpretazione dei dati (metadati), informazione sugli stadi di lavorazione degli stessi (protocolli), e fornisce code-book per i software di analisi dei dati utilizzati, contenenti il codice fonte nel caso di software ad accesso aperto (di solito si tratta di pagine GitHub).

Per la redazione di questa scheda sono state utilizzate le informazioni messe a disposizione da diversi corsi on-line sulla Data Science di diverse università statunitensi che qui si ringraziano: Harvard, Caltech, UC San Diego, John Hopkins University. I riferimenti bibliografici relativi ai corsi sono a disposizione nella scheda bibliografica in fondo a questa guida.

Software a disposizione per l’analisi dei dati, analisi di testi, visualizzazione dei dati; l’elenco non è esaustivo e nemmeno definitivo:

software proprietari disponibili in Ateneo per analisi di dati alfanumerici. Tali software possono essere utilizzati sui propri PC in Ateneo (previa richiesta di installazione) oppure nelle aule informatiche di Ateneo.
1. SPSS – Statistical Package for Social Science, è un software di statistica.
2. SAS – Complesso di prodotti software integrati che permettono ad un programmatore l'inserimento, la ricerca e la gestione di dati; la generazione di report e grafici, l'analisi statistica e matematica, la pianificazione, la previsione e il supporto alle decisioni ricerca operativa, il project management e la gestione di qualità
3. InStat - Software Statistico prodotto dalla GraphPad Software Inc., strumento di analisi dei dati nelle procedure statistiche; si distingue da altri programmi per la sua particolare struttura: Instat guida l'utente passo dopo passo attraverso l'analisi statistica. (cfr. anche pagina http://www.dmf.unicatt.it/~bibsoft/tesine/sw_stat.htm )

alcuni software con licenza aperta per l'analisi di dati alfanumerici
1. R – è un software gratuito per analisi statistiche. Può essere installato su diverse piattaforme UNIX, Windows e MacOS
2. polmineR - strumento per l’analisi di corpora, che utilizza Corpus Workbench back end. Il pacchetto offre funzionalità che permettono di creare in modo flessibile partizioni ed effettuare operazioni statistiche di base (conteggi, co-occorrenze, ecc.). Il full text originale dei documenti può essere ricostruito ed ispezionato in qualsiasi momento. Questo pacchetto ha anche altre funzionalità per la creazione di strutture di dati (matrici di document term, matrici di co-occorrenze di termini).
3. Python – linguaggio di programmazione ad alto livello, orientato agli oggetti, adatto, tra gli altri usi, a sviluppare applicazioni distribuite, scripting, computazione numerica e system testing.
4. IraMuTeq – software per analisti dei dati e testuali. Si basa sul software R.
5. Gretl – software per econometria e per l'analisi statistica
alcuni software con licenza aperta per visualizzazione dati
1. Gephi – strumento completo per la comprensione e l'elaborazione dei grafi.
2. VOSViewer – strumento software per costruire e visualizzare reti bibliometriche, attraverso l’analisi delle citazioni e delle co-citazioni.
3. Pajek – software per la visualizzazione e l'analisi delle reti complesse di dati.
4. OpenMinTeD - Strutturato per offrire servizi avanzati di alta qualità per il Text e Data Mining. La piattaforma può essere utilizzata per cercare/condividere gli strumenti di elaborazione; spazio cloud per trovare e costruire corpora disponibili in modalità aperta. La piattaforma contiene diversi cataloghi, da quelli per sviluppatori informatici esperti, dove si possono trovare componenti di software e relative istruzioni, a cataloghi di corpora e dataset per una consultazione, oltre alle istruzioni e alle informazioni sulle licenze d’uso dei materiali.
strumento open source per la pulizia e trasformazione dei dati in altri formati.
1. OpenRefine applicazione gratuita per ripulire, rimodellare e modificare in modo intelligente insiemi di dati disordinati e non strutturati, agendo in modalità batch.
2. Open Data Editor (ODE) è applicazione gratuita per desktop senza codice che facilita il lavoro con i dati senza scrivere codice sorgente. Aiuta i non addetti ai lavori a esplorare le tabelle, a rilevare gli errori nelle tabelle e a pubblicare i dati in modo semplice su GitHub, Zenodo e i portali CKAN.
  “Quality and Consistent Data with the Open Data Editor” è un corso gratuito della School of Data che accompagna l'Open Data Editor. Introduce al lavoro con i dati tabellari e all'applicazione dei principi dei dati FAIR.
strumenti per il trattamento di dati che non nascono digitali

How to deal with non digital data - guida OpenAIRE per trattare i dati che non nascono in modo digitale, dalle annotazioni su carta agli oggetti fisici

strumento per fare check dei dati tabellari: Goodtables https://goodtables.io/ - servizio fornito dalla Open Knowledge Foundation, organizzazione non-profit il cui obiettivo è agevolare l'accesso e l'utilizzo dei dati della ricerca.
Elenco di strumenti per l'analisi dei dati, presenti nel portale EOSC (European Open Science Cloud)

Guide appositamente studiata per i ricercatori delle scienze della vita per accompagnarli nella realizzazione della ricerca secondo i principi FAIR. Particolarmente raccomandata per i progetti europei Horizon.

Protezione dei dati – normative GDPR

Il trattamento e il riutilizzo dei dati provenienti da fonti terze deve avvenire nel rispetto della protezione dei dati personali ai sensi della normativa GDPR, nonché dei principi etici legati alla ricerca. In proposito è utile consultare la sezione dedicata nel sito dell'Ateneo e il Regolamento Generale sulla Protezione dei Dati - Regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio del 27 aprile 2016

Riguardo alla normativa, nella intranet UCSC sono presenti alcune informazioni e materiale formativo (accessibile con utenza UC).

Trattamento dei dati c.d. sensibili[1]

I dati c.d. sensibili sono dati che devono essere protetti dalla divulgazione indesiderata. L'accesso ai dati sensibili deve essere protetto. La protezione dei dati sensibili può essere richiesta per motivi legali o etici, per questioni di privacy personale o per considerazioni di proprietà.

Una guida su come trattare i dati sensibili è disponibile nel sito di OpenAire una guida per gestire i dati sensibili.

In generale si possono verificare questi aspetti, cfr. CESSDA Data Management Expert Guide:

- Nei dati sono presenti informazioni che portino ad un'identificazione delle persone coinvolte?

- Le informazioni contenute in una collezioni di dati possono essere collegati ad un'altra che può portare all'identificazione delle persone coinvolte?

- Quale consenso è stato dato dalle persone coinvolte?

- Se si consente un accesso ristretto, come verrà gestito?

I dati sensibili possono comunque soddisfare i requisiti dei principi FAIR sui dati (reperibilità, accessibilità, interoperabilità e riutilizzabilità) ed essere trattati in modo da garantire la necessaria protezione anche in futuro.

Per farlo è possibile procedere con interventi di "Anonimizzazione", "Pseudonimizzazione" e di "Crittografia", cfr. la guida per gestire i dati sensibili di OpenAire.

Per ulteriori approfondimenti v. corso online sulla normativa, di cui il terzo modul o, in particolare, è dedicato alla ricerca scientifica; v. anche materiale informativo utile; Privacy Policy UCSC, documento che rappresenta il Modello Organizzativo di cui l'Ateneo si è dotato in tale ambito nonché ruoli e responsabilità dei soggetti coinvolti nel trattamento dei Dati Personali.

Altri materiali

The Open Research Data Pilot: Personal Data and PSI Rules (HORIZON 2020), Andreas Wiebe and Nils Dietrich, University of Göttingen (8th OpenAIRE workshop)
Data protection e Sensitive Data - dal sito ELIXIR Research Data Management Kit (RDMkit) - Guida appositamente studiata per i ricercatori delle scienze della vita per accompagnarli nella realizzazione della ricerca secondo i principi FAIR. Particolarmente raccomandata per i progetti europei Horizon.

[1] Nell’uso corrente chiamiamo dati “sensibili” quelli che giuridicamente, nel GDPR, trovano una definizione nell'Articolo 9, "Trattamento di categorie particolari di dati personali", e nell'Articolo 10, "Trattamento dei dati personali relativi a condanne penali e reati".