/* ************************* */ /* per gallery responsive */ /* ************************* */ Salta al contenuto principale
 

Biblioteconomia dei dati: Analizzare e trattare i dati

Analizzare e trattare i dati

Analisi dei dati

Gli strumenti di analisi dei dati possono essere: statistici, linguistici ed informatici, ovvero misurazioni quali indicatori di frequenze e variabili di fenomeni, valori lessicometrici di corpus di testi, valori quantitativi, come ad esempio il numero di tweet raccolti a seguito di una informazione divulgata via Internet.

L’analisi dei dati può essere effettuata attraverso: la statistica classica quella descrittiva e multivariata, il Natural Language Processing, l'analisi testuale, il Machine Learning, l'intelligenza artificiale applicata ai Big Data.

Normalmente, i dati sono conservati nel data-base prodotto dagli stessi strumenti informatici di analisi utilizzati. Perché i dati possano essere condivisi devono essere arricchiti da strumenti di corredo che spieghino il lavoro di raccolta del dato originario e le manipolazioni effettuate per trasformare il dato originario in un dato elaborato.

Il processo della Data Science

Le fasi del processo della Data Science possono essere rappresentate dai seguenti stadi: acquisire, preparare, analizzare, comunicare e una possibile ripetizione dell'intero processo.

L'obiettivo dell'analisi dei dati è la costruzione di un data-set di dati grezzi (dati non ancora processati o sottoposti a software), l'operazione richiede la verifica della sufficienza, completezza, accuratezza dei dati raccolti, l'arricchimento del data-set attraverso meta-dati descrittori e code-book (documentazione prodotta sugli strumenti ed elaborazioni effettuate attraverso software informatici).

  •  Acquisire i dati: insieme delle tecniche e delle tecnologie per recuperare i dati. L'analisi dei dati prevede:
    • l'identificazione dei database idonei ad essere utilizzati come fonti,
    • il recupero dei dati, attraverso l'interrogazione di data-base,
    • l'accesso ai dati e l'importazione dei dati.

Normalmente per importare dei dati, vengono utilizzate due modalità: il ricorso allo SQL, Structured Query Language, utilizzato per effettuare le estrazioni dei dati dai data-base tradizionali. La seconda modalità è rappresentata dalle query fatte sui browser che servono per esplorare i dati nei files di testo, e gli scripting languages per ricavare i dati dai files.

  • Preparare i dati: prima dell'esplorazione dei dati è necessario guardare ai dati raccolti per verificarne la qualità, la completezza e il formato:
    • analisi preliminare (il "pre-processing"), la pulizia dei dati (eliminare i valori inutilizzabili),
    • integrazione (aggiungere i valori mancanti),
    • predisposizione dei dati per l’analisi utilizzando un formato specifico ("munging") compatibile con il software di analisi che si intende utilizzare,
    • se necessario, un'ulteriore integrazione delle serie di dati a partire da altri data-set o data-base.

Il pre-processing e la pulizia dei dati sono fasi importanti dell'analisi perché da queste lavorazioni si ottengono i dati processati o i dati puliti, normalmente la manipolazione del data-set (pre-processing) avviene applicando dei codici sui dati.

Una prima visualizzazione dei dati permette di farsi un'idea dei dati a disposizione, in questa fase avviene anche il primo storage, ovvero i dati sono raccolti nel data-base, normalmente un data-base SQL sul quale si sta lavorando.

  • Analizzare i dati:
    • selezionare le tecniche di analisi più adeguate da utilizzare,
    • costruire dei modelli ed esaminare i risultati. 

I principali strumenti di data analisi utilizzati in questa fase sono i seguenti: R linguaggio di programmazione utilizzato per le misurazioni statistiche e Phyton, linguaggio utilizzato per applicare i codici ai dati raccolti. I software di analisi consentono di sistematizzare e standardizzare le attività di analisi dei dati, processare grandi quantità di dati e formalizzare le diverse operazioni in un’interfaccia utente.

E' probabile che serva spazio computazionale per effettuare le analisi (applicare i codici dei software di analisi ai data-set), nel caso di grandi quantità di dati la memoria di un PC potrebbe non bastare e potrebbero essere necessarie soluzioni client e/o su server .

  • Visualizzazione definitiva dei dati e comunicazione
    • l'ultima visualizzazione serve per per poterne fare la presentazione e la comunicazione dell'analisi effettuata,
    • la comunicazione dei risultati può  avvenire attraverso la redazione di relazioni.
  • Ulteriori attività svolte sui dati
    • il ri-uso dei dati da parte di terzi per altre analisi,
    • la necessità di riprendere il ciclo raccogliendo altri dati per procedere ad una nuova analisi.

Ogni comunità di ricerca utilizza strumenti propri di analisi e accompagna i dati con una documentazione adeguata per la corretta interpretazione dei dati (metadati), informazione sugli stadi di lavorazione degli stessi (protocolli), e fornisce code-book per i software di analisi dei dati utilizzati, contenenti il codice fonte nel caso di software ad accesso aperto (di solito si tratta di pagine GitHub).

 

Per la redazione di questa scheda sono state utilizzate le informazioni messe a disposizione da diversi corsi on-line sulla Data Science di diverse università statunitensi che qui si ringraziano: Harvard, Caltech, UC San Diego, John Hopkins University. I riferimenti bibliografici relativi ai corsi sono a disposizione nella scheda bibliografica in fondo a questa guida.

Software a disposizione per l’analisi dei dati, analisi di testi, visualizzazione dei dati; l’elenco non è esaustivo e nemmeno definitivo:

  • software proprietari disponibili in Ateneo per analisi di dati alfanumerici. Tali software possono essere utilizzati sui propri PC in Ateneo (previa richiesta di installazione) oppure nelle aule informatiche di Ateneo.
    1. SPSS – Statistical Package for Social Science, è un software di statistica.
    2. SAS – Complesso di prodotti software integrati che permettono ad un programmatore l'inserimento, la ricerca e la gestione di dati; la generazione di report e grafici, l'analisi statistica e matematica, la pianificazione, la previsione e il supporto alle decisioni ricerca operativa, il project management e la gestione di qualità
    3. InStat - Software Statistico prodotto dalla GraphPad Software Inc., strumento di analisi dei dati nelle procedure statistiche; si distingue da altri programmi per la sua particolare struttura: Instat guida l'utente passo dopo passo attraverso l'analisi statistica. (cfr. anche pagina http://www.dmf.unicatt.it/~bibsoft/tesine/sw_stat.htm )
  • alcuni software con licenza aperta per l'analisi di dati alfanumerici
    1. R – è un software gratuito per analisi statistiche. Può essere installato  su diverse piattaforme UNIX, Windows e MacOS
    2. polmineR - strumento per l’analisi di corpora, che utilizza Corpus Workbench back end. Il pacchetto offre funzionalità che permettono di creare in modo flessibile partizioni ed effettuare operazioni statistiche di base (conteggi, co-occorrenze, ecc.). Il full text originale dei documenti può essere ricostruito ed ispezionato in qualsiasi momento.  Questo pacchetto ha anche altre funzionalità per la creazione di strutture di dati (matrici di document term, matrici di  co-occorrenze di termini).
    3. Python – linguaggio di programmazione ad alto livello, orientato agli oggetti, adatto, tra gli altri usi, a sviluppare applicazioni distribuite, scripting, computazione numerica e system testing.
    4. IraMuTeq – software per analisti dei dati e testuali. Si basa sul software R.
    5. Gretl – software per econometria e per l'analisi statistica
  • alcuni software con licenza aperta per visualizzazione dati
    1. Gephi – strumento completo per la comprensione e l'elaborazione dei grafi.
    2. VOSViewer – strumento software per costruire e visualizzare reti bibliometriche, attraverso l’analisi delle citazioni e delle co-citazioni.
    3. Pajek – software per la visualizzazione e l'analisi delle reti complesse di dati.
    4. OpenMinTeD - Strutturato per offrire servizi avanzati di alta qualità per il Text e Data Mining. La piattaforma può essere utilizzata per cercare/condividere gli strumenti di elaborazione; spazio cloud per trovare e costruire corpora disponibili in modalità aperta. La piattaforma contiene diversi cataloghi, da quelli per sviluppatori informatici esperti, dove si possono trovare componenti di software e relative istruzioni, a cataloghi di corpora e dataset per una consultazione, oltre alle istruzioni e alle informazioni sulle licenze d’uso dei materiali.
  • strumenti per il trattamento di dati che non nascono digitali
  1. How to deal with non digital data - guida OpenAIRE per trattare i dati che non nascono in modo digitale, dalle annotazioni su carta agli oggetti fisici

 

Guide appositamente studiata per i ricercatori delle scienze della vita per accompagnarli nella realizzazione della ricerca secondo i principi FAIR. Particolarmente raccomandata per i progetti europei Horizon.

Protezione dei dati – normative GDPR

Il trattamento e il riutilizzo dei dati provenienti da fonti terze deve avvenire nel rispetto della protezione dei dati personali ai sensi della normativa GDPR, nonché dei principi etici legati alla ricerca. In proposito è utile consultare la sezione dedicata nel sito dell'Ateneo

Riguardo alla normativa, nella intranet UCSC sono presenti alcune informazioni e materiale formativo (accessibile con utenza UC).

Per ulteriori approfondimenti v. corso online sulla normativa, di cui il terzo modulo, in particolare, è dedicato alla ricerca scientifica; v. anche materiale informativo utile; Privacy Policy UCSC, documento che rappresenta il Modello Organizzativo di cui l'Ateneo si è dotato in tale ambito nonché ruoli e responsabilità dei soggetti coinvolti nel trattamento dei Dati Personali.

Altri materiali

title
Loading...