/* ************************* */ /* per gallery responsive */ /* ************************* */
Salta al contenuto principaleAnalisi dei dati
Gli strumenti di analisi dei dati possono essere: statistici, linguistici ed informatici, ovvero misurazioni quali indicatori di frequenze e variabili di fenomeni, valori lessicometrici di corpus di testi, valori quantitativi, come ad esempio il numero di tweet raccolti a seguito di una informazione divulgata via Internet.
L’analisi dei dati può essere effettuata attraverso: la statistica classica quella descrittiva e multivariata, il Natural Language Processing, l'analisi testuale, il Machine Learning, l'intelligenza artificiale applicata ai Big Data.
Normalmente, i dati sono conservati nel data-base prodotto dagli stessi strumenti informatici di analisi utilizzati. Perché i dati possano essere condivisi devono essere arricchiti da strumenti di corredo che spieghino il lavoro di raccolta del dato originario e le manipolazioni effettuate per trasformare il dato originario in un dato elaborato.
Il processo della Data Science
Le fasi del processo della Data Science possono essere rappresentate dai seguenti stadi: acquisire, preparare, analizzare, comunicare e una possibile ripetizione dell'intero processo.
L'obiettivo dell'analisi dei dati è la costruzione di un data-set di dati grezzi (dati non ancora processati o sottoposti a software), l'operazione richiede la verifica della sufficienza, completezza, accuratezza dei dati raccolti, l'arricchimento del data-set attraverso meta-dati descrittori e code-book (documentazione prodotta sugli strumenti ed elaborazioni effettuate attraverso software informatici).
Normalmente per importare dei dati, vengono utilizzate due modalità: il ricorso allo SQL, Structured Query Language, utilizzato per effettuare le estrazioni dei dati dai data-base tradizionali. La seconda modalità è rappresentata dalle query fatte sui browser che servono per esplorare i dati nei files di testo, e gli scripting languages per ricavare i dati dai files.
Il pre-processing e la pulizia dei dati sono fasi importanti dell'analisi perché da queste lavorazioni si ottengono i dati processati o i dati puliti, normalmente la manipolazione del data-set (pre-processing) avviene applicando dei codici sui dati.
Una prima visualizzazione dei dati permette di farsi un'idea dei dati a disposizione, in questa fase avviene anche il primo storage, ovvero i dati sono raccolti nel data-base, normalmente un data-base SQL sul quale si sta lavorando.
I principali strumenti di data analisi utilizzati in questa fase sono i seguenti: R linguaggio di programmazione utilizzato per le misurazioni statistiche e Phyton, linguaggio utilizzato per applicare i codici ai dati raccolti. I software di analisi consentono di sistematizzare e standardizzare le attività di analisi dei dati, processare grandi quantità di dati e formalizzare le diverse operazioni in un’interfaccia utente.
E' probabile che serva spazio computazionale per effettuare le analisi (applicare i codici dei software di analisi ai data-set), nel caso di grandi quantità di dati la memoria di un PC potrebbe non bastare e potrebbero essere necessarie soluzioni client e/o su server .
Ogni comunità di ricerca utilizza strumenti propri di analisi e accompagna i dati con una documentazione adeguata per la corretta interpretazione dei dati (metadati), informazione sugli stadi di lavorazione degli stessi (protocolli), e fornisce code-book per i software di analisi dei dati utilizzati, contenenti il codice fonte nel caso di software ad accesso aperto (di solito si tratta di pagine GitHub).
Per la redazione di questa scheda sono state utilizzate le informazioni messe a disposizione da diversi corsi on-line sulla Data Science di diverse università statunitensi che qui si ringraziano: Harvard, Caltech, UC San Diego, John Hopkins University. I riferimenti bibliografici relativi ai corsi sono a disposizione nella scheda bibliografica in fondo a questa guida.
Software a disposizione per l’analisi dei dati, analisi di testi, visualizzazione dei dati; l’elenco non è esaustivo e nemmeno definitivo:
Guide appositamente studiata per i ricercatori delle scienze della vita per accompagnarli nella realizzazione della ricerca secondo i principi FAIR. Particolarmente raccomandata per i progetti europei Horizon.
Protezione dei dati – normative GDPR
Il trattamento e il riutilizzo dei dati provenienti da fonti terze deve avvenire nel rispetto della protezione dei dati personali ai sensi della normativa GDPR, nonché dei principi etici legati alla ricerca. In proposito è utile consultare la sezione dedicata nel sito dell'Ateneo.
Riguardo alla normativa, nella intranet UCSC sono presenti alcune informazioni e materiale formativo (accessibile con utenza UC).
Per ulteriori approfondimenti v. corso online sulla normativa, di cui il terzo modulo, in particolare, è dedicato alla ricerca scientifica; v. anche materiale informativo utile; Privacy Policy UCSC, documento che rappresenta il Modello Organizzativo di cui l'Ateneo si è dotato in tale ambito nonché ruoli e responsabilità dei soggetti coinvolti nel trattamento dei Dati Personali.
Altri materiali