La scienza oggi: molti “data” poco “open”

Quando si parla di “open data” ci si riferisce a una pratica di condivisione dei dati che ne consenta il libero accesso, in maniera semplice, veloce e senza limitazioni. L’associazione Sardinia Open Data descrive così i dati aperti:
“Il detentore dei dati rilascia gli stessi in modo tale da poter essere rielaborati liberamente da chiunque così da poter essere riutilizzati per altri scopi, e quindi generare nuove conoscenze ed aprire nuove strade di sviluppo sociale ed economico.”

L’idea che sta alla base del fenomeno è che i dati in possesso di pubbliche amministrazioni, enti e centri di ricerca, sono stati prodotti con i soldi dei contribuenti, e a questi andrebbero resi. Ciò consentirebbe ai cittadini sia di creare dei nuovi prodotti basati sui dati, sia di controllare l’operato di chi li governa.

Parlando di open data è molto comune imbattersi in tematiche inerenti politiche amministrative, economiche, sociali e, in misura minore, sanitarie. Ma decisamente più difficile è invece sentir parlare di open data in campo scientifico. La cosa suona quantomeno strana, visto che le comunità scientifiche hanno alle spalle ormai diversi secoli di esperienza nella produzione e nell’utilizzo dei dati. È veramente cosa rara trovare, insieme a una pubblicazione scientifica, la tabella di dati sulla base dei quali è stato impostato il lavoro.

Eppure, anche sulla pagina di Wikipedia dedicata all’open data, viene ripetutamente sottolineato l’importante ruolo che la divulgazione dei dati può svolgere nel rendere più efficace il processo scientifico e nell’accelerare le scoperte scientifiche.

Ma perché un ricercatore dovrebbe pubblicare i dati dei proprio studi?

1. Per garantire la trasparenza del proprio operato

Chi conosce il concetto di open data sa bene come questo sia strettamente connesso a quello di trasparenza. E la trasparenza è anche un punto chiave della divulgazione scientifica. Ogni articolo scientifico che presenta una ricerca basata sui dati deve descrivere in maniera rigorosa e dettagliata tutto il protocollo di ricerca, dagli strumenti utilizzati ai metodi di raccolta dei dati, fino ai risultati. Non sono mancati – e purtroppo continueranno a non mancare – casi di frode scientifica, in cui ricercatori in mala fede hanno distorto o generato artificialmente i dati per ottenere dei risultati che non rispecchiano il reale comportamento del fenomeno sotto analisi.

Ma il metodo scientifico ha già in sé gli anticorpi per combattere questo genere di fenomeni: se altri ricercatori non riescono a replicare gli stessi risultati, allora questi saranno rifiutati. Quindi, se gli studi “truffaldini” possono già essere individuati dalla prassi scientifica, a cosa serve pubblicare i dati, visto che tra l’altro questi possono anche essere dolosamente contraffatti? Non basta già la pubblicazione dei protocolli di ricerca e dei risultati? Cosa ha da guadagnare la scienza nel perseguire una politica “open”?

La disponibilità dei dati di uno studio, pur non essendo sufficiente a rendere una pubblicazione scientifica trasparente al 100%, mette rapidamente altri ricercatori in grado di rielaborare gli stessi dati utilizzando tecniche statistiche diverse o raffinando le stesse analisi già proposte dal lavoro originario. Difatti, per giungere a un risultato, di norma sui dati scientifici viene realizzato uno studio statistico. E le vie che si possono seguire nell’elaborazione statistica sono molteplici e diversificate: la robustezza di una ricerca emerge se più metodologie di analisi convergono verso lo stesso risultato.

Inoltre, pur anche in assenza di frode, evidenze empiriche deboli mascherate all’interno di un articolo scientifico possono essere facilmente messe in luce da analisti esperti del settore. Ma per fare questo, ovviamente, i dati devono essere disponibili.

2. Per aumentarne la visibilità dei propri lavori

La trasparenza è solo una parte del discorso, e forse neanche la più importante. I dati non rappresentano un mero elemento probatorio da utilizzare in sede di processo contro un ricercatore fraudolento. Lo stesso ricercatore, in realtà, ha tanto da guadagnare dalla pubblicazione dei propri dati.

Una volta pubblicati, i dati di una ricerca possono essere integrati all’interno di altri studi e confrontati con dati di terze parti. Altri ricercatori potrebbero vedere usi nuovi per quei dati, incrociarli con i propri o quelli di altri ricercatori e produrre rapidamente una nuova pubblicazione scientifica.

Quando un ricercatore realizza e pubblica un nuovo studio utilizzando dati prodotti da un altro ricercatore, esso si troverebbe costretto a citare la fonte originaria dei dati e gli articoli già pubblicati che ne fanno uso. Questo ha la diretta conseguenza di far crescere il numero di citazioni – e quindi la rilevanza – delle pubblicazioni del primo ricercatore. Considerando che uno dei più importanti parametri sui quali la carriera di un ricercatore viene valutata è proprio il numero di citazioni delle proprie pubblicazioni, questo aspetto non è di poco conto.

3. Per dare un decisivo contributo agli studi meta-analitici

Una meta-analisi è uno studio condotto con lo scopo di mettere insieme il risultato di più studi realizzati con gli stessi obiettivi. Questi studi vengono quindi integrati con il fine di trarre delle conclusioni generali. Realizzare una meta-analisi è un po’ un “tirare le somme”; tipicamente, queste ricerche vengono realizzate in campo sanitario per valutare l’efficacia di determinati tipi di trattamento.

Purtroppo, il ricercatore che deve mettere insieme lo storico degli studi clinici in un dato settore si trova puntualmente davanti allo scoglio della scarsa reperibilità dei dati di molti studi. Non sempre i pochi indici riportati negli articoli sono sufficienti, e questo aspetto limita molto le meta-analisi.

Se a ogni pubblicazione scientifica fosse associata una tabella di dati, i ricercatori che si occupano di meta-analisi risparmierebbero tantissimo tempo, e il lavoro ne guadagnerebbe in precisione e raffinatezza.

In conclusione, bisogna ammettere che l’open data oggi non è una semplice moda, ma un’esigenza. E le società scientifiche, da sempre all’avanguardia su tutto ciò che concerne i numeri, non dovrebbero stare a guardare. Per comprensibili esigenze economiche, la maggior parte delle pubblicazioni scientifiche sono consultabili solo previo pagamento di una variabile somma di denaro. Un articolo scientifico quindi non è proprio “open”, ma ci piacerebbe che i dati, almeno quelli, lo fossero.

Print Friendly

Lascia un Commento