Twitter: una fonte di dati per la ricerca nelle scienze sociali

I social media stanno diventando, sempre più, fonti primarie di dati nella ricerca sociale. Questo in relazione, anche e soprattutto, alla loro popolarità e alla facilità con cui i dati possono essere raccolti al loro interno.

Una delle piattaforme social più interessanti e diffuse è, senza dubbio, Twitter, il cui impiego ha, oltre a grandi potenzialità, anche dei limiti e delle implicazioni metodologiche, etiche, legate alla pryvacy e al copyright, come spiega Wasim Ahmed in due recenti post, apparsi rispettivamente su Impact Blog
e sul suo blog personale

Di seguito una sintesi di questi due post.

Fattori di successo

Alla base della diffusione dell’uso di Twitter nelle scienze sociali, possono essere evidenziati 6 fattori determinanti:

Twitter è una piattaforma molto popolare, in quanto riceve attenzione dai media, attraendo quindi maggiormente la ricerca per il suo status culturale;
Twitter rende più facile trovare e seguire le conversazioni, grazie sia alla sua funzione di ricerca, sia al fatto che i tweet appaiono nei risultati di ricerca di Google ;
le norme hashtag adottate da Twitter rendono più facile la raccolta, lo smistamento e l’ampliamento delle ricerche nella raccolta dei dati;

hashtag;

l’API (Application Programming Interface) di Twitter è più aperta e accessibile rispetto ad altre piattaforme social, il che rende più agevole agli sviluppatori creare strumenti di accesso ai dati e, di conseguenza, fornisce più strumenti ai ricercatori;

molti ricercatori, dopo aver avuto un’esperienza personale positiva nell’utilizzo di Twitter, scelgono di usarlo anche per fare ricerca in ragione della sua maggiore familiarità.

Metodi di ricerca

Oltre all’analisi del contenuto, esistono almeno altri 4 metodi di ricerca qualitativa, che ben si adattano alle caratteristiche di Twitter

la Sentiment Analysis, si adatta bene a Twitter, data l’omogeneità della lunghezza dei tweet;
L’analisi delle serie temporali – solitamente utilizzata per esaminare il verificarsi di “picchi” di tweet attorno a un dato fatto o argomento – risulta adatta, in conseguenza della disponibilità dei dati su Twitter in tempo reale;
la Network Analysis viene utilizzata per visualizzare le connessioni tra le persone e per meglio comprendere la struttura della conversazione ;
i metodi per l’apprendimento automatico, ben si adattano per la lunghezza di 140 caratteri dei tweet.

Strumenti

Esistono numerosi strumenti per le analisi su Twitter, alcuni dei quali sono liberamente scaricabili e/o possono avere anche una versione pro, altri sono web based, alcuni sono specifici per Twitter mentre altri si utilizzano anche per altri social media (Facebook, Youtube, Flickr, Instagram, ecc.).

Eccone alcuni:

Mozdeh
Webometric Analyst
NodeXL
Netlytic
TAGS (Twitter Arching Google Spreadsheet)

Criticità

Almeno 6 fattori vanno tenuti in considerazione, quando si usa Twitter come strumento per la ricerca nelle scienze sociali.

Questioni etiche.

Nella raccolta e nel recupero di grandi quantità di dati, potrebbe non essere possibile ottenere il consenso informato da parte di tutti i partecipanti , a causa del volume di tweet recuperati. Il problema del consenso a pubblicare ID e contenuti si pone quando si vogliono riprodurre i tweet in una
pubblicazione accademica, in particolare nel trattare temi sensibili.

Questioni legali

La condivisione di dataset è vietata, secondo quanto riportato nei termini di servizio dell’API di Twitter; tuttavia, i ricercatori possono condividere i numeri identificativi associati a ogni tweet che, a loro volta, possono essere utilizzati da altri ricercatori per ottenere dei dataset.
Nel caso in cui non sia possibile la diffusione degli ID, la condivisione delle parole chiave e dell’arco temporale nel quale i dati sono stati rilevati, consente comunque di ottenere un insieme di dati simile. La stessa API di Twitter fornisce delle linee guida per la pubblicazione dei tweet.

Recupero.

L’uso di alcune parole chiave o di hashtag non può recuperare tutti i dati relativi a un argomento. Una volta recuperati i dati, l’utilizzo di un filtro per parole chiave o hashtag non rilevanti può portare a bias sistematici, con campionamenti parziali. Il recupero dei dati è in funzione anche dalla lingua usata.

Costi.

Il recupero dei dati di Twitter ha dei costi. In particolare diventa difficile ottenere dati relativi a un periodo antecedente a una settimana, in quanto l’API consente di recuperare i dati di Twitter che vanno indietro nel tempo di 7 giorni. Esistono dei rivenditori autorizzati di dati di Twitter, che offrono il servizio di recupero con costi differenti, a seconda della query e del periodo d’interesse.

Rappresentatività

Gli utenti di Twitter non sono rappresentativi nè della popolazione non connessa nè, al momento, degli utenti di Internet. D’altra parte i dati non sono rappresentativi degli utenti, sia perchè non tutti gli utenti postano dei tweet su argomenti di loro interesse, sia perchè
a “cinguettare” non sono solo persone, ma anche organizzazioni o alcune categorie – come i giornalisti – che non lo fanno a titolo personale.

Spam.

Vi è una gran quantità di link “fasulli” su hashtag popolari, ad esempio i tweet progettati per portare gli utenti su un sito web non rilevante, e molti argomenti popolari sono in grado di attrarre grandi quantità di spam. Può, inoltre, essere difficile stabilire se un utente sia reale o fittizio. Gli account fittizi servono per aumentare il numero dei seguaci di un utente,
oppure sotto forma di pacchetti di retweet o di preferiti. Non si conosce la quantità di questi falsi account, però il fatto che siano venduti a basso costo e che siano rintracciabili con la ricerca su Google, da l’idea della loro diffusione e popolarità.

Tutto ciò suggerisce una certa cautela nell’interpretazione dei dati derivati da Twitter.

Tags: metodi qualitativi, Sentiment Analysis, social media, tweet, Twitter