Logo Cineca Logo SCAI

You are here

8 March Reggia di Caserta: presentation on Sentiment Analysis

05/03/2018

Giovedì 8 marzo alle ore 12 negli uffici della direzione, Mauro Felicori, direttore della Reggia di Caserta, Donatella Sforzini, ricercatrice del Cineca, Antonella Guidazzoli, responsabile del Visual Information Laboratory del Cineca presenteranno l'aggiornamento 2017 della ricerca di Sentiment Analysis sulla Reggia di Caserta sviluppata da SCAI (SuperComputing Applications and Innovation), dipartimento HPC del Cineca.

 

L’analisi dei dati raccolti tramite i social network consente di fornire un quadro di riferimento sulla base del quale le istituzioni culturali possono impostare le proprie strategie di accoglienza, di miglioramento dei servizi e anche di marketing. E’ il senso di una collaborazione tra la Reggia di Caserta e il Consorzio Interuniversitario Cineca.

La scelta di visitare un luogo d’arte o più in generale una meta turistica si basa su una serie di fattori, di cui il visitatore è più o meno consapevole. Sicuramente si tratta di un luogo che suscita interesse, curiosità, desiderio di vedere con i propri occhi quello che ci si immagina ascoltando o leggendo le parole che lo descrivono. Molto spesso tale stimolo proviene dal passaparola, word of mouth: il consiglio di un amico, il suggerimento di un insegnante, il racconto di esperienze positive vissute durante le vacanze da un vicino, o un collega sono tutte occasioni per venire a contatto con luoghi nuovi e sconosciuti, nuove potenziali mete di vacanze o gite fuori porta. A questi fattori si vanno ad aggiungere le numerose fonti di passaparola online. Non solo i social media, (Facebook, Twitter, Instagram, solo per citare i più diffusi…), ma anche siti di recensioni come Tripadvisor sono ormai diventati i nuovi consiglieri di viaggio in cui domanda e offerta di conoscenza sono ritenute più affidabili rispetto alla pubblicità, o a un agente di viaggio, perché prodotte da nostri simili, quindi neutrali, ovvero esenti dal condizionamento interessato.

In questo contesto in cui, attraverso le nuove tecnologie, l’analisi dei dati raccolti tramite i social network consente di fornire un quadro di riferimento sulla base del quale le istituzioni culturali possono impostare le proprie strategie di accoglienza, di miglioramento dei servizi e anche di marketing, la scorsa primavera è stata avviata una collaborazione tra la Reggia di Caserta, e il Consorzio Interuniversitario Cineca. L’accordo prevede l’utilizzo delle tecnologie di supercalcolo e visualizzazione, per la conservazione, gestione, osservazione e fruizione di dataset di grandi dimensioni, per lo sviluppo di applicazioni innovative per la gestione della Reggia e per migliorarne la fruizione da parte dei visitatori. Tra le attività previste nell’accordo siglato tra i due enti rientra un progetto di sentiment analysis, i cui primi risultati sono stati presentati nel corso di Technology for All, l’evento dedicato alle tecnologie applicate al territorio, l’ambiente, i beni culturali e le smart city che si è tenuto a Roma lo scorso ottobre.

La sentiment analysis

La Reggia di Caserta è oggettivamente bella in tutte le sue declinazioni (meravigliosa, stupenda, bellissima). Questo è quanto è emerso dall’analisi del mood dei visitatori del complesso culturale condotta dal Cineca nei primi 8 mesi dell’anno.

L’apprezzamento per la bellezza della Reggia viene accompagnato da eventi molto “mediatici”, che spostano l’attenzione anche verso altre tematiche. Nel momento della nomina del nuovo direttore da parte del Ministro Dario Franceschini, per esempio, la parola “bello” come numero di ricorrenze nei messaggi dedicati alla Reggia è stato superato da “direttore”. Mentre l’oggettiva bellezza della Reggia è indubbia, l’attenzione data dal pubblico al nuovo “direttore social” si è imposta come una persistente novità che contribuisce alla conoscenza della Reggia stessa. A parte l’influsso temporaneo negativo di alcuni eventi (le polemiche legate al “direttore stakanovista”, lo scandalo “affittopoli”, il furto di bici e denaro alla buvette…), il sentiment medio dell’ultimo anno è altissimo. Si attesta infatti all’80%. In particolare i visitatori della Reggia apprezzano posizione, accessibilità, servizi e accoglienza. Sia che le cause siano sentimenti gradevoli (bellezza della reggia ) o critici (polemiche sul direttore ) si assiste ad una crescita dell’attenzione pubblica per la Reggia di Caserta in cui tutti i fattori contribuiscono al recente successo del monumento.

Lo studio è stato condotto analizzando i dati desumibili da Facebook, Twitter e Tripadvisor (quale validatore del metodo sviluppato sui primi due). Le analisi hanno preso in considerazione i soli contenuti testuali (non sono stati considerati audio, immagini, video e applicazioni) creati ex-novo dagli utenti ma anche condivisi o scambiati. I dati analizzati dal 2012 ad agosto 2017 riguardano circa 30.000 utenti di Facebook, Twitter e Tripadvisor, che hanno generato, tra post e commenti, oltre 45.000 interazioni. Una mole di dati consistente, se si considera che sono stati analizzati circa 227.000 termini. L’informazione che deriva da questi dati può assumere la forma di meri conteggi statici e/o dinamici, utili all’individuazione dei giorni e/o delle ore del giorno in cui si interagisce di più con i diversi canali, gli hashtag più utilizzati, gli utenti più attivi e quelli più menzionati, ecc., ma da questi dati è possibile trarre anche informazioni molto più articolate.

Ricondurre lo studio della percezione della Reggia di Caserta nel web alla sola analisi di tali indicatori (pur essendo essi molto utili al gestore dell’immagine on line della Reggia stessa), infatti, è riduttivo rispetto alla possibilità di decifrare i sentimenti, le emozioni, le opinioni e i giudizi che si celano dietro tutte queste interazioni e riuscire a trasformare queste informazioni in una base di conoscenza utile alla promozione turistica.

La sentiment analysis, ovvero i metodi matematici/statistici che si occupano di analizzare tali informazioni, ha lo scopo di quantificare l’intensità (positiva/negativa) di un sentimento descritto in linguaggio naturale in un testo. Il valore aggiunto della sentiment analysis rispetto alle usuali tecniche di customer satisfaction sta nel fatto che si tratta di ascoltare emozioni che vengono fornite in modo spontaneo e proprio per questo rispecchiano le reali aspettative e gli stati d’animo degli utenti.

La sentiment analysis consente di trasformare l’immensa mole di dati generati dai social media in conoscenza. L’analisi della percezione di un bene culturale da parte della cittadinanza diventa, dunque, un ineguagliabile strumento di marketing territoriale ed un indicatore politico che può orientare ed indirizzare scelte ed azioni.

Flusso di analisi e software utilizzati

Le fonti dati analizzate nel corso dello studio si configurano come innovative e alternative rispetto a quelle su cui si basano i classici metodi di customer satisfaction. Attraverso delle opportune keyword (nello specifico @ReggiaCe, #FiduciaCaserta, “Reggia di Caserta”, ed altre) sono stati raccolti i dati provenienti da Facebook e Twitter mentre sofisticate tecniche di web scraping sono state messe a punto per scaricare le recensioni attinenti la Reggia di Caserta dal sito Tripadvisor.

Tuttavia è da notare che la definizione e messa a punto di strumenti di analisi automatica dei testi scritti in linguaggio naturale non è immediata. Ciascun social network ha un proprio standard e il linguaggio utilizzato rispecchia poco l’usuale linguaggio scritto e piuttosto risulta essere una rappresentazione del linguaggio parlato a volte quasi gergale. Gli strumenti espressivi che vengono utilizzati sono difficilmente individuabili in forma scritta, si pensi ad esempio all’uso di allusioni, metafore, ironia o sarcasmo.

A causa di tali peculiarità la fase di pulizia dei dati è fondamentale per poi poter applicare con successo algoritmi automatici di analisi testuale. Tale fase si è concretizzata essenzialmente con l’eliminazione di tutti i contenuti scaricati non attinenti la Reggia (es. i post riguardanti la squadra di basket “Juvecaserta” e “Pasta Reggia Caserta”, i riferimenti al traffico, alla serie televisiva “Gomorra”, ecc.). Il successivo pre-trattamento dei dati ha consentito di individuare/classificare la tipologia di utente e di contenuto (anche attraverso gli hashtag menzionati nei testi).

Il file così ottenuto è stato utilizzato come input per i processi di annotazione semantica e lemmatizzazione al termine dei quali sono stati mantenuti solo i record significativi ai fini del calcolo del sentiment (ovvero quelli contenenti nomi, verbi, aggettivi e avverbi).

Con l’ausilio di informazioni esterne l’algoritmo calcola il sentiment di ciascun testo analizzato. Il sentiment generale è calcolato come quota percentuale di testi positivi sul totale di testi per i quali è stato possibile ricavare un sentiment. Si tratta quindi di un numero che è stato codificato tra 0 (sentiment totalmente negativo) e 100 (sentiment totalmente positivo).

In tutte le diverse fasi del processo di scaricamento, analisi e pubblicazione dei risultati sono stati privilegiati strumenti di tipo open source. In particolare nel flusso di analisi si avvicendano script R e ADaMSoft, si utilizza TreeTagger per l’annotazione del testo, si popola un DB MySql con il risultato delle analisi, si producono le infografiche in R pubblicandole su un server web Shiny.

 

Risultati e validazione

Quasi la metà dei testi analizzati non è stata riferibile ad una emozione (il 44% dei dati analizzati) poiché i termini significativi presenti nel messaggio non avevano una polarità: richieste di informazioni, descrizioni di eventi, nomi propri di persona… scambi di informazioni che per loro natura non esprimono un giudizio ma risultano neutri. Tra essi, tuttavia, figura anche una piccola parte di messaggi contenenti solo emoticon che, essendo sempre più usati nelle comunicazioni tra gli utenti, saranno oggetto di interesse nei prossimi aggiornamenti dell’algoritmo.

Il 38% dei messaggi ha prodotto un sentiment positivo, mentre solo il 14% è stato ricondotto ad un sentiment negativo. Una percentuale molto piccola (il 4%) è costituita da messaggi misti in cui i termini positivi e negativi si compensano.

Per fare in modo che i questi risultati possano diventare un efficace strumento per le Amministrazioni, i risultati devono essere validati. L’algoritmo messo a punto sul set di dati provenienti da Facebook e Twitter è stato dunque verificato tramite la sua applicazione alle recensioni di Tripadvisor (circa 3000 recensioni scritte fino a fine luglio 2016, il 90% delle quali è riferibile agli ultimi 3 anni).

Queste ultime sono molto più informative dei post/commenti sui social poiché il numero di stelle rappresenta una sintesi del giudizio globale espresso.

Confrontando i risultati ottenuti tramite l’applicazione della metodologia sviluppata alle recensioni di Tripadvisor con i giudizi espressi dagli autori delle recensioni stesse abbiamo ottenuto valori di precision e recall pari a 0.96 e 0.85 rispettivamente. Anche il sentiment globale calcolato (79%) risulta essere molto “simile” a quello ottenuto quantificando le stelle tramite la scala di valutazione in fig. 5 (sentiment derivato=76%).

Il sentiment per i Topic Istituzionali

Prendendo spunto dai temi trattati nella ricerca condotta per il MiBACT da Travel Appeal per il monitoraggio della reputazione online dei 20 più importanti Musei statali nel 2015, sono stati delineati 8 ambiti di interesse. Per ciascuno sono state definite delle parole chiave attraverso le quali classificare univocamente i contenuti analizzati. Per ciascun gruppo è stato calcolato il sentiment medio e il relativo grado di accuratezza come percentuale di contenuti con sentiment calcolato sul totale contenuti appartenenti al gruppo. Tale misura è importante per dare forza/smorzare i valori di sentiment medio ricavati. I visitatori della Reggia hanno apprezzano in modo particolare la posizione (sentiment medio 64% con una accuratezza del 73%), l’accessibilità (sentiment medio 60%, accuratezza 69%), i servizi (sentiment medio 66%, accuratezza 53%), e l’accoglienza (sentiment medio 76%, accuratezza 56%)

Da notare che il valore più alto di sentiment è stato registrato per il cluster “attività ed eventi” (88%), tuttavia ad esso è associato un grado di accuratezza molto basso (38%) il che significa che tale valore, al momento, non è attendibile. Così come il sentiment negativo circa i costi (37%) deve comunque leggersi in combinazione con un grado di accuratezza basso (42%).

Conclusioni

Un museo che sa gestire tutte le informazioni a sua disposizione è un museo che sa capire cosa pensano e provano i suoi visitatori (reali o potenziali) quando si avvicinano ad esso, anche solo virtualmente. La sentiment analysis è uno strumento potenzialmente molto potente per trasformare l’immensa mole di dati generati dai social media in conoscenza. Ovviamente, tanto più lo strumento sarà calibrato sull’oggetto di studio, quanto più utile sarà per il gestore dell’immagine della Reggia di Caserta, e potrà originare nuovi strumenti di marketing turistico .