Big Data, cosa sono e il loro rapporto con il GDPR

Big data: cosa sono e perché è importante analizzarli

Viviamo in un tempo caratterizzato da progressi tecnologici che hanno determinato un aumento esponenziale della quantità di dati generati da ognuno di noi ogni giorno. Quando facciamo una ricerca su Google o apriamo un’applicazione sul nostro smartphone, inconsapevolmente lasciamo un’impronta digitale che contiene informazioni preziose sui nostri comportamenti.

Questa grande quantità di informazioni è nota come Big Data, un insieme di dati che provengono da molte fonti e sono talmente grandi e complessi da non poter essere elaborati con strumenti e metodi tradizionali. Pensiamo, ad esempio, al settore sanitario, in cui è necessario gestire migliaia di cartelle cliniche, prescrizioni ed esami medici effettuati quotidianamente. La gestione di questa enorme quantità di dati richiede strumenti e metodi specifici, capaci di raccoglierli, analizzarli ed elaborarli, allo scopo di migliorare la qualità dell’assistenza sanitaria.

In generale, grazie all’analisi dei Big Data si possono identificare rapidamente situazioni e tendenze, prendere decisioni migliori e trovare nuove soluzioni ai problemi esistenti per ottimizzare l’efficienza di un sistema o di un’organizzazione.

Definizione e caratteristiche dei Big Data

L’espressione Big Data descrive una raccolta di dati particolarmente numerosi (strutturati, semi strutturati o non strutturati) provenienti da un’ampia varietà di fonti, difficili da analizzare con i tradizionali metodi di elaborazione. Per riuscirci, infatti, servono competenze specifiche e tecnologie avanzate, tra cui gli algoritmi di Machine Learning, in grado di supportare l’analisi e la gestione delle informazioni in tempo reale.

In uno studio del 2001, l’analista Douglas Laney ha identificato le tre caratteristiche chiave di questo tipo di dati, che ha tradotto nel modello 3V:

Volume: si riferisce alla quantità di dati generati ogni secondo da sorgenti eterogenee, come sensori, log, email, social media e database tradizionali.
Velocità: si riferisce sia alla velocità con cui i nuovi dati vengono generati, sia alla necessità che queste informazioni arrivino in sistema real-time al fine di effettuare le relative analisi.
Varietà: si riferisce alla differente tipologia dei dati che vengono generati, accumulati e usati. Per avere analisi più accurate è infatti necessario prendere in considerazione dati strutturati, semi strutturati e non strutturati.

Oggi, al modello di Laney sono state aggiunte altre due variabili, ovvero veridicità, in riferimento alla qualità e affidabilità dei dati, e valore, cioè la capacità di sfruttare i dati per generare valore in termini di risparmio economico, ottimizzazione dei processi e miglioramento del servizi. Il paradigma delle 3V è quindi diventato il modello delle 5V dei Big Data.

Che cos’è la Big Data analytics

L’analisi dei Big Data è il processo di raccolta e analisi di grandi quantità di dati per scoprire tendenze di mercato, intuizioni e modelli che possono aiutare le aziende a prendere decisioni migliori e fare investimenti più consapevoli.

Queste informazioni devono essere disponibili in modo rapido ed efficiente per consentire alle aziende di elaborare piani che consentano di mantenere il vantaggio competitivo e individuare nuove opportunità. Per questo motivo l’analisi dei Big Data richiede la capacità di sapere gestire tecniche complesse e strumenti sofisticati, come l’Intelligenza Artificiale (IA), l’apprendimento automatico e i sistemi di Business Intelligence (BI) che aiutano le aziende a elaborare grandi quantità di informazioni in modo rapido e preciso.

È possibile distinguere quattro classi principali di data analytics, in base allo scopo dell’analisi:

Descriptive Analytics: l’analisi descrittiva permette di avere una visione completa del contesto e viene usata per rispondere a domande come “Che cosa è successo?”.
Predictive Analytics: l’analisi predittiva serve a identificare tendenze e correlazioni per rispondere a domande relative a cosa potrebbe accadere nel futuro.
Prescriptive Analytics: l’analisi prescrittiva è usata per individuare la migliore tra le decisioni possibili da prendere per raggiungere un risultato desiderato.
Automated Analytics: è l’analisi che sfrutta strumenti in grado di automatizzare il processo di raccolta, analisi e interpretazione dei dati al fine di prendere decisioni.

Quali sono i vantaggi dei Big Data

Ecco quali sono i cinque principali vantaggi legati all’analisi dei Big Data:

Processo decisionale migliore e più rapido: le aziende possono analizzare un grande volume di dati per ottenere nuove conoscenze e agire più velocemente e con maggiore precisione.
Riduzione dei costi e maggiore efficienza operativa: la tecnologia aiuta le aziende a semplificare l’elaborazione e l’archiviazione di grandi quantità di dati, riducendo così i costi e aumentando l’efficienza operativa.
Approccio data-driven: l’analisi dei dati provenienti da diverse fonti, come applicazioni, web e social media, consente a un’azienda di avere un approccio data-driven, cioè di riuscire a prendere decisioni basate sui dati, per sviluppare strategie di business che consentano di raggiungere gli obiettivi desiderati.
Ottimizzare il processo di gestione del rischio: anche il risk management può beneficiare dall’analisi dei Big Data, consentendo alle aziende di identificare i rischi di sicurezza informatica e adottare misure preventive per proteggere dati, reti, dispositivi e sistemi da attacchi dannosi.
Migliorare la customer experience: raccogliere e analizzare dati consente alle aziende di comprendere le preferenze e le motivazioni dei consumatori, per poter offrire servizi e prodotti su misura.

Qual è la relazione tra Big Data e GDPR

Il fenomeno dei Big Data chiama in causa anche la privacy delle persone e quindi la protezione dei dati che costituisce il nucleo del Regolamento (UE) 2016/679, meglio noto come GDPR (General Data Protection Regulation).

Il Gruppo di Lavoro “Article 29 Data Protection Working Party”, istituito dal Garante Europeo della Protezione dei Dati, ha definito i Big Data un termine generico che comprende un gran numero di operazioni di trattamento dati. La conservazione e l’analisi di enormi quantità di dati personali richiede particolare attenzione e cura, in modo che il trattamento avvenga nel rispetto del GDPR.

Infatti, i benefici che si possono trarre dall’analisi dei Big Data sono tali solo a condizione che le aspettative degli utenti in materia di privacy siano adeguatamente soddisfatte e che vengano rispettati i loro diritti sul fronte della protezione dei dati.

È quindi essenziale rispettare i requisiti imposti dal Regolamento (UE) 2016/679 che si traducono in sette principi fondamentali:

Liceità, correttezza e trasparenza del trattamento nei confronti dell’interessato.
Consenso, vuol dire che il titolare del trattamento deve poter dimostrare che l’interessato ha prestato il proprio consenso per il trattamento dei propri dati personali, per una o più specifiche finalità.
Limitazione della finalità del trattamento, compreso l’obbligo di assicurare che eventuali trattamenti successivi non siano incompatibili con le finalità della raccolta dei dati.
Minimizzazione dei dati, ossia i dati devono essere adeguati, pertinenti e limitati a quanto necessario rispetto alle finalità del trattamento.
Esattezza e aggiornamento dei dati, compresa la tempestiva cancellazione dei dati che risultino inesatti rispetto alle finalità del trattamento.
Limitazione della conservazione, vale a dire provvedere alla conservazione dei dati per un tempo non superiore a quello necessario rispetto agli scopi per i quali è stato effettuato il trattamento.
Integrità e riservatezza, cioè garantire la sicurezza adeguata dei dati personali oggetto del trattamento.

È inoltre importante ricordare che l’interessato può esercitare in qualunque momento i propri diritti che includono: accesso, rettifica, cancellazione, limitazione, notifica per rettifica, portabilità, opposizione, oblio.

Il GDPR privacy prevede, inoltre, che il titolare del trattamento, come pure il responsabile del trattamento, è obbligato ad adottare misure tecniche e organizzative idonee a garantire un livello di sicurezza adeguato al rischio del trattamento, per evitare la distruzione accidentale o illecita, la perdita, la modifica, la rivelazione o l’accesso non autorizzato ai dati.

Per valutare e mitigare i possibili rischi legati alla privacy dei dati personali oggetto delle attività di trattamento, uno degli strumenti messi a disposizione dal General Data Protection Regulation e la DPIA, acronimo di Data Protection Impact Assessments – in italiano, “valutazione di impatto sulla protezione dei dati” – che pone l’accento sul principio di responsabilizzazione (accountability) di titolari e responsabili.