DSC_0188.jpgDSC_0054 1.jpgDSC_0084 2.jpgDSC_0057.jpgDSC_0044 1.jpgDSC_0059.jpgDSC_0189.jpgDSC_0082.jpgDSC_0152.jpgDSC_0202.jpgDSC_0058.jpg

Big Data - Definizione

Il concetto di Big Data è proprio del campo dell'Information Technology: il termine indica grandi aggregazioni di dati, la cui grandezza e complessità richiede strumenti più avanzati rispetto a quelli tradizionali, in tutte le fasi del processo (dalla gestione, alla curation, passando per condivisione, analisi e visualizzazione). Il progressivo aumento della dimensione dei data set è legato alla necessità di analisi su un unico insieme di dati correlati rispetto a quelle che si potrebbero ottenere analizzando piccole serie con la stessa quantità totale di dati ottenendo informazioni che non si sarebbero potete ottenere sulle piccole serie.

(fonte: wikipedia - contributo di Andrea Nelson Mauro dalla mailing list di SOD)

Contesto

Recentemente la multinazionale EMC2, attiva nel settore delle infrastrutture informative e virtuali (IT-as-a-Service, cloud computing) ha promosso una ricerca, realizzata da IDC, dal titolo “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East” che può essere esaminata on-line direttamente dal sito  di IDC di cui sopra. In estrema sintesi, in tale documento si conferma la crescita esponenziale dei cosiddetti Big Data, ma si evidenzia, al contempo, che le potenzialità da essi espresse, per le aziende e consumatori, sono ancora decisamente poco sfruttate.
Più in dettaglio, il lavoro svolto corrisponde al punto di mezzo di uno studio longitudinale, iniziato nel 2005, che si estende, su base previsionale, fino al 2020. In questo studio si vede che il mondo del digitale è sempre più complesso ed in rapida espansione, al punto da prevedere, per il 2020 un quantitativo di dati superiore ai 400 exabyte (ovvero 409 GB). Come diretta conseguenza si avrà un investimento in IT hardware, software, telecomunicazioni, servizi associati, che saranno l’infrastruttura portante del sistema, che aumenterà del 40% rispetto all’attuale e, ovviamente, ancora di più in settori nuovi e specializzati come lo storage management, il cloud computing ed i big data. Si prevede infatti che dal 2012 al 2020 la quota di mercato associata ai settori emergenti del mondo digitale passerà dal 36% al 62%.
Ma perchè questa grande quantità di dati può rivelarsi utile? Qual’è il reale valore dei Big Data? Le applicazioni sono innumerevoli, basti pensare che dai dati, se opportunamente strutturati ed elaborati, possono scaturire possibilità di informazione importantissime. I Big Data possono servire alle aziende per formulare previsioni particolarmente accurate sul comportamento dei clienti e sugli scenari di mercato. Posso aiutare le forze dell’ordine per prevenire crimini o individuare colpevoli, incrociando materiale proveniente da varie fonti.  Innumerevoli possono essere le applicazioni nel settore sanitario, per migliorare i sistemi di prevenzione e cura, ad esempio, delle patologie che hanno un alto impatto sul costo della sanità. Per non parlare delle applicazioni nell'amministrazione pubblica, soprattutto relativamente al ben noto tema degli Open Data, che sempre più sta prendendo piede anche sul territorio nazionale (si pensi anche al Decreto Sviluppo di recente approvazione).
Sebbene i dati possano viaggiare liberamente nell’universo digitale, è possibile comunque trovare il loro luogo di origine e dove sono stati intercettati e/o consumati, e definirne le mappe. La fotografia attuale mostra un quadro già molto interessante e promettente perchè un 20% dei dati esistenti sono prodotti dall’Europa Occidentale, a fronte del 32% prodotto negli Stati Uniti ed un un 17% da Cina e India. Si consideri inoltre che l’investimento economico nell’universo digitale europeo è pari circa a 2,5$ per GB, rispetto al 1,8$/GB degli Stati Uniti e all‘1,4$/GB della Cina.
Al momento la maggior parte delle informazioni (si parla del 68% dei dati nel 2012) è generata dai consumatori stessi attraverso i social media, internet in generale, i dispositivi mobili (tablet e smartphone), la TV digitale,oltre alla diffusione di altre fonti di registrazione e codifica come le videocamere di sorveglianza, i bancomat, la telefonia Voip, gli Sms. Ciò nonostante sembra che solo una piccola parte venga utilizzata in modo proficuo ed adeguato, al punto che si calcola che solo il 3% dei dati prodotti nel 2012 è stato correttamente individuato e appena lo 0,5% è stato sottoposto ad una attenta analisi. Nel report presentato da IDC si indica però che almeno il 33% dei dati raccolti poteva essere potenzialmente utile, indicando quindi quello che alla fine, non può che considerarsi uno spreco di risorse che possono e devono invece essere utilizzate e gestite.
Tutto ciò, secondo gli analisti, non può che concretizzarsi in uno sviluppo del settore ed in un aumento degli investimenti nell’universo digitale anche se, ad onor del vero, occorre aggiungere che la contrazione dei budget IT nelle aziende italiane dovuto all’attuale crisi economica, ha diminuito gli investimenti verso Cloud, Social Media, Mobile e Big Data.

Analytics

L’elaborazione e l’analisi statistica di dati strutturati non è una particolare novità, innumerevoli sono i settori ed i contesti applicativi in campo industriale, medico, scientifico, finanziario nei quali è diffusa. Parlando però di Big Data sorgono problematiche che non sempre e non necessariamente sono affrontate nei contesti tradizionali (ad esempio la Business Intelligence). Talvolta è necessario esplorare tali dati con una velocità che non è consentita dai normali database relazionali. Inoltre, come riportato in “The age of Big Data”, tratto dal NY Times, la parte analitica inizia a fare uso di concetti piuttosto avanzati: “In prima linea si collocano le tecniche di Intelligenza Artificiale, come l’Elaborazione del Linguaggio Naturale, il Riconoscimento di Pattern e l’Apprendimento Automatico”.
I dataset da elaborare possono essere numerosi e parecchio eterogenei tra loro, i dati grezzi possono aver bisogno di importanti interventi di pulizia e raffinamento ed i modelli predittivi da generare possono essere molto complessi. Uno dei sistemi più consigliati è Hadoop, una tecnologia open source che permette di distribuire i carichi di lavoro dell’analisi dei dati tra più computer, a fine di suddividere la difficoltà dell’elaborazione e produrre i risultati in maniera più rapida. In questo modo si va a produrre una nuova piattaforma, che potrebbe essere denominata “analytics-as-a-service”, che facilità le attività di utilizzo, analisi e sperimentazione dei flussi di dati eterogenei (strutturati o meno che siano). A questo punto, per far parlare i dati, occorre che entri in campo una nuova figura, quella del Data Scientist.
E’ da poco che nel panorama scientifico internazionale si è delineata questa nuova figura di scienziato caratterizzata dalla capacità di analizzare problemi di tipo numerico o testuale, quantitativi o qualitativi, utilizzando trasversalmente gli strumenti messi a disposizione sia in ambito statistico (quindi algoritmi di data mining, di machine learning, pattern recognition e classificazione) che informatico (MySql, PHP, Python, Javascript...). Gli strumenti d’elezione per tali figure professionali sono software come R,  MapReduce, Hadoop. A tutto questo si accompagna una responsabilità divulgativa nuova, tale per cui chi analizza i dati non è più chiamato solo a “studiare” il sistema in oggetto e a ricavare l’informazione contenuta in tali dati, ma anche a rappresentare i risultati ottenuti in modo esplicativo, possibilmente attraverso infografiche dinamiche (Data Visualization) chiaro e facilmente fruibili, anche da chi non è addetto al settore analitico o applicativo specifico.
In questo senso è importante generare una figura, o meglio, un team di persone, in grado di gestire quelle che nel report di IDC sono indicate come le tre caratteristiche principali dei Big Data: i dati, l’analitica ad essi applicata e la presentazione dei risultati generati.
I contesti applicativi in cui è previsto un forte incremento dell’impiego delle metodologie finora descritte sono:

  • la sanità ed i dispositivi biomedicali: lo studio delle biometriche non vitali, la misura dell’efficacia degli interventi farmacologici, la correlazione dell’attività dell’individuo con il suo stato di salute, la previsione del sopraggiungere di patologie;
  • la sensoristica: il rilevamento dell’inquinamento, del rumore, dei parametri meteo, effettuati con dispositivi economici ma diffusi nell’ambiente, in grado di generare grandi quantità di dati, analizzabili in real-time, direttamente sui dispositivi stessi, che potrebbero essere impiegati in sistemi di sorveglianza ambientale e di emergenza;
  • punti vendita di grandi catene: lo studio del comportamento dei consumatori, delle loro preferenze, dei loro percorsi preferiti all’interno della struttura, il tutto correlato con parametri a contorno quali il traffico, il meteo, la situazione congiunturale e politica;
  • l’intrattenimento ed i social media: lo studio basato sul comportamento delle masse o di corposi gruppi di individui può essere la chiave vincente per individuare in tempo utile la “next big thing”, o addirittura predire il vincitore delle prossime elezioni, basandosi sulle informazioni liberamente disponibili negli spazi social.

Sottocategorie

"m. calderisi @ chemiometria.it", used under a Attribution-NonCommercial-ShareAlike license
joomla template by a4joomla
Privacy Policy