Analytics

Pubblicato Mercoledì, 26 Dicembre 2012 11:42
Visite: 2132

L’elaborazione e l’analisi statistica di dati strutturati non è una particolare novità, innumerevoli sono i settori ed i contesti applicativi in campo industriale, medico, scientifico, finanziario nei quali è diffusa. Parlando però di Big Data sorgono problematiche che non sempre e non necessariamente sono affrontate nei contesti tradizionali (ad esempio la Business Intelligence). Talvolta è necessario esplorare tali dati con una velocità che non è consentita dai normali database relazionali. Inoltre, come riportato in “The age of Big Data”, tratto dal NY Times, la parte analitica inizia a fare uso di concetti piuttosto avanzati: “In prima linea si collocano le tecniche di Intelligenza Artificiale, come l’Elaborazione del Linguaggio Naturale, il Riconoscimento di Pattern e l’Apprendimento Automatico”.
I dataset da elaborare possono essere numerosi e parecchio eterogenei tra loro, i dati grezzi possono aver bisogno di importanti interventi di pulizia e raffinamento ed i modelli predittivi da generare possono essere molto complessi. Uno dei sistemi più consigliati è Hadoop, una tecnologia open source che permette di distribuire i carichi di lavoro dell’analisi dei dati tra più computer, a fine di suddividere la difficoltà dell’elaborazione e produrre i risultati in maniera più rapida. In questo modo si va a produrre una nuova piattaforma, che potrebbe essere denominata “analytics-as-a-service”, che facilità le attività di utilizzo, analisi e sperimentazione dei flussi di dati eterogenei (strutturati o meno che siano). A questo punto, per far parlare i dati, occorre che entri in campo una nuova figura, quella del Data Scientist.
E’ da poco che nel panorama scientifico internazionale si è delineata questa nuova figura di scienziato caratterizzata dalla capacità di analizzare problemi di tipo numerico o testuale, quantitativi o qualitativi, utilizzando trasversalmente gli strumenti messi a disposizione sia in ambito statistico (quindi algoritmi di data mining, di machine learning, pattern recognition e classificazione) che informatico (MySql, PHP, Python, Javascript...). Gli strumenti d’elezione per tali figure professionali sono software come R,  MapReduce, Hadoop. A tutto questo si accompagna una responsabilità divulgativa nuova, tale per cui chi analizza i dati non è più chiamato solo a “studiare” il sistema in oggetto e a ricavare l’informazione contenuta in tali dati, ma anche a rappresentare i risultati ottenuti in modo esplicativo, possibilmente attraverso infografiche dinamiche (Data Visualization) chiaro e facilmente fruibili, anche da chi non è addetto al settore analitico o applicativo specifico.
In questo senso è importante generare una figura, o meglio, un team di persone, in grado di gestire quelle che nel report di IDC sono indicate come le tre caratteristiche principali dei Big Data: i dati, l’analitica ad essi applicata e la presentazione dei risultati generati.
I contesti applicativi in cui è previsto un forte incremento dell’impiego delle metodologie finora descritte sono: