DSC_0082.jpgDSC_0054 1.jpgDSC_0189.jpgDSC_0202.jpgDSC_0058.jpgDSC_0084 2.jpgDSC_0059.jpgDSC_0057.jpgDSC_0152.jpgDSC_0188.jpgDSC_0044 1.jpg

Analisi esplorativa

L'analisi esplorativa permette di individuare e valutare le strutture insite in un set di dati (anche molto complesso), raccogliendo quanta più informazione possibile riguardo al problema in esame. Si effettua quindi un'analisi su dati già presenti.

In tutti i casi in cui le variabili sono numerose e talvolta anche correlate tra loro, l'utilizzo dei metodi chemiometrici può aiutare a fornire una visione globale del problema, evidenziando le relazioni tra le variabili considerate e l'importanza relativa di ciascuna di esse nell'ambito di un determinato problema, e può inoltre mettere in evidenza le relazioni tra i campioni in base alla loro distribuzione nello spazio multi-dimensionale descritto dall'insieme delle variabili. Questi metodi trovano un vasto impiego per la soluzione di numerosi problemi, quali:
- esplorazione iniziale dei dati;
- evidenziazione dell'esistenza di gruppi omogenei di campioni non classificati a priori (cluster analysis);
- formulazione di modelli matematici per la predizione di risposte quantitative (regressione);
- formulazione di modelli matematici per la predizione di risposte qualitative (classificazione).
Il mancato utilizzo di questi metodi può causare la perdita di parte dell'informazione che può essere estratta dai dati in nostro possesso, in quanto non vengono considerati gli effetti multivariati, sinergici ed antagonisti che possono essere messi in evidenza solo utilizzando tecniche di analisi multivariata.

a) Descrizione dei dati
I dati grezzi da sottoporre ad analisi multivariata vengono rappresentati in una matrice formata da n righe, ciascuna delle quali corrisponde ad un campione (denominato "oggetto"), e da p colonne, che rappresentano le p variabili considerate, ciascuna espressa secondo l'unità di misura appropriata.

b) Scalatura
Le variabili che si presentano nel trattamento di un problema multivariato possono essere di natura differente e possono quindi venire espresse da diverse unità di misura.
La maggior parte dei metodi chemiometrici richiede quindi che venga effettuato un pretrattamento dei dati per eliminare l'effetto delle diverse unità di misura e dare a ciascuna variabile lo stesso peso a priori.

c) Esplorazione dei dati
PCA è finalizzata ad estrarre la massima informazione possibile contenuta in una struttura di dati multivariati, sintetizzandola in poche combinazioni lineari delle variabili stesse. Questo metodo viene frequentemente impiegato nella prima fase di elaborazione dei dati e serve a dare una visione generale del problema, a capire le relazioni tra gli oggetti e/o le classi considerate ed a fornire un'indicazione preliminare sul ruolo delle variabili, mettendo eventualmente in luce la possibilità di eliminarne alcune che, essendo strettamente correlate tra loro, portano informazioni simili e possono quindi essere considerate ridondanti.
Dal punto di vista geometrico, la PCA consiste in un processo di rotazione dei dati originali, effettuato in modo che il primo nuovo asse (che costituirà la prima componente principale) sia orientato nella direzione di massima varianza dei dati, il secondo sia perpendicolare al primo e sia nella direzione della successiva massima varianza dei dati, e così di seguito per tutti i p nuovi assi. Il numero di questi nuovi assi (le componenti principali, PC) sarà quindi pari al numero di variabili originali.
Poiché i componenti principali sono gli assi relativi alle direzioni di massima varianza, in ordine via via decrescente, la prima componente principale sarà in grado di spiegare la maggior percentuale di varianza, la seconda ne spiegherà un po' meno, la terza meno ancora e così via, fino a che le ultime componenti contribuiranno a spiegare poco o nulla della variabilità presente nei dati in esame. In questi casi è quindi possibile eliminare parte della variabilità residua (e quindi anche parte del "rumore" che accompagna l'informazione rilevante) prendendo in considerazione solo un numero di componenti, minore del numero delle variabili originali.
Un aspetto di grande rilevanza nello studio di problemi multivariati riguarda la possibilità di "vedere" graficamente i dati. L'analisi delle componenti principali ci fornisce una soluzione algebrica che ci consente anche rappresentazioni grafiche molto efficaci.

 

loadings plot

 

Dal grafico in figura 1 risulta che si formano 2 gruppi di variabili: uno costituito da C1 C2 e c3 (cluster evidenziato in verde), un'altro costituito da C4 e C5, che sono però inversamente proporzionali tra loro.
Tale grafico può inoltre essere messo in relazione con i campioni in esame corrispondenti (vedi figura 2). Costruendo un altro grafico che mette in luce le analogie e le correlazioni tra i campioni stessi. In questo grafico si evidenzia, per esempio, la presenza di 2 gruppi particolarmente omogenei di campioni (org_1, org_2 e org_3), che si colloca in alto a sinistra nel piano individuato dalle prime due componenti principali ed un secondo gruppo (a_1, a_2 e a_3) situato invece a destra. Si evidenzia tra l'altro la presenza di tre campioni dal comportamento intermedio.

 

scores plot

"m. calderisi @ chemiometria.it", used under a Attribution-NonCommercial-ShareAlike license
joomla template by a4joomla
Privacy Policy