Regressione Multivariata

Pubblicato Mercoledì, 26 Dicembre 2012 11:46
Visite: 13274

I metodi di regressione multivariata sono impiegati per effettuare predizioni quantitative relativamente ad una o più proprietà del sistema in oggetto. Il loro scopo è di trovare la migliore relazione tra un insieme di variabili che descrive gli oggetti studiati ed un insieme di risposte misurate degli stessi oggetti.

 

MLR

L’obiettivo delle tecniche di regressione multivariata (Multiple Linear Regression) è quello di trovare una relazione tra una o più variabili indipendenti (dette predittori), ad esempio le caratteristiche chimico fisiche di una molecola, ed una o più risposte, variabili dipendenti (ad esempio la sua attività farmacologia).
Nella sua forma più semplice, un modello lineare specifica la relazione (lineare) tra una variabile dipendente (risposta) y, ed un insieme di predittori, x, cosicché:

y=b0 + b1X1 + b2X2 + b3X3 +...bpXp

In questa equazione b0 è il coefficiente di regressione per l'intercetta ed i valori bi sono i coefficienti di regressione (per le variabili da 1 a p) calcolati dai dati.
Quindi, per esempio, si potrebbe stimare (cioè prevedere) il peso di una persona come funzione dell'altezza e del sesso della persona.
L’efficacia del modello ottenuto si misura valutando due parametri:

  1. il fitting, che misura la differenza tra la risposta ricavata dal modello e la risposta sperimentale utilizzata per creare il modello, quindi indica quanto bene il modello trovato si adatta ai punti reali;
  2. la capacità predittiva, che indica la differenza tra i punti ricavati dal modello e i punti sperimentali ottenuti successivamente alla creazione del modello; rappresenta la capacità del modello di predirre il fenomeno in oggetto.

Non necessariamente un modello che presenta una buon fitting ha poi una buona capacità predittiva. E’ quindi sempre molto importante validare accuratamente i modelli creati, mediante apposite procedure di cross-validaiton.

PCR

La denominazione PCR ovvero Principal Component Regression trae le sue origini dal fatto che si utilizza la PCA, eseguita sui predittori del set di dati oggetto di studio, al fine di definire il numero di fattori da studiare. Ciò significa che, inizialmente, vengono calcolati i componenti principali della matrice dei predittori (non vengono quindi considerate le risposte) e che vengono utilizzati solo i primi componenti principali, ovvero quelli che contengono la massima informazione. In questo modo è possibile ridurre moltissimo il “rumore di fondo” ovvero tutte quelle oscillazioni strumentali o meno, tipiche di casi reali, che comportano problemi di interpretazione dei dati.
Sui componenti principali così estratti si effettua la regressione al fine di ottenere una calibrazione o modello predittivo.

PLS

La PLS, Partial Least Square Regression, consiste in uno sviluppo ulteriore della PCR, in quanto le componenti utilizzate sono derivate non solo dal set di predittori, ma anche dall’insieme delle risposte. In questo modo è possibile massimizzare la varianza non solo delle “X” del nostro sistema, ma anche delle “Y”. Così facendo la scelta dei fattori (componenti principali), da impiegare per fare la regressione è fatta in modo ancora più mirato ed efficace. Questo perché non è detto che i componenti principali che spiegano la maggior parte della varianza dei predittori, siano anche i più rilevanti ai fini della regressione.
La PLS si differenzia dalla PCR perché utilizza il set di dati delle risposte in modo attivo durante l’analisi statistica, ciò permette di bilanciare meglio l’informazione contenuta nelle “X” e nelle “Y”, riducendo l’effetto di grandi ma irrilevanti variazioni dei predittori, ai fini della modellizzazione del fenomeno.
La regressione ai minimi quadrati parziali è probabilmente il metodo meno restrittivo delle varie estensioni multivariate del modello di regressione lineare multipla. Questa flessibilità permette di utilizzare tale metodo in situazioni dove l'uso dei metodi multivariati tradizionali è molto limitato, come quando ci sono meno osservazioni che predittori. Inoltre, la regressione ai minimi quadrati parziali può essere usata come strumento di analisi esplorativa per selezionare dei predittori idonei e per identificare gli outlier prima della regressione lineare classica.
La regressione ai minimi quadrati parziali è stata usata in diverse discipline come la chimica, l'economia, la medicina, la psicologia, e la scienza farmaceutica dove sono necessari modelli lineari con un grande numero di predittori. Specialmente nella chemiometria, la regressione ai minimi quadrati parziali è diventata uno strumento standard per la modellazione di relazioni lineari tra misure multivariate.
In generale, a fronte di una più complicata operatività, la PLS fornisce comunque modelli più semplici di quelli costruibili con la PCR ed è in grado di dare risposte esaurienti anche in presenza di dati poco precisi, casi in cui la PCR può fallire.