DSC_0054 1.jpgDSC_0058.jpgDSC_0059.jpgDSC_0188.jpgDSC_0152.jpgDSC_0057.jpgDSC_0044 1.jpgDSC_0084 2.jpgDSC_0082.jpgDSC_0189.jpgDSC_0202.jpg

Strumenti (Chemiometria)

Ci sono molti software commerciali conteneti buonissimi strumenti per fare chemiometria. Ma qui si parla solo di strumenti Open Source, perciò cito R ed i realtivi package principali con cui fare chemiometria: ChemometricsWithR e Chemometrics. Inoltre date un occhiata ai task view di riferimento da cui approfondire la ricerca e trovare cosa faccia al caso vostro: Chemometrics and Computational Physics, Design of Experiments (DoE) & Analysis of Experimental Data e Multivariate Statistics.

Entrambi i packages di cui sopra sono associati a dei libri che spiegano passo passo sia la chemiometria che come lavorare con R: Chemometrics with R: Multivariate Data Analysis in the Natural Sciences and Life Sciences (Use R!) e Introduction to Multivariate Statistical Analysis in Chemometrics.

Altri software interessanti sono Octave e Scilab, ma non li uso e quindi non ne posso parlare.

Tecniche di classificazione

I metodi di classificazione hanno l'obiettivo di costruire, sulla base di un certo numero di variabili indipendenti, un modello capace di individuare la classe cui appartiene un oggetto. E' importante stabilire a priori delle classi (in base a considerazioni teoriche o alla definizione di una variabile categorica o mediante metodi di clusterizzazione). Si tratta quindi di tecniche che forniscono una risposta quantitativa.

Gruppo di Chemiometria della SCI

Fin dai suoi inizi, alla metà degli anni 70, la chemiometria ha visto svilupparsi un’importante comunità anche in Italia, comunità che è andata via via accrescendosi col tempo. Sulla scorta di ciò, nel 2001 è stato costituito, nell’ambito della Società Chimica Italiana, il gruppo divisionale di chemiometria, il cui obiettivo è di raccogliere tutte le persone che mostrino interesse verso la disciplina indipendentemente dal settore in cui esse operino (analitico e non, accademia, enti, industria..), allo scopo di promuovere la conoscenza, l'educazione, l'applicazione, implementazione di nuovi metodi, e di stimolare la partecipazione alle attività della comunità chemiometrica internazionale.
È da sottolineare come uno degli scopi principali del gruppo sia quello di rivolgersi a persone che si trovino a contatto con la chemiometria anche solo occasionalmente, magari per la soluzione di un problema specifico e che non vogliano o possano fare i chemiometri “a tempo pieno”. Analogamente, il gruppo vuole porsi come ambito in cui l’accademia e l’industria possano mettere a valore le reciproche esperienze e differenze in maniera produttiva.

Regressione Multivariata

I metodi di regressione multivariata sono impiegati per effettuare predizioni quantitative relativamente ad una o più proprietà del sistema in oggetto. Il loro scopo è di trovare la migliore relazione tra un insieme di variabili che descrive gli oggetti studiati ed un insieme di risposte misurate degli stessi oggetti.

 

MLR

L’obiettivo delle tecniche di regressione multivariata (Multiple Linear Regression) è quello di trovare una relazione tra una o più variabili indipendenti (dette predittori), ad esempio le caratteristiche chimico fisiche di una molecola, ed una o più risposte, variabili dipendenti (ad esempio la sua attività farmacologia).
Nella sua forma più semplice, un modello lineare specifica la relazione (lineare) tra una variabile dipendente (risposta) y, ed un insieme di predittori, x, cosicché:

y=b0 + b1X1 + b2X2 + b3X3 +...bpXp

In questa equazione b0 è il coefficiente di regressione per l'intercetta ed i valori bi sono i coefficienti di regressione (per le variabili da 1 a p) calcolati dai dati.
Quindi, per esempio, si potrebbe stimare (cioè prevedere) il peso di una persona come funzione dell'altezza e del sesso della persona.
L’efficacia del modello ottenuto si misura valutando due parametri:

  1. il fitting, che misura la differenza tra la risposta ricavata dal modello e la risposta sperimentale utilizzata per creare il modello, quindi indica quanto bene il modello trovato si adatta ai punti reali;
  2. la capacità predittiva, che indica la differenza tra i punti ricavati dal modello e i punti sperimentali ottenuti successivamente alla creazione del modello; rappresenta la capacità del modello di predirre il fenomeno in oggetto.

Non necessariamente un modello che presenta una buon fitting ha poi una buona capacità predittiva. E’ quindi sempre molto importante validare accuratamente i modelli creati, mediante apposite procedure di cross-validaiton.

PCR

La denominazione PCR ovvero Principal Component Regression trae le sue origini dal fatto che si utilizza la PCA, eseguita sui predittori del set di dati oggetto di studio, al fine di definire il numero di fattori da studiare. Ciò significa che, inizialmente, vengono calcolati i componenti principali della matrice dei predittori (non vengono quindi considerate le risposte) e che vengono utilizzati solo i primi componenti principali, ovvero quelli che contengono la massima informazione. In questo modo è possibile ridurre moltissimo il “rumore di fondo” ovvero tutte quelle oscillazioni strumentali o meno, tipiche di casi reali, che comportano problemi di interpretazione dei dati.
Sui componenti principali così estratti si effettua la regressione al fine di ottenere una calibrazione o modello predittivo.

PLS

La PLS, Partial Least Square Regression, consiste in uno sviluppo ulteriore della PCR, in quanto le componenti utilizzate sono derivate non solo dal set di predittori, ma anche dall’insieme delle risposte. In questo modo è possibile massimizzare la varianza non solo delle “X” del nostro sistema, ma anche delle “Y”. Così facendo la scelta dei fattori (componenti principali), da impiegare per fare la regressione è fatta in modo ancora più mirato ed efficace. Questo perché non è detto che i componenti principali che spiegano la maggior parte della varianza dei predittori, siano anche i più rilevanti ai fini della regressione.
La PLS si differenzia dalla PCR perché utilizza il set di dati delle risposte in modo attivo durante l’analisi statistica, ciò permette di bilanciare meglio l’informazione contenuta nelle “X” e nelle “Y”, riducendo l’effetto di grandi ma irrilevanti variazioni dei predittori, ai fini della modellizzazione del fenomeno.
La regressione ai minimi quadrati parziali è probabilmente il metodo meno restrittivo delle varie estensioni multivariate del modello di regressione lineare multipla. Questa flessibilità permette di utilizzare tale metodo in situazioni dove l'uso dei metodi multivariati tradizionali è molto limitato, come quando ci sono meno osservazioni che predittori. Inoltre, la regressione ai minimi quadrati parziali può essere usata come strumento di analisi esplorativa per selezionare dei predittori idonei e per identificare gli outlier prima della regressione lineare classica.
La regressione ai minimi quadrati parziali è stata usata in diverse discipline come la chimica, l'economia, la medicina, la psicologia, e la scienza farmaceutica dove sono necessari modelli lineari con un grande numero di predittori. Specialmente nella chemiometria, la regressione ai minimi quadrati parziali è diventata uno strumento standard per la modellazione di relazioni lineari tra misure multivariate.
In generale, a fronte di una più complicata operatività, la PLS fornisce comunque modelli più semplici di quelli costruibili con la PCR ed è in grado di dare risposte esaurienti anche in presenza di dati poco precisi, casi in cui la PCR può fallire.

Gruppi di ricerca di chemiometria in Italia

"m. calderisi @ chemiometria.it", used under a Attribution-NonCommercial-ShareAlike license
joomla template by a4joomla
Privacy Policy