:: Análisis de Componentes Principales en Teledetección. Consideraciones estadísticas para optimizar su interpretación ::

Fecha de Publicación: 19/08/2005

Autores del Artículo:

Prof. Susana Beatriz Ferrero¹, Prof. María Gabriela Palacio¹, Lic. Osvaldo R. Campanella²

Universidad Nacional de Río Cuarto
Facultad de Ciencias Exactas, Físico-Químicas y Naturales
Ruta 8 km. 603 - (5800) Río Cuarto - Córdoba
¹ Departamento de Matemática.
² Departamento de Geología.
Comentarios sobre el artículo: sferrero@exa.unrc.edu.ar

  Contrataciones del equipo de Río Cuarto:

Los autores pertenecen al equipo de Río Cuarto, que está formado por Osvaldo R. Campanella (geólogo, especialista en SIG aplicado a la geología ambiental), Marcelo Uva (licenciado en computación y programador) y Susana B. Ferrero (matemática, y Magíster en estadística aplicada). Todos ellos poseen un elevado grado de cualificación profesional y pertenecen a la Universidad Nacional de Río Cuarto, Córdoba, Argentina.

Son contratables por cualquier usuario o institución que necesite la ejecución rápida y eficiente de algún trabajo en el ámbito de los Sistemas de Información Geográfica y Teledetección, poniendo a su disposición una elevada cualificación técnica y el dominio de un amplio abanico de herramientas, entre las que se encuentran ArcView (incluyendo trabajos de programación), ENVI, SAS, programación en IDL, Delphi y otros lenguajes. Me consta que trabajan rápido y bien.

Para pedir presupuestos y solicitar contrataciones contactar con Osvaldo R. Campanella.

Resumen:

En este trabajo se ha aplicado el Análisis de Componentes Principales (A.C.P.) a una subimagen LANDSAT 5 TM que comprende a la ciudad de Río Cuarto, provincia de Córdoba, Argentina. Se analizan en detalle consideraciones tales como: ponderación o "peso" de cada banda y número de componentes a ser usados.
Se presenta el desarrollo del A.C.P. basado en la matriz de varianza-covarianza y en la de correlación -- y sus correspondientes autovalores y autovectores -- y consideraciones para decidir cual de ellas usar. También se muestran criterios para seleccionar el número de componentes principales a ser usados.
Si el objetivo es ponderar de la misma manera a todas las bandas intervinientes, debe usarse la matriz de correlación, en cambio si se desea dar mayor relevancia a aquellas bandas que tienen mayor varianza, debe usarse la matriz de varianza-covarianza.
Se presentan tres criterios estadísticos para decidir el número de componentes principales a ser usados: (a) En la curva que muestra los porcentajes de variación total explicada por cada componente, considerar aquellos anteriores al punto de inflexión (con lo cual se deberían usar los tres primeros componentes en el problema de aplicación); (b) Considerar los componentes cuyos autovalores son mayores que el autovalor promedio (con lo cual se deberían usar los dos primeros componentes en el problema); (c) Usar los componentes cuyos coeficientes de correlación con las bandas son grandes en valor absoluto (con lo cual se deberían usar los dos primeros componentes en el problema).

PALABRAS CLAVE: Teledetección – Análisis de Componentes Principales.

Summary:

A Principal Components Analysis (PCA) to a LANDSAT 5 TM that includes the city of Río Cuarto, province of Cordoba, Argentina, has been performed. Considerations are analyzed in detail such as: "weight" of each band and number of components to be used.
It is presented the development of the PCA based on the covariance and correlation matrices -- and their eingenvalues and eigenvectors – and considerations in order to decide which one is the most adequated. It is also suggested criteria to select the number of main components to be used.If the goal is to assign the same weight to all the intervening bands, the correlation matrix must be used, whereas if it is desired to give greater relevance to those bands that have greater variance, the covariance matrix must be used.
Three statistical criteria have been shown in order to decide the number of main components to be used: (a) In the curve that shows the percentage of total variation explained by each component, it is necessary to consider the components previous to the saddle point (in this case the three first components should be use); (b) To consider the components whose eigenvalues are greater than the average (and then the two first components should be used); (c) To use those components whose correlation coefficients are high in absolute value (and then the two first components should be used, again).

KEY WORDS: Remote sensing – Principal Component Analysis

 1. INTRODUCCIÓN

 Teledetección Espacial

Las diferentes coberturas de la superficie terrestre (campos cultivados, roca desnuda, agua) reflejan la radiación electromagnética (REM) que les llega desde el sol, con distintas intensidades o niveles digitales (N.D.) de acuerdo a la región del espectro (firma espectral). Este fenómeno es el eje fundamental de la TELEDETECCIÓN.
Los datos son adquiridos en soporte digital y en formato numérico (N.D. para cada elemento de la superficie y para cada banda). Esto abre un enorme campo para la aplicación de la estadística a las ciencias de observación terrestre. Diversos métodos del análisis multivariado son utilizados en Teledetección.
Cualquier imagen puede pensarse como una matriz tridimensional, en la que cada una de las intersecciones de una fila y una columna corresponde a una posición geográfica discreta, y por lo tanto a un píxel, y la tercera dimensión está dada por la banda a la cual corresponde ese píxel. En otros términos, cada nivel digital asociado a un píxel puede denotarse como NDi,j,k donde i es el número de fila, j es el número de columna y k es la banda.
Teniendo presente este carácter matricial de cualquier imagen numérica, se pueden realizar sobre ella transformaciones y operaciones estadísticas. Por ejemplo, con los datos de una imagen digital se pueden calcular medidas de tendencia central y dispersión en cada banda, aumentar el contraste, cambiar su orientación numérica (rotación de la matriz), realizar combinaciones aritméticas entre bandas, sintetizar varias bandas reduciendo la información redundante (componentes principales) o discriminar grupos con N.D. homogéneos dentro de la matriz (clasificación).

 Transformaciones Lineales de los Datos de Imágenes

El carácter digital de las imágenes y su forma vectorial permite generar nuevas imágenes aplicando transformaciones lineales a una o varias imágenes. Las nuevas imágenes representan una descripción alternativa de los datos, en la cual los nuevos N.D. de un píxel están relacionados con sus N.D. originales a través de una operación lineal. La imagen transformada puede destacar ciertas características que no era posible discernir en los datos originales o, alternativamente, preservar la información esencial contenida en la imagen en un número menor de dimensiones. Las transformaciones pueden llevarse a cabo para realizar un mejoramiento de la imagen o como un análisis previo a la aplicación de técnicas de clasificación.

 2. ANÁLISIS DE COMPONENTES PRINCIPALES

El objetivo del Análisis de Componentes Principales (A.C.P.) es resumir un grupo amplio de variables en un nuevo conjunto (más pequeño) sin perder una parte significativa de la información original (Chuvieco, 1996). Para el usuario final de productos de teledetección, el objetivo del A.C.P. es construir una o varias imágenes que incrementen su capacidad de diferenciar distintas coberturas. Es por ello que al realizar una composición color resulta interesante usar, en lugar de algunas bandas de la imagen, los componentes principales 1, 2 y 3 en la secuencia RGB respectivamente.

El A.C.P. puede aplicarse como realce previo a la interpretación visual o como procesamiento anterior a la clasificación. En general, esta técnica incrementa la eficiencia computacional de la clasificación porque reduce la dimensionalidad de los datos.

Por otra parte, desde el punto de vista estadístico, el A.C.P. facilita una primera interpretación sobre los ejes de variabilidad de la imagen, lo que permite identificar aquellos rasgos que aparecen en la mayoría de las bandas y aquellos otros que son específicos de algún grupo de ellas (Chuvieco, opcit). Este trabajo se refiere a casos en los que interesa identificar la información común a la mayoría de las bandas, que está presente en los primeros componentes.

El A.C.P. también es usado en aplicaciones multitemporales con el objeto de detectar cambios en distintas fechas. En este caso los primeros componentes resultantes del análisis no son los más interesantes ya que recogen información común a las distintas fechas (la estable). Los últimos componentes ofrecen la información no común (el cambio) que es lo que interesa en este contexto (Chuvieco, opcit).

Algebraicamente, el A.C.P. genera nuevas variables (componentes), mediante una combinación lineal de las p variables originales (bandas). Aunque se requieren los p componentes principales para reproducir la variabilidad total, muchas veces la mayor parte de ella está contenida en un número menor de componentes m. En ese caso, reemplazando las p bandas por los m componentes, se reduce la dimensionalidad del problema conservando casi la totalidad de la información.

En teledetección, la adquisición de imágenes en bandas adyacentes del espectro implica, con frecuencia, detectar información redundante (en apariencia las bandas de la imagen se visualizan de manera similar) . Por ello, los N.D. de los píxeles de una banda pueden presentar una importante relación con los de otra, resultando una o más de una de ellas irrelevantes.

Aunque la imagen puede arreglarse en una matriz tridimensional, para realizar el A.C.P. se utiliza una matriz bidimensional. Formalmente, los N.D. de los n píxeles de una imagen en p bandas pueden arreglarse en una matriz Xpxn,

La i-ésima fila de la matriz contiene los n niveles digitales de la i-ésima banda. Denominando Xi = [xi1 xi2 ...xin]t para i=1,2,..., p, resulta Xt = [X1, X2, ... , Xp].

Como el A.C.P. es un análisis descriptivo no requiere que X tenga distribución normal multivariada. Si X tuviera esta distribución se podría realizar inferencia (Mardia et al, 1982).

El estudio de la relación entre bandas, que es la base del A.C.P., puede realizarse de dos maneras:


· Con la matriz de varianza-covarianza Sx:

en la que los elementos de la diagonal son las varianzas de los N.D. en cada banda:

con

y los elementos fuera de la diagonal son las covarianzas entre los N.D. de dos bandas:

Como la covarianza entre la banda i y la j es la misma que entre la banda j y la i (sij = sji) la matriz Sx es simétrica. Cuando hay relación lineal entre los N.D. de dos bandas las covarianzas son grandes en comparación con las varianzas, por eso es que esta matriz sirve para estudiar la relación entre pares de bandas.

· Con la matriz de correlación rx:

en la que los elementos son los coeficientes de correlación lineal de Pearson:

Los elementos de la diagonal son unos porque son las correlaciones de cada banda consigo misma. Como la correlación entre la banda i y la j es la misma que entre la banda j y la i (rij = rji) la matriz rx es simétrica. Cuando hay relación lineal entre pares de bandas las correlaciones son cercanas a 1 ó a –1.

Cuando no hay relación entre bandas ambas matrices son diagonales (los elementos fuera de la diagonal son ceros). En este caso cada banda aporta información diferente y por lo tanto el A.C.P. sería innecesario (en teledetección esta situación es poco común).

El objetivo del A.C.P. es generar un nuevo sistema de coordenadas en el espacio multiespectral en el cual los datos pueden ser representados sin correlación, de tal manera que la matriz de varianza-covarianza sea diagonal en el nuevo sistema de coordenadas.


Figura 1: Ilustración de un sistema de coordenadas modificado en el cual los vectores tienen componentes no correlacionados

 

 Componentes principales obtenidos usando la matriz de varianza-covarianza

Como se dijo, los componentes principales son nuevas variables Y1,Y2,...,Yp que se obtienen como combinaciones lineales de las variables originales (bandas):

Como los Yi son combinaciones lineales de los Xi, tienen:

De todas las combinaciones lineales posibles, los componentes principales son aquellas que no están correlacionadas y tienen máxima varianza. Como la varianza se incrementa multiplicando el vector de coeficientes ai por una constante, para que esta combinación lineal sea única es conveniente usar los vectores de coeficientes normalizados, es decir con longitud 1 (ait ai = 1).

De esta manera:

Primer componente principal = combinación lineal (a1t X) que maximiza

Var(a1t X) sujeto a que a1t a1 = 1.

Segundo componente principal = combinación lineal (a2t X) que maximiza

Var(a2t X) sujeto a que a2t a2 = 1
y que Cov(a1t X , a2t X ) = 0

i-ésimo componente principal = combinación lineal (ait X) que maximiza

Var(ait X) sujeto a que ait ai = 1
y que Cov( ait X , akt X ) = 0 para k < i

Como en el caso de las bandas, la matriz de varianza-covarianza de los componentes (SY) es simétrica (por ser Cov(Yi,Yk)= Cov(Yk,Yi), " i¹k). Además como Cov(Yi,Yk)=0 (" i¹k), SY ésta es diagonal.

El Resultado 8.1 de Johnson y Wichern (1992) muestra que el i-ésimo componente principal está dado por

Yi = eit X = e1i X1 + e2i X2 + ... + epi Xp                   con i = 1,...,p
(1)

donde los li son los autovalores (con l1³l2³...³lp³0) y los ei son los autovectores de SY.
A partir de esto:

Var(Yi)= Var(eit X) =eit SX ei = li        
         i = 1,...,p
Cov(Yi , Yk)= eit SX ek = 0          
         i¹k

Es decir:

Si algunos autovalores son iguales, los autovectores y por lo tanto los componentes no son únicos. Sin embargo, los autovectores correspondientes a autovalores iguales pueden elegirse de manera tal que sean ortogonales, y así los componentes son únicos.

La matriz SY contiene en la diagonal las varianzas (autovalores) de los N.D. de los píxeles en las coordenadas transformadas. Los autovalores son no crecientes, entonces la máxima varianza (en general) está en la primera componente y1, la subsiguiente en y2, y así sucesivamente.

Geométricamente, las combinaciones lineales representan la selección de un nuevo sistema de coordenadas Y1,Y2,...,Yp obtenido por rotación del sistema original con coordenadas X1,X2,...,Xp . Los nuevos ejes representan las direcciones de máxima variabilidad y proveen una descripción más simple y parsimoniosa de la estructura de covarianza. Los autovalores expresan la longitud de cada uno de los ejes (componentes), mientras que los autovectores dan la dirección de los mismos.

Por otra parte, cada autovalor representa la proporción de información que retiene el componente principal asociado (lo cual es útil para decidir qué componentes son más interesantes), en tanto que el autovector indica la ponderación que debe aplicarse a cada una de las bandas para obtener el componente principal (equivalentes a los coeficientes de regresión en una transformación lineal estándar, siendo las bandas de la imagen las variables independientes y los componentes principales, las dependientes). El valor absoluto del elemento eji del autovector ei indica el grado de contribución de la banda j al componente principal i definido por la transformación lineal.(Chuvieco, opcit).

La transformación por componentes principales así definida recibe el nombre de Transformación de Hotelling o de Karhunen-Loève (Richards y Jia, 1999).

Como se mencionó al comienzo de esta sección, aunque se requieren los p componentes principales para reproducir la variabilidad total muchas veces la utilización de un número menor de componentes (m<p) conserva casi la totalidad de la información reduciendo la dimensionalidad del problema.

Para decidir el número de componentes principales a utilizar se requieren ciertos conceptos que serán presentados a continuación.
El siguiente resultado muestra que la variabilidad total de las p bandas es la variabilidad total de los p componentes, es decir la transformación preserva la varianza total (Resultado 8.2 de Johnson y Wichern, opcit).

Esto se justifica de la siguiente manera:
La matriz SX es definida positiva, entonces por el Teorema de Descomposición Espectral puede escribirse:

Si los autovectores normalizados son las columnas de una matriz ortogonal G (matriz de la transformación) y L es la matriz diagonal de los autovalores resulta SX = G LGt.
Entonces

esto último por propiedades de la traza.
Además GGt =I (por ser G una matriz ortogonal) y L=SY entonces

Como la varianza poblacional total es s11+ s22 +...+ spp = l1 + l2 + ... + lp , la proporción de varianza total poblacional explicada por el k-ésimo componente es:

Como los autovalores se ordenan en forma no creciente, la eficiencia del ajuste de los datos originales por los primeros m componentes (m£p) es:

En particular cuando se consideran todos los componentes la proporción de variación explicada es 1.

El coeficiente de correlación entre el componente Yk y la banda Xi es:

Los criterios presentados en este trabajo para decidir cuántos componentes principales se deberían seleccionar son:

(a) En la curva que muestra los porcentajes de variación total explicada por cada componente versus los componentes, considerar aquellos anteriores al punto de inflexión.
(b) Considerar los componentes cuyos autovalores son mayores que el autovalor promedio.
(c) Usar los componentes cuyos coeficientes de correlación con las bandas son grandes en valor absoluto.

Estos criterios son utilizados en el Problema de Aplicación.
Antes de realizar el A.C.P. a una imagen real se presenta un ejemplo sencillo para mostrar el cálculo de los componentes principales.
Ejemplo (Richards y Jia, opcit): Suponga que los N.D. de 6 píxeles en 2 bandas son:

Banda 1
1
2
4
5
5
3
2
Banda 2
2
2
3
4
5
4
3

El sentido y la fuerza de la correlación lineal entre dos bandas puede representarse gráficamente mediante un diagrama de dispersión. Cuanto más se aproximan los puntos a una recta mayor será el grado de correlación entre bandas.

En la Figura 2 los N.D. muestran asociación lineal, que podría investigarse analíticamente con el coeficiente de correlación de Pearson, cuyo valor es 0.7609.


Figura 2: Diagrama de dispersión entre las bandas 1 y 2.

Para este ejemplo

La matriz de varianza-covarianza de los datos es

Para determinar los componentes principales es necesario encontrar los autovalores y autovectores de SX. Los autovalores están dados por la solución de la ecuación, es decir ó equivalentemente , es decir , que da por resultados l1=2.67 y l2=0.33.

Entonces la matriz de varianza-covarianza en el nuevo sistema es
Para encontrar la matriz G de la transformación, se deben calcular los autovectores normalizados asociados a los autovalores l1 y l2 . Considerando el primer autovalor l1=2.67, resulta que el vector solución de la ecuación es e1 = (e11 e21)t , y sustituyendo adecuadamente resulta el siguiente sistema

del cual se obtiene e11=1.43 e21, lo que indica que existen infinitas soluciones para el sistema. Como, además, los autovectores deben estar normalizados . Esta ecuación conjuntamente con el sistema anterior da por resultado e1=(0.82 0.57)t. De manera similar e2=(-0.57 0.82)t. Por lo que:

y los componentes principales son:

Para los datos del ejemplo resulta:

Como los valores del primer componente son grandes comparados con los del segundo, la mayor variabilidad se da en la dirección del primer componente principal, lo cual indica que contiene la mayor parte de la información. Más específicamente, como l1 = 2.67 el primer componente contiene el de la variación total. De esta manera, el primer componente muestra un alto contraste visual. Por otra parte el segundo componente es perpendicular al primero (porque no están correlacionados) lo que indica que contiene información no incluida en el primer componente. Todo esto se confirma en la Figura 3, donde se han graficado los datos en los dos sistemas (bandas y componentes principales).


Figura 3: Diagrama de dispersión en los dos sistemas de coordenadas.



¿Esta información te ha sido útil?
Ayúdanos a mantener la página con una donación:



© GabrielOrtiz.com