:: Técnicas de correlación y autocorrelación en variables cuantitativas y cartográficas ::

Fecha de Publicación: 23/12/2004

En este artículo vamos a tratar los conceptos básicos del análisis de la relación entre variables cuantitativas, desde tres puntos de vista distintos:

  • En primer lugar, aprenderemos a dibujar rectas de tendencia manualmente y de dos formas distintas, para que esta operación no sólo consista para nosotros en hacer un clic con el ratón. Ahora sabremos qué operaciones conlleva esta tarea y cada uno de nosotros será capaz de hacerlo por sí mismo. Analizaremos también el más famoso de los índices de correlación: el índice de correlación lineal de Pearson.
  • En segundo lugar, tocaremos brevemente el concepto de Autocorrelación espacial. Veremos en qué consiste y cómo se calcula el índice de Geary. También mencionaremos la formulación del semivariograma, como indicador básico de la autocorrelación espacial, muy usado en múltiples aplicaciones de la ciencia geográfica (sin ir más lejos, el krigeage).
  • Por último, introduciremos brevemente el concepto de correlación cruzada (cross-correlation) entre dos capas (variables) cartográficas raster.

Este artículo contiene lo básico de lo básico, sobre un tema de indudable calado teórico (y práctico también) y que podría abarcar páginas y páginas. El objeto no ha sido en este caso lograr un carácter exhaustivo en la exposición, sino introducir los conceptos más importantes de forma breve y concisa. Espero que sea de ayuda.

1. ÍNDICES DE CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS.

1.1. Definición de Relación entre Variables.

Se considera que dos variables cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían de forma sistemática con respecto a los valores homónimos de la otra; en otras palabras, si tenemos dos variables, A y B, existe relación entre ellas si al aumentar los valores de A también lo hacen los de B, o por el contrario si al aumentar los valores de A disminuyen los de B.

Si ponemos en relación las dos variables A y B, compuestas por los valores representados de la tabla azul, obtenemos el siguiente gráfico:

Un gráfico de dispersión como el mostrado arriba es la forma más sencilla de comprobar la relación entre las dos variables. En él hemos grafiado también la tendencia de la distribución, plasmada como una recta que trata de ajustarse a los puntos del gráfico. Más adelante estudiaremos cómo trazar esta recta de dos formas distintas.

1.2. Definición de Relación entre Variables.

La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, que es la que esquematiza las condiciones de la nube de puntos y de la relación. Los componentes elementales de una línea de ajuste y por extensión de una relación entre dos variables son:

· La fuerza.
· El sentido.
· La Forma

La fuerza mide el grado en que la línea representa a la nube de puntos. Si la nube es estrecha y alargada una línea recta representará adecuadamente a la nube de puntos y a la relación y por tanto ésta será fuerte. Si por el contrario, la nube de puntos tiene una tendencia elíptica o circular, una línea recta que trate de representar a la misma será consecuencia de una relación débil y poco representativa, con amplios residuos.

El sentido de la relación se refiere a cómo varían los valores de B con respecto a A. Si al crecer los valores de la variable A lo hacen los de B, será una relación positiva (a valores bajos de A le corresponden valores bajos de B). Si al aumentar A, disminuye B, será una relación negativa (a valores bajos de A le corresponden valores altos de B y viceversa).

La forma establece el tipo de línea a emplear para definir el mejor ajuste. Se pueden emplear tres tipos de líneas: una línea recta, una curva monotónica y una curva no monotónica.

En el caso de usar una recta, se admite que existe una proporción entre la diferencia entre dos valores A y la diferencia entre dos valores de B. A ese factor de ajuste entre ambas series se le llama pendiente de la recta, y se asume que es constante a lo largo de toda la recta de ajuste.

En el caso de usar una curva monotónica, ese factor de proporción entre las dos variables no es constante a lo largo de toda la recta, y por lo tanto la pendiente de la misma es variable en su recorrido. Se dice entonces que la línea de ajuste es no lineal monotónica, puesto que la línea se ha convertido en curva. Sin embargo, lo que no varía es el sentido de la relación: si la relación es positiva lo será a lo largo de todo el recorrido de la curva y si es negativa, será negativa en toda la curva.

Por último, en el caso de usar una curva no monotónica varía tanto la pendiente de la curva como el sentido de la relación, que en unos sectores puede ser positiva (ascendente) y en otros negativa (descendente).

1.3. Cálculo de las Líneas de Ajuste y sus Ecuaciones.

El primer paso para la obtención de la línea de ajuste es escoger el método de representación, que puede ser alguno de los siguientes:

Describiremos en este artículo el primer caso: la representación de la relación entre dos series de variables mediante rectas, que es el método más común. En primer lugar, veremos el método de cálculo de la línea de mínimos cuadrados o ecuación de regresión lineal simple entre dos variables, que a su vez es la más utilizada de las rectas de ajuste. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles.

Recordemos primero que la ecuación general de la recta tiene la forma:

Con esta sencilla ecuación podemos calcular para cualquier punto de una recta, el valor que tomaría Y a partir del conocimiento de su valor X, de la pendiente de la recta (m) y del punto de corte sobre las ordenadas (b). Así, cuando tenemos una línea recta convencional, el cálculo de la pendiente m es sencillo, y se obtiene poniendo en relación el incremento de las X con el incremento de las Y, para una distancia dada, de la forma:

En cuanto al parámetro b, ya hemos dicho que es el valor que adquiere el punto de corte de la recta representada con el eje cartesiano de las Y (ordenada). Dicho de otra forma, b es el valor de Y para X = 0 , por lo que se puede deducir con la ecuación general si conocemos la pendiente de la recta.

Puede que alguien se esté preguntando a estas alturas dónde está la conexión entre la ecuación general de la recta y la Geografía... Por poner un solo ejemplo: la ecuación general de la recta es la base de los algoritmos que permiten calcular mapas de cuencas de visibilidad y la valoración ponderada de la calidad paisajística. Pero no es el únicio caso, existen decenas de aplicaciones de este principio a la ciencia geográfica.

Una vez que hemos recordado estos conceptos básicos acerca de la recta y su ecuación lineal, veamos cómo se calculan los valores m y b para la línea de ajuste de mínimos cuadrados o regresión lineal simple, aplicable a series de puntos no alineados sobre las que buscamos la recta que mejor se ajuste a su distribución. En estos casos el cálculo de m y de b se realiza de la siguiente manera:

Donde e son las medias de x e y respectivamente. Son datos conocidos pues proceden de los puntos de muestreo grafiados a partir de las series de datos.

En realidad, calculando el parámetro m, ya podemos aplicar la ecuación general de la recta; en primer lugar para x = 0, con lo que obtenemos b, y en segundo lugar para otro punto x que queramos. Con ello obtendremos los valores de y correspondientes, pudiendo en consecuencia dibujar dos puntos sobre el gráfico que, unidos, darán lugar a la recta de tendencia.

El problema de la línea de mínimos cuadrados y de las regresiones lineales simples es que no son resistentes a valores extremos en las series, que pudieran ser anomalías en los datos. Este método, por tanto, puede ser engañoso si se dispone de muy pocos datos y valores extremos en los mismos. Como medida de comparación, se puede utilizar el proceso de cálculo de la recta resistente, cuyo proceso de cálculo describiremos a continuación.

Para calcular la recta resistente, el primer paso es crear el gráfico de distribución de la nube de puntos. Posteriormente se divide el gráfico en tres grupos con igual número de casos, y se calculan las medianas de cada grupo:

Se calcula la pendiente m de la recta resistente, de la forma:

La ordenada de origen (punto de intersección con el eje de las Y, o en otras palabras, punto donde x=0 ), se calcula de la forma:

Dado que la línea resistente se configura a partir de las medianas y no de las medias, es mucho más tolerante a los valores extremos en la serie, y constituye un elemento de gran ayuda para contrastar y comparar la validez de la recta de mínimos cuadrados resultante de la regresión simple.

1.4. Coeficiente de Correlación Lineal de Pearson.

El Coeficiente de Correlación Lineal de Pearson es un índice estadístico que permite definir de forma más concisa la relación entre dos variables. Su resultado es un valor que fluctúa entre –1 (correlación perfecta de sentido negativo) y +1 (correlación perfecta de sentido positivo). Cuanto más cercanos al 0 sean los valores, indican una mayor debilidad de la relación o incluso ausencia de correlación entre las dos variables.

Su cálculo se basa en la expresión:

O lo que es lo mismo: el coeficiente de correlación lineal de Pearson se calcula a partir de la covarianza de las dos series, dividido por el producto de las desviaciones típicas de las dos series, es decir:

Normalmente se utiliza la desviación típica “verdadera” y no la muestral: obsérvese que el sumatorio de los residuos al cuadrado se multiplica por 1/n y no por 1/(n-1).

La interpretación del índice de Pearson es la siguiente:

· r = 1 indica que la correlación es positiva.
· r = 0 indica la inexistencia de correlación.
· r = -1 indica que la correlación es negativa.

2. AUTOCORRELACIÓN ESPACIAL DE UNA VARIABLE GEOGRÁFICA.

2.1. Definición.

La autocorrelación espacial es una medida de la similitud temática de los objetos geográficos en un área determinada. Cada objeto geográfico tiene valores-atributos descriptivos de sus características (por ejemplo, un tipo de uso del suelo, tipo de vegetación, etc.) y coordenadas espaciales (coordenadas x e y del punto de ubicación del fenómeno). La autocorrelación espacial viene a poner en relación las diferencias temáticas de los objetos en relación con la distancia que presentan entre sí.

En general, si los objetos cercanos se parecen mucho entre sí, se dice que existe una autocorrelación espacial positiva; si por el contrario, los objetos cercanos, por el hecho de estar juntos, difieren mucho entre sí, la autocorrelación espacial es negativa (por ejemplo, la delincuencia suele ser menor en las cercanías de las comisarías de policía, denotando una autocorrelación espacial negativa entre casos de delincuencia y presencia policial).

2.2. Expresión General de la Autocorrelación Espacial.

La autocorrelación espacial -medida con el índice que sea- siempre responde al mismo principio: poner en relación las diferencias en los valores temáticos entre dos ubicaciones o casos, con la correspondiente distancia geométrica que les separa. Por ello, existe un armazón común a todo índice de autocorrelación espacial del tipo:

Donde Wij es la distancia geográfica entre los dos sucesos o casos y Cij es la distancia en el espacio de datos o diferencia entre datos temáticos. A partir de esta idea básica, existen dos índices de autocorrelación espacial: el Índice de Geary, y el Índice de Moran.

2.3. El Índice de Autocorrelación Espacial de Geary.

Fue planteado por el autor del mismo nombre en 1954 y su formulación responde a la siguiente expresión:

Donde:
Wij es la distancia euclideana entre los dos casos analizados (i, j).
Zi y Zj son los valores de la variable temática en i y en j respectivamente.

Vemos cómo la expresión general de la autocorrelación espacial que veíamos en el punto anterior toma aquí la forma de W = distancia euclideana y C = (Zi – Zj.

La interpretación del índice de Autocorrelación Espacial de Geary es la siguiente:

· C < 1 indica autocorrelación espacial positiva.
· C = 1 indica la inexistencia de autocorrelación espacial.
· C > 1 indica autocorrelación espacial negativa.

Junto con el índice de Geary, otra forma similar de medida de la autocorrelación espacial es el Índice de Moran (I), en cuyo cálculo no vamos a entrar dado que su utilidad es muy similar a la del estadístico ya expuesto.

2.4. El Semivariograma.

Por último, un indicador de suma importancia en la estimación de la autocorrelación espacial es el semivariograma. El método kriging de interpolación espacial utiliza el semivariograma como indicador para conocer el alcance espacial de la autocorrelación en una variable geográfica (por ejemplo altitudes), y son múltiples las aplicaciones en geoestadística del semivariograma. Su expresión es la siguiente:

Donde:
xi xj son los valores de la variable en dos puntos espaciales distintos.
h es la distancia de separación.
n es el número de puntos.
es la media de la variable.

3. CORRELACIÓN ESPACIAL CRUZADA ENTRE DOS CAPAS RASTER.

3.1. Definición.

La correlación cruzada (cross correlation) entre dos capas cartográficas raster puede definirse como la medida de la similitud de los atributos temáticos de dichas capas, compuesta bajo la forma de un único índice deducido a partir de las diferencias de valores entre cada una de las celdas. Su utilidad se extiende a innumerables aplicaciones, por lo que es importante entender en qué consiste.

3.2. Expresión.

Aunque existen diversas variantes, el índice más utilizado para la estimación de la correlación cruzada es el siguiente:

Donde:
Zi y Zj son los valores de una celda raster en cada una de las dos capas correladas.

La interpretación de este índice de correlación cruzada es la siguiente:

· C = 1 indica correlación crizada positiva entre las dos capas comparadas
· C = 0 indica la inexistencia de correlación cruzada.
· C = -1 indica correlación cruzada negativa.


¿Esta información te ha sido útil?
Ayúdanos a mantener la página con una donación:



© GabrielOrtiz.com