:: Análisis de Similaridad Cartográfica y generación de Mapas Predictivos mediante Sistemas de Información Geográfica GIS ::

Fecha de Publicación: 27/05/2003

Artículos de la serie Beyond Mapping: Más Allá de la Cartografía, por Joseph K. Berry (ver detalles del autor)

           ÍNDICE DEL CAPÍTULO:

Contenidos proporcionados en colaboración con la revista GEOWorld, donde se pueden encontrar los originales en inglés:

English version of this article and others at GEOWorld magazine

Con la colaboración del autor de los artículos Joseph K. Berry:

Traducción al Castellano realizada por Gabriel Ortiz:


Nota del Autor: Las ilustraciones de este artículo han sido realizadas con el software MapCalc™ de Red Hen Systems, Inc. Existe un CD educacional con textos, ejercicios y bases de datos para experimentar los análisis vistos en este tema, así como otros procedimientos cartográficos similares. Su precio de venta es de 21.95$, incluyendo gastos de envío (más información en www.redhensystems.com).

  CÁLCULO DE LA SIMILARIDAD CARTOGRÁFICA (MAP SIMILARITY)

A menudo vemos en conferencias al presentador de turno señalando con un puntero láser sobre una proyección y afirmando "fíjense en el parecido entre la distribución de casos entre esta parte y esta...", a la vez que mueve su puntero rápidamente entre dos mapas parecidos situados uno al lado del otro y que sirven de ilustración para sus razonamientos.

Pero realmente ¿cuál es el parecido entre un caso y otro de ambos mapas? ¿Realmente similares o sólo un poco similares? y... ¿cómo es la similaridad en el resto de las partes de los mapas? Mientras que un análisis visual y subjetivo puede identificar relaciones generales, necesitamos de una aproximación cartográfica cuantitativa para realizar un escrutinio detallado y riguroso que nos permita extraer toda la información contenida en las series de datos de ambos mapas.

Click para ampliar.Figure 1. Superficies cartográficas de identificación de la distribución espacial de Fósforo (P), Potasio (K) y Nitrógeno (N) sobre una misma zona de cultivo. (Click para ampliar).

Echémos un vistazo a los tres mapas de la Figura 1. ¿Podríamos decir cuáles son las zonas que muestran tramas similares? En concreto, si nos fijamos en la zona sureste de los mapas: ¿qué parecido hay entre las tres imágenes?

Las respuestas a estas preguntas son demasiado complicadas para un simple análisis visual, e incluso se puede decir que van más allá de las posibilidades de visualización y análisis de paquetes de cartografía sencillos. Aunque los datos del ejemplo muestran la distribución de fósforo, potasio y nitrógeno en una zona de cultivo de maíz, bien podrían ser datos de carácter demográfico que representasen niveles de renta, educación o precios del terreno. O puestos a imaginar, también podrían ser datos de seguimiento de las ventas de tres productos diferentes... Y por qué no: mapas sanitarios con la representación de la incidencia de tres enfermedades distintas, o estadísticas policiales geográficamente referenciadas...

Con idependencia de la naturaleza de los datos y el campo de aplicación en el que estemos trabajando, el procedimiento 'map-temático' para analizar la similaridad cartográfica (Map Similarity) es el mismo.

En el análisis visual y subjetivo inconscientemente movemos los ojos de un mapa a otro tratando de hacer una valoración de la distribución de colores en cada zona. La dificultad de este tipo de aproximaciones tiene una doble vertiente: a la vez hay que recordar las tramas de colores y además calcular las diferencias. Con un análisis cartográfico cuantitativo hacemos lo mismo, pero con la diferencia de que en vez de usar los colores y sus variaciones visuales, usamos los valores cartográficos verdaderos existentes en el interior de los mapas. Además, contamos con la ventaja de que el ordenador no se cansa de calcular como nuestros ojos y puede completar la comparación para todas las celdas del mapa en cuestión de segundos (2 segundos concretamente en el ejemplo anterior sobre un total de 3289 celdas).

La parte superior izquierda de la Figura 2, donde vemos las tres 'tartas' de datos superpuestas, muestra el proceso de captura de las tramas de datos para la comparación de dos posiciones. Imaginemos un pincho que atraviesa las tres 'tartas' de datos por la localización 18, 45 (fila 18, columna 45): obtendríamos un valor de P de 11.0 ppm, niveles de K de 177.0 y 32.9 de N. Este paso realizado con un análisis a ojo nos permitiría observar tramas de colores rojo intenso, naranja oscuro y verde claro, respectivamente. La otra posición que analizamos para comparación (fila 62, columna 32) tiene una trama de datos de P= 53.2, K= 412.0 y N=27.9; si procedemos a simple vista vemos una trama de colores con verde oscuro, verde oscuro y amarillo, respectivamente.

Click para ampliarFigura 2. Unión conceptual entre el espacio geográfico y el espacio de datos.

La parte derecha de la figura describe conceptualmente cómo calcula el ordenador la relación de similaridad, a partir de las tramas de datos comparadas. El hecho de que los datos cartográficos pueden ser expresados tanto en forma de espacio geográfico como en espacio de datos es clave para entender el proceso.

El espacio geográfico utiliza coordenadas (por ejemplo latitud-longitud) para localizar los elementos del mundo real; en el ejemplo que estamos viendo un punto estaría en la parte sureste del mapa y otro en el noroeste. La expresión geográfica del conjunto completo de mediciones de que disponemos da lugar a su modelo de distribución espacial, plasmado en forma cartográfica.

Por el contrario, el espacio de datos es un poco menos familiar para nosotros. A primeras no podemos recorrer este espacio de datos como si fuera el espacio geográfico, pero podemos recurrir a una conceptualización del mismo que nos ayudará a entenderlo. Pensemos en el espacio de datos como si fuera una caja cristal tridimensional en la cual tenemos metidas un montón de bolas flotando en su interior. En el ejemplo que estamos siguiendo, las magnitudes que definirían las dimensiones de la caja de cristal están definidas por los ejes de las mediciones de fósforo (P), potasio (K) y nitrógeno (N). Las bolas flotantes, por su parte, representan tramas de datos para cada localización.

Las coordenadas que localizan de esta forma tridimensional la posición de las bolas tienen los valores 11.0, 177.0 y 32.9 para el punto de comparación y valores bastantes más altos para el otro punto (53.9, 412.0 y 27.9). En consecuencia, la posición de ambas bolas difiere notablemente en el espacio de datos.

Lo importante aquí es comprender que la posición de cualquier punto en el espacio de datos (bolas flotantes) se corresponde con su trama de datos (pincho que atraviesa las tres 'tartas' y extrae sus valores numéricos). Si los tres valores en la trama de datos son bajo, bajo, bajo, la bola aparecerá en la esquina inferior izquierda del fondo del cubo (que es el origen de los tres ejes) y si los tres valores son alto, alto, alto aparecerá en la esquina superior derecha del frente del cubo (la más cercana a nuestro punto de vista en el ejemplo). Si entendemos esto no nos será difícil comprender que aquellos puntos que estén más cercanos entre sí dentro de este espacio tridimensional serán más similares que aquellos que tienen posiciones relativas más alejadas.

Volviendo al ejemplo, si vemos en la Figura 2 la bola que está más cercana a nosotros (por eso es más grande), podemos ver que es a su vez la más alejada en el espacio de datos al punto tomado como comparación. En consecuencia, es también el punto menos similar a dicho punto de comparación. Esta distancia existente entre los puntos más alejados se toma como referencia para establecer el criterio de 'más diferente' en toda la serie de datos, y se iguala al valor mínimo de 0% en una escala virtual de similaridad. Por contra, un punto con una trama de datos idéntica tendría una representación exactamente en el mismo punto del espacio de datos, lo que daría lugar a una distancia 0 de nuestro punto de comparación y por tanto al valor mínimo de la escala virtual de similaridad (100%).

Click para ampliar
Figura 3. Mapa de Similaridad representando la relación existente entre cada celda del mapa y un punto concreto del mismo tomado como base de la comparación.

El Mapa de Similaridad mostrado en la Figura 3 aplica todo lo dicho anteriormente sobre la escala porcentual de similaridad a todas las celdas de un mapa, sobre las cuales se ha calculado su distancia en el espacio de datos a un punto de comparación. Los tonos verdes indican tramas de datos bastante similares en los contenidos de P, K y N, mientras que los tonos rojos indican puntos con valores bastante diferentes. Es interesante ver que la mayor parte de las posiciones que podríamos denominar como 'muy similares' están situadas en la parte oeste del espacio analizado (en este caso, un campo de cultivo).

Un mapa de similaridad como este que hemos mostrado puede ser una herramienta de un valor incalculable cuando tratamos de averiguar las relaciones espaciales existentes en un conjunto complejo de datos cartográficos. Mientras el ser humano no puede conceptualizar más de tres variables a la vez (recordemos el espacio de datos que imaginábamos como un cubo de cristal), con ordenadores podemos crear índices de similaridad que pueden trabajar con cualquier cantidad de mapas como variables de entrada. Además, las diferentes capas de estos índices pueden ser ponderadas debidamente para reflejar la importancia relativa en el proceso general de determinación de la similaridad, dando lugar a modelos más o menos complejos.

En efecto, los Mapas de Similaridad son una aproximación mucho más depurada que el puntero láser del conferenciante que veíamos al principio recorriendo a toda velocidad varios mapas similares para apuntar apreciaciones subjetivas acerca de la similaridad o diferencia entre zonas. Aportamos de esta forma mediciones objetivas y cuantitativas para cada punto de nuestro espacio de análisis, llevando el análisis cartográfico al terreno del método científico de donde no debe salir.

  IDENTIFICACIÓN DE ZONAS DE DATOS

En el punto anterior hemos introducido el concepto de 'distancia de datos' como herramienta para medir la similaridad en un mapa. Con el software adecuado y un simple click en una celda podemos saber en cualquier momento la similaridad del resto de las celdas con respecto a la primera, en un rango entre 0 (cero por cien similar) y 100 (idéntica trama de datos, es decir, idénticos valores en el conjunto de capas cartográficas analizadas). Dichas estadísticas hemos visto cómo pueden reemplazar a los tradicionales análisis visuales, llenos de subjetividad.

No obstante, podemos extender la técnica anteriormente descrita mediante la aplicación de un círculo que establezca un área sobre el que computar la similaridad cartográfica, a partir de las tramas de datos contenidas en su interior. En este caso, el ordenador calcularía el valor medio de cada parámetro (capa cartográfica) para todo el área del círculo. Dicho valor medio sería tomado como base para establecer la comparación, y posteriormente para el cálculo del conjunto de distancias normalizadas en el espacio de datos con respecto al resto de las celdas del mapa. El resultado sería un mapa que mostraría la similaridad en cada punto con respecto a un área de interés, en vez de como hacíamos antes (con respecto a un solo punto).

De la misma forma, en un estudio de mercado podríamos tomar un mapa de ventas de un producto para identificar zonas inusualmente altas en lo que a ventas se refiere, y posteriormente generar un Mapa de Similaridad utilizando otros datos de carácter demográfico. Podríamos de esta forma obtener puntos con una trama demográfica parecida en otros puntos de la ciudad. O un gestor forestal podría identificar áreas con condiciones de suelo, orientación del terreno, etc. similares a las que exiten donde crece un tipo de vegetación que necesita reforestar.

Click para ampliarFigura 4. Identificación de áereas con mediciones inusualmente altas.

La clave para entender todo esto es la relación existente entre el espacio de datos y el espacio geográfico propiamente dicho. Tal y como se muestra en la Figura 4, un conjunto de datos espaciales puede ser visualizado bajo la forma de un histograma de frecuencias o como un mapa convencional. Mientras que el mapa nos muestra 'dónde están las cosas', el histograma nos informa de 'con qué frecuencia ocurren las cosas', con indepencia de dónde tienen lugar.

La parte superior izquierda de la Figura 4 muestra una representación de un mapa en 2D con una superficie 3D superpuesta donde se puede ver la cantidad relativa de fósforo (P) en una explotación agrícola. Fíjese en los picos que se dan en los bordes de la explotación, con un pico que destaca sobre todos en la zona norte.

El histograma que encontramos a la derecha nos aporta una perspectiva diferente de los datos. En vez de posicionar las mediciones en el espacio geográfico, realiza un conteo de las frecuencias relativas de cada caso en el espacio de datos (básicamente este gráfico nos dice cuántos casos hay en el mapa de medidas entre 5 y 6, entre 6 y 7, entre 7 y 8, etc.) El eje X del histograma se corresponde con lo que sería la Z del mapa convencional (es decir, la cantidad de fósforo detectada). En este caso, los picos del gráfico nos indican qué intervalos de mediciones ocurren más frecuentemente; observemos la alta frecuencia que tienen los valores entorno a 11 partes por millón.

Bien, ahora vamos a realizar la unión entre el espacio geográfico y el espacio de datos. La parte sombreada en verde de los histogramas denota mediciones inusualmente altas. Hemos empleado para ello el estadístico de la desviación típica sobre la media, con lo que hemos realizado un corte que nos permite aislar las mediciones inusualmente altas de acuerdo con el desarrollo de la serie de datos (esta cuestión ya la hemos visto en este artículo anterior). Con dicha delimitación hemos trazado los mapas 2D y superficies 3D que están en la parte derecha de la Figura 4, repetidos tanto para los valores de fósforo como de potasio.

Click para ampliarFigura 5. Identificación de zonas coincidencia comunes a ambos espacios geográfico y de datos.

La Figura 5 muestra cómo se pueden combinar las series de datos del fósforo (P) y del potasio (K) para localizar áreas en la explotación que tengan niveles altos de ambos elementos. El gráfico de puntos negros que está flanqueado por los histogramas de frecuencias se denomina gráfico o diagrama de dispersión (scatter plot). Este tipo de representaciones permite ver de forma gráfica la ocurrencia conjunta de ambas series de datos cartográficos.

Cada punto negro en el gráfico de dispersión representa de forma esquemática una localización en el terreno real, de tal manera que su posición en el diagrama identifica los niveles de P y K para esa celda del mapa. Aquellas bolas que caen dentro de la zona sombreada en color verde se corresponden con celdas que tienen elementos anormalmente altos de ambos componentes P y K (ya hemos visto antes qué entendemos por 'anormalmente altos'). Por su parte, aquellos valores que caen a los dos lados del recuadro verde se corresponden con celdas que tienen un componente alto, pero no los dos.

La parte derecha de la Figura 5 muestra tres mapas alineados con lo que sería la solución geográfica para la localización de zonas con ambos elementos químicos altos (P y K); primero la delimitación de las zonas altas en P, luego las zonas altas en K y por fin abajo del todo las zonas altas en P y K a la vez. Una forma bastante sencilla de conseguir estas delimitaciones consiste en asignar un valor 1 a todas las celdas con mediciones altas de P y K, en cada una de sus dos capas independientes (pintadas de verde); al resto de celdas las daríamos un valor 0 (gris). Luego multiplicamos una capa por la otra y al estar compuestas de 0 y 1 sólo nos dará valores verdes (1) en aquellas zonas donde ambas capas P y K tengan 1, mientras que nos dará valores grises (0) en el resto de combinaciones, debido a que multiplican por algún 0. Como podemos ver, este tipo de técnicas de 'cortes por niveles' nos permiten cartografiar selectivamente cualquier tipo de trama de datos que queramos... sólo hay que asignar valores 1 a los intervalos de datos que nos interesan dentro de cada variable o capa cartográfica, y valores 0 al resto para luego realizar una extracción selectiva.

Click para ampliarFigura 6. Clasificación de 'Cortes por niveles' (Level-slice) sobre tres capas cartográficas.

Siguiendo con nuestra exposición, en la Figura 6 se muestra otro ejemplo que va un poco más allá de lo visto anteriormente. En este caso hemos aislado en el espacio de datos el área con niveles inusualmente altos de P, K y N, que se puede ver como una sub-caja en 3D con bolas dispersas que caen en su interior.

Para conseguir esto hemos empleado un pequeño truco cartográfico que nos ha permitido conseguir la solución mostrada en la figura anterior. En cada mapa individual (o capa cartográfica), hemos otorgado a las áreas que llamamos inusualmente altas los valores de P=1, K=2 y N=4, antes de cruzar entre sí los mapas. El resultado tras este cruce es un rango de coincidencia que va de cero (0+0+0=0, que serían las zonas grises que carecen de interés por no tener alto ningún elemento), hasta siete (1+2+4=7, que serían las zonas de altos niveles a la vez de P, de K y de N). Los valores que quedan entre el 0 y el 7 nos identifican capas con otras combinaciones de elementos. Por ejemplo, las zonas pintadas de amarillo tienen un valor de 3 lo que significa niveles altos de P y K, pero no de N (1+2+0=3). El lector probáblemente se esté preguntando qué pasaría si tuvieramos más capas cartográficas que 3... en ese caso, garantizaríamos la identificación unívoca de casos utilizando valores en progresión binaria creciente (...8, 16, 32, etc.) para garantizar que las combinaciones de resultados sean únicas y poder de este modo identificar qué categorías o valores dieron lugar en cada caso al resultado.

Aunque la técnica de 'Corte por niveles' (Level-slicing) no es una forma de clasificación demasiado sofisticada, nos sirve para ilustrar con claridad la importantísima unión que subyace entre el espacio de datos y el espacio geográfico. Este concepto que es a todas luces fundamental, forma la base de muchos análisis geoestadísticos... incluyendo las técnicas de agrupamiento (clustering) y regresión que veremos más en profundidad a continuación.

  CARTOGRAFÍA DE CÚMULOS DE DATOS Y AGRUPACIÓN (CLUSTERING)

Recapitulando un poco hemos visto cómo analizar el parecido entre datos a partir de mapas apilados con distintas capas temáticas. La primera técnica que veíamos, y que hemos dado en llamar Similaridad Cartográfica (Map Similarity), nos permitía generar un nuevo mapa mostrando el parecido de todos los puntos del mapa con respecto a una localización tomada como base para la comparación y teniendo en cuenta todas las capas cartográficas apiladas. El resultado lo expresábamos en una escala relativa de porcentajes que mostraban el parecido con respecto a la ubicación base de la comparación.

La otra técnica que hemos visto ha sido la denominada 'Corte por niveles' (Level-slicing) que nos permitía especificar un rango de datos de interés para cada uno de los mapas apilados, y luego generar mapas que cumplieran todas las combinaciones de criterios: desde sólo un criterio hasta todos los criterios cumplidos a la vez, así como las posibles combinaciones correctamente identificadas que quedan en medio.

Ambas técnicas son muy útiles a la hora de examinar las relaciones espaciales subyacentes en los datos, pero exigen al usuario tener que especificar los parámetros que desea para el análisis. Pero... ¿qué pasa si uno no sabe qué intervalos de corte usar para el análisis, o qué ubicaciones elegir como base de comparación para analizar la similaridad cartográfica? ¿Podríamos plantearnos con ciertas garantías que fuera el ordenador por sí mismo quien identificara los grupos de datos similares? ¿Qué clase de resultados daría este tipo de clasificaciones automáticas? ¿Funcionarían?

Click para ampliarFigura 7. Ejemplos de Agrupamiento Cartográfico (Map Clustering).

La Figura 7 muestra algunos ejemplos de Agrupamiento Cartográfico (Map Clustering). Los mapas 'flotantes' que se pueden ver en la parte izquierda de la imagen son las capas cartográficas que nos sirven de base para el análisis. Dichas capas son, como se puede ver, los mismos mapas que hemos visto en los puntos anteriores de distribución de Fósforo (P), Potasio (K) y Nitrógeno (N) en una hipotética explotación de maíz. No obstante, hacemos hincapié una vez más en que la naturaleza de los datos puede ser cualquiera: datos de geomárketing, características del medio natural, datos demográficos, etc... en fín, cualquier conjunto de capas cartográficas relacionadas entre sí. El principio siempre es el mismo: el agrupamiento 'mira' la trama numérica de cada ubicación (el valor de cada celda y en cada mapa) y 'ordena' todas las ubicaciones en grupos discretos.

El mapa que vemos en la parte central del gráfico anterior muestra el resultado de reclasificar los mapas P, K y N en dos cúmulos de datos (clusters) tras el agrupamiento. La trama de datos para cada ubicación cartográfica es usada para zonificar la explotación de maíz en dos grupos o clusters separados que cumplan las siguientes condiciones:

  • 1/. Que los grupos sean tan diferentes como sea posible entre sí (diferencia entre grupos).
  • 2/. Que estos grupos internamente estén formados por celdas con tramas cartográficas lo más similares posibles entre sí (similitud en el seno de cada grupo).

Los dos mapas que están a la derecha de la Figura 7 contienen los mismos datos pero grafiados en tres y cuatro cúmulos respectivamente. En los tres mapas de agrupamiento que vemos (el grande central y los dos de la derecha), se ha asignado el color rojo a los datos con respuestas relativamente bajas, mientras que el verde equivale a respuestas relativamente altas. Fijémonos en cómo a medida que vamos pasando de dos a tres clusters y luego a cuatro, las áreas de los dos cúmulos iniciales van siendo invadidas paulatinamente por los nuevos grupos creados, de bordes hacia adentro.

El mecanismo para generar estos cúmulos de datos o clusters es bastante sencillo. Símplemente especificamos los mapas de entrada para el análisis y el número de clusters que queremos; luego, como por arte de magia, nos aparece un nuevo mapa con nuevos agrupamientos discretos de los datos. Ahora en serio... ¿qué hay detrás de este supuesto milagro? ¿Qué es lo que pasa dentro de la caja negra del ordenador cuando decidimos ejecutar una técnica de este tipo?

Click para ampliarFigure 8. Las tramas de datos para cada punto del espacio analizado son vistas en esta representación del espacio de datos como bolas flotantes.

La Figura 8 puede ayudarnos bastante a entender el proceso. Las bolas flontantes identifican las tramas de datos para cada punto del mapa y grafiadas sobre tres ejes que forman el espacio de datos (P, K y N). Recordamos, igualmente, que por trama de datos entendemos el conjunto de valores de todas las capas temáticas para una celda dada, como si las capas cartográficas fueran tres tartas apiladas y atravesáramos las mismas de arriba a abajo con un gran pincho que nos identificara qué sabor hemos interceptado en cada uno de los pisos de la tarta.

Bien, volviendo a la Figura 8, la bola que aparenta estar más cercana a nosotros (la más grande que está cerca de la arista derecha del cubo) se corresponde con valores altos en todos los niveles de P, K y N. Por contra, la bola más pequeña que aparece en el extremo opuesto del cubo (cerca del origen de los ejes), se corresponde con valores bajos. Parece evidente, pues, que ambas bolas con respuestas tan opuestas pertenecen a grupos de datos distintos.

Será tarea de otro artículo el tratamiento en profundidad del algoritmo específico aplicado para el agrupamiento, pero en este caso nos basta con comprender que la base del proceso está en la distancia en el espacio de datos que existe entre las bolas flotantes (o lo que es lo mismo: las tramas de datos). Así, grupos de bolas que están relativamente cercanas entre sí forman un posible grupo, y aquellos cúmulos de bolas que están alejados de este grupo mencionado forman otros potenciales clusters. En el ejemplo de la figura anterior, las bolas rojas identifican un grupo con respuestas relativamente bajas de los niveles P, K y N, mientras que las bolas berdes forman el cúmulo de datos (cluster) opuesto con respuestas relativamente altas. Todo esto traducido en forma de mapa da lugar a la representación cartográfica de la parte inferior derecha de la Figura 8.

Sin embargo, identificar estos grupos de datos cercanos entre sí en el espacio de datos puede ser una tarea árdua. Lo ideal sería encontrarnos con una estructura de 'nubes' de bolas en el espacio de datos para facilitar la tarea de identificación de los clusters, pero eso raramente ocurre, así que no queda otro remedio que aplicar ciertas reglas de decisión que nos permitan partir los datos por contornos que se tienen que corresponder con respuestas similares en los datos. Se pueden aplicar técnicas más o menos sofisticadas que ponderen criterios en función de las tendencias de las series de datos y otros recursos estadísticos expertos como la consideración de la autocorrelación espacial, el tratamiento categórico de los datos, etc.

Click para ampliarFigura 9. Los resultados del agrupamiento se pueden validar preliminarmente con estadística básica.

Ahora bien, ¿cómo podemos saber si los resultados del agrupamiento son aceptables?

La mayor parte de los expertos en estadística responderían a esta pregunta "es imposible saberlo a ciencia cierta". No obstante, nosotros trataremos de buscar una respuesta.

Aunque hay algunos procedimientos bastante elaborados que se centran en las asignaciones de los agrupamientos y en el estudio de los umbrales de tales grupos, la estadística tradicional -a través de los índices comunes que todos utilizamos- es una de las formas más utilizadas de comprobar la bondad de los resultados del clustering.

La Figura 9 muestra una tabla con estadísticas básicas y tres gráficos de apertura: uno por cada capa cartográfica (P, K y N) y cada uno con los resultados de los dos cúmulos realizados (cluster 1 y cluster 2). En la tabla de estadísticas básicas se han incluido la media, la desviación típica y los valores máximos y mínimos de cada cúmulo. Lo ideal sería que las medias entre los grupos fueran radicalmente diferentes y que las desviaciones típicas dentro de cada grupo fueran muy pequeñas, lo que implicaría que existen grandes diferencias entre los grupos pero pequeñas diferencias en el seno de cada grupo.

Los gráficos de apertura nos permiten visualizar estas diferencias. Dentro de estos gráficos las cajas están centradas en la media (posición) y se extienden hacia arriba y abajo una desviación típica (ancho); los hilos de apertura que las acompañan se extienden de los valores máximos a los mínimos, dándonos una idea del rango de apertura que tiene la serie. Cuando los diagramas de dos clusters se solapan, como ocurre en el caso de las respuestas del fósforo, quiere decir que dichos cúmulos no son muy distintos en lo que respecta a ese parámetro (o lo que es lo mismo, a ese eje en el espacio de datos). Sin embargo, la separación que existe en las cajas de los gráficos de K y N sugieren un mayor éxito en la distinción de los clusters (especialmente en el caso del potasio).

Dados estos resultados del ejemplo, un analista GIS daría por aceptable la clasificación... y yo espero que los expertos en estadística acepten mis disculpas por tratar un tema tan complejo de una forma tan breve y simplificada.

  MAPAS DE PREDICCIÓN

Hablar del futuro de los Sistemas de Información Geográfica es hablar de mapas que puedan describir cosas que aún no han sucecido... Suena un poco a ciencia ficción pero lo cierto es que las técnicas de Data Mining espacial no paran de progresar e inexorablemente nos llevan en esa dirección. Durante décadas, la estadística convencional (no espacial) ha estado prediciendo cosas mediante el análisis exhaustivo de muestras de datos en busca de relaciones numéricas (ecuaciones) que luego pueden ser aplicadas a otros conjuntos de datos. Claro que cuando se realiza una aproximación basada en la estadística tradicional sobre datos con una componente espacial, estamos pasando por alto las relaciones geográficas y el resultado al final es sólo una tabla de números, precisamente por no tener en cuenta dicha componente espacial.

La simbiosis existente entre el análisis estadístico predictivo y la cartografía parece evidente. Después de todo, los mapas no son más que un conjunto organizado de números... y los Sistemas de Información Geográfica nos permiten precisamente unir estos números con su distribución espacial. Llevamos vistas en este artículo varias técnicas 'descriptivas' para el análisis de la similaridad, el agrupamiento de datos, etc. Ahora nos toca el siguiente paso lógico que es aplicar técnicas 'predictivas' para generar mapas de extrapolación.

La primera vez que yo usé cartografía predictiva fue en 1992 para extender los resultados de un estudio de mercado de una compañía de telefonía. La dirección del cliente fue utilizada para geocodificar las ventas de un nuevo producto que permitía asignar a un mismo aparato de teléfono disponer de dos líneas con números distintos y sonido de llamada también distinto: uno para los más jóvenes de la casa y otro para los mayores. Poco a poco emergió de la pantalla del ordenador un mapa de toda la ciudad con el patrón de ventas, como si fuera uno de aquellos viejos mapas plagado de chinchetas. Pudimos ver que algunas áreas estaban respondiendo bastante bien, mientras que en otras las ventas iban bastante peor.

Los datos demográficos de la ciudad fueron analizados para calcular una ecuación de predicción entre las ventas del producto y los datos censales. Es decir, escribimos la ecuación de predicción viendo la relación existente entre los datos del estudio de mercado (sobre todo ventas) y los datos demográficos, todo ello de una sola ciudad. Luego esta ecuación fue aplicada en otra ciudad utilizando sus propios datos censales como elemento para 'resolver la ecuación' y en consecuencia generar un nuevo mapa predictivo de ventas. Con posterioridad dicho mapa predictivo de ventas fue cruzado con la información de cableado e instalaciones de la compañía para identificar elementos de la red que deberían ser reforzados o actualizados previamente al lanzamiento del producto.

Click para ampliarFigura 10. El mapa de la explotación de maíz (arriba) identifica la trama de datos a predecir; las imágenes del rojo e infrarrojo cercano de abajo son utilizadas para averiguar la relación espacial.

Para ilustrar el procedimiento de Data Mining predictivo vamos a seguir con el ejemplo de la explotación de maíz con la que venimos trabajando en este artículo. La parte de arriba de la Figura 10 muestra la producción de la explotación para un momento dado (año 2000), con niveles que varían de 39 kg por hectárea (en rojo) a 279 en los valores más altos (pintados en verde). Al mapa de producción de cultivo se le denomina la 'variable cartográfica dependiente' porque identifica los datos de partida del fenómeno que pretendemos predecir.

Las 'variables cartográficas independientes' son las que figuran en la parte de abajo del gráfico, las cuales nos permitirán poner al descubierto las relaciones espaciales existentes (ecuación de predicción). En el ejemplo que estamos viendo, utilizamos como variables cartográficas independientes dos imágenes aéreas; la imagen de la parte de abajo a la izquierda indica la reflectancia relativa de luz roja que reflejan las copas de las plantas en la explotación; la imagen de abajo a la derecha presenta la respuesta en el infrarrojo cercano de la misma explotación (luz con una longitud de onda ligeramente inferior al umbral mínimo que puede percibir el ojo humano).

Viendo estas tres imágenes parece imposible dar con las relaciones que existen entre los tres conjuntos de datos; sin embargo, el ordenador es capaz de 'percibir' dichas relaciones cuantitativamente. Cada posición relativa en los tres mapas (celda equivalente) tiene un valor en cada una de los mapas. Y cada capa cartográfica (cada mapa) está compuesto de 3.287 celdas que cubren la totalidad de la superficie de la explotación.

Click para ampliarFigura 11. Las condiciones comunes para ambas imágenes de respuesta espectral y el mapa de producción de cultivo son representadas en los gráficos de dispersión de la parte derecha.

Por ejemplo, en la parte de arriba de la Figura 11 vemos que la celda ubicada en la fila 13 y columna 46 tiene una condición 'común' de 14.7 en la imagen del rojo y 218 en los datos de producción de cultivo. Las líneas rojas que aparecen en el gráfico de dispersión inmediatamente a su derecha muestran la posición precisa del par de datos cartográficos X=14.7 e Y=218. Lo mismo podemos ver en la parte de abajo de la figura pero con los datos del Infrarrojo cercano cruzados con la producción de cultivo.

De hecho, las nubes de puntos azules que vemos en los gráficos de dispersión representan pares de datos para cada una de las 3.287 celdas con las que trabajamos para representar la explotación agrícola analizada. Una cosa más, las líneas azules de los gráficos representan de forma gráfica las ecuaciones de predicción derivadas del análisis de regresión. En realidad, el fundamento matemático detrás de este tipo de análisis es algo más complejo, pero se podría decir que el objeto es conseguir la línea que 'mejor se adapte a los datos', es decir, con el mismo número de puntos por encima que por debajo de la línea.



¿Esta información te ha sido útil?
Ayúdanos a mantener la página con una donación:



© GabrielOrtiz.com