martes, 28 de agosto de 2012

Detección de Valores Atípicos

Detección de Valores Atípicos
Outlier Detection
Por Eber Risco Sence

Los eventos extremos pueden crear problemas en el análisis y modelización de datos. Por ejemplo, un valor extremadamente grande puede causar en la muestra que la media y la desviación estándar sean mucho mayor que los valores de la población. En el análisis bivariado (es decir, X vs Y), un punto extremo puede influir adversamente en el valor de la muestra de un coeficiente de correlación, además pueden distorsionar los coeficientes de la recta de regresión, lo que sugiere un efecto que puede no reflejar la verdadera relación entre el dos variables (McCuen, 2003).

Después de haber decidido subjetivamente que uno o más valores en una muestra son los eventos extremos, los valores deben ser evaluados objetivamente. La intención es evaluar si el evento extremo es probable que haya ocurrido, si la muestra se obtuvo a partir de la población asumida correctamente. La teoría estadística en forma de una prueba de hipótesis se puede utilizar para tomar una decisión. Si la prueba estadística indica que el evento extremo observado es improbable que haya ocurrido durante el muestreo de la población, el evento extremo se llama atípico (outlier). Un valor atípico es un valor medido que, de acuerdo con una prueba estadística, es poco probable que haya ocurrido de acuerdo al resto de los datos de la muestra.

Después de haber decidido que un evento extremo es un outlier, surge la pregunta: ¿Qué se puede hacer con el valor? Si el valor se mantiene en la muestra, entonces puede distorsionar los valores o relaciones calculadas a partir de la muestra. La eliminación del valor debería producir estadísticas más precisas y relaciones con otras variables. Sin embargo, algunos profesionales se oponen a la eliminación de los outliers. Su argumento es que si el valor fue medido, podría haber ocurrido y no es correcto que sea eliminado de la muestra. Ambos son argumentos legítimos.

Mientras numerosos métodos han sido propuestos, los métodos de Dixon-Thompson y Rosner son utilizados comúnmente. El método de Chauvenet, una tercera prueba para los valores atípicos, es sencilla de implementar y de aplicar. Estos métodos definen un estadístico de prueba como la razón de dos desviaciones y se asume que los datos representan una población normal. El método de Rosner sólo es válido para muestras de más de 25 años. La prueba de Dixon-Thompson se puede aplicar para muestras más pequeñas. El método de Chauvenet se puede utilizar con cualquier tamaño de la muestra. Otros métodos para la utilización están basados en la distribución log-Pearson tipo III. El factor de discriminación más importante es probablemente la distribución supuesta de la población. Algunas pruebas de valores atípicos supone que los datos de la muestra proceden de una distribución de probabilidad normal, mientras que otros son válidos para la distribución Pearson tipo III. La distribución es un factor importante en la selección de la prueba más apropiada. Una decisión basada en una prueba puede no ser válido si los datos se muestrean a partir de una distribución que no es el mismo como se supone en el desarrollo de los valores críticos de la prueba. Dicha aplicación puede identificar valores atípicos más o menos que realmente existen en los datos incluidos en la muestra cuando la asunción de la distribución de la población es incorrecta.

En datos hidrológicos a menudo se supone que presentan una distribución log-normal o log-Pearson tipo III.

Método de Chauvenet

Este método requiere el calculo de la media (µ) y la desviación estándar (σ) de los datos analizados. Entonces el valor más extremo en la muestra, Xo es identificado y utilizado para calcular la desviación normal estándar (Z).

Si el valor calculado excede el valor crítico entonces Xo es considerado outlier.

1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
14.96
46.58
12.12
16.28
4.1
28.97
47.36
47.7
135.7
19.5
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
19.9
49.3
22.3
17.9
13.2
15.6
3.7
26.5
23.3
213.1
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
8.9
0.5
12.3
23.2
10.4
39
16.1
17.5
25.9
36.5
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
34.6
14.2
19.4
63.5
342.3
67.8
34.2
50.2
37.7
13.1
 Tabla 1: Precipitación anual (mm) estación Talla.

De acuerdo a los datos de la tabla 1 la media es 41.13, la desviación estándar es 61.57, el valor extremo es 342.3. Por lo tanto el valor de Z calculado es 4.8913, para una muestra de 40 la probabilidad usada es de 1/80=0.0125, Para un test en dos direcciones con una mitad de probabilidad en cada cola (two tailed) el valor crítico es +-2.4977, por lo tanto el valor 342.3 es considerado outlier.

Método Log-Pearson tipo III (Bulletin 17B)

Bulletin 17B (Interagency Advisory Committee on Water Data, 1982) presenta criterios basados en una prueba unilateral para detectar valores atípicos con un 10% de nivel de significancia.  El valor atípico más alto y bajo son calculados con las siguientes ecuaciones:

Donde YL es el límite del logaritmo del valor atípico más alto o bajo, ý es la media del logaritmo de los datos analizados, Sy es la desviación estándar de los valores logarítmicos y KN es la desviación crítica dada en el Bulletin 17B.

De acuerdo a los datos de la tabla 1 la media logarítmica es 1.3699, la desviación estándar logarítmica es 0.4738, el valor de KN para 40 datos es 2.682. Por lo tanto 2.6408 y 0.0989 representan los límites máximo y mínimo respectivamente, aplicando antilogaritmo se obtiene como límite máximo 437.3938 mm y límite mínimo 1.2559 mm.

 Figura 1: Límites máximo y mínimo según el método de Log-Pearson tipo III.

De acuerdo a los límites y gráfico 1 se puede apreciar que existe un outilier (año 1985 con 0.5 mm).


Referencias:
  • Chandler, R; Scott, M. 2011. Statistical Methods for Trend Detection and Analysis. London, UK, Wiley. 370 p.
  • McCuen, R. 2003.Modeling Hydrologic Change.New York, US, CRC Press Company .450 p.
  • Reiss, R; Thomas, M. 2007. Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3 ed. Berlin, DE, Springer Science+Busines Media. 516 p.

Vídeo de Aplicación en MATLAB


domingo, 8 de abril de 2012

Índice de Vegetación Linealizado

Índice de diferencia de Vegetación Normalizado (NDVI) Linealizado

            Normalized Difference Vegetation Index (NDVI) Linearized

Por Eber Risco Sence


Desde su introducción, el NDVI ha sido muy utilizado en una amplia variedad de estudios incluidos los relativos a la vegetación mundial, la estimación de los cultivos y el crecimiento vegetativo, la cobertura del suelo, clima, etc.

Sin embargo, existe la objeción de que el NDVI es no lineal, presentando saturación en zonas de alta vegetación. Para solucionar este problema Ünsalan y Boyer (2011) proponen una metodología, la cual pretende solucionar el problema de la no linealidad (saturación) del NDVI. Esta metodología esta basado en un marco estadístico para el NDVI, para lo cual se utilizan los componentes principales basados en las bandas azul, verde, rojo e infrarrojo cercano, ellos derivan el NDVI a partir de los componentes principales usando la banda roja e infrarrojo cercano. Definen el ángulo ϕ correspondiente al valor de la pendiente, la cual representa al NDVI:


 Esta ecuación es normalizada de tal manera que los valores fluctúen entre +/-1, con lo cual queda definida de la siguiente manera:


Donde θ representa el grado de vegetación, en este caso representa al primer modelo propuesto por Ünsalan y Boyer (2011), basado en las bandas roja e infrarroja cercana.

Para reducir los efectos atmosféricos, muchos autores incluyen la banda azul en los índices de vegetación, basado en este enunciado proponen usando las bandas azul, roja e infrarrojo cercano proponen el siguiente modelo basado en componentes principales derivados de las bandas mencionadas.


Tendiendo en cuenta las bandas verde, roja e infrarrojo cercano ellos proponen el siguiente modelo:


Finalmente utilizando las bandas azul, verde, roja e infrarrojo cercano ellos proponen el siguiente modelo para determinar el grado de vegetación:


Con la finalidad de obtener los grados de vegetación en el valle de San Juan y Pisco, ubicados en el departamento de Ica, Perú, a partir de una imagen LANDSAT 5 TM tomada el 15 de abril de 2008, se procedió a desarrollar la metodología propuesta por Ünsalan y Boyer (2011).

Primero se obtuvieron las reflectividades para las bandas azul, verde, roja e infrarrojo cercano, las cuales son necesarias en la metodología, posteriormente se obtuvieron los componentes principales de acuerdo a las combinaciones mencionadas, los eigenvectores y eigenvalores se aprecian a continuación:

Componente
ρred
ρnir
CP1
0.70711
0.70711
CP2
-0.70711
0.70711

Tabla 1: eigenvectores obtenidos, los eigenvalores
son λ1=1.2009, λ2=0.7991

Componente
ρblue
ρred
ρnir
CP1
0.67865
0.66027
0.32168
CP2
0.16196
0.29267
-0.9424
CP3
-0.71638
0.69166
0.09168

Tabla 2: eigenvectores obtenidos, los eigenvalores
son λ1=2.0823, λ2=0.8830, λ3=0.0347


Componente
ρgreen
ρred
ρnir
CP1
0.68018
0.6652
0.30799
CP2
0.16276
0.27262
-0.94825
CP3
-0.71474
0.69512
0.07716

Tabla 3: eigenvectores obtenidos, los eigenvalores
son λ1=2.1021, λ2=0.8903, λ3=0.0076

Componente
ρblue
ρgreen
ρred
ρnir
CP1
0.56381
0.56802
0.55595
0.22448
CP2
0.07747
0.10086
0.20982
-0.96943
CP3
0.77479
-0.13729
-0.61129
-0.08468
CP4
0.27534
-0.80519
0.52271
0.05136


Tabla 4: eigenvectores obtenidos, los eigenvalores
son λ1=3.0607, λ2=0.8997, λ3=0.0355, λ4=0.0041

Los índices de vegetación lineal θ sobre la base de la actividad vegetal, seguido de tres nuevos índices de vegetación: θ2 y θ3 definidos en espacios 3D, y θ4 en el espacio 4D para los valles San Juan y Pisco se aprecian a continuación.


Referencias

  • Schowengerdt, R. 2007. Remote Sensing-Models and Methods for Image Processing. 3 ed. California, US, Academic Press. 558 p.
  • Steven M. de Jong; Freek D. Van der Meer. 2004. Remote Sensing Image Analysis. California, US, Springer. 370 p.
  • Schott, J. 2007. Remote Sensing: The Image Chain Approach. 2ed. New York, US. Oxford University Press. 701 p.
  • Ünsalan, C.; Boyer, K. 2011. Multispectral Satellite Image Understanding. New York, US. Springer. 203 p.