martes, 28 de agosto de 2012

Detección de Valores Atípicos

Detección de Valores Atípicos
Outlier Detection
Por Eber Risco Sence

Los eventos extremos pueden crear problemas en el análisis y modelización de datos. Por ejemplo, un valor extremadamente grande puede causar en la muestra que la media y la desviación estándar sean mucho mayor que los valores de la población. En el análisis bivariado (es decir, X vs Y), un punto extremo puede influir adversamente en el valor de la muestra de un coeficiente de correlación, además pueden distorsionar los coeficientes de la recta de regresión, lo que sugiere un efecto que puede no reflejar la verdadera relación entre el dos variables (McCuen, 2003).

Después de haber decidido subjetivamente que uno o más valores en una muestra son los eventos extremos, los valores deben ser evaluados objetivamente. La intención es evaluar si el evento extremo es probable que haya ocurrido, si la muestra se obtuvo a partir de la población asumida correctamente. La teoría estadística en forma de una prueba de hipótesis se puede utilizar para tomar una decisión. Si la prueba estadística indica que el evento extremo observado es improbable que haya ocurrido durante el muestreo de la población, el evento extremo se llama atípico (outlier). Un valor atípico es un valor medido que, de acuerdo con una prueba estadística, es poco probable que haya ocurrido de acuerdo al resto de los datos de la muestra.

Después de haber decidido que un evento extremo es un outlier, surge la pregunta: ¿Qué se puede hacer con el valor? Si el valor se mantiene en la muestra, entonces puede distorsionar los valores o relaciones calculadas a partir de la muestra. La eliminación del valor debería producir estadísticas más precisas y relaciones con otras variables. Sin embargo, algunos profesionales se oponen a la eliminación de los outliers. Su argumento es que si el valor fue medido, podría haber ocurrido y no es correcto que sea eliminado de la muestra. Ambos son argumentos legítimos.

Mientras numerosos métodos han sido propuestos, los métodos de Dixon-Thompson y Rosner son utilizados comúnmente. El método de Chauvenet, una tercera prueba para los valores atípicos, es sencilla de implementar y de aplicar. Estos métodos definen un estadístico de prueba como la razón de dos desviaciones y se asume que los datos representan una población normal. El método de Rosner sólo es válido para muestras de más de 25 años. La prueba de Dixon-Thompson se puede aplicar para muestras más pequeñas. El método de Chauvenet se puede utilizar con cualquier tamaño de la muestra. Otros métodos para la utilización están basados en la distribución log-Pearson tipo III. El factor de discriminación más importante es probablemente la distribución supuesta de la población. Algunas pruebas de valores atípicos supone que los datos de la muestra proceden de una distribución de probabilidad normal, mientras que otros son válidos para la distribución Pearson tipo III. La distribución es un factor importante en la selección de la prueba más apropiada. Una decisión basada en una prueba puede no ser válido si los datos se muestrean a partir de una distribución que no es el mismo como se supone en el desarrollo de los valores críticos de la prueba. Dicha aplicación puede identificar valores atípicos más o menos que realmente existen en los datos incluidos en la muestra cuando la asunción de la distribución de la población es incorrecta.

En datos hidrológicos a menudo se supone que presentan una distribución log-normal o log-Pearson tipo III.

Método de Chauvenet

Este método requiere el calculo de la media (µ) y la desviación estándar (σ) de los datos analizados. Entonces el valor más extremo en la muestra, Xo es identificado y utilizado para calcular la desviación normal estándar (Z).

Si el valor calculado excede el valor crítico entonces Xo es considerado outlier.

1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
14.96
46.58
12.12
16.28
4.1
28.97
47.36
47.7
135.7
19.5
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
19.9
49.3
22.3
17.9
13.2
15.6
3.7
26.5
23.3
213.1
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
8.9
0.5
12.3
23.2
10.4
39
16.1
17.5
25.9
36.5
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
34.6
14.2
19.4
63.5
342.3
67.8
34.2
50.2
37.7
13.1
 Tabla 1: Precipitación anual (mm) estación Talla.

De acuerdo a los datos de la tabla 1 la media es 41.13, la desviación estándar es 61.57, el valor extremo es 342.3. Por lo tanto el valor de Z calculado es 4.8913, para una muestra de 40 la probabilidad usada es de 1/80=0.0125, Para un test en dos direcciones con una mitad de probabilidad en cada cola (two tailed) el valor crítico es +-2.4977, por lo tanto el valor 342.3 es considerado outlier.

Método Log-Pearson tipo III (Bulletin 17B)

Bulletin 17B (Interagency Advisory Committee on Water Data, 1982) presenta criterios basados en una prueba unilateral para detectar valores atípicos con un 10% de nivel de significancia.  El valor atípico más alto y bajo son calculados con las siguientes ecuaciones:

Donde YL es el límite del logaritmo del valor atípico más alto o bajo, ý es la media del logaritmo de los datos analizados, Sy es la desviación estándar de los valores logarítmicos y KN es la desviación crítica dada en el Bulletin 17B.

De acuerdo a los datos de la tabla 1 la media logarítmica es 1.3699, la desviación estándar logarítmica es 0.4738, el valor de KN para 40 datos es 2.682. Por lo tanto 2.6408 y 0.0989 representan los límites máximo y mínimo respectivamente, aplicando antilogaritmo se obtiene como límite máximo 437.3938 mm y límite mínimo 1.2559 mm.

 Figura 1: Límites máximo y mínimo según el método de Log-Pearson tipo III.

De acuerdo a los límites y gráfico 1 se puede apreciar que existe un outilier (año 1985 con 0.5 mm).


Referencias:
  • Chandler, R; Scott, M. 2011. Statistical Methods for Trend Detection and Analysis. London, UK, Wiley. 370 p.
  • McCuen, R. 2003.Modeling Hydrologic Change.New York, US, CRC Press Company .450 p.
  • Reiss, R; Thomas, M. 2007. Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3 ed. Berlin, DE, Springer Science+Busines Media. 516 p.

Vídeo de Aplicación en MATLAB


No hay comentarios:

Publicar un comentario