Manejo de valores atípicos
¿Cómo determina si un valor es realmente
un valor atípico y cómo decide si debe continuar o no con el
analisis de datos?
Uno de los problemas arduos en el analisis de datos es manejar los
valores atípicos en un grupo de datos. Un valor atípico es una observación con un
valor que no parece corresponderse con el resto de los valores en el grupo de
datos. Los valores atípicos también suelen
llamarse valores aberrantes o inconsistentes. Por lo general surgen dos
preguntas: 1) ¿Es este valor realmente un valor
atípico? 2) ¿Puedo eliminar este valor y
continuar con el analisis de datos?
Dos de las pruebas estadísticas utilizadas con mayor frecuencia en un grupo de datos único son la prueba de Dixon y la prueba de
Grubbs. La prueba de Dixon
utiliza relaciones de los espacios entre datos de diferentes modos según
la cantidad de valores en el grupo de datos. Este valor se compara con un valor crítico de una tabla, y el valor se declara
valor atípico si supera ese valor crítico. El valor
crítico depende del tamaño de la muestra,
n, y de un nivel de representatividad elegido, que es el riesgo de rechazar una
observación valida. La tabla por lo general utiliza niveles de
baja representatividad tal como 1% o 5%.
La prueba deGrubbs utiliza una estadística de prueba, T, que es la
diferencia absoluta entre el valor atípico, XO, y el promedio de la
muestra dividida por la desviación estandar de la muestra, s.
Con respecto a la pregunta 2, debe saberse que las pruebas estadísticas
se utilizan para identificar valores atípicos, no para retirarlos del
grupo de datos. Técnicamente, una observación no debe retirarse a
menos que una investigación halle una causa probable para
justificar esta acción. Algunas compañías han definido procedimientos para estas investigaciones,
incluyendo la repetición de la prueba del material asociado a la
observación de valores atípicos, en caso de ser posible. En algunos casos, la situación física puede definir
el problema. Para las tres observaciones, 98.7, 90.0 y 99.7, el
índice de Dixon es
8.7/9.7 = 0.897
El valor crítico para un n = 3 y un riesgo de
5% es 0.941, ¡por lo que el valor 90.0 no puede identificarse como valor
atípico! Parte del motivo puede ser la proximidad
cercana de los otros dos valores. La norma ASTM E691, método para
llevar a cabo un estudio entre laboratorios para determinar la precisión
de un método de prueba, desalienta estas pruebas de valores
atípicos para pequeños grupos de resultados de pruebas repetidos
en un mismolaboratorio y sugiere otras metodologías para identificar
grupos de datos aberrantes.
Si en la investigación no se encuentra una causa
probable, ¿qué debe hacerse? Un
enfoque sería realizar un analisis de datos con el valor
atípico y sin él. Si las conclusiones son
diferentes, entonces se considera que el valor atípico tiene influencia
y esto debería indicarse en el informe. Otra opción es
utilizar estimadores rigurosos para caracterizar los grupos de datos, tal como
la mediana de la muestra en lugar de la media.
La ASTM E178, Practica para manejar observaciones de valores
atípicos, contiene muchos procedimientos estadísticos para
realizar pruebas de valores atípicos. En esta norma
se proveen otros criterios para valores atípicos únicos,
así como
pruebas para valores atípicos múltiples, y la norma
también da pautas para la elección de la prueba. Una referencia mas amplia para la prueba de valores
atípicos es el libro Outliers in Statistical Data (Valores
atípicos en datos estadísticos), publicado por Wiley. Otra
referencia útil y mas practica es el Volumen 16 de la
Sociedad Estadounidense de Calidad (American Society for Quality, ASQ)
'Referencias basicas para el control de calidad, técnicas
estadísticas' (Reference in Quality Control,Statistical
Techniques): Cómo detectar y manejar valores atípicos', ASQC
Quality Press. En la practica E178 de ASTM se indican
otras referencias.
Cuando hay múltiples valores atípicos en un
grupo de datos, la investigación resulta mas complicada, pero
existen procedimientos de prueba para estos casos. Un
problema es que un valor atípico puede enmascarar otro valor
atípico en una prueba de un valor atípico único. La prueba
de Dixon supera
esto redefiniendo los espacios a utilizar a medida que
aumenta el tamaño de la muestra. Este tema esta bien tratado en
la norma E178 y en otras fuentes.
Resulta importante destacar que lo primero es considerar los datos
graficamente para identificar la posible existencia de mas de un valor atípico, ya sea en la misma dirección
o en la dirección opuesta, antes de utilizar la técnica de Dixon o la técnica
de Grubbs. Estas técnicas estan diseñadas para detectar un único valor atípico en un grupo de datos, y
por lo tanto no son adecuadas para la detección de múltiples valores
atípicos. Una técnica rigurosa y amplia para identificar
eficazmente múltiples valores atípicos es el procedimiento para
muchos valores atípicos con generalización extrema de la
desviación de Student, descrito en la Referencia Basica de ASQ,
Volumen 16.