Download Resumen extendido Allasia María Belén

Document related concepts
no text concepts found
Transcript
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
MÉTODOS ESTADÍSTICOS ROBUSTOS EN EL CONTEXTO DE
APLICACIONES DE CALIDAD
ALLASIA, MARÍA BELÉN1, MÉNDEZ, FERNANDA2 y QUAGLINO, MARTA3
1 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
[email protected]
2 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
[email protected]
3 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
[email protected]
RESUMEN
En este trabajo se presentan algunos enfoques de la teoría de estimación robusta, particularmente en el área de actividades de mejora continua y productividad, espacio en el que son
potencialmente útiles. Se introducen conceptos claves: entorno de contaminación de un modelo paramétrico, curva de sensibilidad, función de influencia; y varios números que se derivan:
sensibilidad a errores groseros, variancia asintótica, punto de ruptura. Se describen y comparan algunos estimadores de posición clásicos y robustos, mediante simulación de diversos
escenarios teóricos y en una aplicación práctica del contexto de calidad. Además, se evalúan
las ventajas del uso de métodos robustos frente a alejamientos de los supuestos clásicos.
PALABRAS CLAVE: Métodos Robustos, Inferencia Estadística, Calidad.
1. INTRODUCCIÓN
Todos los métodos estadísticos se basan en parte en las observaciones y, explícita o implícitamente, en una serie de supuestos sobre la situación subyacente.
Generalmente, esas suposiciones apuntan a la formalización de lo que el estadístico sabe o
conjetura sobre el análisis de datos o el problema de modelización con el que se enfrenta y, al
mismo tiempo, tienen como objetivo hacer manejable el modelo resultante desde el punto de
vista teórico y computacional. Sin embargo, es sabido que los modelos formales resultantes
son simplificaciones de la realidad y que su validez es, en el mejor de los casos, aproximada.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Incluso en los casos más simples, hay supuestos sobre el azar y la independencia, acerca de
la distribución de las observaciones o, quizás, sobre las distribuciones previas de algunos
parámetros desconocidos. Por ejemplo, es muy común suponer que los datos tienen distribución Normal.
El supuesto de normalidad de las observaciones ha estado presente en la estadística por dos
siglos, y ha sido el marco para los métodos clásicos de regresión, el análisis de la variancia y
el análisis multivariado. La principal razón por la que se asume dicha distribución para ajustar
conjuntos de datos es que, para muchas situaciones reales, ésta da una representación aproximada y, al mismo tiempo, es absolutamente conveniente teóricamente porque permite derivar
fórmulas explícitas para métodos estadísticos óptimos - máxima verosimilitud, test de razón
de verosimilitud, distribución muestral de estimadores (estadísticas )-. Tales métodos se referencian como métodos estadísticos clásicos, y se basan en que “el supuesto de normalidad se
cumple exactamente”.
En la práctica, frecuentemente ocurre que, mientras que en el comportamiento del conjunto
de datos aparece “algo” normal, esto se sostiene sólo aproximadamente. La discrepancia principal puede ser provocada por una pequeña proporción de observaciones que se alejan de la
concentración de los datos. Dichos datos atípicos se denominan outliers y pueden deberse a
distintas razones, como por ejemplo:
• errores en los instrumentos de medición,
• variación en las condiciones bajo las cuales se obtuvieron los datos,
• errores en la transmisión de datos o de transcripción.
Los procedimientos estándares, no siempre ofrecen una herramienta adecuada ya que los
mismos son óptimos sólo cuando los supuestos se cumplen exactamente e incluso una pequeña desviación en la distribución de los datos puede distorsionar las conclusiones obtenidas.
El enfoque de la estadística robusta propone el desarrollo de procedimientos que son muy
poco afectados por la presencia de observaciones que se alejan de la concentración de los datos. Se emplean modelos paramétricos sobre los cuales se construyen procedimientos que no
dependen fundamentalmente de las hipótesis inherentes a ellos, es decir, emplea modelos paramétricos pero la inferencia es realizada para un entorno del modelo asumido. Este enfoque
tiene como objetivo derivar métodos que produzcan estimaciones de parámetros, tests e intervalos de confianza confiables no sólo cuando los datos siguen exactamente una distribución
dada, sino también cuando esto sucede sólo aproximadamente. En palabras de Hampel et al
(1986) "Estadística robusta, (…) es la estadística de los modelos aproximados":
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Mientras que en el enfoque clásico se apunta al cálculo de estadísticas que tengan ciertas
propiedades deseables bajo un modelo completamente especificado, el objetivo de los métodos robustos es, en términos generales, desarrollar estimaciones que tengan un “buen” comportamiento en un entorno de un modelo.
En la mayoría de las aplicaciones prácticas, sólo puede determinarse “aproximadamente”
la distribución subyacente de las observaciones. Una forma de determinar distribuciones
aproximadas es considerando entornos de contaminación de la función de distribución:
donde
(1)
ℱ =
∈ ℱ⁄ = 1 −
+ ,
∈
∈ 0,1
es un conjunto de distribuciones conveniente, generalmente el conjunto de todas las
distribuciones.
La idea de robustez está asociada a “insensibilidad a pequeñas desviaciones de los supuestos”, pero garantizando la misma eficiencia de los métodos clásicos en el caso en que los
mismos se satisfagan en los datos. En este sentido, se supera a los métodos no paramétricos
que, si bien son muy flexibles, pueden perder mucha eficiencia si los datos no presentan problemas.
Los métodos estadísticos robustos tienen una larga historia que se remonta al menos hasta
el final del siglo XIX. El avance más importante en esta área se produjo en la década de 1960
y principios de 1970 con los trabajos fundamentales de John Tukey (1960; 1962), Peter Huber
(1964; 1967) y Frank Hampel (1971; 1974).
Este tema ha comenzado a tener algún impacto fuera del dominio de los especialistas en
robustez, y pareciera haber una creciente conciencia general de los peligros planteados por la
presencia de valores atípicos y de la falta de fiabilidad de las hipótesis de los modelos estadísticos clásicos. Al mismo tiempo, los métodos de detección de outliers son actualmente abordados en muchos libros de texto de estadística clásica e implementados en varios paquetes de
software estadístico. No obstante, los métodos robustos siguen siendo poco utilizados y desconocidos, incluso por la mayoría de los estadísticos aplicados, los analistas de datos, y los
científicos que podrían beneficiarse de su uso.
El presente trabajo está orientado hacia el avance en el estudio de los métodos estadísticos
robustos, potencialmente útiles en distintos escenarios de actividades de mejora continua.
Además, tiene entre sus objetivos, profundizar el estudio de propiedades de métodos estadísticos de Control de Calidad On-Line y Off-Line, con el propósito de analizar su performance en
situaciones no convencionales como la no normalidad de los datos o la presencia de observaciones atípicas, situaciones que surgen frecuentemente en el área de las aplicaciones industriales.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
2. METODOLOGÍA
Algunos conceptos claves que caracterizan la robustez son:
- Curva de Sensibilidad -
-: mide el efecto de un sólo outlier en el estimador. Siendo
un estimador que se calcula a partir de las
observaciones muestrales, la variación que se
produce en el estimador al agregar una nueva observación
!
!, ", … ,
,
−
Si se divide por la proporción que representa
curva de sensibilidad como:
=
!, ", … ,
!
resulta:
!, ", … ,
(2)
en la muestra ampliada $
,
−
!
%, se define la
!
!, ", … ,
(3)
1&
+1
- Función de Influencia -' -: es la versión asintótica de su curva de sensibilidad. Es una
aproximación del comportamiento del valor asintótico del estimador (
∞)
cuando la muestra
contiene una pequeña proporción de outliers idénticos y se define como:
'
, (,
donde -./
$ 1−
+ -./ % −
1
(4)
$ 1−
+ -./ %2
↓
1 ∞
↓
es la distribución que asigna probabilidad 1 al punto , “ ” significa “tiende al
= lim
∞
límite por derecha” y la cantidad
∞$
cuando la distribución subyacente es
1−
=0
∞
+ -./ % es el valor asintótico del estimador
con una fracción de outliers iguales a
.
Una de las ventajas de esta medida es que calcula la variación relativa a la cantidad de contaminación y no depende de un conjunto de datos específico.
Existen también varios números que se derivan, tales como:
- Sensibilidad a errores groseros: mide la robustez local, es decir: si el estimador funciona
correctamente cuando existen observaciones atípicas y se calcula como el supremo de la función de influencia en los valores de
en que está definida:
3 ∗ = 3 ∗ (,
= sup|'
.
, (,
|
(5)
Entonces, 3 ∗ mide la peor influencia que una pequeña contaminación puede tener sobre el
valor asintótico del estimador.
- Punto de ruptura: mide cuál es la mayor proporción arbitraria de outliers que el estimador tolera antes de "quebrarse" y volverse totalmente inestable.
Existen dos versiones de esta medida: una asintótica -definida por Hampel (1968), que mide la robustez del estimador para muestras grandes- y otra para muestras finitas.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
∗
El punto de ruptura de contaminación asintótica del estimador
9 . ;, es el máximo
∗
∈ 0,1 tal que para
manece acotado lejos de la frontera de
Siendo
<
∗
para toda función .
= un estimador definido para la muestra = =
=
ruptura para muestras finitas por reemplazo de
∞9
, se tiene que
en
1−
, denotado por
!, ", … ,
en = es la mayor proporción
+
; per-
. El punto de
∗
9
, =; de
observaciones que pueden ser reemplazadas arbitrariamente por outliers sin que el estimador
salga de un conjunto acotado y alejado de la frontera de >.
- Sesgo Asintótico Máximo: estudia el peor comportamiento del estimador, para diferentes
contaminaciones que no lleguen a quebrar el estimador. El sesgo asintótico del estimador para
cualquier
∈ ℱ , fijado , es ? @
como: AB @ ,
ción , para
<
= maxEF? @
∗
,
,
.
=
F∶
∞
−
y el máximo sesgo asintótico se define
∈ ℱ H, que es función de la cantidad de contamina-
2.1. ESTIMADORES DE POSICIÓN
2.1.1. Media muestral
Si en el modelo paramétrico de posición
se supone
similitud
!, ", … ,
IIN
~
I
= J + KI
OP
L = 1, … ,
∈ QR = E R ⁄
R
(6)
=
−J H
(7)
= S 0, T " -con T " conocido-, y si se utiliza el método clásico de máxima veroĴ = arg max X
R
se obtiene como estimador Ĵ = ∑
!
!, ", … ,
I
; J = arg max Z [R
R
= ̅ , la media muestral.
I\!
I
(8)
Este estimador es IMVU (insesgado de mínima variancia uniformemente) con
_ ̅
= J ` abc ̅
=
T"
dL
∈ QR
(9)
Sin embargo, en la mayoría de las aplicaciones prácticas a lo sumo puede asegurarse que
los errores de medición tienen distribución aproximadamente normal. Por lo tanto, interesa el
comportamiento del estimador ̅ bajo esta situación.
Una forma de determinar distribuciones aproximadamente normales es considerando en-
tornos de contaminación como los definidos en (1), considerando que las observaciones provienen de una distribución normal con probabilidad 1 −
con probabilidad :
, y de un mecanismo desconocido
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
donde
R
= 1−
= S J, T " y
R
+
(10)
puede ser cualquier distribución. Por ejemplo, si
con mayor variancia o media diferente, se dice que
Si
R
es una mezcla de normales.
tienen densidades [R y e respectivamente, la densidad de
y
[ = 1−
entonces
_f
=g
ji
= 1−
[
=g
j∞
= 1−
= 1−
g
_fm
= _fm
∞
h =g
[R
i
h + g
∞
j∞
abcfm
− J " [R
i
+ e
e
h + g
∞
j∞
lh
h
− J "k 1 −
∞
j∞
+ abcn
(11)
[R
ji
+ _n
h =g
resulta:
[R + e
k 1−
ji
= J, se tiene
− J "[
g
i
ji
= 1−
Además, si _n
abcf
i
es otra normal
[R
(12)
+ e
− J "e
= 1−
T " + abcn
1−
T " + abcn
h
lh
(13)
Considerando el cálculo del estimador media muestral en una muestra generada por (6),
donde las
I
tengan distribución dada por (10) y la _n
abcf ̅
=
abcf
=
= J. Luego,
Esto refleja la extrema sensibilidad de ̅ a una contaminación de tamaño , ya que la mis-
ma puede producir un aumento de variancia ilimitado (abcn
puede ser ilimitada, incluso
infinita).
2.1.2. Mediana Muestral
Considerando las observaciones muestrales ordenadas,
muestral q está dada por:
donde x = y
"
! 1
z .
q =r
s
s
+
2
s !
dL
dL
!
≤
td Luvbc
td vbc
"
≤⋯≤
0
, la mediana
(14)
Conceptualmente, la mediana es el valor de la variable que deja por debajo de sí al 50% de
las observaciones, es decir: Q
diante el funcional (
1Observación:
=
j!
≤ q =
0.5 .
q = 0.50. Por lo tanto, puede representarse me-
∙ es la función parte entera, es decir: el mayor entero menor o igual a ∙
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
2.1.3. Media Recortada
Es un estimador de posición que consiste en eliminar una proporción de las menores y ma-
!
yores observaciones de la muestra. Sea } ∈ y00; %0 y u =
− 1 } , luego la media }-
"
recortada o podada se define como
j€
1
•
− 2u
̅~ =
I\€ !
I
(15)
es decir, se descartan las primeras y las últimas u observaciones ordenadas de la muestra. En
los extremos, } = 0 y } → 0.5, este estimador coincide con la media y mediana respectivamente.
Es importante destacar que la media podada es función de todas las observaciones (incluso
aquellas no incluidas en la suma) y que no se realizan elecciones subjetivas al descartar datos.
En consecuencia, las observaciones suprimidas no necesariamente son valores atípicos.
Si una variable aleatoria tiene distribución , la media }-recortada se calcula
J~ =
f
1
g
1 − 2} f‚ƒ
‚ƒ
!j~
h =
~
y luego del cambio de variable =
f
1
g
1 − 2} f‚ƒ
‚ƒ
=
!j~
1
g
1 − 2} ~
j!
2.1.4. M-Estimadores
Considerando el modelo de posición (6) y asumiendo que
tiene densidad [R =
X
„
R,
la función de verosimilitud resulta
!, ", … ,
[
~
, se puede expresar
J~ = (
I-
!j~
; J = Z [R
I\!
donde [ es la función de densidad de las KI .
I
R
= Z[
I\!
h
h
(16)
(17)
-la función de distribución de
I
−J
(18)
El estimador máximo-verosímil _Aa de J es el valor que, dependiendo de la muestra,
maximiza (18):
Ĵ …† = Ĵ
!, ", … ,
= arg max X
R
!, ", … ,
;J
(19)
Si [ es siempre positiva, puede tomarse el logaritmo, por lo que (19) es equivalente a:
Ĵ …† = arg max Z [
Considerando
la ecuación a resolver sería:
R
I\!
I
− J = arg min • log [
R
I\!
‰ = − log [ K + log [ 0
I
−J
(20)
(21)
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Ĵ = arg min • ‰
R
I\!
I
−J
(22)
Si se conoce la distribución exacta, puede utilizarse el estimador de máxima verosimilitud,
el cual resulta “óptimo” en el sentido de que tiene variancia asintótica mínima entre una clase
de estimadores razonable. Como en general se conoce aproximadamente
, el objetivo es
y también
encontrar un estimador que sea “bueno” cuando la distribución sea exactamente
cuando esté en un entorno de la misma. Huber (1964) definió los M-estimadores para el modelo de posición como
Ĵ = arg min • ‰
R
I\!
I
−J
(23)
donde la función ‰ es elegida independientemente de [ y de tal manera que tenga las siguientes propiedades:
1. ‰ es derivable y se denomina Š = ‰′ .
2. ‰ es una función par, o sea ‰ K = ‰ −K
3. ‰ K es monótona no decreciente en |K|.
4. ‰ 0 = 0
J = ∑I\! ‰
Teniendo en cuenta la primera propiedad, el valor mínimo de
I
− J en
(23) puede hallarse a través de sus puntos críticos (valores en los que la derivada es igual a
cero), es decir: Ĵ es una de las raíces de
e Ĵ = • Š
I\!
I
− Ĵ = 0
Por otra parte, como consecuencia de la segunda propiedad, Š es impar.
(24)
Un M-estimador de posición puede ser visto como un promedio pesado. En la mayoría de
los casos de interés Š 0 = 0 y existe Š ′ 0 , por lo que Š es aproximadamente lineal en el
origen. Sea
Š
dL
=Œ
Š ′ 0 dL
Luego, la ecuación (24) puede ser escrita como:
‹
•Š
I\!
I
− Ĵ = •
o, equivalentemente
I\!
Š
− Ĵ
I − Ĵ
I
I
≠0
=0
− Ĵ = • ‹
I\!
0
(25)
I
− Ĵ
∑I\! ŽI I
con ŽI = ‹ I − Ĵ
∑I\! ŽI
lo cual expresa a la estimación como un promedio ponderado.
Ĵ =
I
− Ĵ = 0
(26)
(27)
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Como, en general, ‹
es una función no creciente en | |, las observaciones periféricas
reciben pesos más pequeños. Cabe destacar que, aunque (27) pareciera ser una expresión
explícita para Ĵ , en realidad los pesos en el lado derecho también dependen de Ĵ .
Si la función ‰ es diferenciable en todo punto y la función Š es monótona, las ecuaciones
(23) y (24) son equivalentes -tienen solución única-, y aquellos estimadores que se definen
como solución de éstas son llamados M-estimadores monótonos. Por otra parte, si la función
Š no es monótona, algunas de las soluciones de (24) -habitualmente llamadas “soluciones
malas”- no se corresponden con el criterio de mínimo absoluto con el cual se define a los M-
estimadores, por lo que esta clase de estimadores se definen por (23) y son conocidos como
M-estimadores redescendientes.
Un tipo de funciones ‰ y Š con propiedades importantes es la familia de funciones de
Huber:
con derivada ‰s„
= 2Šs
‰s
=•
, donde Šs
"
2x| | − x
=‘
dL | | ≤ x
" dL
sgn
| |>x
0
dL | | ≤ x0
x dL | | > x
Como puede verse en los gráficos 1 y 2, las funciones ‰ de Huber son cuadráticas en la re-
gión central, pero sólo crecen linealmente hacia infinito. Además, en los casos límites: x → ∞
y x → 0, los M-estimadores definidos mediante dicha función coinciden con la media y me-
diana muestral respectivamente. Por otra parte, las funciones Š de la familia de Huber son
monótonas, por lo que el estimador que se obtenga a partir de la misma tendrá solución única.
El valor de x se elige con el objeto de garantizar cierta variancia asintótica -o bien cierta
eficiencia asintótica- bajo la distribución normal. Un valor grande de x brinda un estimador
más eficiente pero menos robusto y se presenta la situación contraria cuando x es pequeño.
Gráfico 1. Función ‰ de Huber x = 1.345
Gráfico 2.Función Š de Huber x = 1.345
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
La función de pesos correspondiente a la Š de Huber es
x
”
| |
Gráficamente, puede notarse que las observaciones reciben distintos pesos según su magni‹s
= min ‘1,
tud, de manera simétrica, con una cota superior en 1. A medida que éstas se alejan del valor
cero, reciben un peso inferior, lo cual refleja que los datos más extremos tienen menor influencia en la construcción del estimador de posición:
Gráfico 3.Función de peso ‹s
de Huber x = 1.345
En cuanto a los M-estimadores redescendientes, una de las opciones más utilizadas es la
familia de funciones bicuadrada, dada por:
con derivada ‰s„
= 6 Šs
‰s
= Œ1 − •1 −
1
⁄x " donde Šs
. "
$s% –
=
—
dL | | ≤ x0
dL | | > x
" "
y1 − 9™š; z ' | | ≤ x
En el Gráfico 5 puede apreciarse que la función Š es diferenciable en todo punto y se des-
vanece fuera del intervalo −x; x , es decir toma el valor cero para cualquier | | > x.
Gráfico 4. Función ‰ para el estimador
bicuadrado x = 4.68
Gráfico 5. Función Š para el estimador
bicuadrado x = 4.68
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
La función de peso (25) para esta familia es:
‹s
"
. "
= •1 − $s% – ' | | ≤ x
Nuevamente, en la representación gráfica de la función de peso (Gráfico 6) se nota que las
observaciones reciben, simétricamente, menor peso a medida que se alejan de cero y, particularmente, aquellas observaciones cuya magnitud supera -en valor absoluto- el valor x, reciben
peso nulo en la construcción del M-estimador bicuadrado.
Gráfico 6.Función de peso ‹s
para el estimador bicuadrado x = 4.68
Las funciones presentadas son las que se utilizan habitualmente en la práctica, pero existen
otras funciones alternativas tanto para calcular M-estimadores monótonos como redescendientes.
3. RESULTADOS Y DISCUSIÓN
3.1. SIMULACIONES
Con el objetivo de comparar el comportamiento y las propiedades de los métodos de estimación robustos con los clásicos, se estudian los estimadores definidos mediante simulación.
El proceso de simulación utilizado en este trabajo consiste en generar, mediante programación, conjuntos de valores aleatorios que respondan a un modelo teórico específico, contemplando diferentes escenarios: el cumplimiento exacto del supuesto de normalidad, la presencia
de outliers -de diferentes magnitudes-, la contaminación de la distribución (mezcla de normales), y una distribución que presente asimetría (distribución gamma).
En todos los casos, se generan 500 muestras de tamaño 20. En cada una de ellas, se calculan los diferentes estimadores de posición de interés:
• Media Muestral
• Mediana Muestral
• Media Recortada } = 0.10
• M-estimador de Huber x = 1.345
• M-estimador Bicuadrado x = 4.68
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
3.1.1. Distribución Normal Estándar
Se considera el cumplimiento exacto del supuesto de normalidad, para lo cual se simulan
500 muestras provenientes de una distribución normal estándar 9S 0,1 ;. Los siguientes boxplots reflejan la distribución en el muestreo de los cinco estimadores estudiados.
Tabla 1. Medidas resumen de estimadores
Promedio
Media
Mediana
Media
Recortada
M-estimador
de Huber
M-estimador
Bicuadrado
Desvío
0.01574
0.2350775
0.001697
0.2822037
0.01373
0.2456638
0.01278
0.2456566
0.01221
0.2491608
Gráfico 7. Box-plots - Comparación de
estimadores
Como puede notarse, y tal como era de esperarse en el escenario de cumplimiento exacto
del supuesto de normalidad, todos los estimadores calculados tienen un comportamiento similar. Esto muestra que se cumple con el objetivo planteado a la hora de definir conceptualmente a los estimadores robustos, con respecto a que sean estimadores tan buenos como los clásicos en el caso que se cumplan los supuestos.
Tomando como base las muestras obtenidas bajo esta distribución se realiza un cambio
arbitrario de la última observación simulada con el objeto de convertirla en un outlier bajo la
distribución S 0,1 . Se consideran dos situaciones:
,!
= 10 y
,"
= 100, a fin de
mostrar cómo afecta a cada estimador el hecho de que la muestra presente observaciones
atípicas de distinta magnitud.
Las Tablas 3 y 4 presentan las medidas descriptivas calculadas sobre las 500 muestras
simuladas, estableciendo una observación atípica constante en cada una de ellas.
Tabla 2. Medidas resumen de estimadores
,!
= 10
Promedio
Desvío
Media
0.51567
0.2260781
Mediana
Media
Recortada
M-estimador
de Huber
M-estimador
Bicuadrado
0.06712
0.2920125
0.10027
0.2465544
0.10020
0.2482949
0.014581
0.2509013
Gráfico 8. Box-plots - Comparación de
estimadores
,! = 10
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Tabla 3. Medidas resumen de estimadores
,"
= 100
Promedio
5.016
0.2260781
0.06712
0.2920125
0.10027
0.2465544
0.10020
0.2482949
0.016251
0.2509008
Media
Mediana
Media
Recortada
M-estimador
de Huber
M-estimador
Bicuadrado
Desvío
Gráfico 9. Box-plots - Comparación de
estimadores ," = 100
Como puede notarse, al incluir outliers el estimador clásico -media muestral-, se ve afectado en relación a la magnitud de la observación atípica, mientras que los estimadores robustos
proveen los mismos resultados en ambos escenarios (con excepción del M-estimador bicuadrado que presenta una muy leve variación de valores en un escenario y otro). A partir de estos resultados, se observa que los estimadores robustos considerados cumplen con la noción
de presentar “insensibilidad a pequeñas desviaciones de los supuestos”; concentrándose, en
este caso, en el comportamiento de la mayoría de las observaciones. Además, las distribuciones de los estimadores calculados son aproximadamente simétricas.
3.1.2. Distribución Normal Contaminada – Mezcla de Normales
Para formalizar la definición de distribución normal contaminada, la cual denominaremos
, se consideran tres variables aleatorias independientes: œ con distribuciónΦ, a con distribu-
ción
nera
y ‹ con distribución Bernoulli -Bt
Por lo tanto, resulta:
ž
•=•
-. Sea la variable • definida de la siguiente ma-
œ dL ‹ = 0
a dL ‹ = 1
0
K = Q • ≤ K = Q • ≤ K, ‹ = 0 + Q • ≤ K, ‹ = 1
= Q • ≤ K⁄‹ = 0 Q ‹ = 0 + Q • ≤ K ⁄‹ = 1 Q ‹ = 1 = 1 −
Si
(28)
Φ K +
K
es pequeño significa que la mayoría de las observaciones se obtienen de la distribu-
ción Φ, es decir, serán normales. Entonces, si
normal y se tiene que:
∈ ℱR , significa que es aproximadamente
(29)
_f K = 1 − _Φ K + _n K
En esta simulación, la distribución que se considera es también normal, pero con pará-
metros diferentes de la normal estándar, consiguiendo lo que se conoce como: “mezcla de
normales”. Los parámetros de la distribución que contamina serán: _n K = 2 `
0.01.
n
K =
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
En consecuencia, el valor esperado de esta distribución es:
_f K = 0.80 ∙ 0 + 0.20 ∙ 2 = 0.40
Gráfico 10. Función de Densidad. Mezcla de Normales: 0.80S 0,1 + 0.20S 5,0.5
Tabla 4 presenta las medidas resumen para los estimadores calculados bajo la mezcla de
normales. Como podemos notar, los M-estimadores (de Huber y Bicuadrado) son los que
brindan, en promedio, el valor posición central que más se aproxima al valor esperado bajo la
distribución planteada. Si bien el estimador media muestral pareciera ser un poco más preciso
que los restantes, es decir: presenta menor dispersión, es menos exacto. Bajo este escenario, el
estimador menos recomendable sería la mediana muestral, debido a que resulta ser el estimador más sesgado y menos preciso entre los cinco estudiados.
Tabla 4. Medidas resumen de estimadores
Promedio
Media
Mediana
Media
Recortada
M-estimador
de Huber
M-estimador
Bicuadrado
Desvío
0.3866
0.2728296
0.33119
0.3708316
0.4171
0.3085880
0.3915
0.3003123
0.3914
0.3003302
Gráfico 11. Box-plots - Comparación de
estimadores
3.1.3. Distribución Gamma
La distribución Gamma es adecuada para modelar el comportamiento de variables aleatorias continuas con asimetría positiva, es decir, variables que presentan una mayor densidad de
sucesos a la izquierda de la media que a la derecha. La misma se caracteriza por dos parámetros, siempre positivos, } y ¡ de los que depende su forma y escala respectivamente. Su fun-
ción de densidad es:
[
.
1
j
¢
t
= r ¡~ Γ }
0
donde Γ es la función Gamma: Γ } = ¤ t j.
i
~j!
~j!
si
>0
en otro caso
h .
0
(30)
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Específicamente, en este escenario de simulación se han tomado para los parámetros de la
distribución los valores: } = 2 y ¡ = , con los cuales se obtiene un caso particular de la dis!
"
tribución Gamma, la distribución Chi-cuadrado con un grado de libertad ¥!" . El valor espe-
rado bajo esta resulta entonces: _
= }¡ = 1
Tabla 5. Medidas resumen de estimadores
Promedio
Desvío
Media
0.9986
0.1576495
Mediana
Media
Recortada
M-estimador
de Huber
M-estimador
Bicuadrado
0.8571
0.1745566
0.9227
0.1526526
0.9199
0.1556359
0.9198
0.1556376
Gráfico 12. Box-plots - Comparación de
estimadores
Como podemos observar a partir de los resultados de la simulación, el estimador que, en
promedio, más se acerca al valor esperado de la distribución es la media muestral. Cabe destacar que al observar el rango de valores que toman las medias muestrales calculadas en cada
una de las 500 muestras, se refleja cierta asimetría hacia la derecha, por lo cual, notamos que
el estimador se ve afectado por la propia asimetría de la distribución teórica de la cual provienen los datos. Entre los estimadores estudiados, la mediana muestral sería el menos recomendable ya que no es insesgado y es el que presenta menor precisión. Y los restantes estimadores
proseen distribuciones muy similares, más simétricas que las de la mediana y la media muestrales y, en promedio, se acercan al valor esperado de la distribución chi-cuadrado.
3.2. EJEMPLO DE APLICACIÓN CON DATOS REALES
3.2.1. Descripción del conjunto de datos
Se cuenta con un conjunto de datos correspondientes a aplicaciones de calidad, de una empresa metalúrgica del Gran Rosario, con la cual la Facultad de Ciencias Económicas y Estadística de la UNR estableció, durante el año 2006, un Convenio de Cooperación con el objetivo de implementar procesos de mejora de calidad, basados en la incorporación de Métodos
Estadísticos Aplicados en la Industria.
Los datos que se analizan, se han obtenido en el marco del proyecto de investigación vinculado al tema: Métodos Estadísticos para el Control y la Mejora de la Calidad y de la Productividad, desarrollado en el Instituto de Investigaciones Teóricas y Aplicadas de la Escuela
de Estadística (IITAE) de la Facultad de Ciencias Económicas y Estadística de la UNR. La
información corresponde a una empresa metalúrgica del Gran Rosario, con la cual la Facultad
estableció, durante el año 2006, un Convenio de Cooperación con el objetivo de implementar
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
procesos de mejora de calidad, basados en la incorporación de Métodos Estadísticos Aplicados en la Industria.
Uno de los problemas planteados por la empresa fue la necesidad de obtener una estimación precisa del tiempo de entrega de los pedidos que realizan los clientes, lo cual se abarcó a
través del estudio de tiempos insumidos por los múltiples subprocesos que constituyen la elaboración de las diferentes piezas.
Cada artículo requiere de distinto número y tipo de operaciones y, para elaborar cualquiera
de las piezas, las tareas necesarias combinan el uso automático de maquinarias y la intervención de operarios especializados, por lo que ninguna es producto de un proceso completamente automatizado. En consecuencia, en el proceso total intervienen varias tareas que dependen
del trabajo de un operario, de la disponibilidad de una máquina, de la disponibilidad del material, entre otros factores; por lo que, la variabilidad a la que está sujeto el tiempo total de fabricación, es mucha. Por tanto, surgió como prioridad el determinar una forma conveniente de
representar el tiempo de producción. En la base original se registraron los tiempos insumidos
en procesar cierta cantidad de piezas y se decidió transformar este dato a una medida comparable: “tiempo para realizar el proceso por pieza”. Es decir, se trabajó con tiempos unitarios
invertidos en cada subproceso.
Si bien se cuenta con la información de varios artículos, en este trabajo se analizan los datos referidos a sólo uno de ellos, llámese a este artículo “Pieza A”. Para esta pieza, los subprocesos que se realizan son seis:
• Corte
• Rebabado en el streparava
• Hidrocopiado
• Laminado
• Rebabado de la cabeza
• Forjado de la cabeza según plano, con logo del cliente.
Cabe destacar que durante el proceso de relevamiento de los datos se pusieron de manifiesto varias imprecisiones con las que se registran los mismos, tales como el no registro de los
datos por parte de algunos operarios, la omisión de parte de la información (se encontraban
completas solo algunas de las columnas relevantes), la falta de claridad en el registro (letras y
números ilegibles), y la no aclaración de las unidades de medición (no se podía deducir si el
tiempo había sido registrado en horas o minutos). Esto motivó a la gerencia de la empresa a
iniciar una campaña de concientización acerca del valor que tiene la fidelidad del dato para
poder reflejar de manera real el funcionamiento de los procesos con el objetivo final de poder
plantear mejoras. Por otra parte, estas tareas serían de gran ayuda para lograr la política ini-
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
ciada por la gerencia de adherir a los criterios de calidad establecidos por Normas Estándares
de Calidad.
3.2.2. Análisis Descriptivo
A modo ilustrativo de utilización de los estimadores de posición estudiados, se analizan los
datos correspondientes a los subprocesos de corte con serrucho y de forjado de la cabeza. Se
cuenta con 78 observaciones completas en cuanto a cantidad de piezas y tiempos de trabajos,
correctamente registradas en el período estudiado.
Gráfico 13. Cantidad de minutos invertidos por
pieza en el subproceso de corte con serrucho.
Gráfico 14. Distribución de frecuencias de los minutos invertidos por pieza en el subproceso de corte
con serrucho.
Gráfico 15. Gráfico de Probabilidad Normal
Minutos invertidos por pieza en el subproceso de corte con serrucho.
Tal como puede observarse, este conjunto de datos no cumple con los supuestos necesarios
para un análisis estadístico clásico. Los gráficos anteriores revelan que la distribución de los
tiempos invertidos bajo el subproceso de corte por pieza, presentan asimetría hacia la derecha,
con lo que no podría suponerse que los mismos provienen de una distribución normal. Los
valores de los cuantiles de la distribución que se presentan en la Tabla 6, corroboran lo ante-
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
dicho y, particularmente en el box-plot modificado (Gráfico 13) se revela que existen dos valores que son potenciales outliers.
Tabla 6. Cuantiles de la distribución de minutos insumidos por pieza en el subproceso de corte con serrucho
Min
0.432690
25%
0.752975
50%
0.820480
75%
1.000000
Max
2.195120
La siguiente tabla muestra los estimadores de posición calculados y sus respectivos intervalos de confianza del 95%:
Tabla 7. Estimadores de posición
§
¦
§ ¦
§
¨
©ª«¬% ¦
Media
0.8773883 0.0007791146 0.8218072 0.9329695
Media Recortada
0.8612152
0.06542544 0.8135772 0.9088531
0.85670341
0.02752016 0.8258072 0.8875996
0.8493695
0.02158893 0.8220045 0.8767345
M-estimador de Huber
M-estimador Bicuadrado
En cuanto a la estimación puntual del parámetro de posición, se revela la sensibilidad del
estimador clásico ante la presencia de valores extremos positivos. Como puede notarse, el
mismo da un valor de 0.8773883 minutos por pieza, el cual es superior a los valores obtenidos
para los restantes estimadores (incluso mayor que el límite superior del intervalo de confianza
del 95% del M-estimador bicuadrado). Por otra parte, la magnitud de los intervalos de confianza de los M-estimadores es considerablemente menor, lo que demuestra que son estimadores más precisos en este escenario de producción industrial.
Al estudiar los minutos insumidos por pieza durante el subproceso de forjado de la cabeza
según plano con logo del cliente, nuevamente se revela que los tiempos no podrían ajustarse a
los supuestos clásicos. El rango de ésta es de 1.2619 minutos por pieza, mientras que el 50%
central se halla concentrado en un rango de sólo 0.09 minutos por pieza, lo cual evidencia
(Gráfico 16) la existencia de observaciones atípicas tanto a la derecha como a la izquierda de
la distribución. Particularmente se observa que existe un outlier hacia la derecha de la distribución con una magnitud muy superior a los restantes, por lo cual se prevé que el estimador
clásico, afectado por esta observación, dará un valor superior a los restantes estimadores. El
histograma (Gráfico 17) permite apreciar cómo los frecuencias se concentran particularmente
sobre uno de los intervalos. Dadas estas características de la variable, y teniendo en cuenta el
Gráfico de Probabilidad Normal (Gráfico 18) se concluye que la misma no responde a los
supuestos de normalidad necesarios para un análisis clásico.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Gráfico 16. Cantidad de minutos invertidos por
Gráfico 17. Distribución de frecuencias de minu-
pieza en el subproceso de forjado de la cabeza, según
tos invertidos por pieza en el subproceso de forjado de
plano, con logo del cliente.
la cabeza, según plano, con logo del cliente.
Gráfico 18. Gráfico de Probabilidad Normal - Minutos invertidos por pieza en el subproceso de forjado de
la cabeza, según plano, con logo del cliente.
Tabla 8. Cuantiles de la distribución de minutos insumidos por pieza para el forjado de la cabeza según plano,
con logo del cliente
Min
0.2381000
25%
0.6402575
50%
0.6796200
75%
0.7306000
Max
1.5000000
Al calcular los estimadores de posición y compararlos, se repiten las observaciones realizadas para el subproceso estudiado previamente. El estimador media muestral se ve afectado
por la magnitud de las observaciones atípicas y el intervalo de confianza que se obtiene para
el mismo es más amplio que los intervalos de los restantes estimadores, en consecuencia, es
un estimador menos preciso.
Tabla 9. Estimadores de posición
Media
Media Recortada
§
¦
§ ¦
§
¨
©ª«¬% ¦
0.693095
0.0002415546 0.6621469 0.7240431
0.6855369
0.02264365 0.6575114 0.7135624
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
M-estimador de Huber
0.6843667
0.004365593 0.6720612 0.6966723
M-estimador Bicuadrado
0.6848016
0.003324724 0.6740627 0.6955404
Las observaciones anteriores conducen a pensar que no sería adecuado llevar a cabo un
control estadístico de procesos basado en la media muestral como estimador de posición, ya
que la misma no resulta adecuada para describir la posición central de los datos en los escenarios estudiados. Se recomienda el uso de estimadores robustos que brindan una noción más
adecuada del comportamiento habitual de los tiempos insumidos por unidad en los distintos
subprocesos estudiados de elaboración de la pieza y se propone evaluar futuras observaciones
de productividad en una cartilla de control en la que los límites de alerta y acción sean determinados según los cuantiles de una distribución normal que cuente con los parámetros estudiados para los M-estimadores.
4. CONCLUSIONES
Los diferentes escenarios simulados han permitido evaluar y comparar las propiedades de
los estimadores clásicos y robustos, evidenciando que los últimos cumplen con los objetivos a
partir de los cuales se han desarrollado. En el escenario de cumplimiento exacto del supuesto
de normalidad, se ha demostrado que todos los estimadores calculados tienen un comportamiento similar. Por lo tanto, queda en evidencia que el objetivo de que los estimadores robustos sean tan buenos como los clásicos si se verifican los supuestos, se cumple. Por otra parte,
al incluir outliers en la muestra, se nota cómo el estimador clásico -media muestral-, se ve
afectado por observaciones atípicas, mientras que los estimadores robustos proveen resultados
similares sin verse perturbados por la presencia ni la magnitud de dichas observaciones. Estos
resultados, evidencian que se cumple con la noción de presentar “insensibilidad a pequeñas
desviaciones de los supuestos”; concentrándose, en este caso, en el comportamiento de la mayoría de las observaciones.
En el escenario de mezcla de normales (distribución normal contaminada), los Mestimadores son los que brindan, en promedio, el valor posición central más cercano al verdadero valor esperado bajo la distribución planteada. Y, en el caso de distribuciones asimétricas,
a partir de los resultados de la simulación de una distribución Chi-cuadrado, se observa que, si
bien en promedio el estimador que más se acerca al valor esperado de la distribución es la
media muestral, el mismo refleja cierta asimetría hacia la derecha, es decir: se ve afectado por
la propia asimetría de la distribución teórica de la cual provienen los datos. Además, bajo esta
distribución, la mediana muestral resulta el menos recomendable ya que no es insesgado y es
el que presenta menor precisión. Por otra parte los M-estimadores y la media recortada poseen
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
distribuciones muy similares, simétricas y que, en promedio, se acercan al verdadero valor
esperado de la distribución chi-cuadrado.
En el ejemplo de aplicación de calidad, se ha conseguido mostrar, a través del estudio de
dos subprocesos de producción de una pieza particular de una empresa metalúrgica del Gran
Rosario, que los resultados obtenidos en variables que reflejan el tiempo insumido por pieza
para su fabricación no suelen presentar un comportamiento que pueda adecuarse a los supuestos clásicos de normalidad y esto se refleja notablemente en el momento de calcular estimadores de posición si se desea evaluar la exactitud del proceso de producción. Como puede notarse, en el primero de los subprocesos estudiados, el estimador media muestral es aproximadamente igual al límite de alerta superior conseguido al calcular el intervalo de confianza del
95% a partir de los M-estimadores de Huber y Bicuadrado. Además, los intervalos conseguidos en ambos subprocesos para la media muestral son más amplios, por lo cual, si se realiza a
posteriori un estudio de control de calidad en el que se consideren dichos límites, se estaría
siendo mucho más liberal en cuanto a la precisión del método empleado, corriendo el riesgo
de no detectar observaciones que podrían estar sugiriendo algún tipo de evidencia de que el
proceso ha dejado de estar bajo control.
En estas situaciones, se recomienda el uso de estimadores robustos, ya que brindan una noción más adecuada del comportamiento habitual de los tiempos insumidos por unidad en los
distintos subprocesos estudiados y se propone evaluar futuras observaciones de productividad
en una cartilla de control en la que los límites de alerta y acción sean determinados según los
cuantiles de una distribución normal que cuente con los parámetros estudiados para cualquiera
de los M-estimadores que se han propuesto.
5. REFERENCIAS
Alqallaf, F. K. (2002). Scalable robust covariance and correlation estimates for data
mining. Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, (págs. 14-23). Edmonton,Alberta, Canada.
Cantoni, E. a. (2001). Robust inference for generalized linear models. Journal of the
American Statistical Association , 96, 1022–1030.
Castaño Vélez, E. (1987). Robustez Estadística. Lecturas de Economía (24), 85-99.
Foglia, V. (6 de Abril de 2008). Robustez. Recuperado el 10 de Agosto de 2011, de
http://ifoglia.com/otr/robustez.pdf
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Hampel, F. (1971). A general definition of qualitative robustness. The Annals of
Mathematical Statistics , 42, 1887–1896.
Hampel, F. (1968). Contributions to the theory of robust estimation. PhD. Thesys,
University of California, Berkeley.
Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust
Statistics: The Approach Based on Influence Functions. New York: John Wiley & Sons.
Hampel, F. (1974). The influence curve and its role in robust estimation. The Annals of
Statistics , 69, 383–393.
Hastie, T. T. (2009). The Elements of Statistical Learning: Data Mining, Inference and
Prediction (Second ed.). New York: Springer-Verlag.
Huber, P. (1964). Robust estimation of a location parameter. The Annals of Mathematical
Statistics , 35, 73–101.
Huber, P. (1967). The behavior of maximum likelihood estimates under nonstandard
conditions. Proceedings of the Fifth Berkeley Symposium on Mathematics and Statistics
Probability. 1, págs. 221–233. University of California Press.
Huber, P., & Ronchetti, E. (2009). Robust Statistics (Second ed.). Hoboken, New Jersey:
John Wiley & Sons, Inc.
Jureckova, J., & Picek, J. (2006). Robust Statistical Methods with R. Boca Raton, Florida:
Chapman & Hall/CRC.
Maronna, R., & Yohai, V. (2008). Robust Low-Rank Approximation of Data Matrices
With Elementwise Contamination. Technometrics , 50, 295-304.
Maronna, R., & Zamar, R. (2002). Robust estimation of location and dispersion for highdimensional data sets. Technometrics , 44, 307–317.
Maronna, R., Martin, R., & Yohai, V. (2006). Robust Statistics: Theory and Methods.
Chichester, West Sussex, England: John Wiley and Sons, Ltd.
Martinez C., J. (1983). Estimadores de Escala: Estudio Comparativo. Revista Colombiana
de Estadística , 7, 17-38.
Montgomery, D. (2005). Introduction to Statistical Quality Control (Fifth ed.). John Wiley
& Sons, Inc.
Pizarro Quiroz, L. H. (2003). Estimación Robusta de Parámetros en Distribuciones con
Datos SAR. Universidad Técnica Federico Santa María, Departamento de Informática,
Valparaíso, Chile.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Prat Bartés, A., Tort Martorell Llabrés, X., Grima Cintas, P., & Pozueta Fernández, L.
(2000). Métodos estadísticos. Control y mejora de la calidad. México: Alfaomega Grupo
Editor.
R Development Core Team. (2011). R: A Language and Environment for Statistical
Computing. Obtenido de R Foundation for Statistical Computing: http://www.R-project.org
SAS Institute Inc. (2008). SAS/STAT® 9.2 User’s Guide. Cary, NC: SAS Institute Inc.
Tuckey, J. (1970). Exploratory Data Analysis. Mimeographed Preliminary Edition.
Tukey, J. (1960). A survey of sampling from contaminated distributions. En I. Olkin (Ed.),
Contributions to Probability and Statistics Essays in Honor of Harold Hotelling (págs. 448485). Stanford, CA: Stanford University Press.
Tukey, J. (1962). The future of data analysis. The Annals of Mathematical Statistics , 33,
1–67.