Download Estadística Básica - Probabilidad y estadística

Document related concepts

Variable aleatoria wikipedia , lookup

Distribución normal wikipedia , lookup

Estadísticos de orden wikipedia , lookup

Estadístico muestral wikipedia , lookup

Varianza wikipedia , lookup

Transcript
Estadística Básica
Leticia Gracia Medrano.
[email protected]
30 de julio del 2012
La denición de Agresti y Franklin
Estadística es el arte y la ciencia de diseñar estudios y analizar los
datos que esos estudios generan. Su n último es traducir los datos
en conocimiento y entendimiento del mundo que nos rodea. En
resumen Estadística es el arte y la ciencia de aprender de los datos.
La denición de Manzano Arrondo
La estadística es la ciencia que se ocupa del estudio de fenómenos
de tipo genérico, normalmente complejos y enmarcados en un
universo variable, mediante el empleo de modelos de reducción de
la información y de análisis de validación de los resultados en
términos de la representatividad
Las humorísticas
I Se dice por ejemplo, que si una persona gana un millón y otra
nada, la estadística" establece que las dos han ganado medio
millón.
I La estadística dice: que si una persona pone la cabeza en le
congelador y los pies en el horno, su temperatura media será
correcta.
I La estadística pronostica como un acierto el caso de un
soldado, que dispara sobre un blanco, una vez medio metro a
la derecha y otra medio metro a la izquierda.
Cabe mencionar que en estos tres casos la media aritmética, está
afectada por una escasa representatividad.
Tipos de fenómenos
Una característica del humano es tratar de interpretar los
fenómenos que lo rodean, aprender del mundo a partir de lo que se
observa y de su experiencia a lo largo del tiempo.
A partir de estas experiencias uno aprende a hacer deducciones
útiles del mundo en que vive. No en balde el método cientíco tiene
como parte fundamental la observación.
Hay una gran variedad de fenómenos que quisiéramos describir,
pero podemos empezar por clasicarlos como fenómenos
deterministas y fenómenos aleatorios.
Un
fenómeno determinista es aquel que, cuando se reproduce en
las mismas condiciones, podemos predecir con certeza cuál va a ser
el resultado, en otras palabras se rige bajo leyes causales. Este tipo
de fenómenos no son parte de nuestro estudio.
Por otro lado, el
fenómeno aleatorio es aquel que cada vez que se
realiza, aun bajo condiciones idénticas (o casi), el resultado no se
conoce con certeza, además el resultado sólo se sabe después de
realizado el experimento.
Las herramientas con la que contamos para estudiar los fenómenos aleatorios son:
1. La probabilidad
I
I
I
2.
Grado de conanza o fundada apariencia de que algo suceda.
En los juegos o probabilidad clásica, es la razón entre el
número de casos favorables y el número de casos posibles.
y su formalización basada en planteamiento axiomático de
Kolmogorov en 1933.
La estadística.
I
I
I
I
que es el estudio de los datos cuantitativos de la población
disciplina que utiliza grandes conjuntos de datos numéricos
para obtener inferencias basadas en el cálculo de
probabilidades.
la estadística clásica o frecuentista se basa en la regularidad
estadística, es decir que, al repetir un fenómeno aleatorio un
número grande de veces en condiciones constantes, las
proporciones en las que ocurren los posibles resultados son
muy estables.
la estadística subjetiva o Bayesiana que incorpora el
conocimiento que tiene el individuo sobre el fenómeno
aleatorio.
Concepto de medición y de variable
Para cuanticar o clasicar lo que percibimos de un fenómeno
aleatorio necesitamos hacer mediciones u observaciones que nos
ayudarán a investigar una o varias características de interés sobre el
fenómeno.
Para un correcto manejo de nuestras mediciones, las observaciones
deben ser registradas tomando en cuenta su tipo, para poder saber
que operaciones aritméticas podemos hacer con ellas.
Como al medir un fenómeno aleatorio obtenemos diferentes
registros llamaremos
variable al conjunto de posibles resultados
que podemos obtener.
De acuerdo a la característica que se desea estudiar, a los valores
que toma la variable, se tiene la siguiente clasicación:
Variables
=






Categóricas









Ordinales








Numéricas





Continuas


Nominales


Discretas
Categórica
Cuando el registro de la medición es un elemento de una categoría.
I Ordinales
Cuando el registro de la medición se expresa en grados de
intensidad que tienen un orden, pero no se puede determinar el
incremento entre los grados.
Con variables de tipo ordinal podemos calcular: la moda, la
mediana o los porcentiles de los datos.
Ejemplo: Grados de satisfacción en un servicio Muy bueno,
Bueno, Regular y Malo.
I Nominales
Cuando las categorías sólo se les da un nombre pero no tienen un
orden entre ellas, deben ser mutuamente excluyentes (no hay un
elemento que pertenezcan a dos o más categorías a la vez) y
exhaustivas (todo elemento pertenece a una categoría). Podemos
calcular la(s) moda(s) y la frecuencia de ocurrencia en cada una de
las categorías.
Ejemplo: ¾Está de acuerdo con las obras de continuación del
segundo piso del Periférico? Sí No.
Numéricas
Cuando los registros son valores numéricos
I Discretas
son las variables que toman un número nito o numerable de
valores.
Ejemplo: Número de hijos en un matrimonio, número de accidentes.
I Continuas
Toman cualquier valor numérico entero, fraccionario o irracional.
La precisión del registro dependerá del instrumento de medición.
Ejemplo: la estatura de una persona tomada al azar.
Variables aleatorias
Las variables aleatorias (v.a.) serán nuestros modelos que nos
serviran para representar la regularidad estadística. Y las
denotaremos letras mayúsculas X , Y , W , etc.
Una v.a.´s es una función que sirve para cuanticar los resultados
de modo que se asigne un número real a cada uno de los resultados
posibles del experimento.
Por ejemplo, en el experimento de lanzar una moneda, los
resultados posibles son
Ω = {águila,
sol}, entonces podemos denir
la v.a. X como
(
X
=
1
si cae águila
0
si cae sol.
Existen v.a. continuas y discretas, pero para cada variable aleatoria
nosotros podemos asignarle una función de densidad, denotada f
(·)
con las siguientes propiedades:
I
I
(x ) ≥ 0, y
X

f (x ) = 1


∀x ∈Ω
f



 ∞
−∞ f
(x )dx = 1
cuando la v.a. es discreta
cuando la v.a. es continua.
Area bajo la curva que determina f (x )
En el estudio de la regularidad estadística con variables categóricas
o bien con variables numéricas con muchos valores (y se establecen
clases o intervalos), la suma de las frecuencias relativas o
proporciones siempre es uno (el 100%).
Distribución Normal
La función de densidad normal o Gaussiana
1 destaca entre las
distribuciones de tipo continuo, ya que es un modelo que se adecúa
a una gran cantidad de situaciones en el mundo real, y porque su
manejo matemático es más sencillo en muchas técnicas de
inferencia.
Denición
se distribuye normal con media µ y
varianza σ 2 , denotado por X ∼ N (µ, σ 2 ), si su función de
Diremos que una v.a. X
densidad es:
X(
f
x
donde ,
1
) =
1
σ
√
2π
(x − µ)2
−
2σ 2
(
exp
µ = E (X ), −∞ < µ < ∞,
)
Var
,
para
−∞<x <∞
(X ) = σ 2
y
σ 2 > 0.
En honor al matemático Johann Carl Friedrich Gauss 1777 1855.
Observaciones
1. A
µ, σ 2
se les conoce como los parámetros de la función de
densidad.
2.
2
µ√
coincide con la media, σ coincide con la varianza de la
σ 2 = σ se le conoce como la desviación estándar.
y
3. Cada par de valores
µ
y
σ2
v.a.
determinan una función de
densidad distinta
4. La función de densidad es simétrica alrededor del parámetro
5. La media, la moda y la mediana coinciden en
6. Si hacemos que
X(
f
x
) =
µ=
1
√
µ.
2
0 y σ
2π
= 1 entonces
2
x
exp −
, para − ∞ < x < ∞
2
que se conoce como la función de distribución
estándar.
normal
Este miembro de la familia de normales es muy
importante porque a partir de ella se pueden calcular las
probabilidades de cualquier miembro de la familia.
µ.
0.8
0.4
0.6
µ = 0 σ2 = 1 2
0.2
σ2 = 1 µ = 0
0.0
µ = 0 σ2 = 2
−4
−2
0
x
2
4
A partir de cualquier v.a. X
∼ N (µX , σX2 )
con
σX2 > 0,
podemos
llevarla a una v.a. normal estándar haciendo la siguiente
transformación
Z
a este proceso se le llama
=
X
− µX
,
σX
estandarización
estandarizar la v.a.
o
X.
Con el n de ejemplicar lo antes dicho, supongamos que tenemos
dos números reales jos a y b tales que a
sacar la
probabilidad de que la v.a.
X
≤ b;
tome
entonces si queremos
alguno de los valores
en el intervalo [a, b ] esto lo calculamos de la siguiente forma:
P (a ≤ X ≤ b) = P (a − µX ≤ X − µX ≤ b − µX )
X − µX
b − µX
a − µX
≤
≤
= P
σX
σX
σX
a − µX
b − µX
= P
≤Z ≤
.
σX
σX
En resumen calcular la probabilidad del evento a
equivalente a el evento
a
− µX
≤Z ≤
σX
b
− µX
,
σX
≤ X ≤ b,
es
donde
∼ N (0, 1).
Recordemos que para calcular probabilidades en el caso de v.a.´s
continuas es necesario calcular el área bajo la curva que determina la
función de densidad f (x ), es decir
Z
P (a ≤ X ≤ b ) = P (X ≤ b ) − P (X ≤ a) = F (b ) − F (a) =
b
a
f (x )dx ,
donde F (·) es la función de distribución. En general no es fácil calcular el
área bajo la curva determinada por la función de densidad normal
estándar f (z ). Por fortuna existen tablas de la función de distribución
F (z ) = P (Z ≤ z ) para la normal estándar. Estas tablas están integrada
de las siguiente forma: a) la primera columna tiene valores de la variable
Z de -3.6 a 3.62 b) el primer renglón permiten obtener valores más nos
de la variable aleatoria hasta centésimos, y c) el resto de la tabla contiene
las probabilidades de que la v.a. Z , es decir, P (Z ≤ z ).
2
Para ver la tabla completa ver el apéndice
Por ejemplo, si deseamos calcular P (Z ≤ 1.48), buscamos en la primera
columna el número 1.4 y en la primera hilera el número 0.08. El número
ubicado en la intersección de la hilera con el número 1.4 y la columna
encabezada por 0.08 es la probabilidad buscada, es decir:
P (Z ≤ 1.48)
=
0.93056
Ejemplo.
∼ N (0, 1). Deseamos encotrar
P (Z ≥ 2.33). La primera probabilidad corresponde
Sea una v.a. Z
P (Z ≤ 2.33)
y
yv
0.0
0.1
0.2
0.3
0.4
al área sombreada en la siguiente gura
−3
−2
−1
0
1
2
3
xv
y puede obtenerse directamente de la tabla. Por lo tanto,
P (Z ≤ 2.33) = 0.9901.
La segunda probabilidad pedida
corresponde al área que no está sombreada en la gura. Puesto que
el área total bajo la curva es uno, entonces
P (Z ≥ 2.33) = 1 − 0.9901 = 0.0099.
Distribución χ2 o de Pearson
Una v.a.
χ2 (se
lee, ji cuadrada) se genera a partir de la suma de
variables aleatorias
independientes normales con media cero y
varianza uno. Es decir, si Z1 , Z2 , . . . , Z
k∼
N
(0, 1)
y son
independientes entonces si denimos la nueva v.a. W como
W
=
2
Z1
+ · · · + Zk2 ,
se distribuye como una ji cuadrada con
grados de libertad, y lo denotaremos como W ∼ χ2k .
entonces diremos W
k
Observaciones
1. El número de términos en la suma son los grados de libertad.
2. Se puede probar que la esperanza de W es k , es decir que
E (W ) = k ,
y
3. la varianza de W es 2k , es decir Var (W )
= 2k .
A continuacion algunas funciones de densidad W
distintas k ´s.
∼ χ2k ,
para
Distribución t de Student
Si Z
∼ N (0, 1)
y W
∼ χ2k
donde Z y W son
independiente.
Si
entonces la v.a. denida por la transformación
Y
=
Z
q
W
k
,
se distribuye t de Student con
libertad, y lo denotaremos por Y ∼ tk .
Observaciones
diremos que Y
I Los grados de libertad de
que la genera.
k
grados de
k son los mismos grados de la χ2
t
I Esta función de distribución es parecida a la normal centrada
en cero
I
I
I
en el sentido de que también es simétrica alrededor del cero,
pero la tk se diferencía de la normal en que tiene colas más
pesadas.
Cuando los grados de libertad k tienden a innito, entonces tk
tiende a una N (0, 1), y lo podemos escribir como
0.4
t(50)
0.3
t(5)
0.0
0.1
0.2
t(1)
−4
−2
0
x
2
4
Distribución F de Snedecor
Si u y v son números enteros positivos y denimos las siguentes
v.a.´s como V
∼ χ2u
y W
∼ χ2v
donde V y W son
independiente.
Entonces la v.a. denida por la transformación
K
=
V/d1
W/d2
,
se distribuye F de Snedecor con
libertad, y lo denotaremos por K ∼ Fu,v .
Observaciones
se dice que K
I Los grados de libertad
grados de la
χ2
u
uv
y v de la F ,
u
y
v
grados de
los determinan los
en el numerador y en el denominador
respectivemete.
I Si
K
∼ Fu,v
entonces
1
K
=K −1 ∼ Fv ,u .
uv
A continuación se ilustran alguna funciones de densidad F ,
0
0
distintas u s y v s
:
para
0.8
0.6
F(1,1)
0.4
F(1,5)
0.2
F(1,5)
0.0
F(100,1)
0
2
4
x
6
8
La Distribución de la Media Muestral X̄
Media y varianza de la media muestral.
Sea X1 , X2 , ..., Xn una muestra aleatoria de una función de
X(
distribución de probabilidades f
x
),
con media
µX
y varianza
La media y la varianza de la media muestral X̄ son:
σX2 .
E(X̄ ) = µX̄ = µX
( ) = σX̄2 =
Var X̄
σX2
n
Si la muestra se toma sin reemplazo de una población nita de
tamaño N , la expresión anterior debe modicarse como sigue:
2
σX̄ =
−n
N − 1
N
σX2
n
Los resultados que se presentan son para la media de variables
aleatorias , es decir, para la media de lo que llamamos una muestra
aleatoria, y no volveremos a ocuparnos del muestreo sin reemplazo.
Teorema Central del Límite
de
n una muestra aleatoria de una función
2 . Sea
(
)
,
con
media
µ
y
varianza
σ
X
X
X
2 + ... + n ) la media aritmética de las variables
Sea X1 , X2 , ..., X
probabilidades f
X̄
=
1
n(
X1
+X
x
X
aleatorias que integran la muestra. Para un tamaño de muestra
la distribución de la variable aleatoria X̄ es
aproximadamente normal con media µX y varianza σX2 /n.
(n)
grande,
En
símbolos esto se escribe:
X̄
donde el símbolo
∼
˙
σ2
∼
˙ N µX , X
n
debe leerse se distribuye aproximadamente.
Si se estandariza la variable aleatoria X̄ , tenemos:
X̄
− µX
σX
√
n
√
=
(
n X̄
− µX )
σX
∼ N (0, 1).
El Teorema Central del Límite establece que para un tamaño de
muestra grande la distribución de X̄ es aproximadamente normal:
1. independientemente de que la v.a. X
3 de la cual se está
muestreando,
2. el teorema funciona aún si la distribución es discreta,
X(
3. sea simétrica o asimétrica la forma de la densidad de f
x
)
4. la expresión tamaño de muestra grande es ambigüa, por lo
tanto el tamaño de muestra para el cual la aproximación es
X(
buena depende de la forma de f
3
x
).
Siempre y cuanto tenga hasta segundo momento nito.
Ejemplo
La función de probabilidades de una varible aleatoria X es:
X
-4
-3
-2
0
1
2
3
P (X = x )
0.3
0.1
0.1
0.1
0.2
0.1
0.1
Como podemos ver la densidad de X no se parece a una
distribución Normal. Con objeto de ver la rapidez con que la
distribución de medias se aproxima a una Normal, se tomaron 100
X(
muestras aleatorias de tamaño 2 de f
x
)
y se calculó la media
0.20
0.15
0.10
probabilidad
0.25
0.30
aritmética para cada una de las 100 muestras.
−4
−3
−2
−1
0
x
1
2
3
15
10
Frequency
5
0
−4
−3
−2
−1
0
1
2
muestra[, 4]
El anterior histograma correspondiente los pormedios las muestras
aleatorias de tamaño dos. A pesar de que el histograma no tiene
una gran similitud con una distribución normal, notemos que es
X(
más simétrica que f
es de tamaño 2.
x
).
No perdamos de vista que cada muestra
El siguiente histograma es el que se obtuvo al obtener 100 muestras
X(
aleatorias tamaño 10 de la misma f
x
),
y notamos un parecido
0
2
4
Frequency
6
8
10
mayor a la normal con tan solo una muestra de tamaño 10.
−3
−2
−1
rowMeans(muestra)
0
1
Calidad en los datos
Inspección visual.
Para detectar si hay datos fuera de los rangos
establecidos, conocer el máximo y mínimo de cada variable.
Vericar que las codicaciones sean consistentes en toda la base.
Distribución de frecuencias de las variables de mayor interés, ver
distribución de la muestra.
Grácas de dispersión.
Identicar grupos u observaciones
discrepantes.
Vericar métodos de recolección de los datos para detectar
posibles fuentes de sesgo.
Observaciones faltantes.
Tratar de rastrearlas, ir a registros
originales, razones de su omisión. Denir que se hará con estas
observaciones, se puede usar algún valor de reemplazo o imputación
o seleccionar cuáles si se desechan. Los valores faltantes generan
sesgo este tema es de suma importancia
Cuidado con el número de dígitos a usar, puede perderse precisión o
al revés desperdiciar espacio.
Tener control sobre los estándares de medición.
Un grupo de datos de poca calidad no merece un análisis muy
Observaciones Discrepantes
Estas observaciones también son conocidas como aberrantes,
discordantes, contaminantes,sorprendentes, en inglés OUTLIER.
Puede denírseles de varias formas, una de ellas es decir que es una
observación que se encuentra a una distancia ANORMAL de las
demás, y entonces hay que denir lo que es una distancia
NORMAL, es decir la observación se encuentra fuera de la nube de
datos.
Estas observaciones pueden distorsionar la información, también
pueden ser una señal de que el modelo de distribución de los datos
NO es el adecuado, o reejar el haber encontrado una situación
sorprendente o peculiar. Si la observación causa un impacto en el
observador se le llama generalmente
discrepante.
Una observación
contaminante será cualquiera que no
corresponda a la distribución supuesta, y ésta puede no ser
percibida por el observador.
Estas observaciones afectan fuertemente al estimador X̄ de la
µ, y consecuentemente a los
Cov (X , Y ) y de Corr (X , Y ).
media
de
estimadores de Var (X ), de las
En análisis de regresión interesa identicar a las observaciones
inuyentes, que son aquellas que al omitirlas del análisis los
valores de las
β̂ 's
varían mucho.
Detectar estas observaciones puede ser una tarea bastante
complicada, sobre todo cuando se tienen datos altamente
multivariados.
En el caso univariado se les puede detectar muy fácilmente a través
de grácos boxplot o también al vericar si la media de los datos
diere mucho de la mediana.
Datos Faltantes
Datos faltantes completamente al azar
Pueden ser muy variadas las razones por las que existan valores
faltantes. Ya sea porque las condiciones climáticas, de seguridad o
políticas no permiten recoger la información, porque ese día los
instrumentos se descomponen, por que no se encontró a la persona
u objeto de la encuesta, aquí se puede pensar que la información se
perdió
completamente al azar (MCAR por su siglas en inglés). Es
i no observada no está
decir cuando la probabilidad de que X sea
i
relacionada con el valor mismo de x o con el de cualquier otra
variable.
Por ejemplo si las personas con un nivel de ingresos alto tienden a
no contestar por miedo a ser sujetos secuestrables, entonces esa
observación no se perdió completamente al azar.
MCAR corresponde a pensar que ese dato se perdió con la misma
probabilidad que cualquier otro dato. Si la persona no responde
acerca de sus ingresos, de la misma manera que no responde a
cuántos hijos tiene, entonces se considera MCAR. En este caso los
parámetros pueden estimarse sin sesgo.
A diferencia de los datos MCAR, donde la probabilidad de no
i
i
observar a X no depende del valor mismo de x o de otras
i luego
variables. En este caso esa probabilidad no dependerá de x
de controlar o condicionar con otra variable.
Por ejemplo, una persona con depresión puede ser que tienda más a
no contestar acerca de su ingreso, la gente con depresión a su vez
en general tiene menos ingresos, entonces lo que ocurre es que si
hay un tasa alta de no respuesta entre las personas con depresión,
la media real puede ser menor que la calculada con los datos
existentes, es decir sin tomar en cuenta a los datos faltantes. Ahora
si entre las personas con depresión la probabilidad de no contestar
acerca de su ingreso no está relacionada con su nivel de ingreso,
Esto
No signica que estos faltantes no produzcan sesgo y que se
pueda uno olvidar del problema.
entonces los datos se consideran faltantes al azar, (MAR).
Cuando no son MCAR ni MAR entonces se dice que son datos
faltantes no al azar (MNAR).
Ejemplo: Si se estudia una cierta enfermedad y las persona que
padecen esa enfermedad son las que tienen una mayor probabilidad
a no contestar a si la padecen, entonces los datos son faltantes no
al azar, MNAR. Claramente el estimador de la proporción que
padece esa enfermedad será menor que la proporción que se
obtendría con los datos completos. Lo mismo ocurre en el caso de
las personas con menor ingreso son las que tienden a no contestar
su nivel de ingreso. Esta falta de datos no al azar es un problema,
la única manera de obtener un estimador insesgado
Referencia bibliográca:
http://www.uvm.edu/~dhowell/StatPages/More_Stu/Missing_Data/M
Tratamiento de datos faltantes
Omisión total
Si los datos son MCAR las estimaciones obtenidas serán insesgadas
si no son MCAR serán sesgadas, hay que tener en cuenta que esta
pérdida de datos genera pérdida de potencia en las pruebas.
Por ejemplo en el cálculo de las correlaciones se usan las
observaciones disponibles, pero entonces cada estimación está
soportada por diferentes bases de datos. Puede ser el caso que se
llegue a una matriz de correlaciones estimada NO denida positiva.
No hay que olvidar que hay que analizar a las observaciones NA y
tratar de ver si se comportan (en ciertas variables ) como la
población total o si dieren.
Otra cosa importante es considerar qué es lo que se tiene perdido.
La situación de perder variables explicativas es diferente a perder
variables respuesta.
Hot Deck
sustituir el caso por alguno semejante (de dónde sacamos a alguien
semejante si ya acabó la encuesta, tener la providencia de guardar
un montoncito extra para la sustitución?).
Imputación Simple
I Sustituir los valores faltantes por la media (el estimador de
máxima verosimilitud), pero eso tiene consecuencias sobre la
estimación de la varianza, porque siempre estaremos
sustituyendo con el mismo valor.
I se puede sustituir usando una regresión, pero el problema sigue
siendo que se sustituye por una media ( esta vez condicionada)
SPSS permite sumar una variación aleatoria, se subsana en
algo este tipo de problema.
I Se puede usar el Algoritmo EM. En regresión si se conocieran
los NA, estimar los parámetros del modelo sería fácil, y si se
conocieran los parámetros del modelo de los datos sería
sencillo hacer predicciones insesgadas de las observaciones
faltantes. Este algoritmo es iterativo y va haciendo ambas
cosas: con los datos existentes se estiman los parámetros del
modelo de los datos, enseguida con estos parámetros se hacen
Imputación múltiple
Se generan valores para hacer la imputación basados en los datos
existentes. Suponiendo que se estimay usando x , pero esta
imputación se hace varias veces, es decir tendremos varios
conjuntos de datos completados. Para hacer esto se usan métodos
conocidos Markov Chain Monte Carlo.
El programa NORM en la parte llamada data augmentation lo hace.
SAS tiene dos procedimientos MI y MIANALYZE.
Schafer, J.L. & Olsden, M. K.. (1998). Multiple imputation for
multivariate missing-data problems: A data analyst's perspective.
Multivariate Behavioral Research, 33, 545-571.
En R esta el paquete MICE, material con referencia en: Van
Buuren, S., Groothuis-Oudshoorn, K. (2011) MICE: Multivariate
Imputation by Chained Equations in R. Journal of Statistical
Software.
http://www.stefvanbuuren.nl/publications/MICEinR-Draft.pdf
Grácas datos univariados
I gráca de barras y de
pie
son solo para datos categóricos,
debe haber espacios entre las barras.
I histograma debe tenerse cuidado con los anchos de barras y
con los puntos que se consideran en el eje de las x.
I boxplot permite rápidamente ver observaciones discrepantes.
I q-qplot permite ver si dos muestras provienen de la misma
distribución.
I tallo y hoja, una versión de los histogramas pero permite ver
los datos tal cual.
Grácos de Pie y Dot Chart
El uso de grácos circulares o pasteles es bastante común entre
personas no profesionales en estadstica y lamentablemente se ha
trivializado tanto que si en muchas de las situaciones donde se usan
se suprimieran se ahorraran muchas hojas de papel.
Los grácos de puntos son elegantemente simples y permite
numerosas variaciones. La única razón por la cual no se han vuelto
populares es que los programas de hojas electrónicas no los
elaboren presionando una tecla.
> pie(pie.sales) # default colours
> pie(pie.sales, col = c("purple", "violetred1", "green3",
+
"cornsilk", "cyan", "white"))
> dotchart(pie.sales)
Gráco de Barras
> barplot(VADeaths)
> barplot(VADeaths, beside = TRUE,
+
col = c("lightblue", "mistyrose", "lightcyan",
+
"lavender", "cornsilk"),
+
legend = rownames(VADeaths), ylim = c(0, 100))
> title(main = "Death Rates in Virginia", font.main = 4)
Gráco de Tallo y Hoja
Este gráco fue propuesto por Tukey (1977) y a pesar de no ser un
gráco para presentación denitiva se utiliza a la vez que el analista
recoge la información ve la distribución de los mismos. Estos
grácos son fáciles
de realizar a mano
y se usan como una forma
rápida y no pulida de mirar los datos. Qué nos muestra?
1. El centro de la distribución
2. La forma general de la distribución
Simétrica si las porciones a cada lado del centro son imágenes
espejos de las otras.
Sesgada a la izquierda Si la cola izquierda (los valores menores) es
mucho más larga que los de la derecha (los valores mayores)
Sesgada a la derecha opuesto a la sesgada a la izquierda.
3. Desviaciones marcadas de la forma global de la distribución.
Outliers
Observaciones individuales que caen muy por fuera del
patrón general de los datos.
gaps
Huecos en la distribución
> stem(islands)
The decimal point is 3 digit(s) to the right of the |
0
2
4
6
8
10
12
14
16
|
|
|
|
|
|
|
|
|
00000000000000000000000000000111111222338
07
5
8
4
5
0
> stem(log10(islands))
The decimal point is at the |
1
1
2
2
3
3
4
|
|
|
|
|
|
|
1111112222233444
5555556666667899999
3344
59
5678
012
> as.data.frame(islands)
islands
Africa
11506
Antarctica
5500
Asia
16988
Australia
2968
Axel Heiberg
16
Baffin
184
Banks
23
Borneo
280
Britain
84
Celebes
73
Celon
25
Cuba
43
Devon
21
Ellesmere
82
Europe
3745
Greenland
840
Hainan
13
Hispaniola
30
Hokkaido
30
Honshu
89
Iceland
40
Ireland
33
Java
49
Kyushu
14
Luzon
42
Madagascar
227
Melville
16
Mindanao
36
Moluccas
New Britain
New Guinea
New Zealand (N)
New Zealand (S)
Newfoundland
North America
Novaya Zemlya
Prince of Wales
Sakhalin
South America
Southampton
Spitsbergen
Sumatra
Taiwan
Tasmania
Tierra del Fuego
Timor
Vancouver
Victoria
29
15
306
44
58
43
9390
32
13
29
6795
16
15
183
14
26
19
13
12
82
Histograma
El histograma es el gráco estadístico por excelencia. El histograma
de un conjunto de datos es un gráco de barras que representan las
frecuencias con que aparecen las mediciones agrupadas en ciertos
rangos o intervalos. Para uno construir un histograma se debe
dividir la recta real en intervalos o clases (algunos recomiendan que
sean de igual longitud) y luego contar cuantas observaciones caen
en cada intervalo.
formula de Sturges para determinar el numero de barras.
Regla de Sturges: k
= 1 + log2 (n)
Scott (1992), basado en la distribuci´on normal recomienda el
siguiente número de barras para el histograma Regla de
Scott:k
= (2n)1/3
> hist(islands)
> utils::str(hist(islands, col="gray", labels = TRUE))
List of 7
$ breaks
: num [1:10] 0 2000 4000 6000 8000 10000 12000 14000
16000 18000
$ counts
: int [1:9] 41 2 1 1 1 1 0 0 1
$ intensities: num [1:9] 4.27e-04 2.08e-05 1.04e-05 1.04e-05 1.04e-05
...
$ density
: num [1:9] 4.27e-04 2.08e-05 1.04e-05 1.04e-05 1.04e-05
...
$ mids
: num [1:9] 1000 3000 5000 7000 9000 11000 13000 15000
17000
$ xname
: chr "islands"
$ equidist
: logi TRUE
- attr(*, "class")= chr "histogram"
> hist(sqrt(islands), breaks = 12, col="lightblue", border="pink")
Boxplot o Caja de Tukey
Realizado por Tukey (1977). Es un gráco simple, ya que se realiza
básicamente con cinco números.
Permite comparar diversos conjuntos de datos simultáneamente.
Este gráco contiene un rectángulo, usualmente orientado con el
sistema de coordenadas tal que el eje vertical tiene la misma escala
del conjunto de datos. La parte superior y la inferior del rectángulo
coinciden con el tercer cuartil y el primer cuartil de los datos. Esta
caja se divide con una linea horizontal a nivel de la mediana. Se
dene un paso como 1.5 veces el rango intercuartil, y una linea
vertical (un bigote) se extiende desde la mitad de la parte superior
de la caja hasta la mayor observación de los datos si se encuentran
dentro de un paso. Igual se hace en la parte inferior de la caja Las
observaciones que caigan más allá de estas líneas son dibujadas
individualmente. La denición de los cuartiles puede variar y otras
deniciones de el paso son planteadas por otros autores.
La localización esta representada en la linea que corta la caja y
representa la mediana (que esta dentro de la caja), la dispersión
esta dada por la altura de la caja, como por la distancia entre los
extremos de los bigotes. El sesgo se observa en la desviación que
exista entre la linea de la mediana con relación al centro de la caja,
y también la relación entre las longitudes de los bigotes. Las colas
se pueden apreciar por la longitud de los bigotes con relación a la
altura de la caja, y también por las observaciones que se marcan
explícitamente.
> boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque")
> boxplot(decrease ~ treatment, data = OrchardSprays,
+
log = "y", col = "bisque")
¾Qué es un cuantil?
Son puntos tomados a intervalos regulares de la función
acumulativa de distribución de una variable aleatoria. Dividir al
conjunto de los datos ordenados en
q conjuntos del mismo tamaño,
es el objetivo de los q-cuantiles. Los cuantiles son las fronteras
entre los conjuntos.
Cuantiles más comunes
El 2-cuantil, parte en dos partes iguales y es la mediana.
Los 3-cuantiles o terciles,
Los 4-cuantiles o cuartiles,
los 10-cuantiles o deciles,
los 100-cuantiles o porcentiles.
El k-ésimo q cuantil satisface lo siguiente:
(
Pr X
< x ) ≤ k /q .
y Pr (X
≤ x ) ≥ k /q
Para un conjunto tamaño N
puede calcularse como I
p=
N
∗ (k /q ),
si es un entero se elige la
observación que ocupe esa posición ordenada y ¾si no es un
entero???, se redondea, o se toma una cierta interpolación entre las
dos observaciones.
QQplot
Sirve para determinar si dos conjuntos de datos provienen de
poblaciones con la misma distribución.
Se gracan los cuantiles del primer conjunto contra los cuantiles del
segundo conjunto. Se dibuja también una recta de 45 grados de
pendiente(es decir y
= x ).
Si las observaciones provienen de la
misma distribución, caerán aproximadamente sobre la recta. Entre
más se separan de la recta, más alejadas serán sus distribuciones.
Si caen sobre una recta con pendiente de 45 grados pero con
distinta ordenada al origen, tendrán un traslado en el parámetro de
localización, si varía la pendiente variará en la desviación estándar.
Los conjuntos pueden ser de distinto tamaño( se hacen
corresponder los cuantiles del conjunto más grande con los valores
ordenados del más pequeño, y los cuantiles intermedios se
interpolan).
Una
gráca de probabilidad es semejante a una qqplot solo que
se sustituyen al segundo conjunto de datos por los cuantiles de la
distribución teórica a probar.
> x1<-rnorm(100,5,1)
> z<-rnorm(100)
> x2<-rnorm(100,0,5)
> z<-rnorm(100)
> x2<-rnorm(110,0,5)
> par(mfrow=c(1,2))
> qqplot(z,x1,main="N(5,1) Q-Q Plot")### variando la media
> abline(0,1)
> abline(5,1,col=2)
> qqplot(z,x2,main="N(0,5) Q-Q Plot")#### variando la desviacion
estandar
> abline(0,1)
> abline(0,5,col=2)
x <- rt(100, df=3)
# normal fit
qqnorm(x); qqline(x)
> x<-rchisq(20,3)
> qqnorm(x); qqline(x)
Grácas datos multivariados
I Estrellas. Convienen cuando no se tienen muchos atributos,
pues con más de 10 o 12 aristas las confundimos en su forma.
I Caritas, debidas a Chernov, dado que el ojo humano esta muy
entrenado para reconocer rostros humanos. A cada elemento
de la cara: pelo, ancho cara, largo nariz, tamaño de ojos se le
asocia una característica.
> stars(longley)
> faces(longley)
effect of variables:
modified item
"height of face
"
"width of face
"
"structure of face"
"height of mouth "
"width of mouth
"
"smiling
"
"height of eyes
"
"width of eyes
"
"height of hair
"
"width of hair
"
"style of hair
"
"height of nose "
"width of nose
"
"width of ear
"
"height of ear
"
Var
"GNP.deflator"
"GNP"
"Unemployed"
"Armed.Forces"
"Population"
"Year"
"Employed"
"GNP.deflator"
"GNP"
"Unemployed"
"Armed.Forces"
"Population"
"Year"
"Employed"
"GNP.deflator"
Curvas de Andrews
A cada individuo se le asigna una curva de la siguiente manera:
t
∈ [−π, π]
Si p es impar
(
i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip cos(
f
X
t
X
t
X
t
p
X
− 1)
2
Si p es par
i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip sin( 2
f
t
X
X
t
X
t
X
p
Estas tres grácas no son únicas, pues según ordenemos las
variables darán origen a estrellas, curvas o caras distintas.
t
)
t
)
andrews.curves(iris[,c(4,2,1,3)], iris[,5], title="Iris Data")
Bagplot
Parecida a un boxplot pero en dos dimensiones.
> cardata
Weight Disp.
[1,]
2560
97
[2,]
2345
114
[3,]
1845
81
[4,]
2260
91
[5,]
2440
113
[6,]
2285
97
[7,]
2275
97
[8,]
2350
98
[9,]
2295
109
[10,]
1900
73
…
[59,]
3185
146
[60,]
3690
146
> bagplot(cardata,factor=3,show.baghull=TRUE,
+
show.loophull=TRUE,precision=1,dkmethod=2)
> title("car data Chambers/Hastie 1992")
Gráca de paralelas
Se usan sobre todo cuando hay varias mediciones para un solo
individuo.
parallel(~iris[,1:4],col=as.numeric(iris$Species),main="Parallelplot IRIS")
Gráco series de tiempo múltiples
> USeconomic
log(M1)
1954 Q1 6.111246
1954 Q2 6.115892
1954 Q3 6.129268
1954 Q4 6.141177
1955 Q1 6.151881
1955 Q2 6.159307
1955 Q3 6.162472
1955 Q4 6.161840
1956 Q1 6.164157
log(GNP)
7.249073
7.245084
7.257003
7.271565
7.292746
7.303641
7.316880
7.325610
7.323633
rs
0.010800000
0.008133333
0.008700000
0.010366667
0.012600000
0.015133333
0.018633333
0.023466667
0.023800000
rl
0.02613333
0.02523333
0.02490000
0.02566667
0.02746667
0.02816667
0.02926667
0.02890000
0.02886667
8.236606
8.248791
8.259795
8.274612
0.055333333
0.057333333
0.060333333
0.060033333
0.07636667
0.08576667
0.09083333
0.09240000
…
1987
1987
1987
1987
Q1
Q2
Q3
Q4
6.448731
6.453310
6.445879
6.446513