Download Probabilidad y Estadística - Clase 2

Document related concepts
no text concepts found
Transcript
Probabilidad y Estadística - Clase 2
Estadística Descriptiva
¿Quién fue el primero en hacer un promedio?
El rey Rituparna, apuntando hacia un árbol,
dijo: “Yo sé cuantas hojas tiene ese árbol, sin
siquiera contarlas”.
I
Es uno de los registros más antiguos de estimación.
I
Su truco era simple:
consistía en estimar el número de hojas en una pequeña rama
promedio, y multiplicarlo por el número estimado de pequeñas
ramas en el árbol.
I
La historia termina en que luego de una ardua noche de conteo, el
número verdadero de hojas se encontraba muy próximo al número
dado por el rey.
Estadística Descriptiva
¿Por qué funciona?
I
La idea es que una rama típica del árbol será representativa y dará
una buena estimación.
I
El método funciona porque lo que se cuenta de más algunas veces,
es compensado por lo que se cuenta de menos en otras.
¿Cuántos patos hay en la foto?
Estadística Descriptiva
Imaginarse una grilla
Pero ¿cómo elegir un rectángulo típico?
I
A ojo, digamos que hay 15 patos en un rectángulo típico. Esto nos
da una estimación de 225 patos en total.
I
¿Hay una manera sistemática de elegir un rectángulo típico?
Estadística Descriptiva
Hay más de una manera
Si nos dicen que el máximo es 34 y el mínimo es 0, podemos tomar
Valor típico =
Máximo + Mínimo
= 17.
2
Así, obtendríamos una estimación de 255 patos.
Hacemos la cuenta
25
17
15
6
0
5
27
34
11
6
5
11
21
8
4
Estadística Descriptiva
¿Más valores típicos?
I
Hay 195 patos. Entonces
Valor típico =
Suma
= 13.
15
Y eso que ningún rectángulo tiene 13 patos.
I
También podría ser
Valor típico = el que más se repite.
Hay 3 valores que se repiten dos veces: el 5, el 6 y el 11.
I
Ordenamos, de menor a mayor los rectángulos:
la mitad hacia la izquierda
la mitad hacia la derecha
z }| {
0455668
z
}|
{
11 15 17 21 25 27 34 .
11
Valor típico = aquel que divide en dos partes iguales al total.
Estadística Descriptiva
¿Con cuál nos quedamos?
Depende de la distribución de los datos, y sobre todo, de qué información queremos obtener.
Individuos, variables y distribuciones
Los individuos son los objetos descritos por un conjunto de datos.
Una variable es cualquier característica de un individuo.
La distribución de una variable nos dice qué valores toma y con qué
frecuencia.
Estadística Descriptiva
Variables categóricas y cuantitativas
Una variable categórica indica a qué grupo o categoría pertenece un
individuo.
Una variable cuantitativa toma valores numéricos, para los que tiene
sentido hacer operaciones numéricas.
Ejemplo
Nombre
Perez, Juan
Martínez, Ana
Wang, Li
..
.
Edad
27
43
22
..
.
Sexo
Hombre
Mujer
Hombre
..
.
Raza
Blanca
Blanca
Asiatica
..
.
Salario
32540
65000
15000
..
.
Trabajo
Técnico
Directivo
Cadete
..
.
Estadística Descriptiva
Tenencia de la vivienda en Uruguay ECH2014
A Prop. de la viv. y el terr. y los está pagando.
Tenencia de la Vivienda ECH2014
B Prop. de la viv. y el terr. y ya los pagó.
Porcentaje
40
C Prop. sólo de la vivienda y la está pagando.
30
D Prop. sólo de la vivienda y ya la pagó.
20
E Inquilino o arrendatario de la vivienda.
F Ocupante con relación de dependencia.
10
G Ocupante gratuito. Se lo permite el B.P.S.
0
A
B
C
D
E
F
G
H
I
H Ocupante gratuito. Se lo permite el prop.
I Ocupante sin permiso del propietario.
A
8,6 %
B
46,3 %
C
0,5 %
D
5,4 %
E
17,2 %
F
1,5 %
G
0,7 %
¿Cuál es la tenencia de la vivienda típica en Uruguay?
H
19,2 %
I
0,8 %
Estadística Descriptiva
La Moda
Si X es una variable categórica que toma los valores {x1, . . . , xn }, la
moda de X es aquel valor que se repite con mayor frecuencia
Moda(X ) = xi más frecuente.
La moda para variables cuantitativas
Si la variable es cuantitativa, debemos agrupar los datos y tomar la
moda de los datos agrupados. En este caso, la moda dependerá de
cómo agrupemos los datos.
Estadística Descriptiva
¿Cuál es el salario típico en Uruguay?
0.03
0.02
0.00
0.01
Frecuencia
0.04
0.05
Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014
0
20
40
60
80
Ingreso (miles de pesos)
La moda corresponde al intervalo 10 − 15 mil pesos.
100
Estadística Descriptiva
Medidas de Centro
Es un número que representa el “centro” de una distribución.
I
La moda es un ejemplo de medida de centro.
I
Supongamos que tenemos datos
{x1, x2, . . . , xn }
de una variable numérica X .
I
Podemos cuantificar cuán central es un número x para X con
d(x) =
n
X
|x − xi | .
i=1
I
Busquemos el valor de x que minimiza la función d.
Estadística Descriptiva
Volviendo a los patos
150
200
d
250
300
Grafico de d para el ejemplo de los patos
0
5
10
15
20
25
x
El mínimo se alcanza en x = 11. ¡No es casualidad!
30
35
Estadística Descriptiva
Buscamos el mínimo de d
I
El problema es que d no es derivable.
I
Ordenamos los datos de menor a mayor:
I
x1∗ ≤ x2∗ ≤ · · · ≤ xn∗ .
∗ , y vale
d es lineal en cada segmento xi∗, xi+
1
d(x) =
i
X
j=1
=
n
X
x − xj∗ +
n
X
xj∗ − x
j=i+1
xj∗ −
j=i+1
en donde A = 2i − n y B =
i
X
xj∗ + (2i − n)x = B + Ax,
j=1
Pn
∗
j=i+1 xj
−
Pi
∗
j=1 xj
son constantes.
Estadística Descriptiva
Buscamos el mínimo de d
I
Supongamos primero que n es impar. Entonces


 A < 0 cuando i ≤
 A > 0 cuando i ≥

n−1
2 ,
n+1
2 .
I
Por lo que d alcanza su mínimo en el punto x ∗n+1 .
I
Supongamos ahora que n es par. En este caso
2


A<0



A = 0



A > 0

I
cuando i ≤ n2 − 1,
cuando i = n2 ,
cuando i ≥ n2 + 1.
f
g
∗ , x∗
Luego d alcanza su mínimo en cualquier punto de xn/
.
2 n/2+1
Estadística Descriptiva
El mínimo de d según la paridad de n
Luego d alcanza su mínimo en

x ∗ , cuando n es impar,

 n+21
f
g
 cualquier punto de x ∗ , x ∗

n/2 n/2+1 , cuando n es par.
Estadística Descriptiva
La Mediana
Sea X una variable cuantitativa que toma los valores
{x1, . . . , xn }.
La mediana de X es un valor m que deja 50 % de los datos a su
izquierda y 50 % a su derecha.
Para calcularla aplicamos la siguiente receta:
∗


 x n+1
2
m=
∗
∗

 xn/2 +xn/2+1
2

cuando n es impar
cuando n es par
en donde {x1∗, . . . , xn∗ } es la muestra ordenada de menor a mayor.
Estadística Descriptiva
La mediana de ingresos en Uruguay
0.05
Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014
0.03
0.02
0.00
0.01
Frecuencia
0.04
Densidad
Mediana
0
20
40
60
80
100
Ingreso (miles de pesos)
I
La mediana es 15 mil pesos.
I
Esto es, ¡la mitad recibe un ingreso inferior a 15 mil pesos!
Estadística Descriptiva
Un viejo truco estadístico
I
Fue un poco engorroso calcular el mínimo de la función d.
I
En estadística existe un truco para hacer que una función se vuelva
derivable.
I
Consiste en elevar al cuadrado! y lo veremos más de una vez.
I
Sea X una variable numérica con valores {x1, . . . , xn }.
I
Consideremos, en lugar de d, la función
d2 (x) =
n
X
(x − xi )2 .
i=1
I
¿Dónde alcanza d2 su mínimo?
x = arg mı́n d2 (x)
x ∈R
Estadística Descriptiva
Buscamos el mínimo de d2
I
Como d2 es derivable, podemos derivar e igualar a cero:
d20 (x) = 2
n
X
(x − xi ) = 0.
i=1
I
Despejando, obtenemos un punto crítico en x =
I
Como d2 es una función cuadrática, alcanza su mínimo en x.
1
n
Pn
i=1 xi .
La Media o Promedio
Sea X una variable numérica con valores {x1, . . . , xn }. La media o
promedio de X es
n
1X
x=
xi .
n i=1
En palabras, la suma sobre la cantidad total datos.
Estadística Descriptiva
El promedio de ingresos en Uruguay
0.05
Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014
0.03
0.02
0.00
0.01
Frecuencia
0.04
Densidad
Mediana
Media
0
20
40
60
80
100
Ingreso (miles de pesos)
I
El sueldo promedio es de 18 mil pesos.
I
Los pocos encuestados con ingresos cercanos a $100000 hacen que
la media sea mayor a la mediana.
Estadística Descriptiva
Comparación entre la media y la mediana
0.020
0.010
0.000
Densidad
0.030
Histograma de la poblacion de las ciudades de Uruguay
0
20
40
60
80
100
120
Poblacion en miles de habitantes
I
En el histograma no está Montevideo.
I
La media y la mediana de habitantes de las 62 ciudades más
pobladas de Uruguay son
x = 45892 y M = 16490.
Estadística Descriptiva
Comparación entre la media y la mediana
I
Si sacamos a Montevideo, quedan
x = 25250 y M = 16240.
I
La mediana casi no cambió, pero la media es muy diferente.
A diferencia de la media, la mediana es robusta. Esto quiere decir
que es relativamente insensible a datos atípicos.
I
La media tiene la ventaja de ser más fácil de manipular
matemáticamente.
I
Cuando las muestras de datos son grandes, la media tiene una
distribución bien conocida. Esto lo veremos más adelante.
Estadística Descriptiva
Otras medidas de centro
I
Existen infinitas medidas de centro diferentes.
I
Por ejemplo, podríamos minimizar la función
dα (x) =
n
X
|x − xi |α
i=1
para cualquier α > 1.
I
Si α = ∞, el estadístico que se obtiene es el
Rango Medio =
I
máxi xi + mı́ni xi
.
2
En el curso usaremos sólo la moda, la mediana y el promedio.
Estadística Descriptiva
Datos circulares
I
Objetivo: viaje en bicicleta por la costa
uruguaya desde Montevideo a la
hermosa ciudad del Chuí.
I
Problema: ¡el viento en contra!
I
¿En qué mes del año nos conviene viajar?
I
Datos de la estación meteorológica del
Aeropuerto de Carrasco:
Día
Enero
Enero
Enero
Enero
Enero
Enero
..
.
Dirección del Viento
noreste
nornoreste
nornoreste
norte
noroeste
sur
..
.
Grados
45
22.5
22.5
360
315
180
..
.
Estadística Descriptiva
Vientos de Enero 2014 (Aeropuerto Carrasco)
I
I
El viento promedio es 59,4◦ , entre noreste y estenoreste.
La mediana es 69,2◦ , casi estenoreste.
Estadística Descriptiva
¿Cómo se hace un promedio en el círculo?
I
Medidas de ángulos se representan en un círculo unitario.
I
Si los datos son ángulos A = {α1, . . . , αn }, ponemos
pi = (sin(αi ), cos(αi )) .
I
En el círculo podemos medir la distancia entre dos puntos:
d(p1, p2 ) = ángulo en radianes entre p1 y p2 .
I
Podemos considerar la función
d2 (p) =
n
X
d(p, pi )2 .
i=1
I
Y el promedio es entonces
p = arg mı́n d2 (p)
p ∈S 1
Estadística Descriptiva
Distancia entre puntos del círculo
Estadística Descriptiva
Estadística Descriptiva
Estadística Descriptiva
Estadística Descriptiva
¡Conviene ir del Chuí a Montevideo!
Estadística Descriptiva
Resumiendo... Medidas de centro
I
La moda es la única medida de centro que podemos usar
cuando la variable es categórica.
I
La mediana es menos sensible a datos atípicos.
I
La media tiene ventajas teóricas respecto a la mediana.
Estadística Descriptiva
Medidas de dispersión
I
Miden la variabilidad de una distribución.
I
En general, es un número que indica si los diferentes valores
de una variable se alejan de la media.
La Varianza
Sea X una variable cuyos valores son {x1, . . . , xn }. La varianza s 2 de
X es
n
1 X
s2 =
(x − x)2,
n − 1 i=1
en donde x es la media de X .
A veces se indica la variable X con un subíndice: sX2 .
Estadística Descriptiva
La desviación típica
Sea X una cuyos valores son {x1, . . . , xn }. La desviación típica de X
es
v
t
n
1 X
(x − x)2 .
s=
n − 1 i=1
Esto es: la raíz cuadrada de la varianza.
I
¿Por qué n − 1 y no n? La suma de los desvíos di = xi − x es
n
X
i=1
di =
n
X
xi − x = 0.
i=1
Solamente n − 1 de los di2 puede variar libremente.
I
Cuando se usa n en lugar de n − 1, se escribe σ en lugar de s.
Estadística Descriptiva
La desviación típica de los ingresos en Uruguay
0.03
0.02
0.00
0.01
Densidad
0.04
Salario liquido en Uruguay
0
20
40
60
80
Salario
I
La desviación típica es s = 13617 pesos.
I
El 80 % de los salarios están en el intervalo
promedio ± desviación típica
100
Estadística Descriptiva
Desviacion tipica grande
0.00
0.0
-6
-4
-2
0
2
4
6
Valor de la variable
0.8
0.6
0.4
0.2
0.0
-6
-4
-2
0
Valor de la variable
-6
-4
-2
0
Valor de la variable
Desviacion tipica chica
Densidad
0.10
Densidad
0.05
0.2
0.1
Densidad
0.3
0.15
0.4
0.20
Desviacion tipica moderada
2
4
6
2
4
6
Estadística Descriptiva
¿Por qué n − 1 y no n?
0.2
0.0
0.1
Densidad
0.3
Histograma de una cierta variable X
-2
-1
0
1
2
3
Valores de la variable
I
Supongamos que disponemos de 30 valores de una variable X .
I
La varianza de X es s 2 = 1,02.
Estadística Descriptiva
¿Por qué n − 1 y no n?
I
Tomamos todas las muestras posibles de tamaño 5 de X .
I
Para cada una de esas muestras, calculamos su varianza s 2 .
I
¡El promedio es 1,03!
I
Si usamos σ 2 , el promedio es 0,82.
Densidad
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Histograma de varianzas
0
1
2
Varianza de la muestra
3
4
Estadística Descriptiva
Los Cuartiles
I
El primer cuartil Q1 es la mediana de las observaciones
situadas a la izquierda de la mediana global.
I
El tercer cuartil Q3 es la mediana de las observaciones situadas
a la derecha de la mediana global.
I
El primer cuartil deja el 25 % de los datos a su izquierda y el 75 %
a su derecha.
I
El tercer cuartil deja el 75 % de los datos a su izquierda y el 25 % a
su derecha.
I
En el ejemplo de los patos:
25 %
25 %
z }| {
045
5
z
}|
{
6 6 8 11 11 15 17 21 25 27 34
Estadística Descriptiva
Los Cuartiles
0.03
0.02
0.00
0.01
Densidad
0.04
Salario liquido en Uruguay
0
20
40
60
Salario
I
El primer cuartil es Q1 = 10000 pesos.
I
El tercer cuartil es Q3 = 24000 pesos.
80
100
Estadística Descriptiva
El Rango Intercuartílico.
El Rango Intercuartílico es otra medida de dispersión.
Sea X una variable cuyos valores son {x1, . . . , xn }. Definimos el rango
intercuartílico de X como
RIC(X ) = Q3 − Q1 .
I
En el ejemplo de los ingresos por salario tenemos
RIC(Salarios) = 14000 pesos.
I
Al igual que la mediana, el rango intercuartílico es una medida
robusta de la dispersión.
Estadística Descriptiva
Resumen numérico de los datos
Medida de centro
Medida de dispersión
Robusta
Mediana
Rango Intercuartílico
No Robusta
Media
Desviación Típica
Los cinco números resumen
I
Un resumen rápido del centro y dispersión de los datos.
mı́n Q1 M Q3 máx
I
Usar x y s sólo para distribuciones razonablemente simétricas que
no presenten datos atípicos.
I
El resumen de los ingresos en Uruguay:
mı́n
100
Q1
10000
M
16000
Q3
24000
máx
100000
Estadística Descriptiva
Métodos Gráficos
Estadística Descriptiva
El diagrama de barras
Un diagrama de barras representa gráficamente las frecuencias relativas de una variable categórica.
0.15
0.10
0.05
0.00
Frecuencia relativa
0.20
Diagrama de barras de las notas del curso de PyE 2015
1
2
3
4
5
6
Nota
7
8
9
10
Estadística Descriptiva
El histograma
El histograma es el análogo al diagrama de barras para variables
cuantitativas.
¿Cómo hacer un histograma?
I
Sea X una variable numérica cuyos valores son {x1, . . . , xn }.
I
El eje horizontal debe recorrer los valores de mı́n xi a máx xi .
I
Se divide el intervalo [mı́n xi , máx xi ] en k subintervalos iguales.
I
Si h es la longitud de cada subintervalo, tenemos
k=
máx x − mı́n x i
i
.
h
Estadística Descriptiva
¿Cómo hacer un histograma?
I
En cada subintervalo I , se grafica una barra cuya altura es
altura(I ) =
Fr(I )
h
(densidad)
en donde
Fr(I ) =
1
Cuantos xi “caen” en I
# {i : xi ∈ I } =
.
n
Total de observaciones
I
De este modo el área total del histograma es 1.
I
En la computadora se puede graficar además una curva de
densidad que aproxima el histograma.
I
¿Como elegir el k?
Estadística Descriptiva
¿Cómo elegir el k?
1.0
0.0
0.5
Densidad
1.5
Histograma Poblacion. El k es demasiado grande
20
40
60
80
100
Poblacion en miles de habitantes
0.000
Densidad
0.004
0.008
Histograma Poblacion. El k es demasiado chico
0
50
100
150
Poblacion en miles de habitantes
200
Estadística Descriptiva
La regla de Sturges
I
La regla de Sturges propone elegir
k = dlog2 n + 1e.
I
Se basa en la máquina de Galton.
I
La máquina tiene k intervalos, si hay
k − 1 filas de clavos.
I
Si se tiran muchas pelotitas, i.e. n es grande, la cantidad de
pelotitas en el i-ésimo intervalo es proporcional a k−i 1 .
I
Supongamos que la constante de proporcionalidad es α.
I
Observar que
n=
k
X
i=0
I
α
!
k −1
= α2k−1 .
i
Si α = 1 se obtiene la fórmula. ¿Les parece razonable?
Estadística Descriptiva
Algunas reglas útiles para elegir k
Las siguientes son algunas reglas útiles para determinar la cantidad
k de intervalos que se debe utilizar al hacer un histograma.
Sea X una variable cuyos valores son {x1, . . . , xn }. Tenemos
I
la regla de Sturges:
k = dlog2 n + 1e.
I
la regla de Rice:
I
la regla de Freedman-Diaconis:
k = d2n1/3 e.
h=2
RIC(X )
.
n 1/3
Notar que h es el ancho del intervalo.
Estadística Descriptiva
Puntajes curso de PyE 2015
0.020
0.000
Densidad
Simetría y Asimetría de un histograma
0
20
40
60
80
Puntaje
0.03
0.00
Densidad
Edad al morir. Australian Bureau of Statistics, 2012.
0
20
40
60
80
100
Edad al morir
0.04
0.00
Densidad
Ingresos en Uruguay. ECH 2014.
0
20
40
60
Salario en miles de pesos
80
100
Estadística Descriptiva
Simetría y Asimetría de un histograma
I
Una distribución es simétrica si los lados derecho e izquierdo
(de la mediana) del histograma son aproximadamente iguales.
I
Una distribución es asimétrica hacia la derecha si el lado
derecho del histograma se extiende mucho más lejos que el
lado izquierdo.
I
Una distribución es asimétrica hacia la izquierda si el lado
izquierdo del histograma se extiende mucho más lejos que el
lado derecho.
Coeficiente de Asimetría de una variable
Sea X una variable numérica cuyos valores son {x1, . . . , xn }. El
coeficiente de asimetría de X es
!3
n
1 X xi − x
.
γ=
n i=1
s
Estadística Descriptiva
Ejemplos
I
En los puntajes del curso de PyE 2015 tenemos γ = 0,04.
I
En los ingresos de Uruguay ECH 2014 tenemos γ = 2,02.
I
En las edades al morir del ABS 2012 tenemos γ = −1,64.
La asimetría y la media
I
Si la distribución es simétrica, la media y la mediana son casi
iguales.
I
Si la distribución es asimétrica hacia la derecha, la media es mayor
que la mediana.
I
Si la distribución es asimétrica hacia la izquierda, la media es
menor que la mediana.
Estadística Descriptiva
Distribuciones bi-modales
0.04
0.02
0.00
Densidad
0.06
Histograma de altura de hombres y mujeres
150
160
170
180
Altura
I
Si el histograma presenta dos picos, decimos que la distribución es
bi-modal.
I
En este caso, ni la media ni la mediana son representativas.
Es mejor usar las dos modas como resumen numérico.
I
Estadística Descriptiva
Transformando los datos
I
Supongamos que queremos medir la
superficie de un terreno cuadrado.
I
Hacemos varias mediciones del lado X
del cuadrado, y obtenemos
X²
{x1, . . . , xn }
I
Una buena estimación es la media x.
I
La superficie del terreno es X 2 .
X
¿Cuál es una mejor estimación para la superficie?
I
Promediar primero y elevar al cuadrado después, i.e. x 2 .
I
Elevar al cuadrado primero y promediar después, i.e. x 2 .
Estadística Descriptiva
Calculemos el error
I
Supongamos que el lado mide µ (desconocido para nosotros).
I
La superficie es entonces µ2 .
Cada medición es de la forma xi = µ+ i , con i el error de la i-ésima
medición. Como los errores tienden a compensarse, tenemos = 0.
I
Método 1: como x = µ + = µ, tenemos x 2 = µ2 .
I
Método 2: como
xi2 = µ2 + 2 i + 2i
tenemos x 2 = µ2 + 2 .
I
Pero 2 > 0, así que es mejor el Método 1.
Estadística Descriptiva
Error vs. Error2
0.3
0.0
Densidad
Histograma del error
-3
-2
-1
0
1
2
3
Error en metros (e)
0.0 1.0
Densidad
Histograma del error al cuadrado
0
1
2
3
Error^2 en metros cuadrados (e^2)
4
5
Estadística Descriptiva
Histograma acumulado
I
Se divide el intervalo [mı́n xi , máx xi ] en k subintervalos iguales.
I
Denotemos por I1, . . . , Ik dichos subintervalos.
En cada subintervalo Ij , se grafica una barra cuya altura es
I
altura(Ij ) = FrAc(Ij )
en donde
1 # i : xi ∈ I1 ∪ · · · ∪ Ij
n
Cuantos xi “caen” en I1 ∪ · · · ∪ Ij
.
=
Total de observaciones
FrAc(Ij ) =
I
De este modo, las alturas de las barras crecen desde 0 hasta 1.
Estadística Descriptiva
Histograma acumulado y cuartiles
0.8
0.6
0.4
0.2
0.0
Frecuencia acumulada
1.0
Histograma acumulado PyE 2015
0
20
40
Puntaje
60
80
Estadística Descriptiva
Diagrama de caja (Box Plot)
Un Diagrama de caja es un gráfico que resume
de forma visual las características principales
de la distribución de un conjunto de datos.
John Tukey (1915-2000)
Está compuesto por un rectángulo (caja) y dos brazos (bigotes):
I
Los límites del rectángulo son los cuartiles Q1 y Q3 .
I
En el interior del rectángulo se indica la mediana M.
I
Se calculan los límites inferior y superior
Li = Q1 − 1,5 · RIC y Ls = Q3 + 1,5 · RIC
I
El brazo inferior y superior terminan en
mı́n xi y máx xi
xi ≥Li
xi ≤Ls
Estadística Descriptiva
Diagrama de caja (Box Plot)
Atípico
max(x)|x ≤ Ls
Ls = Q3 + RIC·1.5
Q3 (75%)
Mediana (50%)
RIC = Q3 - Q1
(50% de datos)
Q1 (25%)
Li = Q1 - RIC·1.5
min(x)|x ≥ Li
Estadística Descriptiva
Datos atípicos (outliers)
Los datos atípicos son aquellos que caen fuera del intervalo [Li , Ls ]
100 120
80
60
40
20
0
Poblacion en miles de habitantes
Poblacion de ciudades en Uruguay
Estadística Descriptiva
Comparación de ingresos ECH 2014
50
40
30
10
0
20
40
30
10
20
Artigas
0
Salario en miles de pesos
50
Montevideo
Estadística Descriptiva
Resumiendo...
Para resumir las principales características de una distribución:
Representar gráficamente los datos.
Diagrama de barras, histograma, boxplot.
Interpretar. Forma, centro, dispersión.
Asimetrías. Observaciones atípicas.
Resumen numérico. Moda, Mediana, Media.
Cuartiles, desviación típica, rango intercuartílico.