Download pps

Document related concepts

Parámetro estadístico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Curtosis wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
Descripción de una
variable
Tema 1
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
1
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
2
Objetivos




Reconocer el papel de la Estadística en la
resolución de problemas.
Conocer los términos básicos que se utilizan
en Estadística.
Interpretar las representaciones gráficas
asociadas a un conjunto de datos.
Conocer los estadísticos básicos que se
utilizan para describir una muestra.
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
3
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
4
Definiciones fundamentales

Población: conjunto de elementos de los que se
estudia una característica. Tamaño de la población es
su número de elementos (N, puede ser infinito).



Muestra: conjunto (representativo) de elementos de
la población. Tamaño de la muestra es su número de
elementos (n).


N = 50
n = 11
Individuo: cada elemento de la población.

Ignacio Cascos
Depto. Estadística, Universidad Carlos III
5
Definiciones fundamentales

Variable: característica a estudiar en los
individuos de la población (X ó Y).

Dato: valor, numérico o no, que toma la
variable sobre un individuo concreto de la
muestra, (x ó y).
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
6
Tipos de variables

Cuantitativa: toma valores numéricos

Discreta: el conjunto de valores que puede tomar es finito
o numerable.


Continua: puede tomar una cantidad infinita no numerable
de valores.


Número de hijos.
Duración de una batería.
Cualitativa: los valores que toma se corresponden
con cualidades no cuantificables
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
7
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Medidas de forma

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Asimetría, curtosis
Representaciones gráficas

Ignacio Cascos
Diagrama de barras, histograma, diagrama de cajas…
Depto. Estadística, Universidad Carlos III
8
Tabla de frecuencias




Tenemos k valores distintos en la muestra x1,…, xk
Frecuencia absoluta de un valor xi
número de veces que aparece xi en la muestra, ni
Frecuencia relativa de un valor xi
cociente de frecuencia absoluta entre tamaño, fi= ni /n
Si tenemos variables cuantitativas, ordenamos x1<…< xk
Frecuencia absoluta acumulada del valor i-ésimo
suma de las frecuencias absolutas hasta la de xi, Ni=n1+…+ni
Frecuencia relativa acumulada del valor i-ésimo
frecuencia absoluta acumulada entre tamaño, Fi= Ni /n
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
9
Tabla de frecuencias
Altura de los alumnos de
una clase (en cm).
Se ha cogido una muestra
de tamaño n = 12,
obteniendo los siguientes
datos:
174, 180, 187, 174,
179, 172, 180, 180,
176, 180, 160, 160
Ignacio Cascos
xi
ni
fi
Ni
Fi
160
2 0.17
2 0.17
172
1 0.08
3 0.25
174
2 0.17
5 0.42
176
1 0.08
6
179
1 0.08
7 0.58
180
4 0.33
11 0.92
187
1 0.08
12
Depto. Estadística, Universidad Carlos III
0.5
1
10
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
11
Datos agrupados
A veces es necesario agrupar los datos de una
variable cuantitativa.


Muestra grande y difícil de manejar
Variable continua y no se repite ningún valor
Clase: cada intervalo en que se agrupan los datos, pueden ser
del mismo tamaño o no.
Marca de clase: punto medio del intervalo.
El número de clases suele tomarse entre 5 y 20, generalmente
entero más próximo a n1/2 .
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
12
Tabla de frecuencias (agrupados)
Ci ni
Altura de los
alumnos de los
N = 48 alumnos
de la clase de la
tabla anterior.
Fi
[155.71 , 161.43)
3
0.0625
3 0.0625
[161.43 , 167.14)
3
0.0625
6
0.125
[167.14 , 172.86) 15
0.3125 21 0.4375
[172.86 , 178.57)
0.1458 28 0.5833
7
[178.57 , 184.29) 14
[184.29 , 190)
Ignacio Cascos
fi Ni
Depto. Estadística, Universidad Carlos III
6
0.2917 42
0.875
0.125 48
1
13
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
14
Medidas de tendencia central
Valores típicos o representativos que pretenden
resumir los datos en un solo valor.

Media: es la media aritmética de los datos (su centro
de gravedad).
k
x   f i xi
i 1
Es sensible a valores extremos y particularmente útil
cuando los datos son simétricos respecto a ella.
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
15
Medidas de tendencia central

Mediana: al menos la mitad de los datos son
mayores o iguales que ella y al menos la mitad son
menores o iguales.
No es sensible a valores extremos (es robusta).

Moda: es el valor con mayor frecuencia (no tiene
por qué se único)
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
16
Medidas de tendencia central
x = 175.17
Me = 177.5
Moda = 180
174, 180, 187, 174,
179, 172, 180, 180,
176, 180, 160, 160
Ignacio Cascos
xi
160
172
174
176
179
180
187
Depto. Estadística, Universidad Carlos III
ni
2
1
2
1
1
4
1
fi
0.17
0.08
0.17
0.08
0.08
0.33
0.08
Ni
2
3
5
6
7
11
12
Fi
0.17
0.25
0.42
0.5
0.58
0.92
1
17
Cuantiles



Son medidas de posición no central.
Cuartiles: dividen a la muestra en 4 partes
iguales (Q1, Q2, Q3).
Percentiles: dividen a la muestra en 100 partes
iguales (P25 = Q1).
Deciles: dividen a la muestra en 10 partes
iguales.
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
18
Cuantiles
Dada la muestra de alturas de alumnos
 Primer cuartil = 173.5
 Segundo cuartil (mediana) = 177.5
 Tercer cuartil = 180

Valores extremos: 160 y 187
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
19
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
20
Medidas de dispersión

Cuantifican la dispersión de los datos de la muestra.
Varianza: promedio de las desviaciones cuadráticas a
la media
k

s   f i xi  x
2
i 1


2
k
;

s   f i xi  x
2
2
2
i 1
Desviación típica: raíz cuadrada de la varianza
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
21
Medidas de dispersión
Aplicación de la desviación típica (y media):
Al menos el 100(11/k2)% de los datos están en el intervalo

x  ks, x  ks

Ejemplo: Anotación de Pau Gasol en los 51 partidos que
jugó en la temporada 2006/2007.
4; 10; 10; 10; 11; 11; 12; 12; 13; 13; 15; 15; 16; 16; 16; 16; 17;
17; 19; 19; 20; 21; 21; 21; 21; 22; 22; 22; 23; 23; 23; 23; 23; 23;
24; 24; 24; 24; 25; 25; 25; 27; 28; 28; 29; 29; 30; 30; 31; 31; 34.
Anotación media = 20.55 ; Desv. Típica anotación = 6.64
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
22
Medidas de dispersión

Rango: Distancia entre observaciones extremas,
xk – x1

Rango intercuartílico: Distancia entre el tercer y
el primer cuartil, RI = Q3 – Q1

Coeficiente de variación: CV = s / x

MEDA = Mediana|X-Mediana(X)|
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
23
Medidas de dispersión
Partimos de los datos: 174, 180, 187, 174, 179,
172, 180, 180, 176, 180, 160, 160






Varianza = 60.14
Desv. Típica = 7.75
Rango = 27
Rango intercuartílico = 6.5
Coeficiente de variación = 4.43%
MEDA = 3
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
24
Medidas de posición y dispersión
para los N = 48 individuos obtenemos

Media = 174.65

Varianza = 58.40

Mediana = 174

Desv. típica = 7.64

Moda = 180

Rango = 27

RI = 10.5

CV = 4.38%


Primer cuartil = 169.5
Tercer cuartil = 180
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
25
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
26
Diagrama de barras
Cada barra tiene como longitud la frecuencia de la variable que representa.
Se utiliza con variables cualitativas o cuantitativas discretas.
Diagrama de barras para el Congreso de los Diputados
Barchart for Congreso
PSOE
PP
CiU
ERC
EAJ-PNV
IU-ICV
CC
Grupo Mixto
0
30
60
90
120
150
180
frequency
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
27
Diagrama de sectores
Cada sector del círculo tiene un área proporcional al valor que representa.
Se utiliza con variables cualitativas o cuant. discretas con pocos valores.
Diagrama de sectores para el Congreso de los Diputados
Piechart for Congreso
Grupos Parlamentarios
PSOE
PP
CiU
ERC
EAJ-PNV
IU-ICV
CC
Grupo Mixto
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
28
Diagrama de cajas
Aparecen cuartiles, mediana y valores extremos
Box-and-Whisker Plot
Todos los
individuos
160
165
170
175
180
185
190
185
190
altura
Box-and-Whisker Plot
0
sexo
Individuos
agrupados según
su sexo
1
160
165
170
175
180
altura
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
29
Histograma
El área de cada rectángulo es proporcional a su frecuencia.
Se utiliza para variables cuantitativas (continuas), precisa de su agrupamiento.
Histograma y polígono (poligonal) de frecuencias para
las clases de la diapositiva 13
Histogram for altura
Histogram for altura
15
15
12
frequency
frequency
12
9
6
3
9
6
3
0
150
160
170
180
190
0
150
altura
Ignacio Cascos
160
170
180
190
altura
Depto. Estadística, Universidad Carlos III
30
Diagrama de tallos y hojas
Muestra de n = 12
individuos
16 | 00
17 | 24469
18 | 00007
Ignacio Cascos
Población con los
N = 48 individuos
16 | 000
16 | 23
16 | 4
16 |
16 | 888899
17 | 000001
17 | 22233
17 | 445
17 | 6
17 | 8999
18 | 0000000
18 | 23
18 | 445555
18 | 77
Depto. Estadística, Universidad Carlos III
Anotación Pau Gasol
Temporada 06/07
0|4
0|
1 | 000112233
1 | 5566667799
2 | 011112223333334444
2 | 55578899
3 | 00114
31
Descripción breve del tema
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición


5.
Medidas de dispersión

6.
Varianza, desviación típica, rango
Representaciones gráficas

7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma

Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
32
Medidas de forma

Coeficiente de Asimetría: sirve para estudiar las
desviaciones respecto de la media
 f x
k
CA 
Ignacio Cascos
i 1
i
i
x

3
s3
Depto. Estadística, Universidad Carlos III
33
Asimetría
2,4
2,4
2
2
1,6
1,6
1,2
1,2
0,8
0,8
0,4
0,4
0
0
0,2
0,4
0,6
0,8
1
0
0
CA<0
0,2
0,4
0,6
0,8
1
CA>0
2,4
2
Para los N = 48 estudiantes
CA = 0.21
1,6
1,2
0,8
0,4
0
0
0,2
0,4
0,6
0,8
1
CA~0
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
34
Medidas de forma

Coeficiente de Apuntamiento (o curtosis): indica el
grado de concentración de los valores que toma la
variable en torno a su media
 f x
k
CAp 
Ignacio Cascos
i 1
i
i
s
x

4
4
Depto. Estadística, Universidad Carlos III
3
35
Apuntamiento o curtosis
12
2,4
10
2
8
1,6
6
1,2
4
0,8
2
0,4
0
0
0
0,2
0,4
0,6
0,8
1
0
CAp>0
0,2
0,4
0,6
0,8
1
CAp<0
0,4
Para los N = 48 estudiantes
CAp = 0.86
0,3
0,2
0,1
0
-5
-3
-1
1
3
5
CAp~0
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
36