Download Descripción de una variable

Document related concepts

Parámetro estadístico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Curtosis wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
Descripción breve del tema
Descripción de una
variable
1.
2.
3.
4.
Tema 1
5.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
Medidas de dispersión
6.
Depto. Estadística, Universidad Carlos III
1
Objetivos
Asimetría, curtosis
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
2
Descripción breve del tema
1.
2.
3.
4.
Reconocer el papel de la Estadística en la
resolución de problemas.
Conocer los términos básicos que se utilizan
en Estadística.
Interpretar las representaciones gráficas
asociadas a un conjunto de datos.
Conocer los estadísticos básicos que se
utilizan para describir una muestra.
Ignacio Cascos
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
Ignacio Cascos
Varianza, desviación típica, rango
Representaciones gráficas
7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Depto. Estadística, Universidad Carlos III
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
5.
Medidas de dispersión
6.
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
3
Varianza, desviación típica, rango
Representaciones gráficas
7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
4
Definiciones fundamentales
Población: conjunto de elementos de los que se
estudia una característica. Tamaño de la población es
su número de elementos (N, puede ser infinito).
☺☺☺
☺☺☺☺☺☺
☺☺☺☺☺
☺☺☺☺☺☺
☺☺☺☺
☺☺
☺☺
☺☺
☺☺
☺
☺☺
☺☺☺☺☺
☺☺☺☺
☺☺
☺☺☺
☺☺
☺☺☺
☺
☺
Variable: característica a estudiar en los
individuos de la población (X ó Y).
Dato: valor, numérico o no, que toma la
variable sobre un individuo concreto de la
muestra, (x ó y).
N = 50
Muestra: conjunto (representativo) de elementos de
la población. Tamaño de la muestra es su número de
elementos (n).
☺☺
☺☺☺☺
☺☺☺☺
☺☺☺☺
☺☺☺
Definiciones fundamentales
n = 11
Individuo: cada elemento de la población.
☺
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
5
Tipos de variables
1.
2.
3.
4.
Discreta: el conjunto de valores que puede tomar es finito
o numerable.
Número de hijos.
Continua: puede tomar una cantidad infinita no numerable
de valores.
5.
Duración de una batería.
Depto. Estadística, Universidad Carlos III
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
7
Varianza, desviación típica, rango
Representaciones gráficas
7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Medidas de dispersión
Cualitativa: los valores que toma se corresponden
con cualidades no cuantificables
Ignacio Cascos
6
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
6.
Depto. Estadística, Universidad Carlos III
Descripción breve del tema
Cuantitativa: toma valores numéricos
Ignacio Cascos
Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
8
Tabla de frecuencias
Tabla de frecuencias
Tenemos k valores distintos en la muestra x1,…, xk
Frecuencia absoluta de un valor xi
número de veces que aparece xi en la muestra, ni
Frecuencia relativa de un valor xi
cociente de frecuencia absoluta entre tamaño, fi= ni /n
Altura de los alumnos de
una clase (en cm).
Se ha cogido una muestra
de tamaño n = 12,
obteniendo los siguientes
datos:
Si tenemos variables cuantitativas, ordenamos x1<…< xk
Frecuencia absoluta acumulada del valor i-ésimo
suma de las frecuencias absolutas hasta la de xi, Ni=n1+…+ni
Frecuencia relativa acumulada del valor i-ésimo
frecuencia absoluta acumulada entre tamaño, Fi= Ni /n
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
174, 180, 187, 174,
179, 172, 180, 180,
176, 180, 160, 160
9
Descripción breve del tema
1.
2.
3.
4.
5.
7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Varianza, desviación típica, rango
Ignacio Cascos
160
2 0.17
2 0.17
172
1 0.08
3 0.25
174
2 0.17
5 0.42
176
1 0.08
6
179
1 0.08
7 0.58
180
4 0.33
11 0.92
187
1 0.08
12
0.5
1
Depto. Estadística, Universidad Carlos III
10
Muestra grande y difícil de manejar
Variable continua y no se repite ningún valor
El número de clases suele tomarse entre 5 y 20, generalmente
entero más próximo a n1/2 .
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
Fi
Marca de clase: punto medio del intervalo.
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
Ni
Clase: cada intervalo en que se agrupan los datos, pueden ser
del mismo tamaño o no.
Representaciones gráficas
fi
A veces es necesario agrupar los datos de una
variable cuantitativa.
Medidas de dispersión
6.
ni
Datos agrupados
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
Ignacio Cascos
xi
11
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
12
Tabla de frecuencias (agrupados)
Ci ni
Altura de los
alumnos de los
N = 48 alumnos
de la clase de la
tabla anterior.
fi Ni
Descripción breve del tema
Fi
[155.71 , 161.43)
3
0.0625
3 0.0625
[161.43 , 167.14)
3
0.0625
6
0.125
1.
2.
3.
4.
[167.14 , 172.86) 15
0.3125 21 0.4375
[172.86 , 178.57)
0.1458 28 0.5833
5.
0.2917 42
0.875
6.
0.125 48
1
7
[178.57 , 184.29) 14
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
Medidas de dispersión
6
7.
Depto. Estadística, Universidad Carlos III
13
Medidas de tendencia central
Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
14
Medidas de tendencia central
Valores típicos o representativos que pretenden
resumir los datos en un solo valor.
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
Ignacio Cascos
Varianza, desviación típica, rango
Representaciones gráficas
[184.29 , 190)
Medidas de tendencia central: media, mediana, moda
Cuantiles
Mediana: al menos la mitad de los datos son
mayores o iguales que ella y al menos la mitad son
menores o iguales.
No es sensible a valores extremos (es robusta).
Moda: es el valor con mayor frecuencia (no tiene
por qué se único)
Media: es la media aritmética de los datos (su centro
de gravedad).
k
x = ∑ f i xi
i =1
Es sensible a valores extremos y particularmente útil
cuando los datos son simétricos respecto a ella.
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
15
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
16
Medidas de tendencia central
x = 175.17
Me = 177.5
Moda = 180
174, 180, 187, 174,
179, 172, 180, 180,
176, 180, 160, 160
Ignacio Cascos
xi
160
172
174
176
179
180
187
ni
2
1
2
1
1
4
1
fi
0.17
0.08
0.17
0.08
0.08
0.33
0.08
Depto. Estadística, Universidad Carlos III
Cuantiles
Ni
2
3
5
6
7
11
12
Fi
0.17
0.25
0.42
0.5
0.58
0.92
1
17
Son medidas de posición no central.
Cuartiles: dividen a la muestra en 4 partes
iguales (Q1, Q2, Q3).
Percentiles: dividen a la muestra en 100 partes
iguales (P25 = Q1).
Deciles: dividen a la muestra en 10 partes
iguales.
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
Cuantiles
Descripción breve del tema
Dada la muestra de alturas de alumnos
Primer cuartil = 173.5
Segundo cuartil (mediana) = 177.5
Tercer cuartil = 180
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
5.
Valores extremos: 160 y 187
Depto. Estadística, Universidad Carlos III
19
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
Ignacio Cascos
Varianza, desviación típica, rango
Representaciones gráficas
7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Medidas de dispersión
6.
18
Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
20
Medidas de dispersión
Cuantifican la dispersión de los datos de la muestra.
Varianza: promedio de las desviaciones cuadráticas a
la media
k
(
s 2 = ∑ f i xi − x
i =1
Medidas de dispersión
)
2
k
;
()
s 2 = ∑ f i xi − x
i =1
2
Aplicación de la desviación típica (y media):
Al menos el 100(1−1/k2)% de los datos están en el intervalo
(x − ks, x + ks )
2
Ejemplo: Anotación de Pau Gasol en los 51 partidos que
jugó en la temporada 2006/2007.
4; 10; 10; 10; 11; 11; 12; 12; 13; 13; 15; 15; 16; 16; 16; 16; 17;
17; 19; 19; 20; 21; 21; 21; 21; 22; 22; 22; 23; 23; 23; 23; 23; 23;
Desviación típica: raíz cuadrada de la varianza
24; 24; 24; 24; 25; 25; 25; 27; 28; 28; 29; 29; 30; 30; 31; 31; 34.
Anotación media = 20.55 ; Desv. Típica anotación = 6.64
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
21
Medidas de dispersión
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
Medidas de dispersión
Rango: Distancia entre observaciones extremas,
xk – x1
Partimos de los datos: 174, 180, 187, 174, 179,
Rango intercuartílico: Distancia entre el tercer y
el primer cuartil, RI = Q3 – Q1
172, 180, 180, 176, 180, 160, 160
Coeficiente de variación: CV = s / x
MEDA = Mediana|X-Mediana(X)|
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
22
23
Varianza = 60.14
Desv. Típica = 7.75
Rango = 27
Rango intercuartílico = 6.5
Coeficiente de variación = 4.43%
MEDA = 3
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
24
Medidas de posición y dispersión
Descripción breve del tema
para los N = 48 individuos obtenemos
Media = 174.65
Varianza = 58.40
Mediana = 174
Desv. típica = 7.64
Moda = 180
Rango = 27
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
5.
Medidas de dispersión
Primer cuartil = 169.5
RI = 10.5
CV = 4.38%
6.
7.
25
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
Depto. Estadística, Universidad Carlos III
Varianza, desviación típica, rango
Representaciones gráficas
Tercer cuartil = 180
Ignacio Cascos
Medidas de tendencia central: media, mediana, moda
Cuantiles
Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
26
Diagrama de barras
Diagrama de sectores
Cada barra tiene como longitud la frecuencia de la variable que representa.
Se utiliza con variables cualitativas o cuantitativas discretas.
Cada sector del círculo tiene un área proporcional al valor que representa.
Se utiliza con variables cualitativas o cuant. discretas con pocos valores.
Diagrama de barras para el Congreso de los Diputados
Diagrama de sectores para el Congreso de los Diputados
Barchart for Congreso
Piechart for Congreso
PSOE
PP
CiU
ERC
Grupos Parlamentarios
PSOE
PP
CiU
ERC
EAJ-PNV
IU-ICV
CC
Grupo Mixto
EAJ-PNV
IU-ICV
CC
Grupo Mixto
0
30
60
90
120
150
180
frequency
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
27
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
28
Diagrama de cajas
Histograma
Aparecen cuartiles, mediana y valores extremos
El área de cada rectángulo es proporcional a su frecuencia.
Se utiliza para variables cuantitativas (continuas), precisa de su agrupamiento.
Box-and-Whisker Plot
Todos los
individuos
Histograma y polígono (poligonal) de frecuencias para
las clases de la diapositiva 13
160
165
170
175
180
185
190
altura
Histogram for altura
Box-and-Whisker Plot
15
12
frequency
frequency
12
0
sexo
Individuos
agrupados según
su sexo
9
6
3
1
165
170
175
180
185
150
190
Depto. Estadística, Universidad Carlos III
29
Diagrama de tallos y hojas
16 | 00
17 | 24469
18 | 00007
Ignacio Cascos
Población con los
N = 48 individuos
16 | 000
16 | 23
16 | 4
16 |
16 | 888899
17 | 000001
17 | 22233
17 | 445
17 | 6
17 | 8999
18 | 0000000
18 | 23
18 | 445555
18 | 77
Depto. Estadística, Universidad Carlos III
6
160
170
180
190
0
150
altura
altura
Muestra de n = 12
individuos
9
3
0
160
Ignacio Cascos
Histogram for altura
15
Ignacio Cascos
160
170
180
190
altura
Depto. Estadística, Universidad Carlos III
30
Descripción breve del tema
Anotación Pau Gasol
Temporada 06/07
0|4
0|
1 | 000112233
1 | 5566667799
2 | 011112223333334444
2 | 55578899
3 | 00114
1.
2.
3.
4.
Definiciones fundamentales
Tabla de frecuencias
Datos agrupados
Medidas de posición
5.
Medidas de dispersión
6.
Diagrama de barras, histograma, diagrama de cajas…
Medidas de forma
31
Varianza, desviación típica, rango
Representaciones gráficas
7.
Medidas de tendencia central: media, mediana, moda
Cuantiles
Ignacio Cascos
Asimetría, curtosis
Depto. Estadística, Universidad Carlos III
32
Medidas de forma
Asimetría
Coeficiente de Asimetría: sirve para estudiar las
desviaciones respecto de la media
2,4
2,4
2
2
1,6
1,6
1,2
1,2
0,8
0,8
0,4
∑ (
k
CA =
i =1
fi xi − x
)
0,4
0
0
3
0,2
0,4
0,6
0,8
1
0
0
CA<0
s3
0,2
0,4
0,6
0,8
1
CA>0
2,4
2
Para los N = 48 estudiantes
1,6
1,2
CA = −0.21
0,8
0,4
0
0
0,2
0,4
0,6
0,8
1
CA~0
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
33
Medidas de forma
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
Apuntamiento o curtosis
Coeficiente de Apuntamiento (o curtosis): indica el
grado de concentración de los valores que toma la
variable en torno a su media
12
2,4
10
2
8
1,6
6
1,2
4
0,8
2
0,4
0
∑ f (x
k
CAp =
i =1
i
s
34
i
−x
)
0
0
0,2
0,6
0,8
1
0
CAp>0
4
4
0,4
−3
0,2
0,4
0,6
0,8
1
CAp<0
0,4
Para los N = 48 estudiantes
0,3
0,2
CAp = −0.86
0,1
0
-5
-3
-1
1
3
5
CAp~0
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
35
Ignacio Cascos
Depto. Estadística, Universidad Carlos III
36