Download Estadística Descriptiva

Document related concepts
no text concepts found
Transcript
Clase 2
Estadística Descriptiva
Lo que veremos:
–
–
–
–
Presentación Gráfica de Datos
Medidas de Tendencia Central
Formas de las Distribuciones
Medidas de Dispersión
Dr. Carlos J. Vilalta
Guía de Tablas y Gráficos
Variables
Nominal
Tablas
•Distribución de
Frecuencias
•Distribución de
Frecuencias
Relativa
•Crosstabs
Gráficos
•Barras
•Sectores
Ordinal y Proporciones
Tablas
•Distribución de
Frecuencias
•Distribución de
Frecuencias
Relativa
•Distribución
Cumulativa
de Frecuencias
•Crosstabs
Gráficos
•Barras
•Histograma
•Sectores
•Scattergram
Presentación Gráfica de Datos
 Gráfica de Barras
9
8
7
6
5
4
Count
3
2
1
Baja
Clase Social
Media Baja
Media
Media Alta
Alt a
Presentación Gráfica de Datos
 Histograma
9
8
7
6
5
4
3
2
1
0
1.0
Clase Social
2.0
3.0
4.0
5.0
Presentación Gráfica de Datos
 Gráfica de Sectores
Alt a
Baja
Media Alta
Media
Media Baja
Presentación Gráfica de Datos
 Scattergram
6000
5000
4000
3000
2000
1000
0
10
Edad
20
30
40
50
60
Presentación Gráfica de Datos
Distribución de Frecuencias
Edad * Clase Social Crosstabulation
Count
Clase Social
Media Baja
Media
Media Alta
Baja
Edad
Distribución de Frecuencias: Clase Social
Valid
Frequency
Baja
4
Media Baja
8
Media
2
Media Alta
3
Alta
3
Total
20
Percent
20.0
40.0
10.0
15.0
15.0
100.0
Valid Percent
20.0
40.0
10.0
15.0
15.0
100.0
Crosstabs
Cumulative
Percent
20.0
60.0
70.0
85.0
100.0
Total
18.00
19.00
20.00
23.00
26.00
27.00
28.00
29.00
30.00
33.00
34.00
35.00
40.00
43.00
44.00
48.00
55.00
1
1
2
Alta
Total
1
1
1
1
1
2
1
1
1
1
1
1
4
8
2
3
1
1
1
3
1
2
2
1
1
1
1
2
1
1
1
1
1
1
1
1
1
20
Estadística Descriptiva*
Medidas de
Tendencia Central
Media
Medidas de
Dispersión
Mediana
Rango
Varianza
Moda
Desviación Estándar
•Cada estadístico tiene una nomenclatura diferente para el Universo y
la Muestra
Medidas de Tendencia Central

Importancia:

A cada tipo de variable corresponden ciertas medidas de
tendencia central
Nominal
Moda
Ordinal
Mediana
Moda
Proporciones
Media
Mediana
Moda
MTC: La Media
¿Qué es? Es el promedio aritmético de un grupo
de datos
Formula:
Media = Suma de los valores de los casos /
Número de casos
 Ejemplo:
(28 + 117 + 42 + 10 + 77 + 51 + 64 + 55) / 8
= 444 / 8
= 55.5
MTC: La Media
 Sólo para variables de Proporciones
 Porque… sólo tiene sentido calcular la
Media si los valores de una distribución
son cantidades específicas (no
cualidades o características grupales).
 Las variables Nominales no pueden
ofrecer un promedio. Ejemplo:
(Mexicano + Argentino + Brasileño) / 3 = ¿?
MTC: La Mediana
¿Qué es? El punto donde se dividen los valores
de la distribución en la mitad (50% arriba y
50% abajo)
Procedimiento: Ordena de menor a mayor y
encuentra el punto medio
Ejemplo:
a. 28, 117, 42, 10, 77, 51, 64, 55
b. 10, 28, 42, 51, 55, 64, 77, 117
c. (51 + 55) / 2
d. = 106 / 2 = 53
MTC: La Mediana
 Sólo para variables Ordinales y Proporciones
 Porque… no se puede obtener la Mediana en
distribuciones Nominales ya que los valores no
se pueden poner en orden y no hay un
significado real del punto medio.
Ejemplo:
Mexicano, Argentino, Brasileño… ¿Qué orden
puede haber y qué significado tendría ese
orden?
MTC: La Moda
¿Qué es? El valor más frecuente en una
distribución de datos
Ejemplo:
a. 28, 117, 42, 10, 77, 51, 64, 55, 51
b. Moda = 51
Pueden haber distribuciones de datos:
Unimodales: 1 sola Moda
Bimodales: 2 modas
Multimodales: 3 o más modas
Distribución de Frecuencias
 Al agregar los datos es importante
observar si la distribución de frecuencias
es:





Normal (Simétrica)
Bimodal
Sesgada a la Izquierda
Sesgada a la Derecha
Uniforme
Distribución de Frecuencias
 Importancia:
 La forma de la distribución de los datos
permite o impide la aplicación de ciertas
pruebas estadísticas
 Normal: Permite la prueba z, t y F
 Sesgadas: Permite la prueba z, t y F (a veces)
 Bimodal y Uniforme no permiten esas pruebas
Normal
Distribución Normal
Tabla de Frecuencias
Simétrica
Valid
Media = Mediana = Moda
4,0
3,0
1,00
2,00
3,00
4,00
5,00
Total
Frequency
1
2
3
2
1
9
Percent
11,1
22,2
33,3
22,2
11,1
100,0
2,0
Statistics
1,0
0,0
1,0
Unimodal
2,0
3,0
4,0
5,0
Unimodal
N
Valid
Mis sing
Mean
Median
Mode
9
0
3,0000
3,0000
3,00
Cumulative
Percent
11,1
33,3
66,7
88,9
100,0
Bimodal
Tabla de Frecuencias
Distribución Bimodal
Asimétrica
Valid
Hay 2 Modas
4,0
3,0
1,00
2,00
3,00
4,00
5,00
Total
Frequency
1
3
1
3
1
9
Percent
11,1
33,3
11,1
33,3
11,1
100,0
Cumulative
Percent
11,1
44,4
55,6
88,9
100,0
2,0
Statistics
1,0
0,0
1,0
Bimodal
2,0
3,0
4,0
5,0
Bimodal
N
Valid
Mis sing
Mean
Median
Mode
9
0
3,0000
3,0000
2,00 a
a. Multiple modes exist. The s malles t value is s hown
Sesgada a la Izquierda
Tabla de Frecuencias
Statistics
Distribución: Sesgada a la Izquierda
Sesgo
Derecha
Valid 1,00
2,00
3,00
4,00
5,00
Total
Asimétrica
Mediana es mayor a la Media
6
5
4
Frequency
1
1
1
1
5
9
Percent
11,1
11,1
11,1
11,1
55,6
100,0
Cumulative
Percent
11,1
22,2
33,3
44,4
100,0
3
2
Statistics
1
0
1,0
Sesgo Izquierda
2,0
3,0
4,0
5,0
Ses go Derecha
N
Vali d
Mis sing
Mean
Median
Mode
9
0
3,8889
5,0000
5,00
Sesgada a la Derecha
Tabla de Frecuencias
Distribución: Sesgada a la Derecha
Asimétrica
Valid
Media es mayor a la Mediana
6
5
4
1,00
2,00
3,00
4,00
5,00
Total
Frequency
5
1
1
1
1
9
Percent
55,6
11,1
11,1
11,1
11,1
100,0
Cumulative
Percent
55,6
66,7
77,8
88,9
100,0
3
2
Statistics
1
0
1,0
Sesgo Derecha
2,0
3,0
4,0
5,0
Ses go Izquierda
N
Vali d
Mis sing
Mean
Median
Mode
9
0
2,1111
1,0000
1,00
Uniforme
Tabla de Frecuencias
Distribución Uniforme
Valid
Hay varias Modas
Media = Mediana
3,0
2,0
1,0
1,00
2,00
3,00
4,00
5,00
Total
Frequency
2
2
2
2
2
10
Percent
20,0
20,0
20,0
20,0
20,0
100,0
Cumulative
Percent
20,0
40,0
60,0
80,0
100,0
Statistics
0,0
1,0
Uniforme
2,0
3,0
4,0
5,0
Uniforme
N
Valid
Missing
Mean
Median
Mode
10
0
3,0000
3,0000
1,00 a
a. Multiple modes exist. The smallest value is shown
Medidas de Dispersión

Importante: No se puede calcular ciertos
estadísticos para conocer la dispersión de cada
tipo de variable
Nominal
Ordinal
Obtener tabla
de frecuencias
Obtener tabla
de frecuencias
Proporciones
Rango
Varianza
Desviación
Estándar
MDISP: Rango
¿Qué es? La diferencia entre el valor mayor
y el menor de una serie de datos
Ejemplo:
a. 1, 2, 3, 4, 5, 6, 7
b. Rango = 7 – 1 = 6
MDISP: La Varianza
 ¿Qué es? La desviación cuadrada promedio de
cada dato a su media
Formula:
Sumatoria de (cada dato – media)²
/ Número de casos -1
Da resultados en unidades cuadráticas… es más conveniente la Desv. Estándar
MDISP: La Varianza
 Cálculo:
Caso
1
2
3
4
5
6
7
8
Suma =
Casos =
Media =
Casos - 1 =
Varianza =
Desviación Estándar =
x
4
4
5
5
6
7
8
9
48
8
6
7
x - Media
-2
-2
-1
-1
0
1
2
3
(x - Media) al 2
4
4
1
1
0
1
4
9
24
3.43
1.85
MDISP: La Desviación Estándar
 ¿Qué es? Es la desviación promedio a la media
 ¿Cómo se obtiene? La raíz cuadrada de la
Varianza
• Utilidad:
• Medida útil de dispersión ampliamente utilizada
en Estadística Inferencial
• Teoría de la distribución Normal (Tschebicheff)
Nota Final: Sesgo, Distribuciones y
Dispersión
 Cuanto menos sesgo, menor desviación a
la Media (o sea, más aproximada a la
Normal)
Statistics
N
Std. Deviation
Variance
Range
Valid
Normal
9
1.2247
1.5000
4.00
Bimodal
9
1.3229
1.7500
4.00
Sesgo
Derecha
9
1.5366
2.3611
4.00
Sesgo
Izquierda
9
1.5366
2.3611
4.00
Uniforme
10
1.4907
2.2222
4.00