Download Ejercicio completo de estadística Carácter estadístico a estudiar

Document related concepts

Parámetro estadístico wikipedia , lookup

Cuantil wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Histograma wikipedia , lookup

Percentil wikipedia , lookup

Transcript
Ejercicio completo de estadística
Carácter estadístico a estudiar: Dinero que llevan consigo las personas adultas.
Población: En la localidad donde se estudia hay 5.000 habitantes adultos.
Muestra sobre la que se hará el estudio: 40 habitantes seleccionados al azar.
Variable: Cantidad numérica en euros que una persona lleva en el bolsillo.
Se procede a preguntar a 40 personas, y se obtienen estos resultados:
Persona Dinero (€) Persona Dinero (€) Persona Dinero (€) Persona
1
11,19
11
7,84
21
11,67
31
2
11,78
12
6,51
22
6,85
32
3
7,28
13
9,26
23
9,58
33
4
8,10
14
13,88
24
9,28
34
5
10,00
15
10,40
25
10,29
35
6
10,89
16
8,31
26
8,85
36
7
7,66
17
10,76
27
9,71
37
8
9,96
18
8,47
28
2,90
38
9
9,70
19
6,34
29
7,93
39
10
11,47
20
6,93
30
11,72
40
Dinero (€)
12,25
11,66
11,47
10,07
12,33
11,53
8,40
12,13
12,87
9,57
Objetivo del estudio estadístico:
Ofrecer estos resultados de forma comprensible, extrapolarlos a la población de 5.000 habitantes.
1. ORDENACIÓN DE LOS DATOS.
Se ordenarán los datos en clases o intervalos; en este caso se hará de euro en euro.
Las clases serán de 0 a 1 €, de 1€ a 2€, y así sucesivamente hasta haber agrupado todos los datos.
Clase
Marca
fa
Fa
fr
Fr
fa (%)
Fa(%) Marca * fa
2 ≤ x < 3
2,5
1
1
0,025
0,025
2,50
2,50
2,5
3 ≤ x < 4
3,5
0
1
0
0,025
0,00
2,50
0
4 ≤ x < 5
4,5
0
1
0
0,025
0,00
2,50
0
5 ≤ x < 6
5,5
0
1
0
0,025
0,00
2,50
0
6 ≤ x < 7
6,5
4
5
0,1
0,125
10,00
12,50
26
7 ≤ x < 8
7,5
4
9
0,1
0,225
10,00
22,50
30
8 ≤ x < 9
8,5
5
14
0,125
0,350
12,50
35,00
42,5
9 ≤ x < 10
9,5
7
21
0,175
0,525
17,50
52,50
66,5
10 ≤ x < 11
10,5
6
27
0,15
0,675
15,00
67,50
63
11 ≤ x < 12
11,5
8
35
0,2
0,875
20,00
87,50
92
12 ≤ x < 13
12,5
4
39
0,1
0,975
10,00
97,50
50
13 ≤ x < 14
13,5
1
40
0,025
1,000
2,50
100,00
13,5
Total
40
1
100
386
Nótese que, al ordenar por clases, parte de la información obtenida desaparece.
Por ejemplo, el dato de la persona 28, 2,90 € ha quedado incluido en el intervalo 2 ≤ x < 3, pero ahora se desconoce su valor; sólo se sabe que está entre 2 y 3; la tabla sería la misma si el dato hubiera sido 2,31. Lo que se hace es suponer que todos los datos que caen en un intervalo tienen el valor de la marca. Es una aproximación razonable para poder resumir mejor la información.
2. HISTOGRAMA.
Los datos de la tabla anterior, en forma de histograma (percepción más sencilla de los datos).
Histograma de clases
9
8
7
6
5
4
3
2
1
0
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5 11,5 12,5 13,5
Este histograma resjume los datos de forma más visual que la tabla; claramente se ve que casi todos llevan cantidades de 6 a 13 €, y lo más frecuente es llevar de 9 a 12 €.
Los datos están bastante más resumidos que en el listado inicial.
Es posible resumir aún más el informa estadístico si se utilizan los estadísticos.
3. ESTADÍSTICOS DE TENDENCIA CENTRAL
Son aquellos valores que pretender resumir, mediante una única cantidad, los valores de los datos.
El objetivo de su cálculo es estimar los valores de los parámetros de la población.
Pero calcular estos parámetros (ejemplo, la media) requeriría ver el valor de la característica en estudio para todos los elementos de la población; o sea, habría que ver cuanto dinero llevan en el bolsillo todos y cada uno de los 5.000 adultos.
Lo anterior sería muy trabajoso; lo que se hace, como en este problema, es tomar una muestra (40 adultos) del total. Sobre esta muestra se obtienen los denominados "estadísticos", que se utilizarán para estimar los parámetros de la población.
Es decir, se calcula la media (estadístico) para los 40 individuos de la muestra y se dice: Para estimar el valor del parámetro "media de la población completa" se utilizará el estadístico "media de la muestra", que ese si que es fácilmente calculable; será una buena estimación si la muestra es grande, y será una estimación tanto peor cuanto menor sea el tamaño de la muestra.
Media
Método más exacto: Sumar todos los datos sin procesar y dividir por N=40.
Con ello: Media (estadístico)= 9,69
Método menos exacto: Considerar que todos los valores de cada clase = marca de clase.
Se suman los productos de cada marca de clase por su frecuencia absoluta y se divide por N=40.
Con ello: Media (estadístico)= 9,65
(este método será el único usable si se dispone sólo de la tabla y no de todos los datos).
Media de la población completa: Se estima que será de valor 9,65 (cálculo por clases).
Moda:
El valor que más se repite: La marca de clase del intervalo de 11 a 12, o sea 11,5.
Mediana: Es el percentil 50 (véase a continuación).
4. ESTADÍSTICOS DE DISPERSIÓN
Son los valores que pretender resumir en qué medida todos los datos tienen valores parecidos o muy diferentes. A continuación se muestra cuál habría sido el resultado del experimento (dinero que llevan en el bolsillo 40 adultos de una ciudad de 5.000 adultos) si se hubiera realizado en varias ciudades diferentes. En esta primera ciudad, los resultados del experimento son dispares: El resultado del experimento (preguntar a alguien cuánto 5
dinero lleva) es muy impredecible; hay 4
gente que lleva poco dinero, gente que lleva algo más, gente que lleva aún más, pero 3
todos ellos en parecidas proporciones. Se 2
dice que los resultados son dispersos (o 1
variados), o que hay dispersión en los 0
resultados del experimento. Histograma de una muestra de 40 personas.
0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
11,5
12,5
13,5
14,5
Ciudad 1 (dispersa)
Ciudad 2 (concentrada)
0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
11,5
12,5
13,5
14,5
12
10
8
6
4
2
0
En la segunda ciudad, el resultado del experimento siempre es parecido, entre 8 y 13 €, por tanto es más predecible. Casi seguro que un adulto llevará unos 10 €. Se dice que los resultados son concentrados sobre una zona de valores, o que están poco dispersos (son de valores muy parecidos). Nótense las escalas de las gráficas. Histograma de una muestra de 40 personas.
Los estadísticos de dispersión indican si los valores de los datos son parecidos o diferentes. En concreto, dan una idea de si los datos están próximos a la media o se alejan de ella.
Todos los valores son próximos a la media = Poca dispersión (ciudad 2).
Los valores pueden ser o no ser próximos a la media = Mucha dispersión.
Primera idea:
Utilizar como medida de la dispersión la diferencia entre los valores y la media.
O sea, calcular las diferencias entre todos los valores y la media.
Luego ver cuanto es eso por término medio, o sea (suma de diferencias)/N.
El problema es que
∑
∑
∑
= 0
Por este motivo no se puede utilizar este estimador; siempre es de valor cero.
Sin embargo, si se toma el cuadrado de las diferencias, los signos pasan a ser todos positivos, por lo que podrá evaluarse la dispersión.
Varianza
Evaluando la expresión
∑
=
se obtiene varianza=4,69.
Desviación típica
La raiz cuadrada de la varianza, o sea 2,16.
Tiene el sentido de la diferencia que normalmente tendrán los datos con la media.
Un dato de valor 5 tendrá una diferencia respecto a la media obtenida (9,65) de valor 4,65, mucho mayor que la desviación típica. Eso significa que ese dato está muy alejado de la media, y corresponderá a un suceso "anormal" (una persona que lleva una cantidad anormalmente baja de dinero). Por el contrario, un dato de valor 10, con desviación 0,35, menor que la desviación típica, se considerará un dato que no difiere sensiblemente del resto de los valores (una persona que lleva una cantidad "normal" o "habitual" de dinero).
Cuartiles y percentiles.
Para hallar cualquier percentil p%, bastará con buscar el valor de la variable que haga que precisamente haya un p% de valores por debajo del mismo.
Cuartil 1 (percentil 25%).
Cantidad que cumple esta condición: el 25% de los adultos lleva menos dinero que esta cantidad.
En la columna Fa(%), puede verse que de x=0 a x=8 están el 22,50% de los datos.
También se aprecia que de x=0 a x=9 están el 35% de los datos.
Por tanto, el percentil 25, o primer cuartil, se halla entre x=8 y x=9. Cuartil 2 (percentil 50%), también llamado mediana.
Se halla entre x=8 y x=9.
Cuartil 3 (percentil 75%).
Se halla entre x=11 y x=12.
Cuartil 4 (percentil 100%)
Es aquel valor de x que deja a todos los datos por debajo.
Se elegiría el límite superior del último intervalo con datos.
El valor x=14 tendría el 100% de los datos por debajo.
Un cálculo más exacto de los percentiles sería ordenar todos los datos de menor a mayor, calcular cuantos datos son los que corresponden al percentil p% (ejemplo, para el percentil 25% serían el 25% de los datos (40), o sea 10. Ordenados los datos, se tomaría un valor de x a medio camino entre el décimo y el undécimo dato. Evidentemente dicho valor dejaría por debajo exactamente al 25% de los datos (10 datos).