Download estadistica - Teoría y ejercicio

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Distribución de frecuencias wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
ESTADÍSTICA
MAT3
LA ESTADÍSTICA es la rama de las matemáticas que estudia los fenómenos
aleatorios, también llamados de azar, por no saber con anterioridad qué es lo que
va a ocurrir. Es decir, no estudia fenómenos determinísticos, donde se sabe de
antemano el resultado.
La palabra estadística tiene que ver con Estado, con el país, y es que
tradicionalmente se relaciona con la información que tiene un estado para su
organización. Aunque los primeros testimonios escritos de estadísticas datan del
3000 a.C. en Babilonia, pasando hasta el siglo XVI (Grecia, Roma, Edad Media…) la
estadística sólo consistía en la recopilación de datos. El primer trabajo estadístico
serio no llega hasta el s. XVII en Inglaterra, pero será un siglo más tarde, en
Alemania, cuando empezó a sistematizarse y estudiarse seriamente.
La estadística es un conjunto de métodos científicos de recogida, organización,
resumen, presentación y análisis de datos que permiten extraer conclusiones
válidas y tomar decisiones acertadas basadas en esos datos.
Muchas veces, aunque incorrectamente, también solemos llamar Estadística a los
propios datos, o a números derivados de esos datos, como por ejemplo, la media
aritmética.
Un estudio estadístico consiste en recoger mucha información y ordenarla para
sacar conclusiones. La forma más reducida y clara de ordenar información es
mediante una tabla.
Una serie estadística es el conjunto de todos los resultados de un fenómeno
aleatorio.
Población o universo es el conjunto de todos los elementos o individuos
sometidos a un estudio. La población puede ser finita o infinita.
Una muestra es el subconjunto de población sobre el que se realiza el estudio
cuando no es posible hacerlo sobre la población entera. Las muestras han de ser
representativas.
Individuo es cada uno de los elementos que forman la población o la muestra.
Si la muestra es representativa de una población, se pueden sacar conclusiones
importantes sobre esa población, derivadas del análisis de la muestra (por ejemplo,
un sondeo electoral ante unas elecciones). La parte estadística que analiza las
condiciones bajo las cuales tales conclusiones son válidas se llama Estadística
Inferencial o Inferencia Estadística.
La parte de la Estadística que sólo describe y analiza un grupo determinado, se
sacar conclusiones o inferencias sobre un grupo más amplio, se llama Estadística
Descriptiva o Deductiva.
Una variable xi es la característica que deseamos estudiar y representar. Una
variable puede ser cuantitativa, cuando puede ser representada por números
(número de hermanos), o cualitativa, cuando no se puede (color preferido). Sin
embargo, para un estudio estadístico también podríamos trabajar con variables
cualitativas asignando un número a cada cualidad; por ejemplo, si preguntamos
“cuál es tu color preferido”, podemos asignar para las respuestas los valores 1 para
“rojo”, 2 para “verde”, 3 para “amarillo”, etc.
Una variable discreta sólo toma valores aislados, mientras que una variable
continua toma todos los valores posibles del intervalo.
1
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
ESTADÍSTICA
MAT3
Por ejemplo, si preguntamos cuántos hermanos tienen los individuos de una
muestra, nos dirán que ninguno, que 1, que 2, que 3, etc., pero no hay valores
intermedios: nadie tiene 2,6 hermanos; el número de hermanos es una variable
discreta. En cambio, si les preguntamos cuál es su sueldo mensual, puede ser 700
euros, 800, 900, 1000, etc. Pero también puede situarse mejor que entre 900 y
1000, entre 900 y 950; pero todavía podemos ser más exactos, entre 920 y 930; y
acercarnos más, y más… llegar hasta céntimos… Estamos ante variables continuas,
que podemos agrupar en intervalos. Otros ejemplos de variables continuas serían la
altura, el peso de los individuos, las notas de alumnos, la distancia entre ciudades…
En general, los conteos dan origen a variables discretas, y las mediciones, a
variables continuas.
Si la variable, continua o discreta, conllevan un número grande de datos, para
trabajar más cómodamente esos datos se agrupan en intervalos o clases. Un
intervalo viene delimitado por las cotas inferior y superior, y la diferencia entre esas
cotas es la amplitud del intervalo. De cada intervalo se toma un valor
representativo llamado marca de clase que en muchas ocasiones se hace coincidir
con el valor medio del intervalo, es decir, sumando las cotas superior e inferior y
dividiendo entre 2.
No necesariamente todos los intervalos han de tener la misma amplitud.
Cuando un caso esté en el límite de 2 intervalos, se incluirá siempre en el mayor
de ellos. Es decir, los intervalos son cerrados por la izquierda y abiertos por la
derecha → [a,b). El último intervalo, el que recoge los valores más grandes, será
también, lógicamente, cerrado por la derecha, a no ser que su límite sea el infinito
→
.
También el primer intervalo puede tener - como límite inferior.
El número de individuos correspondiente a cada valor de la variable se llama
frecuencia o frecuencia absoluta fi de ese valor; es el número de veces que se
repite esa modalidad o valor. La suma de las frecuencias absolutas de todas las
variables da como resultado el total de individuos que forman la muestra.
La frecuencia relativa hi de un valor es la proporción de veces que se presenta,
y se obtiene dividiendo su frecuencia absoluta por el número total de datos o
individuos,
. El resultado de sumar todas las frecuencias relativas da como
resultado la unidad, 1. Para obtener las frecuencias relativas da igual si trabajamos
con variable discreta o continua; pero es necesario conocer la frecuencia absoluta.
Se suele expresar en porcentaje. El porcentaje resulta de multiplicar la frecuencia
relativa por 100. La suma de todos los porcentajes debe ser 100%.
La frecuencia absoluta acumulada Fi de un valor xi de una variable estadística
es la suma de las frecuencias absolutas de todos los valores anteriores, los
menores o iguales a xi. Los valores de la variable han de estar ordenados de menor
a mayor. La frecuencia absoluta acumulada correspondiente al último valor de la
variable debe coincidir con el número de individuos de la muestra.
La frecuencia relativa acumulada, Hi, de un valor xi de una variable estadística
es el cociente entre su variable absoluta acumulada, Fi, y el número total de datos,
N.
2
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
ESTADÍSTICA
MAT3
PARÁMETROS ESTADÍSTICOS
Hay 2 tipos de parámetros estadísticos: de centralización y de dispersión; y
medidas de posición.
Por los parámetros de centralización podemos calcular en torno a qué valores
centrales podemos resumir los datos; y los de dispersión, cuánto se alejan del
centro los datos.
Une media es un valor típico, representativo, de un conjunto de datos. Como los
valores representativos tienen tendencia a estar en el centro del conjunto de datos,
los solemos llamar parámetros de centralización. En cambio, el grado con que los
datos numéricos tienden a dispersarse en torno a un valor central se mide con los
parámetros de dispersión.
Por ejemplo, tenemos dos grupos en 3º de la ESO; en 3ºA, la nota de
matemáticas de la mayoría de los alumnos está entre 4 y 6; y en 3ºB, más o
menos la mitad de los alumnos está entre 8 y 9, y la otra mitad, entre 1 y 2. Si sólo
usáramos las medidas de centralización, los dos grupos parecerían similares,
cuando en realidad son muy distintos; también hemos de usar las medidas de
dispersión para darnos cuenta de lo diferentes que son ambos grupos.
1. PARÁMETROS DE CENTRALIZACIÓN
Indican en torno a qué valores se agrupan la mayoría de los datos. Son 3:

La Moda, Mo: es el valor de la variable de mayor frecuencia absoluta: puede
haber más de una Moda, o no existir. Una distribución con sólo una moda es
unimodal.

La Media Aritmética , es el resultado de dividir la suma de todos los
valores de la variable por el número total de observaciones, teniendo en cuenta las
veces que se repite cada valor, es decir, su frecuencia o peso; matemáticamente:

La Mediana, Me, es el valor central de un conjunto de datos numéricos
ordenados. Cuando se trata de un número par de datos, la Mediana es la media
aritmética de los dos datos centrales; en una serie de datos, SÓLO hay una
mediana.
2. MEDIDAS DE POSICIÓN: LOS CUARTILES
Los cuartiles de una variable estadística son tres valores de la variable que
dividen los datos en cuatro partes iguales:
El primer cuartil, Q1, deja por debajo la cuarta parte de los datos.
El segundo cuartil, Q2, coincide con la mediana: Q2=Me
El tercer cuartil, Q3, deja por debajo tres cuartas partes de los datos.
Para datos agrupados, los cuartiles se aproximan por las marcas de clase.
3
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
ESTADÍSTICA
MAT3
3. PARÁMETROS DE DISPERSIÓN
Los parámetros de dispersión permiten conocer el grado de mayor o menor
agrupamiento de los datos entre sí o con respecto a un valor central; son:

El Rango o Recorrido de una serie estadística es la diferencia entre el
mayor y el menor de los datos de la serie.

La desviación respecto a la media de un dato es el valor absoluto de la
diferencia entre dicho dato y la media aritmética del conjunto de datos:

La varianza,
, es el promedio de los cuadrados de las desviaciones:
Y se puede calcular con cualquiera de las dos ecuaciones anteriores.

La desviación típica,
, es la raíz cuadrada positiva de la varianza.1
En una distribución estadística, con una muestra grande, y que no sea muy
extraña, aproximadamente las 2/3 partes de las variables xi están en el intervalo
(
,
(¡RECUERDA! siendo la media aritmética y σ la desviación típica).

El coeficiente de variación, CV, es la razón (cociente) entre la desviación
típica y la media aritmética. El CV permite comparar la dispersión entre 2 series
estadísticas distintas.
El coeficiente de variación es una medida de dispersión relativa. Pensemos
que, por ejemplo, una dispersión de 10 centímetros no tiene la misma importancia
en una medida de 1 metro que en otra de 100 metros.
El coeficiente de variación es independiente de las unidades de medida, es decir,
no tiene unidades, lo que lo convierte en muy útil para comparar distribuciones con
unidades de medida muy diferentes. En cambio, su inconveniente reside en no ser
conveniente para valores de las variables próximos a cero.
Como el CV no tiene unidad (numerador y denominador tiene la misma, y al
dividir se van), se suele expresar como un porcentaje:
a. Si: CV < 30% → la dispersión es baja
b. Si: CV > 60% → la dispersión es alta
c. Si: 30% < CV < 60% → la dispersión es media
1
El ejemplo más importante de distribuciones continuas de probabilidad es la
distribución normal, curva normal o campana de Gauss, que verás en el
Bachillerato, y para las que las propiedades de la desviación típica en Distribuciones
Normales son:
1) El 68,27% de las observaciones están entre
4
y
2) El 95,45% de las observaciones están entre
y
3) El 99,73% de las observaciones están entre
y
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
ESTADÍSTICA
MAT3
Por ejemplo, si CV=31%, nos indica que el valor de la desviación típica ,
, es el
31% de la media.
Los cálculos de estas medidas de dispersión son complejos para hacerse a mano,
y se suele usar una hoja de cálculo, o en su defecto, la calculadora científica.
CÓMO HACER UNA TABLA DE DATOS Y SUS CÁLCULOS
Para hacer la tabla y los cálculos de los parámetros anteriores, vamos a seguir los
siguientes pasos:
1. RECUENTO DE DATOS
En la primera columna de la tabla ponemos los datos, ordenados de mayor a
menor; por ejemplo, las notas de los 34 alumnos de una clase en matemáticas.
Los datos se recogen, se recuentan, se agrupan y, en la tabla, se ordenan en filas
de menor a mayor.
Si hay casi tantos datos distintos como el número total de datos, los agrupamos
en intervalos. Habitualmente, los intervalos son de la misma amplitud, cerrados por
la izquierda y abiertos por la derecha.
La marca de clase será el punto medio de cada intervalo: sumamos los dos
extremos de cada intervalo y lo dividimos entre dos. A todos los efectos,
trabajaremos, a partir de ahora, con la marca de clase como si fuese una variable
discreta, en lugar del inérvalo.
2. TABLA DE FRECUENCIAS
En la segunda columna (la tercera, si hubiésemos hecho una segunda para los
intervalos), ponemos las frecuencias absolutas; es decir, el número de veces que
se repite cada dato. En nuestro caso, cuántos alumnos han sacado un cero, cuántos
un uno… cuántos un diez. Si no hubiese frecuencia para un dato, si fuese cero (por
ejemplo, ningún alumno ha sacado un 6, también se pone, no se omite).
Al final de la columna sumamos todas las frecuencias absolutas. El resultado ha
de ser el número total de datos; en nuestro caso, el número total de alumnos de
esa clase, 34.
La siguiente columna es para las frecuencias relativas. Cada frecuencia relativa
es la resultante de dividir cada frecuencia absoluta entre el número total de datos
(34 en nuestro ejemplo). Igualmente, al final de la columna sumamos todos y el
resultado ha de ser 1; si no lo hemos hecho con una hoja de cálculo, el resultado
puede ser un poco (sólo un poco) menor, al haber despreciado decimales.
La siguiente columna, la cuarta, es la de las frecuencias relativas expresadas en
porcentaje. Se calcula cada una multiplicando la frecuencia relativa de la columna
anterior por 100. Se suman toda la columna al final, y ha de dar 100 (todo, el
100%).
Pasamos a las frecuencias acumuladas.
Vamos a hacer otras tres columnas, como las anteriores, de frecuencias
absolutas, frecuencias relativas y frecuencias relativas porcentuales: pero ahora
con los datos acumulados.
Es decir, cada celda es la suma de la anterior y el valor de la columna de la
izquierda.
5
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
ESTADÍSTICA
MAT3
El último valor de cada de las tres columnas (¡ATENCIÖN! No la suma, sino el
último), ha de ser, respectivamente, el de todos los datos (34 en nuestro caso), 1 y
100.
3. DIAGRAMA DE SECTORES
Si queremos hacer un diagrama de sectores, hemos de incluir una columna, en
que cada celda sea el resultado de multiplicar cada frecuencia relativa por 360, que
son los grados del círculo. Cada resultado es el número de grados del sector circular
resultante para cada dato.
Al final, sumamos toda la columna y ha de darnos, lógicamente, 360, el círculo
completo.
4. MEDIA ARITMÉTICA
A partir de aquí, las columnas las vamos a hacer no por su valor en sí, sino para
calcular los parámetros estadísticos correspondientes.
En cada celda de la siguiente columna vamos a multiplicar cada dato por su
frecuencia absoluta, y al final de la columna los sumamos todos.
Es decir, vamos a multiplicar cada valor de la primera columna por el
correspondiente de la segunda (de la tercera si usásemos intervalos y marcas de
clase).
Aparte, dividiremos el resultado de esa suma entre el número total de datos (34
en este caso), y asó obtendremos la media aritmética.
5. VARIANZA
Para calcular la varianza crearemos las tres siguientes columnas.
Una vez calculada la media aritmética
en el paso anterior, en la primera de
estas columnas restamos a cada valor (primera columna) la media aritmética. Da
exactamente lo mismo hacerlo al revés: la media aritmética menos cada valor.
Lógicamente, unos resultados serán positivos y otros negativos. Está bien.
En la siguiente columna, elevamos al cuadrado los resultados de la columna
anterior; no hace falta decir que ahora TODOS serán positivos.
En la tercera de estas tres columnas, multiplicamos cada valor de la anterior
columna por su frecuencia absoluta (segunda columna de la tabla, tercera si
hubiesen intervalos).
Al final de la columna, sumamos todos los valores.
Si dividimos este valor entre el número total de datos (34 en este ejercicio), ya
tenemos la varianza.
Si calculamos su raíz positiva, tenemos la desviación típica.
Y si la dividimos entre la media aritmética, hemos calculado el coeficiente de
variación.
6. OTROS CÁCULOS
Con la tabla también podemos calcular la mediana, la moda, el rango…
6
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
ESTADÍSTICA
MAT3
3ESO-B - notas de 34 alumnos en matemáticas - junio
xi
fi
0 0
1 1
2 0
3 2
4 9
5 8
6 10
7 2
8 1
9 1
10 0
34
hi
hi (%)
Fi
Hi
Hi (%)
xi · fi
0,000
0,029
0,000
0,059
0,265
0,235
0,294
0,059
0,029
0,029
0,000
1
0,00%
2,94%
0,00%
5,88%
26,47%
23,53%
29,41%
5,88%
2,94%
2,94%
0,00%
100%
0
1
1
3
12
20
30
32
33
34
34
0,000
0,029
0,029
0,088
0,353
0,588
0,882
0,941
0,971
1,000
1
0,00%
2,94%
2,94%
8,82%
35,29%
58,82%
88,24%
94,12%
97,06%
0
1
0
6
36
40
60
14
8
9
0
174
Media aritmética =
10
5,12
Desviación Media =
0,886
Rango =
Moda =
Varianza=
Desv.T=
CV=
7
100,00%
100%
6
2,22
1,49
29,12%
Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid
Q2=
5,12
4,12
3,12
2,12
1,12
0,12
0,88
1,88
2,88
3,88
4,88
30,12
26,19
16,96
9,72
4,48
1,25
0,01
0,78
3,54
8,31
15,07
23,84
Q1=
4
Mediana=
5
Q3=
6
0,00
16,96
0,00
8,97
11,24
0,11
7,79
7,09
8,31
15,07
0,00
76