Download Sin título de diapositiva

Document related concepts
no text concepts found
Transcript
•Un poco de historia
•Estadística: concepto y clases. Estadística descriptiva.
•Población
discretas
cuantitativas continuas
•Muestra
•Variables estadísticas
cualitativas
•Frecuencia. Clases
•Proceso estadístico
Elección de muestra
seleccionar variables
recolección de datos
organización de datos
elaboración de tablas
elaboración de gráficas
cálculo de parámetros
El origen de la estadística se encuentra en el término Estado, pues
fueron los gobernantes los que primero se preocuparon de elaborar
y clasificar las interminables listas de los recursos humanos y materiales que
constituían el patrimonio estatal.
La información más antigua sobre la elaboración de una estadística
la proporciona el historiador griego Herodoto (484-420a.C.), al relatar que en el
año 3050 a.C. el faraón de Egipto ordenó un recuento de los bienes que poseía
el país para llevar a cabo una gran obra: la construcción de las pirámides.
Desde hace tiempo las estadísticas no son patrimonio exclusivo del Estado.
También las elaboran compañías de seguros, bancos, investi- gadores.....o
simplemente personas interesadas en obtener y organizar determinada
información para analizarla e interpretarla.
La Estadística es la parte de las Matemáticas que estudia métodos para
interpretar datos obtenidos de investigaciones o experimentos aleatorios
(aquellos en los que no se puede predecir el resultado aunque se realicen
siempre en las mismas condiciones), con el fin de extraer de ellos unas
conclusiones.
La Estadística puede ser:
a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos
mediante el empleo de gráficos o la obtención de unos ciertos valores que
los representen a todos.
b) Inferencial.-Trata de determinar los valores que adoptarán una serie de
datos muy numerosos, que forman una población mediante el estudio de
unos cuantos de ellos extraídos de la población de una manera significativa
y que forman una muestra.
Es una parte de las matemáticas que nos enseña a:
•Recoger datos de manera ordenada
• Representar datos mediante gráficas o tablas comprensibles
• Calcular valores numéricos representativos, que permitan sintetizar, analizar y comparar diferentes colecciones de datos
Población: es el conjunto de todos los elementos objeto de
nuestro estudio
Muestra: es un subconjunto, extraído de la población, cuyo
estudio sirve para inferir características de toda la población
Individuo: es cada uno de los elementos de la población o de
la muestra.
El tamaño de la población o de la muestra es el número de
elementos que componen una u otra, y se suele designar con N
Se llama variable estadística a cada uno de los caracteres que
se desean observar en los individuos de una población.
Las variables estadísticas pueden ser:
• cuantitativas: si sus valores son números
• cualitativas: si sus valores no son números
Se denomina recorrido o rango de una variable cuantitativa a la
diferencia entre el mayor y el menor de sus valores posibles.
Para las variables cualitativas no se define el recorrido
Las variables estadísticas cuantitativas pueden ser discretas o
continuas
Clasificación de las variables estadísticas
variable estadística
variable cuantitativa
variable discreta
variable cualitativa
variable continua
• Variables discretas son las que toman valores que se pueden
enumerar, fáciles de precisar porque están separados, es decir, las que solo pueden tomar valores aislados.
• Variables continuas son las que pueden tomar todos los valores de un intervalo
Los valores de la variable estadística se representan por
x1, x2, x3,.........,xn
Se llama distribución estadística al conjunto de datos
estadísticos.
Una profesora de educación física, rellena las fichas de sus
alumnos y alumnas de 3º de E.S.O. Y pide, entre otros datos,
la edad, la talla y los deportes favoritos de cada uno
Población: los alumnos-as de 3º de E.S.O.
Variables estadísticas: la edad, la talla, los deportes favoritos
La variable “deporte favorito” es cualitativa
Las variables “edad y talla” son cuantitativas
La edad sería una variable cuantitativa discreta
La talla sería una variable cuantitativa continua.
En el departamento de control de calidad de una fábrica de
bombillas, se desea hacer un estudio sobre el número de horas
de duración; sería imposible hacer el estudio sobre todas las
bombillas fabricadas, de ahí la necesidad de tomar una muestra
Cuanto mayor sea la muestra, más representativa es de la
población.
Frecuencia absoluta de cada valor, es el nº de veces que éste se
repite, y se representa por Fi (F1 es la frecuencia absoluta del
primer valor, F2 es la frecuencia absoluta del segundo valor, y así
sucesivamente). La suma de las frecuencias absolutas debe coincidir con el tamaño de la población o, en su caso, de la muestra
Frecuencia absoluta acumulada Fai es la suma de la frecuencia absoluta de un valor con las de los que le preceden.
Frecuencia relativa, fi, es el cociente entre la frecuencia absoluta y el nº total de individuos que componen la población o la
muestra observada.
Frecuencia porcentual, %, es el tanto por ciento con el que
aparece cada valor de la variable respecto del tamaño de la muestra. Se obtiene multiplicando por 100 cada frecuencia relativa
La información estadística nos llega mediante gráficas o tablas
muy bien construidas, con las que resulta muy sencillo entender
la información que se nos da. Sin embargo, esas tablas y gráficas son el resultado de un largo proceso. Veamos sus principales pasos:
1) Elegir una muestra representativa de la población (si es que
la población es muy grande), de manera que los resultados que
obtengamos para la muestra los podremos suponer válidos para
la población
2) Seleccionar las variables que se van a analizar. Debe quedar
muy claro cuál es la variable y cuáles sus posibles valores.
3) Recolección de datos
4) Organización de datos
5) Elaboración de tablas
6) Elaboración de gráficas
7) Cálculo de parámetros
A estos tres últimos pasos es a lo que a continuación nos vamos
a dedicar.
Una vez recogidos los datos, hay que tabularlos; es decir, hay que
confeccionar una tabla en la que aparezcan bien organizados los
valores de la variable que se está estudiando y el número de
individuos que toma cada valor o cada intervalo de valores. Es
lo que se llama una tabla de frecuencias.
En esta tablas deben aparecer
- los valores de la variable. Si se encuentran agrupadas en clases, deben aparecer los extremos superior e inferior, así como
la marca de clase (que son los puntos medios de cada clase).
Es aconsejable escoger los extremos inferior y superior de
cada intervalo de modo que se sitúen en números “redondos”;
por ejemplo, múltiplos de 5, de 10, etc.
Las clases deben tener la misma amplitud.
El nº de clases que debemos formar es de libre elección,
pero existe un criterio muy general en el que se aconseja
formar, aproximadamente, tantas clases como la raíz cuadrada del número total de datos.
- las frecuencias absolutas
- las frecuencias relativas
y a veces es conveniente incluir
- las frecuencias absolutas y relativas acumuladas, y las
porcentuales
Notas obtenidas por un
grupo de alumnas
9, 4, 8, 5, 5, 4, 1
7, 2, 2, 3, 9, 6, 4
10, 8, 2, 1, 6, 7, 6
10, 10, 8, 8, 4, 6, 5
5, 10, 6, 7, 2, 5, 5
3, 5, 3, 6, 8
recuento
1 II
2 IIII
3 III
4 IIII
5 I++I II
6 I++I I
7 III
8 I++I
9 II
10 IIII
tabla de frecuencias
xi
fi
1
2
2
4
3
3
4
4
5
7
6
6
7
3
8
5
9
2
10
4
Tallas de 40 alumnos-as
de una clase
Tabla resumen
intervalo
frecuencia
168, 160, 168, 175, 175
168, 168, 158, 149, 160
178, 169, 158, 163, 171
162, 165, 163, 156, 174
160, 165, 154, 163, 165
161, 162, 166, 163, 159
170, 165, 150, 167, 164
165, 173, 172, 168, 168
[148,5-153,5)
(153,5-158,5)
(158,5-163,5)
(163,5-168,5)
(168,5-173,5)
(173,5-178,5)
2
4
11
14
5
4
Una profesora de educación física, rellena las fichas de sus
alumnos y alumnas de 3º de E.S.O. Y pide, entre otros datos,
la edad, la talla y los deportes favoritos de cada uno
Supongamos que la profesora del ejemplo anota en una tabla
las siguientes observaciones sobre los 24 alumnos-as que tiene
en clase. Las siglas del deporte son: A=fútbol, B=baloncesto,
C=balonmano, D=voleibol.
Edad: 13,13,14,13,14,15,14,13,13,14,13,13,14,14,15,13,13,14,15,13,14,14,14,13
Talla:156,174,182,184,171,163,185,174,183,182,175,157,188,173,175,161,158,154,189,172,175,178,189,174
Deporte: A,A,B,C,A,B,B,C,D,D,C,B,A,A,A,C,C,D,A,D,C,B,B,B
Veamos las tablas de frecuencias para cada variable:
Edad
Fi
Fai
fi
%
13
14
15
11
10
3
11
21
24
0,46
0,42
0,12
46
42
12
Suma
100
24
1
100
Deporte
Fi
A
B
C
D
7
7
6
4
24
Suma
Fai
fi
7 0,29
14 0,29
20 0,25
24 0,17
1
%
29
29
25
17
100
Talla
Fi
Fai
fi
%
(150,160)
4
4
0,17
17
(160;170)
2
6
0,08
8
(170;180)
10
16
0,42
42
(180;190)
8
24
0,33
33
1
100
Suma
24
La elaboración de gráficos estadísticos es un arte. En los
medios de comunicación encontramos espléndidas representaciones que nos permiten, con un solo golpe de vista,
entender de qué se nos habla y asimilar la información que
se nos da.
Sin pretender llegar a tan alto nivel, vamos a ver algunas
claves para utilizar con corrección los tipos de gráficos de
uso más frecuente.
El diagrama de barras se utiliza para representar tablas de
frecuencias correspondientes a variables cuantitativas
discretas. Por eso las barras son estrechas y se sitúan sobre
los valores puntuales de la variable.
A veces se utiliza para representar distribuciones de variables
cualitativas.
EJEMPLO DE DIAGRAMA DE BARRAS
Nº de accidentes sufridos
por 200 conductores
al año
0
1
2
3
4
5
6
OTRO EJEMPLO DE DIAGRAMA DE BARRAS
Carreras que
piensan hacer
los estudiantes
de un centro de
enseñanza secundaria.
120
100
80
60
40
20
Le
tra
s
Ps
ic
ol
og
ía
D
er
ec
ho
Té
cn
ic
as
Em
pr
es
ar
.
M
ed
ic
in
a
C
ie
nc
i
as
0
Histograma viene del griego histos, que significa barra y también mástil de barco.
Se utiliza fundamentalmente, para distribuciones de variable
continua. Por eso se usan rectángulos tan anchos como los
intervalos.
Aunque los datos no vengan dados por intervalos, si se trata
de una variable continua, debemos usar el histograma y no el
diagrama de barras.
También recurriremos al histograma para representar distribuciones de una variable discreta con valores agrupados en
intervalos.
El polígono de frecuencias se utiliza en los mismos casos que
el histograma. Se construye uniendo los puntos medios de los
rectángulos y prolongando, al principio y al final, hasta llegar
al eje.
Su sentido es suavizar los escalones que se producen en el
histograma
En un diagrama de sectores, el ángulo de cada sector es
proporcional a la frecuencia correspondiente.
Se puede utilizar para todo tipo de variables, pero se usan
muy frecuentemente para las variables cualitativas.
Este tipo de diagrama es especialmente adecuado para
representar, en varios de ellos, diversas situaciones similares
y poder establecer comparaciones.
En este otro ejemplo, comparemos el reparto de la población
laboral española, según el tipo de trabajo, con las de Grecia y
Gran Bretaña, en 1993.
Se construyen estos gráficos mediante histogramas horizontales superpuestos. Se utilizan para comparar las características
más relevantes de la población de un Estado, Provincia, etc...,
y sus variaciones en un determinado período de tiempo.
Son representaciones gráficas de unidades geográficas, diferenciadas
por colores, rayas o puntos
Los pictogramas representan la variable mediante un dibujo
cuyo tamaño debe ser proporcional a la frecuencia. Estos gráficos son poco fiables, ya que es muy difícil representar datos
porcentuales exactos a través de un dibujo.
Evolución del paro en España desde 1982 a 1986
Se usan para mostrar las variaciones de uno o varios caracteres
estadísticos con el paso del tiempo.
Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica, y permiten apreciar
con rapidez y eficacia las características más relevantes de la
distribución.
Los hay de dos tipos: de centralización que nos indican en
torno a qué valor se distribuyen los datos, y de dispersión que
nos informan sobre cuánto se alejan del centro los valores de
la distribución.
CLASIFICACIÓN DE LOS PARÁMETROS ESTADÍSTICOS
Medidas estadísticas
de centralización
moda
media aritmética
de dispersión
mediana
desviación media
desviación típica
Las tablas estadísticas y las representaciones gráficas dan una idea
del comportamiento de una distribución. Sin embargo, se hace
necesario simplificar ese conjunto de datos mediante unos valores
numéricos. La palabra parámetro se emplea como un valor numérico
que sirve para caracterizar una distribución.
Los parámetros más utilizados son:
•LA MEDIA ARITMÉTICA
•LA MODA
•LA MEDIANA
Es el cociente entre la suma de todos los valores de la variable
y el número de éstos.
Se representa por y viene
x dada por la expresión:
x1.f1  x 2 .f 2  ......  x n .f n
x
N
Cuando la variable es de tipo continuo expresada en intervalos,
xi es el punto medio de cada intervalo, es decir, la marca de clase.
La media aritmética es el parámetro de centralización más
utilizado, y en su cálculo intervienen todos los datos de la
distribución.
En una clase de 40 alumnos, las notas de matemáticas son:
Notas
1
2
3
4
5
6
7
8
9
La media sería =x212/40 = 5,3
Nº alumnos
2
2
4
5
8
9
3
4
3
N=40
xi.fi
4
Suma xi.fi=212
2
12
20
40
54
21
32
27
Halla la media aritmética del peso de los 40 alumnos de una clase:
Peso
fi
xi
fi.xi
50-55
55-60
60-65
65-70
70-75
4
8
14
12
2
52,5
57,5
62,5
67,5
72,5
210
460
875
810
145
40

Media =
x
2500
= 62,5 kg
40
2500
La mediana ,Me,de una distribución es un valor tal que la mitad
al menos de los valores es menor o igual a Me y la mitad al
menos de los valores es mayor o igual a Me
Cuando son pocos los valores se ordenan crecientemente.
Si el nº es par, se toma como mediana la media aritmética de los
dos datos centrales, y si es impar, el valor central.
Cuando tenemos muchos valores, para ordenarlos crecientemente
se toma en la tabla una columna denominada de frecuencias
absolutas acumuladas (Fi).
La mediana se puede calcular en distribuciones de tipo cuantitativo
y en las de tipo cualitativo en las que puedan ordenarse las
modalidades.
Calcula la mediana del cuadro siguiente correspondiente a las notas
de los 40 alumnos de una clase:
Notas
fi
Fi
suspenso
8
8=8
aprobado
15
8+15=23
notable
10
23+10=33
sobresaliente
7
33+7=40
La mediana es el primer valor de la variable (notas) correspondiente a la
frecuencia acumulada (Fi) inmediatamente superior a la mitad del nº de
datos.
Me = aprobado
N/2 =20
ya que el valor de Fi inmediatamente superior a 20 es 23.
La moda Mo de una distribución, es la variable de mayor frecuencia.
En los ejemplos anteriores del peso y notas de los 40 alumnos de una
clase, la moda es, en el primer caso, el intervalo (60,65), y en el 2º
caso la calificación de aprobado.
Una distribución puede no tener moda o tener 2 o más modas (distr.
bimodal, trimodal, .....)
Tanto la media, como la mediana y la moda, son parámetros que
informan de los valores centrales de una serie estadística, pero......
¿cuál es más representativo?. Observemos los ejemplos siguientes.
Se ha seleccionado una muestra de 10 alumnos de un Instituto y se han
estudiado algunas de sus características:
talla(cm)
paga semanal
nº calzado
162 165 167 169 170 170 170 176 182 185
1500 1700 1750 1500 4000 3500 1200 1500 1700 1600
40 40 40 40 40 42 42 42 44 44
Para la talla es
media=171
Me=170 Mo=170
Para la paga semanal media=1995 Me=1650 Mo=1500
Para el nº de calzado media=41,4 Me=41 Mo=40
Para la talla, el valor central a considerar puede ser la media ya que los
otros parámetros toman valores muy parecidos. Para la paga, la mediana
refleja mejor la realidad. Para el calzado, la moda es el valor
más representativo.
A veces, la media, la moda y la mediana de una distribución no nos
dice casi nada sobre ella. Es necesario conocer si los datos están o no
agrupados alrededor de los valores centrales, es decir, su dispersión.
Las medidas de dispersión son:
•LA DESVIACIÓN MEDIA
•LA DESVIACIÓN TÍPICA
Pero antes de definir estas medidas, veamos
-Rango o recorrido
-Desviación respecto a la media
Llamamos recorrido o rango de una distribución a la diferencia entre
el mayor valor y el menor valor de la variable estadística
Cuanto menor es el rango o recorrido de una distribución, mayor es el
grado de representatividad de los valores centrales
Ejemplo: Mercedes y Paco miden 169 y 171 respectivamente. Ana y
Luís es otra pareja que miden 145 y 195 respectivamente.
Ambas distribuciones tienen la misma media: 170, pero evidentemente
nadie los confundirían por la calle.
El rango de la pareja Mercedes y Paco: 171-169=2
El rango de la pareja Ana y Luís:195-145=50
Diremos por tanto que la 2ª pareja está más dispersa que la 1ª
Las diferencias entre cada valor de la variable xi y la media aritmética
se llaman desviaciones respecto a la media (di).
Cada diferencia di nos da una idea de cómo se aproximan los valores xi
a la media aritmética. Estas diferencias pueden ser positivas, negativas
o nulas.
Veamos con un ejemplo la siguiente propiedad:
“ la suma de las desviaciones respecto a la media es igual a cero”
Mercedes
Paco
Tallas
(cm)
Desviaciones respecto
a la media
169
171
169-170= -1
171-170 = 1
x=170
suma= 0
Ana
Luís
Tallas
(cm)
Desviaciones respecto
a la media
145
195
145-170= -1
195-170 = 1
x =170
suma= 0
Es la media aritmética de los valores absolutos de las desviaciones
respecto a la media. Se representa por D
x
Es la media aritmética de los cuadrados de las desviaciones respecto
de la media. Se representa por s2, y viene dada por la expresión:
f1( x1  x) 2  f2 ( x2  x) 2  ........  fn( xn  x) 2
s 
f1  f2  .......  fn
2
Es la raíz cuadrada positiva de la varianza. Se representa por s.
Se ha anotado el peso de 88 personas, obteniéndose los siguientes
resultados:
Peso (Kg) [38,44) [44,50) [50,56) [56,52) [62,68) [68,74) [74,80)
Nº personas 7
8
15 25 18 9
6
Calcula el rango, la desviación media, la varianza y la desviación
típica.
RESOLUCIÓN
Calculemos primeramente la media aritmética:
= 5204/88
x = 59,14
Rango: rango=80 - 38 = 42 Kg
x
Desviación media: D = 639,08/88 = 7,26 Kg
Varianza: s2= 7846,23/88 = 89,16 Kg2
Desviación típica: s = 9,44 Kg
Un inspector de autobuses toma nota de los minutos de retraso con
que llegan los autobuses a una parada. Su trabajo queda reflejado
en el siguiente diagrama de barras:
Halla la varianza y el rango.
Formemos la siguiente tabla:
x=445/42=10,6min
Rango= 30-0=30min
S2=1910,12/42=45,47 min2