Download DOC

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Desviación típica wikipedia , lookup

Criterio de Chauvenet wikipedia , lookup

Transcript
UNIVERSIDAD
DE MURCIA
FUNDAMENTOS MATEMÁTICOS PARA
EL ESTUDIO DEL MEDIO AMBIENTE
PROF. JOSÉ ÁNGEL ORTEGA DATO
CURSO 2006/2007
CAPÍTULO 4: INTRODUCCIÓN A LA ESTADÍSTICA
4.1 ORIGEN DE LA ESTADÍSTICA
El origen de la Estadística está estrechamente relacionado con los censos realizados a lo largo
de la historia. Desde las culturas más antiguas, existe una enorme preocupación por conocer el capital
humano y la distribución de los recursos.
En China, desde la cultura Han hasta los tiempos modernos, se han llevado a cabo numerosos
recuentos de la población. El Imperio Romano erigió la figura del censor, que, con el paso del tiempo,
fue desempeñando una labor fundamental en el control del Imperio. La misión de los censores romanos
consistía en controlar el número de habitantes y su distribución por los distintos territorios. En la Edad
Media, Carlomagno ordenó la creación de un registro de todas sus propiedades, así como de los
bienes privados.
En el año 1662, el inglés John Graunt publicó un tratado con las observaciones políticas y
naturales referidas a la ciudad de Londres. Puede considerarse el primer trabajo estadístico serio sobre
la población. Nacía así una nueva ciencia: la Estadística.
Curiosamente, J. Graunt no conocía los trabajos de B. Pascal (1623-1662) ni de C. Huygens
(1629-1695) sobre estos mismos temas. En Londres y en París se estaban construyendo, casi de manera
simultánea, las dos disciplinas que actualmente llamamos estadística y probabilidad.
La estadística es sus orígenes era más bien una ciencia de carácter demográfico pero, con los
avances de los métodos matemáticos y la figura del matemático belga Adolphe Quetelet (1796-1874),
dio un paso de gigante, asentándose las bases fundamentales del futuro trabajo estadístico: los
conceptos de desviación, valor medio, curva normal y otros muchos. De esta forma, la estadística fue
invadiendo la mayoría de los campos de las ciencias naturales y humanas.
Hoy, la estadística es, sobre todo, un instrumento de decisión, una ciencia que usa los números
para tener más conocimiento de la naturaleza y de la experiencia. La estadística es un conjunto de
métodos que nos ayudan a tomar decisiones razonables, incluso en casos de incertidumbre.
4.2 NOCIONES GENERALES
La Estadística es el estudio de los mejores modos de acumular y analizar datos y de establecer
conclusiones acerca del colectivo del que se han recogido tales datos. Los conceptos básicos son:
Población. Conjunto de todos los elementos que nos interesan y que serán objeto de estudio.
Muestra. Subconjunto, extraído de la población, cuyo estudio sirve para inferir (sacar
conclusiones) de las características de toda la población. El número de elementos de la muestra se
llama tamaño de la misma.
Individuo. Cada uno de los elementos de la población o de la muestra.
Carácter estadístico. Cada una de las propiedades (aspectos) que pueden estudiarse en los
individuos de una población. Un carácter permite clasificar a los individuos de la población.
Caracteres cualitativos son los que no se pueden medir ni comparar, porque no toman valores
numéricos: sexo, estado civil, raza, color del pelo, número de DNI, profesión, etc.
Caracteres cuantitativos son los que se pueden medir, es decir, los que toman valores
numéricos: edad, talla, peso, número de hermanos, longitud de un tornillo, etc.
Capítulo 4: Introducción a la Estadística
Variable estadística. Conjunto de valores que toma un carácter estadístico. Pueden ser
cualitativas o cuantitativas dependiendo del carácter estadístico,
Las variables estadísticas cuantitativas se llaman discretas cuando los valores son aislados
(edad, número de hijos, …), y continuas cuando pueden tomar todos los valores de un intervalo (talla,
peso, tiempo que tarda en caer un objeto, longitud de un tornillo, tamaño de los objetos, …).
La Estadística tiene dos ramas: la Estadística descriptiva, que trata de describir y analizar
algunas características de los individuos de un grupo dado, sin extraer conclusiones para un grupo
mayor; y la Estadística inferencial, que trabaja con muestras y pretende, a partir de ellas, inferir
características de toda la población. Es decir, se pretende tomar como generales propiedades que sólo
se cumplen en casos particulares.
Nos ocupamos ahora de la Estadística descriptiva, para la que se siguen los siguientes pasos:
1. Selección de los caracteres a estudiar.
2. Análisis de cada carácter, anotando los valores que toman los individuos en ellos.
3. Clasificación y organización en tablas de los resultados obtenidos.
4. Cálculo de parámetros estadísticos a partir de los datos obtenidos.
5. Realización de gráficos estadísticos.
4.3 TABLAS DE FRECUENCIAS
Las tablas de frecuencias sirven para ordenar y organizar los datos.
Si el carácter estadístico que estamos estudiando toma N valores, que podemos llamar xi
( 1  i  N ), estos serán los valores que toma la variable estadística.
La Frecuencia absoluta (fi) es el número de veces que se repite el valor xi.
La Frecuencia relativa (fri) del valor xi se calcula dividiendo su frecuencia absoluta por el
número total de individuos que estamos estudiando. Esta frecuencia también se suele expresar en
“tantos por ciento”.
fri 
fi
n
i  1, 2,..., N
siendo n el número total de datos
4.4 PARÁMETROS ESTADÍSTICOS
Designamos con este nombre a los números que describen, de manera concisa, el
comportamiento y las características generales de un conjunto de datos estadísticos. Se agrupan en dos
categorías denominadas medidas de centralización y medidas de dispersión.
MEDIDAS DE CENTRALIZACIÓN
Se refieren al promedio de un conjunto de datos, y siempre llevan la unidad de medida del
carácter que se está tratando. Vamos a estudiar la Media, la Moda, y la Mediana.
La Media ( x ) es el parámetro de centralización más importante, puesto que en la mayoría de
los casos es el valor idóneo para representar a todos los datos. Es la media aritmética de los datos.
x  x  ...xn  i 1 xi
x 1 2

n
n
n
Teniendo en cuenta las frecuencias absolutas, la media se puede calcular de forma más rápida:

x 
N
xf
i 1 i i
n
2
Capítulo 4: Introducción a la Estadística
La Moda es el valor que se presenta con mayor frecuencia en un conjunto de datos.
La Mediana es el valor central de los datos cuando éstos se han dispuesto ordenadamente de
menor a mayor. Cuando el número de datos sea par, la Mediana es la media aritmética de los dos datos
que ocupan los lugares centrales.
EJEMPLO 1
Preguntados por su edad a diez alumnos/as de Primer Curso de CC. Ambientales, se han
obtenido los siguientes resultados: Edad (en años): 18, 20, 18, 19, 20, 18, 18, 18, 19, 19.
Los parámetros de centralización son los siguientes:
La Media es:

x
n
x
i 1 i
n
O usando las frecuencias:

18  20 18 19  20 18 18 18 19 19 187

 18,7 años.
10
10

x 
N
xf
i 1 i i
n

18  5  19  3  20  2 187

 18, 7 años.
10
10
La Moda es 18 años, ya que es el dato que más se repite, 5 veces (tiene la mayor frecuencia).
Para calcular la Mediana se ordenan los datos de menor a mayor:
18, 18, 18, 18, 18, 19, 19, 19, 20, 20
Como el número de datos es par, la Mediana se obtiene tomando la media de los dos datos
centrales, los de lugares 5º y 6º, que son 18 y 19. Luego la Mediana es 18,5 años.
EJEMPLO 2
De los empleados del ayuntamiento de Pozogrande, 38 cobran al mes 900 €, 8 perciben 1500 €,
y los 4 restantes 2500 €. ¿Cuánto cobran los empleados por término medio? ¿Es representativa, en este
caso, la media? ¿Calcula otras medidas de centralización que sean más representativas?
El sueldo medio es:

x 
N
xf
i 1 i i
n

900  38  1500  8  2500  4 56200

 1124 euros.
50
50
La Moda es 900 €, pues es el dato de mayor frecuencia (38).
La Mediana es también 900 €, porque si se ordenan los 50 datos de menor a mayor, los datos
centrales, el 25º y el 26º, coinciden los dos con 900 €.
En este caso, son más representativas de los sueldos la Moda y la Mediana, porque coinciden
con el sueldo de 38 de los 50 empleados. Al calcular la Media resulta más alta porque hay 12
empleados que tienen un sueldo mucho más elevado que la mayoría.
A continuación se representan gráficamente los datos en un Diagrama de Barras.
40
Nº Empleados
35
30
25
20
15
10
5
0
Sueldos en euros
3
Capítulo 4: Introducción a la Estadística
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión completan el análisis numérico de un conjunto de datos, pues
determinan la mayor o menor variación de los datos. Dan una idea del alejamiento de ellos respecto a
las medidas de centralización. Aquí tenemos el Rango, la Desviación Media, la Varianza y la
Desviación Típica.
El Rango (Amplitud o Recorrido) es la diferencia entre el mayor valor y el menor valor de los
datos. En el ejemplo 2, sería: Rango = 2500 – 900 = 1600 €. Para ver si este valor es grande o pequeño
habría que compararlo con el obtenido en otra muestra de datos similares (de otros empleados).
La Desviación Media (DM) se define como la media aritmética de las desviaciones absolutas
de cada valor respecto a la media. Su fórmula es:

Desviacion Media ( DM ) 
n
i 1
xi  x
n
Las medidas de dispersión, con relación a la media, más importantes y que se utilizan
habitualmente son la Varianza (Sx2) y la Desviación Típica (Sx), que es la raíz cuadrada de la
varianza, por lo que viene en la unidad de medida de los datos. La forma de calcularlas es la siguiente:
 x  x

n
Sx
2
i 1


2
i
n
n
x2
i 1 i
n
x
2


N
x 2  fi
i 1 i
n
x
2
 Sx 

n
x2
i 1 i
n
x 
2

N
x 2  fi
i 1 i
n
 x2
EJEMPLO 3
Para estudiar la natalidad en un municipio murciano, se les pregunta por el número de hijos a
un grupo de 50 mujeres escogidas al azar. Los resultados obtenidos son los siguientes:
4
1
4
0
4
0
2
4
0
3
3
0
2
0
0
1
0
2
1
0
3
2
0
1
2
1
1
3
0
0
0
2
5
0
1
4
1
0
0
3
1
1
2
1
2
2
0
2
5
0
A partir de los datos anteriores se construye la siguiente tabla de frecuencias:
xi
0
1
2
3
4
5
suma
fi
17
11
10
5
5
2
50
La Media es:

x 
fri
0,34
0,22
0,2
0,1
0,1
0,04
1
N
xf
i 1 i i
n

%i
34%
22%
20%
10%
10%
4%
100%
xi·fi
0
11
20
15
20
10
76
xi2·fi
0
11
40
45
80
50
226
76
 1,52 hijos. La Moda = 0 hijos. La Mediana = 1 hijo.
50
La Varianza y la Desviación Típica son:
Sx
2


N
x 2  fi
i 1 i
n
 x2 
226
 1,522  2, 2096  S x  2, 2096
50
1, 4865 hijos.
4