Download DOC
Document related concepts
Transcript
UNIVERSIDAD DE MURCIA FUNDAMENTOS MATEMÁTICOS PARA EL ESTUDIO DEL MEDIO AMBIENTE PROF. JOSÉ ÁNGEL ORTEGA DATO CURSO 2006/2007 CAPÍTULO 4: INTRODUCCIÓN A LA ESTADÍSTICA 4.1 ORIGEN DE LA ESTADÍSTICA El origen de la Estadística está estrechamente relacionado con los censos realizados a lo largo de la historia. Desde las culturas más antiguas, existe una enorme preocupación por conocer el capital humano y la distribución de los recursos. En China, desde la cultura Han hasta los tiempos modernos, se han llevado a cabo numerosos recuentos de la población. El Imperio Romano erigió la figura del censor, que, con el paso del tiempo, fue desempeñando una labor fundamental en el control del Imperio. La misión de los censores romanos consistía en controlar el número de habitantes y su distribución por los distintos territorios. En la Edad Media, Carlomagno ordenó la creación de un registro de todas sus propiedades, así como de los bienes privados. En el año 1662, el inglés John Graunt publicó un tratado con las observaciones políticas y naturales referidas a la ciudad de Londres. Puede considerarse el primer trabajo estadístico serio sobre la población. Nacía así una nueva ciencia: la Estadística. Curiosamente, J. Graunt no conocía los trabajos de B. Pascal (1623-1662) ni de C. Huygens (1629-1695) sobre estos mismos temas. En Londres y en París se estaban construyendo, casi de manera simultánea, las dos disciplinas que actualmente llamamos estadística y probabilidad. La estadística es sus orígenes era más bien una ciencia de carácter demográfico pero, con los avances de los métodos matemáticos y la figura del matemático belga Adolphe Quetelet (1796-1874), dio un paso de gigante, asentándose las bases fundamentales del futuro trabajo estadístico: los conceptos de desviación, valor medio, curva normal y otros muchos. De esta forma, la estadística fue invadiendo la mayoría de los campos de las ciencias naturales y humanas. Hoy, la estadística es, sobre todo, un instrumento de decisión, una ciencia que usa los números para tener más conocimiento de la naturaleza y de la experiencia. La estadística es un conjunto de métodos que nos ayudan a tomar decisiones razonables, incluso en casos de incertidumbre. 4.2 NOCIONES GENERALES La Estadística es el estudio de los mejores modos de acumular y analizar datos y de establecer conclusiones acerca del colectivo del que se han recogido tales datos. Los conceptos básicos son: Población. Conjunto de todos los elementos que nos interesan y que serán objeto de estudio. Muestra. Subconjunto, extraído de la población, cuyo estudio sirve para inferir (sacar conclusiones) de las características de toda la población. El número de elementos de la muestra se llama tamaño de la misma. Individuo. Cada uno de los elementos de la población o de la muestra. Carácter estadístico. Cada una de las propiedades (aspectos) que pueden estudiarse en los individuos de una población. Un carácter permite clasificar a los individuos de la población. Caracteres cualitativos son los que no se pueden medir ni comparar, porque no toman valores numéricos: sexo, estado civil, raza, color del pelo, número de DNI, profesión, etc. Caracteres cuantitativos son los que se pueden medir, es decir, los que toman valores numéricos: edad, talla, peso, número de hermanos, longitud de un tornillo, etc. Capítulo 4: Introducción a la Estadística Variable estadística. Conjunto de valores que toma un carácter estadístico. Pueden ser cualitativas o cuantitativas dependiendo del carácter estadístico, Las variables estadísticas cuantitativas se llaman discretas cuando los valores son aislados (edad, número de hijos, …), y continuas cuando pueden tomar todos los valores de un intervalo (talla, peso, tiempo que tarda en caer un objeto, longitud de un tornillo, tamaño de los objetos, …). La Estadística tiene dos ramas: la Estadística descriptiva, que trata de describir y analizar algunas características de los individuos de un grupo dado, sin extraer conclusiones para un grupo mayor; y la Estadística inferencial, que trabaja con muestras y pretende, a partir de ellas, inferir características de toda la población. Es decir, se pretende tomar como generales propiedades que sólo se cumplen en casos particulares. Nos ocupamos ahora de la Estadística descriptiva, para la que se siguen los siguientes pasos: 1. Selección de los caracteres a estudiar. 2. Análisis de cada carácter, anotando los valores que toman los individuos en ellos. 3. Clasificación y organización en tablas de los resultados obtenidos. 4. Cálculo de parámetros estadísticos a partir de los datos obtenidos. 5. Realización de gráficos estadísticos. 4.3 TABLAS DE FRECUENCIAS Las tablas de frecuencias sirven para ordenar y organizar los datos. Si el carácter estadístico que estamos estudiando toma N valores, que podemos llamar xi ( 1 i N ), estos serán los valores que toma la variable estadística. La Frecuencia absoluta (fi) es el número de veces que se repite el valor xi. La Frecuencia relativa (fri) del valor xi se calcula dividiendo su frecuencia absoluta por el número total de individuos que estamos estudiando. Esta frecuencia también se suele expresar en “tantos por ciento”. fri fi n i 1, 2,..., N siendo n el número total de datos 4.4 PARÁMETROS ESTADÍSTICOS Designamos con este nombre a los números que describen, de manera concisa, el comportamiento y las características generales de un conjunto de datos estadísticos. Se agrupan en dos categorías denominadas medidas de centralización y medidas de dispersión. MEDIDAS DE CENTRALIZACIÓN Se refieren al promedio de un conjunto de datos, y siempre llevan la unidad de medida del carácter que se está tratando. Vamos a estudiar la Media, la Moda, y la Mediana. La Media ( x ) es el parámetro de centralización más importante, puesto que en la mayoría de los casos es el valor idóneo para representar a todos los datos. Es la media aritmética de los datos. x x ...xn i 1 xi x 1 2 n n n Teniendo en cuenta las frecuencias absolutas, la media se puede calcular de forma más rápida: x N xf i 1 i i n 2 Capítulo 4: Introducción a la Estadística La Moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. La Mediana es el valor central de los datos cuando éstos se han dispuesto ordenadamente de menor a mayor. Cuando el número de datos sea par, la Mediana es la media aritmética de los dos datos que ocupan los lugares centrales. EJEMPLO 1 Preguntados por su edad a diez alumnos/as de Primer Curso de CC. Ambientales, se han obtenido los siguientes resultados: Edad (en años): 18, 20, 18, 19, 20, 18, 18, 18, 19, 19. Los parámetros de centralización son los siguientes: La Media es: x n x i 1 i n O usando las frecuencias: 18 20 18 19 20 18 18 18 19 19 187 18,7 años. 10 10 x N xf i 1 i i n 18 5 19 3 20 2 187 18, 7 años. 10 10 La Moda es 18 años, ya que es el dato que más se repite, 5 veces (tiene la mayor frecuencia). Para calcular la Mediana se ordenan los datos de menor a mayor: 18, 18, 18, 18, 18, 19, 19, 19, 20, 20 Como el número de datos es par, la Mediana se obtiene tomando la media de los dos datos centrales, los de lugares 5º y 6º, que son 18 y 19. Luego la Mediana es 18,5 años. EJEMPLO 2 De los empleados del ayuntamiento de Pozogrande, 38 cobran al mes 900 €, 8 perciben 1500 €, y los 4 restantes 2500 €. ¿Cuánto cobran los empleados por término medio? ¿Es representativa, en este caso, la media? ¿Calcula otras medidas de centralización que sean más representativas? El sueldo medio es: x N xf i 1 i i n 900 38 1500 8 2500 4 56200 1124 euros. 50 50 La Moda es 900 €, pues es el dato de mayor frecuencia (38). La Mediana es también 900 €, porque si se ordenan los 50 datos de menor a mayor, los datos centrales, el 25º y el 26º, coinciden los dos con 900 €. En este caso, son más representativas de los sueldos la Moda y la Mediana, porque coinciden con el sueldo de 38 de los 50 empleados. Al calcular la Media resulta más alta porque hay 12 empleados que tienen un sueldo mucho más elevado que la mayoría. A continuación se representan gráficamente los datos en un Diagrama de Barras. 40 Nº Empleados 35 30 25 20 15 10 5 0 Sueldos en euros 3 Capítulo 4: Introducción a la Estadística MEDIDAS DE DISPERSIÓN Las medidas de dispersión completan el análisis numérico de un conjunto de datos, pues determinan la mayor o menor variación de los datos. Dan una idea del alejamiento de ellos respecto a las medidas de centralización. Aquí tenemos el Rango, la Desviación Media, la Varianza y la Desviación Típica. El Rango (Amplitud o Recorrido) es la diferencia entre el mayor valor y el menor valor de los datos. En el ejemplo 2, sería: Rango = 2500 – 900 = 1600 €. Para ver si este valor es grande o pequeño habría que compararlo con el obtenido en otra muestra de datos similares (de otros empleados). La Desviación Media (DM) se define como la media aritmética de las desviaciones absolutas de cada valor respecto a la media. Su fórmula es: Desviacion Media ( DM ) n i 1 xi x n Las medidas de dispersión, con relación a la media, más importantes y que se utilizan habitualmente son la Varianza (Sx2) y la Desviación Típica (Sx), que es la raíz cuadrada de la varianza, por lo que viene en la unidad de medida de los datos. La forma de calcularlas es la siguiente: x x n Sx 2 i 1 2 i n n x2 i 1 i n x 2 N x 2 fi i 1 i n x 2 Sx n x2 i 1 i n x 2 N x 2 fi i 1 i n x2 EJEMPLO 3 Para estudiar la natalidad en un municipio murciano, se les pregunta por el número de hijos a un grupo de 50 mujeres escogidas al azar. Los resultados obtenidos son los siguientes: 4 1 4 0 4 0 2 4 0 3 3 0 2 0 0 1 0 2 1 0 3 2 0 1 2 1 1 3 0 0 0 2 5 0 1 4 1 0 0 3 1 1 2 1 2 2 0 2 5 0 A partir de los datos anteriores se construye la siguiente tabla de frecuencias: xi 0 1 2 3 4 5 suma fi 17 11 10 5 5 2 50 La Media es: x fri 0,34 0,22 0,2 0,1 0,1 0,04 1 N xf i 1 i i n %i 34% 22% 20% 10% 10% 4% 100% xi·fi 0 11 20 15 20 10 76 xi2·fi 0 11 40 45 80 50 226 76 1,52 hijos. La Moda = 0 hijos. La Mediana = 1 hijo. 50 La Varianza y la Desviación Típica son: Sx 2 N x 2 fi i 1 i n x2 226 1,522 2, 2096 S x 2, 2096 50 1, 4865 hijos. 4