Download Sin título de diapositiva
Document related concepts
no text concepts found
Transcript
•Un poco de historia •Estadística: concepto y clases. Estadística descriptiva. •Población discretas cuantitativas continuas •Muestra •Variables estadísticas cualitativas •Frecuencia. Clases •Proceso estadístico Elección de muestra seleccionar variables recolección de datos organización de datos elaboración de tablas elaboración de gráficas cálculo de parámetros El origen de la estadística se encuentra en el término Estado, pues fueron los gobernantes los que primero se preocuparon de elaborar y clasificar las interminables listas de los recursos humanos y materiales que constituían el patrimonio estatal. La información más antigua sobre la elaboración de una estadística la proporciona el historiador griego Herodoto (484-420a.C.), al relatar que en el año 3050 a.C. el faraón de Egipto ordenó un recuento de los bienes que poseía el país para llevar a cabo una gran obra: la construcción de las pirámides. Desde hace tiempo las estadísticas no son patrimonio exclusivo del Estado. También las elaboran compañías de seguros, bancos, investi- gadores.....o simplemente personas interesadas en obtener y organizar determinada información para analizarla e interpretarla. La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones. La Estadística puede ser: a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de gráficos o la obtención de unos ciertos valores que los representen a todos. b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos, que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población de una manera significativa y que forman una muestra. Es una parte de las matemáticas que nos enseña a: •Recoger datos de manera ordenada • Representar datos mediante gráficas o tablas comprensibles • Calcular valores numéricos representativos, que permitan sintetizar, analizar y comparar diferentes colecciones de datos Población: es el conjunto de todos los elementos objeto de nuestro estudio Muestra: es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población Individuo: es cada uno de los elementos de la población o de la muestra. El tamaño de la población o de la muestra es el número de elementos que componen una u otra, y se suele designar con N Se llama variable estadística a cada uno de los caracteres que se desean observar en los individuos de una población. Las variables estadísticas pueden ser: • cuantitativas: si sus valores son números • cualitativas: si sus valores no son números Se denomina recorrido o rango de una variable cuantitativa a la diferencia entre el mayor y el menor de sus valores posibles. Para las variables cualitativas no se define el recorrido Las variables estadísticas cuantitativas pueden ser discretas o continuas Clasificación de las variables estadísticas variable estadística variable cuantitativa variable discreta variable cualitativa variable continua • Variables discretas son las que toman valores que se pueden enumerar, fáciles de precisar porque están separados, es decir, las que solo pueden tomar valores aislados. • Variables continuas son las que pueden tomar todos los valores de un intervalo Los valores de la variable estadística se representan por x1, x2, x3,.........,xn Se llama distribución estadística al conjunto de datos estadísticos. Una profesora de educación física, rellena las fichas de sus alumnos y alumnas de 3º de E.S.O. Y pide, entre otros datos, la edad, la talla y los deportes favoritos de cada uno Población: los alumnos-as de 3º de E.S.O. Variables estadísticas: la edad, la talla, los deportes favoritos La variable “deporte favorito” es cualitativa Las variables “edad y talla” son cuantitativas La edad sería una variable cuantitativa discreta La talla sería una variable cuantitativa continua. En el departamento de control de calidad de una fábrica de bombillas, se desea hacer un estudio sobre el número de horas de duración; sería imposible hacer el estudio sobre todas las bombillas fabricadas, de ahí la necesidad de tomar una muestra Cuanto mayor sea la muestra, más representativa es de la población. Frecuencia absoluta de cada valor, es el nº de veces que éste se repite, y se representa por Fi (F1 es la frecuencia absoluta del primer valor, F2 es la frecuencia absoluta del segundo valor, y así sucesivamente). La suma de las frecuencias absolutas debe coincidir con el tamaño de la población o, en su caso, de la muestra Frecuencia absoluta acumulada Fai es la suma de la frecuencia absoluta de un valor con las de los que le preceden. Frecuencia relativa, fi, es el cociente entre la frecuencia absoluta y el nº total de individuos que componen la población o la muestra observada. Frecuencia porcentual, %, es el tanto por ciento con el que aparece cada valor de la variable respecto del tamaño de la muestra. Se obtiene multiplicando por 100 cada frecuencia relativa La información estadística nos llega mediante gráficas o tablas muy bien construidas, con las que resulta muy sencillo entender la información que se nos da. Sin embargo, esas tablas y gráficas son el resultado de un largo proceso. Veamos sus principales pasos: 1) Elegir una muestra representativa de la población (si es que la población es muy grande), de manera que los resultados que obtengamos para la muestra los podremos suponer válidos para la población 2) Seleccionar las variables que se van a analizar. Debe quedar muy claro cuál es la variable y cuáles sus posibles valores. 3) Recolección de datos 4) Organización de datos 5) Elaboración de tablas 6) Elaboración de gráficas 7) Cálculo de parámetros A estos tres últimos pasos es a lo que a continuación nos vamos a dedicar. Una vez recogidos los datos, hay que tabularlos; es decir, hay que confeccionar una tabla en la que aparezcan bien organizados los valores de la variable que se está estudiando y el número de individuos que toma cada valor o cada intervalo de valores. Es lo que se llama una tabla de frecuencias. En esta tablas deben aparecer - los valores de la variable. Si se encuentran agrupadas en clases, deben aparecer los extremos superior e inferior, así como la marca de clase (que son los puntos medios de cada clase). Es aconsejable escoger los extremos inferior y superior de cada intervalo de modo que se sitúen en números “redondos”; por ejemplo, múltiplos de 5, de 10, etc. Las clases deben tener la misma amplitud. El nº de clases que debemos formar es de libre elección, pero existe un criterio muy general en el que se aconseja formar, aproximadamente, tantas clases como la raíz cuadrada del número total de datos. - las frecuencias absolutas - las frecuencias relativas y a veces es conveniente incluir - las frecuencias absolutas y relativas acumuladas, y las porcentuales Notas obtenidas por un grupo de alumnas 9, 4, 8, 5, 5, 4, 1 7, 2, 2, 3, 9, 6, 4 10, 8, 2, 1, 6, 7, 6 10, 10, 8, 8, 4, 6, 5 5, 10, 6, 7, 2, 5, 5 3, 5, 3, 6, 8 recuento 1 II 2 IIII 3 III 4 IIII 5 I++I II 6 I++I I 7 III 8 I++I 9 II 10 IIII tabla de frecuencias xi fi 1 2 2 4 3 3 4 4 5 7 6 6 7 3 8 5 9 2 10 4 Tallas de 40 alumnos-as de una clase Tabla resumen intervalo frecuencia 168, 160, 168, 175, 175 168, 168, 158, 149, 160 178, 169, 158, 163, 171 162, 165, 163, 156, 174 160, 165, 154, 163, 165 161, 162, 166, 163, 159 170, 165, 150, 167, 164 165, 173, 172, 168, 168 [148,5-153,5) (153,5-158,5) (158,5-163,5) (163,5-168,5) (168,5-173,5) (173,5-178,5) 2 4 11 14 5 4 Una profesora de educación física, rellena las fichas de sus alumnos y alumnas de 3º de E.S.O. Y pide, entre otros datos, la edad, la talla y los deportes favoritos de cada uno Supongamos que la profesora del ejemplo anota en una tabla las siguientes observaciones sobre los 24 alumnos-as que tiene en clase. Las siglas del deporte son: A=fútbol, B=baloncesto, C=balonmano, D=voleibol. Edad: 13,13,14,13,14,15,14,13,13,14,13,13,14,14,15,13,13,14,15,13,14,14,14,13 Talla:156,174,182,184,171,163,185,174,183,182,175,157,188,173,175,161,158,154,189,172,175,178,189,174 Deporte: A,A,B,C,A,B,B,C,D,D,C,B,A,A,A,C,C,D,A,D,C,B,B,B Veamos las tablas de frecuencias para cada variable: Edad Fi Fai fi % 13 14 15 11 10 3 11 21 24 0,46 0,42 0,12 46 42 12 Suma 100 24 1 100 Deporte Fi A B C D 7 7 6 4 24 Suma Fai fi 7 0,29 14 0,29 20 0,25 24 0,17 1 % 29 29 25 17 100 Talla Fi Fai fi % (150,160) 4 4 0,17 17 (160;170) 2 6 0,08 8 (170;180) 10 16 0,42 42 (180;190) 8 24 0,33 33 1 100 Suma 24 La elaboración de gráficos estadísticos es un arte. En los medios de comunicación encontramos espléndidas representaciones que nos permiten, con un solo golpe de vista, entender de qué se nos habla y asimilar la información que se nos da. Sin pretender llegar a tan alto nivel, vamos a ver algunas claves para utilizar con corrección los tipos de gráficos de uso más frecuente. El diagrama de barras se utiliza para representar tablas de frecuencias correspondientes a variables cuantitativas discretas. Por eso las barras son estrechas y se sitúan sobre los valores puntuales de la variable. A veces se utiliza para representar distribuciones de variables cualitativas. EJEMPLO DE DIAGRAMA DE BARRAS Nº de accidentes sufridos por 200 conductores al año 0 1 2 3 4 5 6 OTRO EJEMPLO DE DIAGRAMA DE BARRAS Carreras que piensan hacer los estudiantes de un centro de enseñanza secundaria. 120 100 80 60 40 20 Le tra s Ps ic ol og ía D er ec ho Té cn ic as Em pr es ar . M ed ic in a C ie nc i as 0 Histograma viene del griego histos, que significa barra y también mástil de barco. Se utiliza fundamentalmente, para distribuciones de variable continua. Por eso se usan rectángulos tan anchos como los intervalos. Aunque los datos no vengan dados por intervalos, si se trata de una variable continua, debemos usar el histograma y no el diagrama de barras. También recurriremos al histograma para representar distribuciones de una variable discreta con valores agrupados en intervalos. El polígono de frecuencias se utiliza en los mismos casos que el histograma. Se construye uniendo los puntos medios de los rectángulos y prolongando, al principio y al final, hasta llegar al eje. Su sentido es suavizar los escalones que se producen en el histograma En un diagrama de sectores, el ángulo de cada sector es proporcional a la frecuencia correspondiente. Se puede utilizar para todo tipo de variables, pero se usan muy frecuentemente para las variables cualitativas. Este tipo de diagrama es especialmente adecuado para representar, en varios de ellos, diversas situaciones similares y poder establecer comparaciones. En este otro ejemplo, comparemos el reparto de la población laboral española, según el tipo de trabajo, con las de Grecia y Gran Bretaña, en 1993. Se construyen estos gráficos mediante histogramas horizontales superpuestos. Se utilizan para comparar las características más relevantes de la población de un Estado, Provincia, etc..., y sus variaciones en un determinado período de tiempo. Son representaciones gráficas de unidades geográficas, diferenciadas por colores, rayas o puntos Los pictogramas representan la variable mediante un dibujo cuyo tamaño debe ser proporcional a la frecuencia. Estos gráficos son poco fiables, ya que es muy difícil representar datos porcentuales exactos a través de un dibujo. Evolución del paro en España desde 1982 a 1986 Se usan para mostrar las variaciones de uno o varios caracteres estadísticos con el paso del tiempo. Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica, y permiten apreciar con rapidez y eficacia las características más relevantes de la distribución. Los hay de dos tipos: de centralización que nos indican en torno a qué valor se distribuyen los datos, y de dispersión que nos informan sobre cuánto se alejan del centro los valores de la distribución. CLASIFICACIÓN DE LOS PARÁMETROS ESTADÍSTICOS Medidas estadísticas de centralización moda media aritmética de dispersión mediana desviación media desviación típica Las tablas estadísticas y las representaciones gráficas dan una idea del comportamiento de una distribución. Sin embargo, se hace necesario simplificar ese conjunto de datos mediante unos valores numéricos. La palabra parámetro se emplea como un valor numérico que sirve para caracterizar una distribución. Los parámetros más utilizados son: •LA MEDIA ARITMÉTICA •LA MODA •LA MEDIANA Es el cociente entre la suma de todos los valores de la variable y el número de éstos. Se representa por y viene x dada por la expresión: x1.f1 x 2 .f 2 ...... x n .f n x N Cuando la variable es de tipo continuo expresada en intervalos, xi es el punto medio de cada intervalo, es decir, la marca de clase. La media aritmética es el parámetro de centralización más utilizado, y en su cálculo intervienen todos los datos de la distribución. En una clase de 40 alumnos, las notas de matemáticas son: Notas 1 2 3 4 5 6 7 8 9 La media sería =x212/40 = 5,3 Nº alumnos 2 2 4 5 8 9 3 4 3 N=40 xi.fi 4 Suma xi.fi=212 2 12 20 40 54 21 32 27 Halla la media aritmética del peso de los 40 alumnos de una clase: Peso fi xi fi.xi 50-55 55-60 60-65 65-70 70-75 4 8 14 12 2 52,5 57,5 62,5 67,5 72,5 210 460 875 810 145 40 Media = x 2500 = 62,5 kg 40 2500 La mediana ,Me,de una distribución es un valor tal que la mitad al menos de los valores es menor o igual a Me y la mitad al menos de los valores es mayor o igual a Me Cuando son pocos los valores se ordenan crecientemente. Si el nº es par, se toma como mediana la media aritmética de los dos datos centrales, y si es impar, el valor central. Cuando tenemos muchos valores, para ordenarlos crecientemente se toma en la tabla una columna denominada de frecuencias absolutas acumuladas (Fi). La mediana se puede calcular en distribuciones de tipo cuantitativo y en las de tipo cualitativo en las que puedan ordenarse las modalidades. Calcula la mediana del cuadro siguiente correspondiente a las notas de los 40 alumnos de una clase: Notas fi Fi suspenso 8 8=8 aprobado 15 8+15=23 notable 10 23+10=33 sobresaliente 7 33+7=40 La mediana es el primer valor de la variable (notas) correspondiente a la frecuencia acumulada (Fi) inmediatamente superior a la mitad del nº de datos. Me = aprobado N/2 =20 ya que el valor de Fi inmediatamente superior a 20 es 23. La moda Mo de una distribución, es la variable de mayor frecuencia. En los ejemplos anteriores del peso y notas de los 40 alumnos de una clase, la moda es, en el primer caso, el intervalo (60,65), y en el 2º caso la calificación de aprobado. Una distribución puede no tener moda o tener 2 o más modas (distr. bimodal, trimodal, .....) Tanto la media, como la mediana y la moda, son parámetros que informan de los valores centrales de una serie estadística, pero...... ¿cuál es más representativo?. Observemos los ejemplos siguientes. Se ha seleccionado una muestra de 10 alumnos de un Instituto y se han estudiado algunas de sus características: talla(cm) paga semanal nº calzado 162 165 167 169 170 170 170 176 182 185 1500 1700 1750 1500 4000 3500 1200 1500 1700 1600 40 40 40 40 40 42 42 42 44 44 Para la talla es media=171 Me=170 Mo=170 Para la paga semanal media=1995 Me=1650 Mo=1500 Para el nº de calzado media=41,4 Me=41 Mo=40 Para la talla, el valor central a considerar puede ser la media ya que los otros parámetros toman valores muy parecidos. Para la paga, la mediana refleja mejor la realidad. Para el calzado, la moda es el valor más representativo. A veces, la media, la moda y la mediana de una distribución no nos dice casi nada sobre ella. Es necesario conocer si los datos están o no agrupados alrededor de los valores centrales, es decir, su dispersión. Las medidas de dispersión son: •LA DESVIACIÓN MEDIA •LA DESVIACIÓN TÍPICA Pero antes de definir estas medidas, veamos -Rango o recorrido -Desviación respecto a la media Llamamos recorrido o rango de una distribución a la diferencia entre el mayor valor y el menor valor de la variable estadística Cuanto menor es el rango o recorrido de una distribución, mayor es el grado de representatividad de los valores centrales Ejemplo: Mercedes y Paco miden 169 y 171 respectivamente. Ana y Luís es otra pareja que miden 145 y 195 respectivamente. Ambas distribuciones tienen la misma media: 170, pero evidentemente nadie los confundirían por la calle. El rango de la pareja Mercedes y Paco: 171-169=2 El rango de la pareja Ana y Luís:195-145=50 Diremos por tanto que la 2ª pareja está más dispersa que la 1ª Las diferencias entre cada valor de la variable xi y la media aritmética se llaman desviaciones respecto a la media (di). Cada diferencia di nos da una idea de cómo se aproximan los valores xi a la media aritmética. Estas diferencias pueden ser positivas, negativas o nulas. Veamos con un ejemplo la siguiente propiedad: “ la suma de las desviaciones respecto a la media es igual a cero” Mercedes Paco Tallas (cm) Desviaciones respecto a la media 169 171 169-170= -1 171-170 = 1 x=170 suma= 0 Ana Luís Tallas (cm) Desviaciones respecto a la media 145 195 145-170= -1 195-170 = 1 x =170 suma= 0 Es la media aritmética de los valores absolutos de las desviaciones respecto a la media. Se representa por D x Es la media aritmética de los cuadrados de las desviaciones respecto de la media. Se representa por s2, y viene dada por la expresión: f1( x1 x) 2 f2 ( x2 x) 2 ........ fn( xn x) 2 s f1 f2 ....... fn 2 Es la raíz cuadrada positiva de la varianza. Se representa por s. Se ha anotado el peso de 88 personas, obteniéndose los siguientes resultados: Peso (Kg) [38,44) [44,50) [50,56) [56,52) [62,68) [68,74) [74,80) Nº personas 7 8 15 25 18 9 6 Calcula el rango, la desviación media, la varianza y la desviación típica. RESOLUCIÓN Calculemos primeramente la media aritmética: = 5204/88 x = 59,14 Rango: rango=80 - 38 = 42 Kg x Desviación media: D = 639,08/88 = 7,26 Kg Varianza: s2= 7846,23/88 = 89,16 Kg2 Desviación típica: s = 9,44 Kg Un inspector de autobuses toma nota de los minutos de retraso con que llegan los autobuses a una parada. Su trabajo queda reflejado en el siguiente diagrama de barras: Halla la varianza y el rango. Formemos la siguiente tabla: x=445/42=10,6min Rango= 30-0=30min S2=1910,12/42=45,47 min2