Download Análisis estadístico de una variable • Consideraciones iniciales
Document related concepts
Transcript
U.D.1: Análisis estadístico de una variable Consideraciones iniciales: - Población: Es el conjunto de todos los elementos que cumplen una determinada característica. Ej.: Alumnos del colegio. - Individuo: Cada uno de los elementos de la población. - Muestra: A cualquier subconjunto de la población. Ej.: Alumnos de una clase del colegio. - Tamaño: Número de elementos de la muestra. - Carácter estadístico: A la propiedad que permite clasificar a los individuos de una población. - Tipos de carácter estadístico: - Caracteres cualitativos: aquellos que no se pueden medir. Las distintas opciones que pueden tomar se llaman modalidades. Ej.: Nombres alumnos: Ana, Laura, José,…; Asignaturas que cursan: Mates, Lengua,… - Caracteres cuantitativos: aquellos que se pueden medir. El conjunto de todos los valores que puede tomar se llama variable estadística. Ej.: Nº hermanos:0,1,2…, Edad:15,16,…, Altura: 1,51 , 1,54 , 1,623 , 1,65 ,… - Tipos de variables estadísticas: Discretas: Cuando puede tomar un número finito de valores o infinito numerable. Ej.: Nº hermanos, Edad,… Continuas: Cuando puede tomar cualquier valor en un intervalo de la recta real. Ej.: Altura,… Propuesta: 1. 4 Ejemplos de caracteres estadísticos cualitativos y modalidades. 2. 4 Ejemplos de caracteres estadísticos cuantitativos y valores. 1.1 Distribución de frecuencias. Variables Cualitativas: - Frecuencia Absoluta (fi): Es el número de veces que aparece cada modalidad: f1, f2,…,fr, con r modalidades. Son números no negativos y su suma será igual a N. - Frecuencia Relativa (hi): Es la proporción de datos en cada modalidad, y será - Son números no negativos y su suma será igual a 1. Se puede expresar en %, multiplicando por 100 cada frecuencia relativa, siendo su suma igual a 100. Distribución de frecuencias: Es la tabla construida con las modalidades y sus frecuencias. Representación Gráfica: Se puede representar en diagrama de barras o en diagrama de sectores. Ejemplo: En un centro los alumnos han dado a conocer sus preferencias a la hora de practicar un deporte. Las modalidades ofrecidas han sido: futbol, baloncesto, yudo, gimnasia, voleibol y balonmano. Propuesta: Nº Matrimonios entre españoles por continentes: Europa 5265, África 238, América 4804, Asia 299. a) Tablas: fi, hi y porcentajes. b) Diagrama barras c) Diagrama Sectores y % Variables Cuantitativas Discretas: - Distribución de Frecuencias Acumuladas: Como los distintos valores que toma la variable se pueden ordenar, sumaremos sucesivamente las frecuencias, tanto absolutas como relativas, y los añadiremos a la tabla anterior. - Frecuencias Absolutas Acumuladas (Fi): Suma sucesiva de las Frecuencias Absolutas. - Frecuencias Relativas Acumuladas (Hi): Suma sucesiva de las Frecuencias Relativas. - Representación Gráfica: Se suelen representar en diagrama de barras. El polígono de frecuencias se obtiene uniendo los extremos de las barras. Ejemplo: Se ha preguntado en una clase por el número de hermanos que tienen. Propuestas: El número de centros de salud en 20 ciudades es: 2,2,3,3,4,4,4,4,4,5,5,5,5,5,5,6,6,8,8,8 a) Tabla de distribución de frecuencias b) Diagrama barras frecuencias absolutas c) Polígono frecuencias absolutas acumuladas. Variables Cuantitativas Continuas: - Distribución de Frecuencias: Se agrupan en clases (intervalos que no se solapan). El punto medio de cada clase es la marca de clase. Se construye la tabla con estos valores. - Representación Gráfica: Se suelen representar mediante histogramas. Ahora la base de los rectángulos será la amplitud de los intervalos. El polígono de frecuencias se construye uniendo el punto medio de las bases superiores de los rectángulos. Ejemplo: Tiempo en segundos que tardan en conectarse a una página web. Propuestas: Altura de 20 personas: 165, 171, 154, 165, 149, 159, 151, 171, 191, 163, 173, 193, 176, 152, 188, 169, 171, 184, 152, 183. a) Tabla de distribución de frecuencias en intervalos de amplitud 10 b) Histograma de frecuencias absolutas c) Polígono frecuencias absolutas acumuladas. 1.2 Medidas de centralización Medidas de Centralización: Son los parámetros que indican el valor hacia el que tienden a situarse los datos de la distribución. - Media aritmética ( ): Es el cociente entre la suma de todos los valores de la variable estadística y el número de éstos. - - Si la variable x se encuentra agrupada en clases, se toman como valores x1, x2,…,xn las marcas de clase. Moda ( Mo ): Es el valor de la variable que presenta mayor frecuencia absoluta. Si los datos se encuentra agrupada en clases, se toma como valor aproximado de la moda, la marca de clase de la clase modal. Puede haber más de una moda. Si tiene una es unimodal, si tiene dos, bimodal, tres, trimodal, etc… Mediana ( M ): Es el valor de la variable tal que, el número de observaciones menores que él es igual al número de observaciones mayores que él. Depende del orden de los datos y no del valor de éstos. Si los datos son impares, la mediana es el valor central. Si los datos son pares, la mediana es la media de los valores centrales. Ejemplo: Se ha lanzado un dado 60 veces y se ha obtenido: unos 11, dos 9, tres 10, cuatros 6, cincos 10, seis 14. Halla la media, la mediana y la moda. Mo= 6 M= Ejemplo: El número de hermanos de alumnos son cero 4, uno 14, dos 7, tres 5, cuatro 3, cinco 1. Halla la media, la mediana y la moda. hermanos Mo= 1 hermano M= Ejemplo: Tiempo en segundos que tardan en conectarse a una página web. Halla la media, la mediana y la moda. Mo= 75 segundos M= 75 segundos Propuestas: 1. Centros de salud en 20 ciudades: 2,2,3,3,4,4,4,4,4,5,5,5,5,5,5,6,6,8,8,8 Calcula la media y la moda 2. Halla la mediana de a) 1,7,3,2,4,6,2,5,6 b) 4,2,1,3,8,5,3,2,6,7 3. Medidas bastones: (100,105) hay 4, (105,110) hay 9, (110,115) hay 12, (115,120) hay 10, (120,125) hay 3 Media Aritmética, Moda, Mediana, Histograma frecuencias absolutas, Diagrama de sectores. 1.3 Medidas de Dispersión Medidas de Dispersión: A veces las medidas de centralización no son suficiente para describir un conjunto de datos, conviene utilizar otros valores que reflejen la dispersión de los datos alrededor de la media. - Rango o Recorrido (R): Es la diferencia entre el mayor y el menor valor de la variable estadística. Depende sólo de los extremos. - Desviación Media ( : Es la media aritmética de los valores absolutos de las desviaciones respecto a la media. - Varianza (s2 : Es la media aritmética de los cuadrados de las desviaciones respecto a la media. - Desviación Típica (s): Raíz cuadrada positiva de la varianza. Para que tenga las mismas unidades que los datos. Cuanto menor es la s2 o la s, mayor es el grado de representatividad de los valores centrales. Coeficiente de Variación (CV): Es el cociente entre la desviación típica y la media aritmética. CV = Permite comparar datos de distinta magnitud. Nos da la homogeneidad del resultado. Cuanto menor, más homogéneo es el resultado, más concentrada es la distribución. Ejemplo: Estatura 35 alumnos clase: (150,155)-1, (155,160)-11, (160,165)-13, (165,170)-8, (170-175)-2 Calcula la desviación media, la varianza y la desviación típica. S2= S= Ejemplo: A los alumnos de dos grupos se les ha aplicado un test de cultura general. La nota media y la desviación de cada uno de los cursos han sido: Grupo A: Grupo B: ¿En qué grupo es más homogéneo el resultado? CVA = CVB = Es más homogéneo el resultado del grupo A. Propuestas: 1. Edad de 100 personas: (10,30)-10, (30,50)-20, (50,70)-30, (70-90)-24, (90-110)-? Completa la tabla y calcula la media, la desviación media, la varianza y la desviación típica. 2. Notas Ana: 4,5,6,6,7,8 Notas Juan: 2,3,4,4,5,6. ¿Desviación media? ¿Cuáles están más concentradas? 1.4 Medidas de Posición La mediana de una distribución es el valor que divide los datos en dos partes iguales, dejando el 50% de los datos a la izquierda y el otro 50% a la derecha. A veces interesa dividir los datos de la distribución en función de otras cuantías. Cuartiles (Q1, Q2 y Q3): Son los tres valores que dividen la serie de datos en cuatro partes iguales. - Q1: El primer cuartil, deja por debajo el 25% de los datos de la distribución. - Q2: El segundo cuartil, coincide con la mediana, deja por debajo el 50% de los datos. - Q3: El tercer cuartil, deja por debajo el 75% de los datos de la distribución. - Rango Intercuartílico (RI): Es la diferencia entre el tercer cuartil y el primer cuartil (RI = Q3- Q1) Deciles (D1, D2,…, y D9): Son los nueve valores que dividen la serie de datos en diez partes iguales. Decil primero, decil segundo,…, decil noveno. El decil quinto coincide con la mediana. Percentiles (P1, P2,…, y P99): Son los noventa y nueve valores que dividen la serie de datos en cien partes iguales. Percentil primero, percentil segundo,…, percentil nonagésimo noveno. El percentil cincuenta coincide con la mediana. Ejemplo: Las calificaciones en Filosofía de 40 alumnos viene dada por la tabla dada a continuación. Calcula el decil sexto y el percentil 30. 6· y como el 6 es el primer valor que excede de 24 D6 = 6 30 · excede de 12 P30 = 4 Propuestas: 1. Dada la siguiente distribución, calcula: a) b) c) d) 2. Los Cuartiles Q1 y Q3 El Rango Intercuartílico El decil D8 El percentil P80 3. 4. 5. 6. y como el 4 es el primer valor que