Download Unidad 4
Document related concepts
Transcript
Unidad 4 Medidas de Dispersión Estadística E.S.O. Objetivos ◊ ◊ ◊ Saber analizar el grado de variabilidad (dispersión) existente entre los valores de una variable estadística (varianza de un conjunto de datos). Saber interpretar y utilizar los valores obtenidos de las medidas de dispersión para evaluar la “representatividad” de los diferentes promedios. Utilizar las medidas adecuadas para comparar la dispersión presente en dos o más variables (o una variable observada en distintas poblaciones). Estudios de homogeneidad. Índice 1.- Introducción 2.- Medidas de Dispersión Absolutas 3.- Medidas de Dispersión Relativas 4.- Tipificación de Variables 1.- Introducción Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Se distinguen las medidas de dispersión: absolutas, que no son comparables entre diferentes muestras y relativas que permiten comparar varias muestras 1.- Introducción Imaginemos un gran número de valores observados distintos, a. ¿Alrededor de qué valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos? 1.- Introducción Imaginemos un gran número de valores observados distintos, a. ¿Alrededor de qué valor se agrupan los datos? medidas de centralización b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos? medidas de dispersión 1.- Introducción “Si el valor de estas medidas de dispersión es pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces la media se considera representativa de los datos, la Media es un promedio confiable. Inversamente, una medida de dispersión grande indica que la Media no es confiable, no es representativa de los datos” Imaginar que tenemos dos muestras de tamaño tres: 10, 20 y 60 ; 28,29 y 33 media igual a 30 pero… … en la primera los datos están más dispersos. 1.- Introducción Visualmente, ¿qué distribución presenta mayor variabilidad? 0.04 0.02 densidad 0.06 0.08 Diagrama de cajas de Tukey: Resumen en 5 números P25 P50 P75 Máx. 0.00 Mín. 40 45 50 55 60 65 Velocidad (Km/h) de 200 vehículos en ciudad 0.03 0.02 0.01 P25 Mín. P50 P75 Máx. 0.00 densidad 0.04 Diagrama de cajas de Tukey: Resumen en 5 números 80 90 100 110 120 Velocidad (Km/h) de 200 vehículos en autovía 130 140 1.- Introducción Clasificación de las Medidas de Dispersión: MEDIDAS DE DISPERSIÓN ABSOLUTA No hacen referencia a ningún promedio: Recorridos. Hacen referencia a algún promedio: Desviación Absoluta Media respecto a un promedio. Desviación Cuadrática Media respecto a un promedio: Varianza, Desviación Típica. MEDIDAS DE DISPERSION RELATIVA No hacen referencia a ningún promedio: Coeficiente de Apertura, Recorrido relativo, Recorrido Semi-intercuartílico Hacen referencia a algún promedio: Coeficiente de Variación, 2.2.1- Medidas de Dispersión Absolutas. Recorridos Recorrido o rango: Re = x(k) - x(1) (En el ejemplo anterior 60 – 10 = 50 y 33 – 28 = 5 respectivamente, la 1ª más dispersa) Recorrido Intercuartílico: RI = C3 - C1 Longitud del intervalo que recoge el 50% de las observaciones centrales P25 P50 Máx. P75 0.03 0.02 25% 25% 25% 25% 0.01 Rango intercuartílico Rango 0.00 Recorrido Percentil: RP = P99 - P1 Mín. 0.04 0.05 Recorrido Décil: RD = D9 - D1 150 160 170 180 190 2.2.1- Desviación Absoluta Media respecto de un Promedio Sea X una variable estadística: xi , ni ; i 1,..., k k N = ni i=1 La Desviación Absoluta Media respecto a un Promedio P consiste en promediar la distancia -valor absoluto- de cada dato al promedio P. 1 DP N P = Me, Mo y x k x P n i 1 i i 2.2.2- Desviación Cuadrática Media respecto de un Promedio Sea X una variable estadística: xi , ni ; i 1,..., k k N = ni i=1 La Desviación Cuadrática Media respecto a un Promedio P es la media aritmética de la distancia -en términos cuadráticos- de cada dato respecto del promedio P 1 k 2 xi P 2 ni DP N i 1 P = Me, Mo y x 2.2.2- Desviación Cuadrática Media respecto de un Promedio Varianza: S 2 X 1 N k x i 1 i x ni Desviación Típica: Raíz cuadrada de la varianza 2 SX 2 SX 3.- Medidas de Dispersión Relativas Interés: Van a permitir comparar la variabilidad existente en dos distribuciones de frecuencias. Para ello, las diferentes medidas se construyen eliminando la influencia en el computo de la dispersión de: (i) el número de observaciones (ii)el valor de la medida de posición (iii)las unidades de medida adoptadas Al comparar este tipo de medidas es posible establecer qué población es más “similar”. Diremos que un conjunto de datos es más homogéneo que un segundo, si su dispersión relativa es menor. Recorridos Relativos / Índices de Dispersión / Coeficiente de Variación 3.3.1.- Recorridos Relativos Coeficiente de Apertura Recorrido Relativo Recorrido Semi-Intercuartílico . Ap x( k ) x(1) Re x( k ) x(1) Rr x( k ) x( k ) Rs C C1 RI 3 C3 C1 C3 C1 3.3.2.- Índices de Dispersión Los Índices de Dispersión respecto de un promedio P, se construyen como el cociente entre la medida de dispersión absoluta respecto del promedio P, y el propio promedio. Índice de Dispersión respecto de la Mediana: k VMe D Me Me x Me n i i 1 i N Me Índice de Dispersión respecto a la Moda: k VMo D Mo Mo x Mo n i 1 i N Mo i 3.3.3.- Coeficiente de Variación Cuando el promedio P es la media aritmética, el cálculo de la dispersión relativa es diferente ya que, en este caso, se utiliza la desviación cuadrática. El Índice de dispersión se denomina el Coeficiente de Variación. Coeficiente de Variación ( de Pearson): Es la razón entre la desviación típica y la media. SX V x Mide la desviación típica en forma de “que tamaño tiene con respecto a la media” También se le denomina variabilidad relativa. Es una magnitud adimensional interesante para comparar la variabilidad de diferentes variables. Es frecuente mostrarlo en porcentaje. Si la media es 80 y la desviación típica 20 el valor CV = 20/80 = 0,25 = 25% 3.3.3.- Coeficiente de Variación Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. No debe usarse cuando la variable presente una media próxima a 0. Calcular y comparar (hombres/mujeres): Coeficiente de Apertura, Recorrido Relativo y Recorrido Semi-Intercuartílico Coeficiente de Variación ¿Qué salario es más homogéneo, el de hombres o el de mujeres? Solución Hombres A p 1.875 8,33 225 Rr 1.650 0,88 1.875 Rs V Mujeres A p 1.875 8,33 225 Rr 1.650 0,88 1.875 274,49 0,215 (777 502,51) Rs 315,25 0,293 (696,38 381,13) 244,5 0,373 655,73 V 240,55 0,432 556,51 MÁS HOMOGÉNEO 4.- Tipificación de Variables Para poder comparar -respecto de sus propias distribuciones- valores concretos de dos o más variables (datos), éstas deben trasladarse a un origen y escala comunes (hay que hacer un cambio de origen y escala). Presentamos las definiciones y conceptos básicos para el proceso: Variable Estándar: Diremos que Z es una variable típica o estándar si su media aritmética es 0 y su varianza 1. Tipificación: Proceso de transformación de una variable estadística X, en una variable tipificada. Resultado y procedimiento para “Tipificar”: Si X es una variable estadística con media aritmética x y con varianza S x2 Definimos la variable típica o estándar Z: X x Z SX ¿Qué hemos visto? Medidas de Dispersión Absolutas Recorrido Muestral, Intercuartílico, Decil y Percentil. Desviación Absoluta Media respecto de un Promedio. Desviación Cuadrática Media respecto de un Promedio: Varianza y Desviación Típica Medidas de Dispersión Relativas Recorridos Relativos Índice de Dispersión Coeficiente de Variación Tipificación de Variables