Download Estadística Descriptiva - MSc. Ing. Julio Rito Vargas Avilés
Document related concepts
no text concepts found
Transcript
Universidad Nacional Autónoma de Nicaragua UNAN-Managua Curso de Estadística Profesor: MSc. Julio Rito Vargas Avilés. UNIDAD I Estadística Descriptiva Estudiantes: FAREM-Carazo “Quien tiene un libro y no lo lee, no se diferencia de aquel que no sabe leer” Año académico: II Semestre 2010 HISTORIA DE LA ESTADÍSTICA La estadística surgió como una necesidad del Estado: el censo y su descripción política, geográfica y económica. En el siglo XVII y XVIII nace la probabilidad aplicada a los juegos de azar que ejerce una fuerte influencia sobre la estadística. En el XIX empieza a aplicarse a cuestiones sociales. Y actualmente se aplica a la administración, ingeniería, biología, economía, periodismo, política, ... 2 ¿Para qué sirve la estadística? Estadística: Ciencia que reúne, organiza, presenta, analiza e interpreta datos para ayudar a tomar mejores decisiones. La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico) La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza Ciencia cuyo objetivo es la obtención y el análisis de datos mediante el uso de medios matemáticos y herramientas informáticas. 3 Definición La Estadística es la Ciencia de la • Sistematización, presentación de recogida, ordenación y los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • Deducir las leyes que rigen esos fenómenos, • y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. 4 Objetivos de la Estadística Descriptiva Poner de manifiesto las características más relevantes de los datos y sintetizarlas en unos pocos parámetros o estadísticos y⁄o mediante las gráficas adecuadas. 5 Método científico y estadística Plantear hipótesis Diseñar experimento Obtener conclusiones Recoger datos y analizarlos 6 Población y muestra Población : es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Generalmente es demasiado grande para poder obtenerlo. Muestra : es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debería ser “representativo” Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). 7 Tipos de variables Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) Nominales: Si sus valores no se pueden ordenar • Sexo(M/F), Religión(Católico/Protestante/Ateo), Nacionalidad, Fumar (Sí/No) Ordinales: Si sus valores se pueden ordenar • Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor(nada, poco, mucho, intenso) Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores enteros • Número de hijos, Número de cigarrillos, Num. de “cumpleaños” Continuas: Si entre dos valores, son posibles infinitos valores intermedios. • Altura, Peso, salario, Dosis de medicamento administrado, edad 8 Es buena idea codificar las variables como números para poder procesarlas con facilidad en un computador. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios) • • Raza (Cualit: Códigos arbitrarios) • • • 1 = Hombre 2 = Mujer 1 = Blanca 2 = Negra,... 3 = Mestiza Felicidad Ordinal: Respetar un orden al codificar. • • • 1 = Muy feliz 2 = Feliz 3 = Infeliz Se pueden asignar códigos a respuestas especiales como • • 0 = No sabe 99 = No contesta... Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos („missing data‟) 9 EJEMPLO Suponga que decide llevar a cabo un estudio del costo de la comida en los restaurante de una gran ciudad. A 50 restaurantes citadinos se les consultó sobre el precio promedio de sus platos y se obtuvieron los siguientes resultados. 10 EJEMPLO Precio del plato en 50 restaurantes citadinos 50 38 43 56 51 36 25 33 41 44 34 39 49 37 40 50 50 35 22 45 44 38 14 44 51 27 44 39 50 35 31 34 48 48 30 42 26 35 32 63 36 38 53 23 39 45 37 31 39 53 11 Precio del plato en 50 restaurantes de la ciudad 14 22 23 25 26 27 30 31 31 32 33 34 34 35 35 35 36 36 37 37 38 38 38 39 39 39 39 40 41 42 43 44 44 44 44 45 45 48 48 49 50 50 50 50 51 51 53 53 56 63 12 Gráfico de Tallo y hoja El diagrama de tallo y hojas. Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal. Variable Precio en gráfico Tallo-hoja Frecuencia 1.00 5.00 21.00 13.00 8.00 1.00 Tallo y & Hoja 1 2 3 4 5 6 4 23567 011234455566778889999 0123444455889 000011336 3 Ancho del tallo: 10(decenas) Cada hoja: 1 caso(s) Representación gráfica de las distribuciones de frecuencias Histograma: Un histograma consiste en una serie de rectángulos cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase y cuya altura es proporcional al número de elementos que caen dentro de la clase. Representación gráfica de las distribuciones de frecuencias Polígono de frecuencias: Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de las variables que estamos midiendo en el eje horizontal, del mismo modo como lo hicimos con el histograma. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono Polígono de frecuencias Representación gráfica de las distribuciones de frecuencias Gráfico de Curva Normal con Histograma de frecuencias. Muestra el comportamiento de los datos y que tan próximo están de una distribución normal. En el ejemplo que nos ocupa puede verse que hay datos por encima de normal. Así mismo hay datos que no alcanzan llegar a línea normal. Rango Calcular el rango es determinar la longitud numérica que existe entre el dato de menor valor y el de mayor valor. • Restar el dato menor del dato mayor de la muestra y se obtiene el rango. • Rango = Máximo - Mínimo 17 La pregunta que estamos analizando ya tiene sus datos ordenados, ahora determinar a simple vista cuales son los datos mayor y menor respectivamente: Dato Mayor(Máx) $ 63.00 Dato Menor(Min) $ 14.00 18 DISTRIBUCIÓN DE FRECUENCIAS Se organiza en filas y columnas: Variable Frecuencia Columna 1: El nombre de la variable que se está analizando. Columna 2: Las veces que se repiten los datos con las mismas características de la variable, se le llama frecuencia. 19 DISTRIBUCIÓN DE FRECUENCIAS Cuando la variable es numérica, se trata de valores y si éstos son Intervalos más de 10 datos diferentes, es conveniente hacer grupos para administrarlos con eficiencia. A cada grupo de datos se le llama Intervalo o clase. Frecuencia 20 DISTRIBUCIÓN DE FRECUENCIAS Intervalos Frecuencia Un intervalo es como un rango, tiene un dato mayor y un dato menor y el estilo de representación puede ser de varias maneras; la más generalizada es: DatoMenor pero menos que DatoMayor o 21 DISTRIBUCIÓN DE FRECUENCIAS La información en cada intervalo debe ser única. Intervalos Frecuencia 14 – 18 1 19 – 23 29 – 33 2 3 5 34 – 38 39 – 43 12 8 44 – 48 8 49 – 53 9 54 – 58 59 – 63 1 1 Para determinar el número de intervalos para una distribución, se calcula con la 24 – 28 información del valor del Rango. C= Rango/10=49/10≈5 Un intervalo es similar al rango, el cual tiene un dato mayor y un dato menor, solo que la distancia entre ellos recibe el nombre de Amplitud o ancho del intervalo o ancho de clase y se recomienda que se constante . 22 DISTRIBUCIÓN DE FRECUENCIAS Se sugiere que una distribución de frecuencias no debe tener menos de 5 intervalos, ni más de 15. Si no se sigue esta convención, la interpretación de los datos puede ser demasiado condensada o muy dispersa y en ambos casos los resultados aunque estén bien, no son objetivos y puede afectar la toma de decisiones. 23 DISTRIBUCIÓN DE FRECUENCIAS Intervalos Frecuencia Intervalo 1 Frec. 1 Determinar el número de intervalos Intervalo 2 que sirva a una muestra se basa en la experiencia o sentido común de la Intervalo 3 persona que va a generar la Intervalo 4 distribución de frecuencias. Intervalo 5 Frec. 2 Intervalo 6 Frec. 6 Frec. 3 Frec. 4 Frec. 5 24 Tablas de frecuencia Exponen la información recogida en la muestra de manera inteligente: Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad. Frecuencias relativas (porcentajes unitarios): contabilizan el número de indiviiduos dividido por el total. Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente útiles para calcular cuantiles (como veremos más adelante). 25 Parámetros y estadísticos Parámetro: Es una cantidad numérica calculada sobre una población. La altura media de los individuos de un país. La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). Estadístico: Es una cantidad numérica calculada sobre una población. –La altura media de los que estamos en este aula. •Somos una muestra (¿representativa?) de la población. –Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. 26 Estadísticos de forma intuitiva 27 Posición Estadísticos Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. • Cuantiles, percentiles, cuartiles, deciles,... Centralización Indican valores con respecto a los que los datos parecen agruparse. • Media, mediana y moda Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. • Desviación típica, varianza, coeficiente de variación, rango Forma Asimetría Apuntamiento o curtosis 28 Estadísticos de posición Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... 29 Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50. El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%. Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25. Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. Tercer cuartil = Percentil 75 = cuantil 0,75. 30 CALCULO DE PERCENTILES Precio de plato en 50 restaurantes de la ciudad 14 33 38 43 50 22 34 38 44 50 23 34 38 44 50 25 35 39 44 50 26 35 39 44 51 27 35 39 45 51 30 36 39 45 53 31 36 40 48 53 31 37 41 48 56 32 37 42 49 63 Min = 14 ; Max =63; Q1 = 34; Q3 = 45 ; Q2 = Mn = 39 Pn 100 f inf P Li c f percentil Alcance intercuartil = Q3- Q1 p: percentil a calcular n. número de datos ∑finf : suma de frec. Inferiores al percentil Fpercentil: frecuencia del percentil Li : limite inferior de la clase del percentil Fa 1 3 6 11 23 31 39 48 49 50 Q1 34 12.5 11 34 0.125 34.125 34 12 Q2 39 25 23 39 0.25 39.25 39 8 Q3 44 37.5 31 44 0.81 44.81 45 8 OJIVA Fr 1 0.75 0.50 0.25 0 Recorrido o rango intercuartílico P25 Q1 P50 Q2 P75 Q3 P100 x mediana 33 Ejemplos: El 5% de los restaurantes tiene un precio demasiado bajo. ¿Qué precio se consideran “demasiado bajo”? • Percentil 5 o cuantil 0,05. p5 19 2.5 1 19 0.75 19.75 $20 2 ¿Qué precio es superado sólo por el 25% de restaurantes? • Percentil 75. 37.5 31 Q3 44 8 44 0.81 44.81 45 El 90% de los precios son normales. ¿Entre qué valores se encuentran los precios extremos? • Entre el percentil 5 y el 95. ¿Entre qué valores se encuentran la mitad de precios normales” de la muestra? • Entre 1º y 3º cuartil (Q1 y Q3). 34 Medidas de Centralización Añaden unos cuantos casos particulares a las medidas de posición. Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse. Media („mean‟) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos. 35 MEDIDAS DE CENTRALIZACIÓN DE DATOS AGRUPADOS Media Aritmética: para calcular la media aritmética de datos agrupados en una distribución de frecuencias, asumimos que cada clase esta representada por el punto medio de la clase (marca de clase). x fx 16 1 21 2 26 3 ... 61 1 n 50 x 16 1 21 2 ... 61 1 1995 39.9 x 50 50 f : frecuencia de cada clase x : marca de clase o valor medio fx: frecuencia por el valor medio de la clase ∑fx: es la suma de los productos fx n: número total de frecuencias o de datos. Intervalos x f fx 14 – 18 16 1 16 19 – 23 21 2 42 24 – 28 26 3 78 29 – 33 31 5 155 34 – 38 36 12 432 39 – 43 41 8 328 44 – 48 46 8 368 49 – 53 51 9 459 54 – 58 56 1 56 59 – 63 61 1 61 Medidas de Centralización Mediana („median‟) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5.5 Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. • Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es 117,7! Moda („mode‟) Es el(los) valor(es) donde distribución de frecuencia alcanza un máximo. la 37 Altura mediana 38 Medidas de Centralización Mediana :La mediana es el valor por debajo se encuentran la mitad de los datos y por encima la otra mitad. Como los datos se han organizados en distribuciones de frecuencias se ha perdido algo de información. Por lo usaremos la siguiente fórmula. n f acum c Me Li 2 f m ediana 25 23 Me 39 5 39 1.25 40.25 8 Li : Limite inferior de la clase que contiene a la mediana. n : es el número de datos fmediana:frecuencia de la clase mediana ∑facum: es el valor de la frecuencia acumulada en las clase que preceden a la clase que contiene a la mediana. c: es el valor del tamaño de la clase mediana. Intervalos x f Fa 14 – 18 16 1 1 19 – 23 21 2 3 24 – 28 26 3 6 29 – 33 31 5 11 34 – 38 36 12 23 39 – 43 41 8 31 44 – 48 46 8 39 49 – 53 51 9 48 54 – 58 56 1 49 59 – 63 61 1 50 Medidas de Centralización Moda:La moda para datos agrupados se encuentra en la clase con mayor frecuencia. El problema de la moda es que puede haber más de una clase que la contenga. 1 Mo Li 1 2 c Intervalos x f Fa 14 – 18 16 1 1 19 – 23 21 2 3 Li : Limite inferior de la clase que contiene a la moda. c: es el valor del tamaño de la clase modal 24 – 28 26 3 6 29 – 33 31 5 11 34 – 38 36 12 23 ∆1: diferencia entre las frecuencias de la clase modal y la clase contigua inferior a la clase modal. 39 – 43 41 8 31 44 – 48 46 8 39 49 – 53 51 9 48 ∆2:diferencia entre las frecuencia de la clase modal y la clase contigua superior a la clase modal. 54 – 58 56 1 49 59 – 63 61 1 50 Me 34 7 5 34 8.75 40 42.75 4 Relación entre la media, la mediana y la moda Cuando los datos son sesgados es mejor emplear la Md Propiedades, ventajas y desventajas de la media Propiedades: La suma de las diferencias entre las media muestral y el valor de cada observación es cero. La media de una constante es la constante. Si todas las observaciones xi se multiplican por una constante a, la X también se debe multiplicar por ese mismo valor constante. Propiedades, ventajas y desventajas de la media Si se somete a una variable estadística X a un cambio de origen y escala, Y = a + bX, la media aritmética de dicha variable X varía en la misma proporción. La media de la suma de dos variables es igual a la suma de sus medias. Propiedades, ventajas y desventajas de la media Ventajas: Emplea en su cálculo toda la información disponible. Se expresa en las mismas unidades que la variable en estudio. Es el centro de gravedad de toda la distribución, representando a todos los valores observados. Es una valor único. Propiedades, ventajas y desventajas de la media Se trata de un concepto familiar para la mayoría de las personas. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos. Propiedades, ventajas y desventajas de la media Desventajas: Se ve adversamente afectada por valores extremos, perdiendo representatividad. Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual. No se puede calcular para datos cualitativos. No se puede calcular para datos que tengan clases de extremo abierto, tanto superior como inferior. Ventajas y desventajas de la mediana Ventajas: Fácil de calcular si el número de observaciones no es muy grande. No se ve influenciada por valores extremos, ya que solo influyen los valores centrales. Fácil de entender. Ventajas y desventajas de la mediana Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos con clase de extremo abierto. Es la medida de tendencia central más representativa en el caso de variables que solo admiten la escala ordinal. Ventajas y desventajas de la mediana Desventajas: No utiliza en su “cálculo” toda la información disponible. No pondera cada valor por el número de veces que se ha repetido. Hay que ordenar los datos antes de determinarla. Ventajas y desventajas de la moda Ventajas: No requiere cálculos. Puede usarse para datos tanto cuantitativos como cualitativos. Fácil de interpretar. No se ve influenciada por valores extremos. Se puede calcular en clases de extremo abierto. Ventajas y desventajas de la moda Desventajas: Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos. No utiliza toda la información disponible. No siempre existe, si los datos no se repiten. MEDIDAS DE VARIABILIDAD Varianza S2 („Variance‟): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. _ Sean 2, 2, 3, 7: S2 X 3.5 1 (2 3.5) 2 (2 3.5) 2 (3 3.5) 2 (7 3.5) 2 4.25 4 1 2 S ( xi x ) n i 2 Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. Desviación típica o estandar („standard deviation‟) Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable. S S2 S 4.25 2.06 52 VARIABILIDAD PARA DATOS AGRUPADOS fx (1995) 2 Varianza S2:. fx 84165 n 2 2 S2 50 50 1 S2 n 1 Intervalos x x2 f fx fx2 14 – 18 16 256 1 16 256 19 – 23 21 441 2 42 882 24 – 28 26 676 3 78 2028 29 – 33 31 961 5 155 4805 34 – 38 36 1296 12 432 15552 39 – 43 41 1681 8 328 13448 44 – 48 46 2116 8 368 16928 49 – 53 51 2601 9 459 23409 54 – 58 56 3136 1 56 3136 59 – 63 61 3721 1 61 3721 1995 84165 S2 84165 79600.5 50 1 S 2 93.15 S 9.65 53 Centrados en la media y a una desviación típica de distancia tenemos observaciones (izq.) más de la mitad de las A dos desviaciones típicas las tenemos a casi todas (dcha.) 54 Coeficiente de variación Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” También se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes S CV x • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0ºC ≠ 0ºF Los ingenieros electrónicos hablan de la razón „señal/ruido‟ (su inverso). 55 Medidas de Forma: Asimetría Coeficiente de Asimetría de Pearson: Fácil de calcular e interpretar. Cálculo: 3 X Md ASP s o Interpretación: = 0, X=Md Simétrica ASP > 0, X>Md Asimétrica Positiva < 0, X<Md Asimétrica Negativa Medidas de Forma: Asimetría Coeficiente de Asimetría de Fisher: No es de fácil cálculo, pero si su interpretación. x X n ASF i 1 3 i ns M k ASF i 1 Datos NO agrupados 3 3 i x fi Datos Agrupados ns 3 Asimetría o sesgo Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide. La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralización son 58 Medidas de Forma: Asimetría o Interpretación: = 0, Simétrica ASF > 0, Asimétrica Positiva < 0, Asimétrica Negativa Medidas de Forma: Kurtosis Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución). Se definen tres tipos de distribución según su grado de Kurtosis: Medidas de Forma: Kurtosis Leptocúrtica: grado de concentración elevado. Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable. Platicúrtica: grado de concentración reducido. Medidas de Forma: Kurtosis n CK x i 1 i X 4 3 ns 4 Datos No Agrupados k CK 4 M X fi i i 1 ns 4 3 Datos Agrupados Interpretación: =0 Mesocúrtica CK >0 Leptocúrtica <0 Platicúrtica Apuntamiento o curtosis (kurtosis) La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica: curtosis < 0 Los gráficos poseen la misma media y Mesocúrtica: curtosis = 0 desviación típica, pero diferente grado Leptocúrtica: curtosis > 0 de apuntamiento o curtosis. 400 300 160 140 300 200 120 200 100 100 60 40 45 48 51 54 57 60 63 66 69 72 75 78 81 84 Platicúrtica 100 Frecuencia Frecuencia 80 0 27 37 32 45 41 Mesocúrtica 53 49 61 57 69 65 77 73 85 81 0 3 93 89 99 27 16 37 32 47 42 Leptocúrtica 57 52 67 62 77 72 87 82 97 92 63 108 102 138 Medidas de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango („range‟): La diferencia entre las observaciones extremas. 2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos. Rango intercuartílico („interquartile range‟): Es la distancia entre el primer y tercer cuartil. • Rango intercuartílico = P75 - P25 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos. 64 Desigualdad de Chebyshev (1821-1894) Si un conjunto de datos posee una varianza pequeña no existirán "muchos valores" alejados de la media. Precisemos: sea el intervalo alrededor de la media: x k xi x k A 1 2 S ( xi x ) f i n i 1 1 2 2 2 S ( x x ) f ( x x ) fi i i i n i dentro n i fuera del entorno del entorno 2 0 0 65 Demostración: 1 S n 2 1 ( xi x ) f i n i fuera 2 del entorno 1 k S n 2 1 n 2 f k 2 S fi 2 i fuera del entorno i i fuera del entorno 1 fi 2 k i fuera La frecuencia relativa de los datos que caen fuera del intervalo de centro media y radio k veces la varianza es igual o menor que 1/k2 del entorno 66 La desviación típica es menor a todas las desviaciones cuadráticas respecto a cualquier promedio m d 2 ( x y ) 2 ( xi y) 0 i dy i i 2 xi 2 y 0 i i x y ny i i i 1 y xi x n i 67 “ Add your company slogan ” www.jrvargas.wordpress.com LOGO