Download Estadística y Estadísticas
Document related concepts
Transcript
ESTADISTICA DESCRIPTIVA, PROF. FRANCISCO HERRERA CATALINO Medida estadística descriptiva • Para sistematizar los datos de los eventos que ocurren y se registran de formas caóticas, se requiere la sistematización de los procesos estadísticos en la dirección de proporcional orden, resumen y indicación. Este última se ofrece mediante un valor o indicador característicos del contenido de la variable. • Expresión puntual de las características de la variable cuantitativa en término del valor más frecuente, las posiciones de los fractiles o cuantiles, el valor de representación, la dispersión o variabilidad, la potencia de desviaciones, la deformación de la distribución con respecto al centro, la concentración con respecto al centro, estandarización de un valor de la variable con respecto a su media y desviación estándar, la concentración de un grupo pequeño con respecto a un grupo grande, la asociación o concordancia o dependencia entre los elementos entre las frecuencias dos o mas de dos variables, entre otras. • Nos referimos a la moda, la mediana, los cuartiles, los quintiles, los percentiles, la media, los desvíos, la desviación media, la varianza, la desviación estándar, el coeficiente de variación, Los momentos, el coeficiente de asimetría, el coeficiente de curtosis, la puntuación estándar, el coeficiente Gini, el valor calculado Chi cuadrado, el coeficiente de contingencia. Primer resumen de medidas estadísticas descriptivas relacionadas con la distribución de frecuencias Fórmulas de medidas estadísticas No. Medida Modelo y componentes 1 Recorrido o Rango ( R) o Amplitud total Número de clases (Nc) R= (Xmax – Xmin) +1, para variable discreta R= Xmax – Xmin : para variable continua: R = recorrido o rango, Xmax = valor mayor que toma la variable, Xmin = valor mínimo que toma la variable. Criterio: 5 ≤ Nc ≤15, Fórmula de Sturges: Nc = 1 +(3.22 log n) y Raíz cuadrada de (n o N), n = número de elementos en la muestra, log n = logaritmo del la cantidad de muestra o de población para N. 2 3 Intervalo o Ancho de la clase ( i ) i = R / Nc : R = Recorrido, Nc = número de clases, i = es el número de valores en las clases en las que se dividió el recorrido Xi = (Li + Ls) / 2 : Li = límite inferior de la clase, Ls = límite superior de clase, Xi= valor representativo de cada una de las clases 4 Punto Medio (Xi) 5 Frecuencia relativa fiR = fi / Σfi , fiR = es el valor que expresa lo que representa la parte (fiR) del todo. fi = frecuencia absoluta, Σfi = suma de las frecuencias absoluta Moda Mo = Li + [Δf1 / (Δf1 + Δf2)] * i , Δf1 = fmo - fi-1mo y Δf2 = fmo - fi+1mo i (Mo) = número de valores en la anchura del intervalo de clases, 6 Primer resumen de medidas estadísticas descriptivas relacionadas con la distribución de frecuencias Descripción de medidas estadísticas No. Medida Descripción o definición 1 Recorrido o Rango ( R) o Es el valor que define el nivel de extensión de los valores que Amplitud total toma la variable cuantitativa 2 Número de clases (Nc) Las partes en la que se divide el recorrido 3 Intervalo o Ancho de la clase ( i ) Tamaño de las clases en las que se divide el recorrido 4 Punto Medio (Xi) Expresión puntual del intervalo de clase de la variable 5 Frecuencia relativa (fiR) Número que expresa las veces que la parte esta contenido en el todo. 6 Moda (Mo) Representa el valor o la categoría más frecuente o que ocurre un mayor número de veces. Segundo resumen de las medidas estadísticas descriptivas y posición Fórmulas de medidas estadísticas de valores simples y con la distribución de frecuencias No. Medida Modelo y componentes 7 Mediana (Md) 8 Cuartil (Ck) 9 Quintil (Qk) 10 Decil (Dk) 11 Percentil (Pk) Md = Li + { [(n/2) – fi-1A] / fmd }*i, k = 1 Li = límite inferior de la clase mediana k, n/2 = posición de la mediana k, fi-1A= frecuencia acumulada anterior a la de la clase en la que está la mediana k, fmd = frecuencia absoluta en la clase mediana k, i = numero de valores en la anchura del intervalo Ck = Li + { [(nk/4) – fi-1A] / fCk }*i , k = 1,2,3, Li = límite inferior de la clase cuartil k, nk/4 = posición del cuartil k, fi-1A= frecuencia acumulada anterior a la de la clase en las que está el cuartil k, fCk = frecuencia absoluta del cuartil k, i = elementos en la anchura del intervalo Qk = Li + { [(nk/5) – fi-1A] / fQk }*i, k =1,2,3,4 Li = límite inferior de la clase quintil k, nk/5 = posición del quintil k, fi-1A= frecuencia acumulada anterior a la de la clase en las que está el quintil k, fQk = frecuencia absoluta del quintil k, i = elementos en la anchura del intervalo Dk = Li + { [(nk/10) – fi-1A] /fDk }*i , k = 1,2,3,…,9 Li = límite inferior de la clase decil k, nk/10 = posición del decil k, fi-1A= frecuencia acumulada anterior a la de la clase en las que está el decil k, fDk = frecuencia absoluta del decil k, i = elementos en la anchura del intervalo Pk = Li + { [(nk/100) – fi-1A] /fPk }*i , k =1,2,3,…, 99 Li = límite inferior de la clase percentil k, nk/100 = posición del percentil k, fi-1A= frecuencia acumulada anterior a la de la clase en las que está el percentil k, fPk = frecuencia absoluta del percentil k, i = elementos en la anchura del intervalo Segundo resumen de las medidas estadísticas descriptivas y posición Fórmulas de medidas estadísticas de valores simples y con la distribución de frecuencias No. Medida Modelo y componentes 7 Mediana (Md) 8 Cuartil (Ck) 9 Quintil (Qk) 10 Decil (Dk) 11 Percentil (Pk) Medida estadística de posición que se ubica en el centro de la distribución organizada de los valores, dividiendo el grupo en dos partes iguales, de modo que la cantidad de valores inferiores a la mediana son iguales a los superiores. Son tres medidas de posición, que resultan de la división del grupo de valores organizados en cuatro partes iguales, dejando valores inferiores del 25% para el primer cuartil, del 50% inferiores para el segundo cuartil y del 75% de valores inferiores y el 25% de valores superiores para el tercer cuartil. Son 4 medidas de posición, que resultan de la división del grupo de valores organizados en cinco partes iguales, dejando valores inferiores del 20% para el primer quintil, del 40% inferiores para el segundo quintil , del 60 % de valores inferiores para el tercer quintil y el 80% de valores inferiores y el 20% superiores para el cuarto quintil Son 9 medidas de posición, que resultan de la división del grupo de valores organizados en diez partes iguales, dejando valores inferiores del 20% para el primer cuartil, del 50% inferiores para el segundo cuartil y del 75% de valores inferiores y el 25% de valores superiores para el tercer cuartil Son 99 medidas de posición, que resultan de la división del grupo de valores organizados en cien partes iguales, dejando valores inferiores del 25% para el primer cuartil, del 50% inferiores para el segundo cuartil y del 75% de valores inferiores y el 25% de valores superiores para el tercer cuartil Medidas estadística de representación No. Medida y descripción Modelo y componentes 12 Media Aritmética ( o ) Para hallar el valor representativo del conjunto que toma la variable cuando se distribuye en forma aritmética 1.1 = Σxi / n, 1.2 = Σxi / N 2.1 = Σxifi / n 2.2 = Σxifi / N n = número de elementos en la muestra, xi = valor que toma la variable, fi = frecuencia con la que ocurre el valor de la variable, N = número de elementos en la población 13 Media Geométrica (Mg) Para hallar el valor representativo del conjunto que toma la variable cuando se distribuye en forma geométrica 1.1 Mg = nxi, para valores simples. 1.2 Mg =Antilog (Σlog xi / n), 1.3 Mg = n (xifi), en distribución de frecuencias. n = número de elementos en la muestra, = producto de los valores, log xi = logaritmo en base 10 14 Media Armónica: (Mh) Para hallar el valor representativo del conjunto que toma la variable cuando se distribuye en forma armónica 1.1 Mh = n / Σ(1/xi), para valores simples. 1.2 Mh = n / Σ(fi / xi), en distribución de frecuencias; n = número de elementos en la muestra, xi = valor de la variable, fi= frecuencia Medidas de variabilidad o de dispersión No. Medida Modelo y componentes 15 Desvíos (d, D) 1.1 d = (xi- ), 1.2 (xi - ), xi = valor de la variable, = media aritmética muestral; d = desvíos muestral , D = desvíos poblacional 16 Desviación 1.1 dm = Σ │xi - │ 1.2 Dm = Σ │(x - │ 2.1 dm = Σ │xi - │fi, media (dm, Dm) 2.2 Dm = Σ │x - │fi ; xi = valor de la variable, = valor de la media muestral, = media poblacional, fi = frecuencia absoluta; dm = desviación media muestral , Dm = desviación media de la poblacional Varianza 1.1 s2 = Σ (xi - )2 , 1.2 2 = Σ (x - )2 (s2, 2) 2.1 s2 = Σ (xi - )2fi, 2.2 2 = Σ (x - )2fi xi = valor de la variable, = valor de la media muestral, = media poblacional, fi = frecuencia absoluta; s2 = varianza muestral , 2 = varianza poblacional Desviación 1.1 s = Σ (xi - )2 , 1.2 =Σ (x - )2 2.1 s = Σ (xi - )2fi, estándar (s, ) 2.2 =Σ (x - )2fi xi = valor de la variable, = valor de la media muestral, = media poblacional, fi = frecuencia absoluta; s = desviación muestral , = desviación poblacional Coeficiente de 1.1 cv = (s / )*100 , 1.2 CV = ( / )*100, variación s = desviación estándar muestral, = valor de la media muestral (cv, CV) = media de la población; cv = coeficiente de variación muestral , CV = coeficiente de variación poblacional 17 18 19 Medidas de variabilidad o de dispersión No. Medida Descripción de la medida 15 Desvíos (d, D) Son diferencias de cada valor que toma la variable cuantitativa con respecto al valor medio u otro valor 16 Desviación media (dm, Dm) Son diferencias, en valor absoluto, de cada valor que toma la variable cuantitativa con respecto al valor medio u otro valor. 17 Varianza (s2, 2) Valor promedio cuadrático que expresa el nivel de dispersión, considerando cada uno de los valores que toma la variable con respecto al valor medio u otro valor . 18 Desviación estándar (s, ) Valor promedio lineal que expresa el nivel de dispersión, considerando cada uno de los valores que toma la variable con respecto al valor medio u otro valor . 19 Coeficiente de variación (cv, CV) Valor que resulta de la relación entre la desviación estándar y la muestra para establecer la parte que representa la desviacion estándar con respecto a la media. Medidas de formas de la distribución No. Medida y descripciones Modelo y componentes 20 Momentos ( Mr ): Son potencias de desvíos con respecto a la media u otro valor de la variable . Apoyan la determinación del coeficiente de asimetria y el coeficiente de curtosis 1.0 Mr = Σ (xi - )rfi , r = 1,2,3,4; 1.1 M1 = Σ (xi - )1fi = 0 1.2 M2 = Σ (xi - )2fi = a la varianza, 1.3 M3 = Σ (xi - )3fi , 1.4 M4 = Σ (xi - )4fi r = potencia de los desvíos, xi = valor de la variable, = media poblacional, fi = frecuencia absoluta 21 Coeficiente de asimetría ( Cas ): Mide el nivel de deformación de la distribución de los valores que toma la variable cuantitativa 1.1 Cas = M3 /3, Momento 3, 3= desviación estándar al cubo 22 Coeficiente de curtosis ( CK ) : Mide el nivel de concentración y 1.1 CK = M4 / (M2)2, frecuencia de los valores que presenta la distribución de la variable M2 = Momento 2, Momento 4 Medidas de coeficientes estadísticos No. Medida 23 Puntuación estándar (Pe, P.E) 24 Coeficiente Gini ( Ig ) 25 Coeficiente de confiabilidad (alpla) 26 Coeficiente Chi cuadrado Coeficiente de contingencia 27 Modelo y componentes 1.1 Pe = (xi- )/s y 1.2 P.E = (xi - ) / , xi = valor de la variable, = valor de la media muestral, = media poblacional Ig = Σ(i=1,i=N-1) (Pi – Qi) / Σ(i=1,i=N-1) Pi , Ig = 1- ( Σ(i=1,i=N-1) Qi / Σ(i=1,i=N-1)Pi) Pi = porcentaje acumulado de la población Qi = porcentaje acumulado del ingreso Alpha = (k/k-1) (1- Σ(i=1, i=k) si2/st2), si2 = varianza de los ítems, st2 = varianza total, k = número de ítems Alpha estandarizado = kp/1+p(k-1), k = número de ítems, p = promedio de las correlaciones lineales entre cada uno de los ítems (se tienen [k(k1)/2] pares de correlaciones 2 = Σ (fo-fe)2/fe, fo = frecuencia observada, fe = frecuencia esperada C = (2/ 2+n), 2 = valor chi cuadrada, n = número elementos de la muestra {\displaystyle C={\sqrt {\frac {\chi ^{2}}{\chi ^{2}+N}}}} Medidas de coeficientes estadísticos No. Medida 22 Puntuación estándar (Pe, P.E) 23 Coeficiente Gini ( Ig ) 24 Coeficiente de confiabilidad ( α = alpha de Cronbach) 25 Coeficiente Chi cuadrado 26 Coeficiente de contingencia Descripciones Es un coeficiente que estandariza el valor de la variable con respecto al valor medio, considerando la desviación estándar. Media y desviación estándar son constante. P.E toma valores de 0 cuando corresponde a la media. Proporciona un valor de la forma en que los valores de una variable se concentran en pocas unidades. El valor máximo Gini es el 1 y el mínimo es 0. Mientras más próximo a 0 menor concentrado están los recursos. Medida que produce un valor para establecer el nivel consistencia interna de una conjunto variables de medición ordinal o numérica las que se presentan con una misma escala. Mientras mas se aproxima a 1. los ítems son más consistentes. En otro orden, mientras pasen del 60% o menos serán menos consistentes. Produce un coeficiente que expresa cuanto están asociadas , dependen o se relacionan las categorías de una o las categorías contingentes en dos variables . Una medida de la intensidad entre las categorías de dos variables. El valor puede estar entre 0 y 1. Práctica conceptual de las medidas estadísticas (1-10) No. Expresión o afirmación 1 Cuando la media carece de representatividad es recomendable utilizar la mediana u otros fractiles, porque no les afectan la dispersión 2 Cuatro importante medidas de variabilidad son la varianza, la desviación estándar, la moda y el coeficiente de variación 3 El coeficiente de simetría proporciona un valor que define el nivel de concentración o apuntalamiento de la distribución de la variable cuantitativa 4 El coeficiente de variación es una medida de dispersión relativa que define la cantidad de desviación estándar con respecto a la media 5 La dispersión de un conjunto de valores de una variable cualitativa nos permite conocer el nivel de confiabilidad de las medidas de tendencia central, de la media aritmética 6 La frecuencia relativa o la proporción expresa mediante un número las veces que se encuentra la parte considerada en el todo 7 La media aritmética es la media de tendencia central que mejor describe los siguientes valores { 1,8,15,17,23,512} 8 La media aritmética produce un valor que divide el grupo en dos partes iguales 9 La mediana del siguiente conjunto de valores {2,5,7,1,3} es 7 y de {4,6,6,8,7,5} es 6 10 La medida de dispersión que permite una más efectiva comparabilidad con media aritmética es la varianza F V Práctica conceptual de las medidas estadísticas (11-20) No. Expresión o afirmación 11 La puntuación estándar de una media igual a 90 cuando desviación estándar es 15 con respecto a un valor de 75. Significa que este valor se coloca a 1 desviación estándar por encima de la media 12 Las varianzas de los siguientes conjuntos de valores A= {0,0,0,0,0,0} es 0 y la B = {1,1,1,1,1} es 12 13 Los momentos 4 y 2 se utilizan para calcular el coeficiente de asimetría, el cual produce un valor el nivel de sesgo o deformación de la distribución con respecto al valor medio 14 Si el percentil 60, P60 = 70 en la puntuación de 80 alumnos en un examen en base 100 de matemática 1, con mínimo de aprobación de 70. El valor de P60 = 70, significa que el 60% de los estudiantes aprobó la matemática I. 15 Si la media aritmética del número de autos vendidos por mes, en un negocio es 12 y la varianza es 4, el coeficiente de variación es 16.67% 16 La principal debilidad de la media aritmética se produce cuando los valores de la variable se extremizan o alejan. 17 La desviación estándar del peso de la población de aficionados inscritos en un gimnasio de 65 libras, significa que del conjunto de valores de pesos de los aficionados, la diferencia cuadrática de cada uno de los valores que toma la variable peso con respecto a la media aritmética es 65 libras. 18 Si la media aritmética de los valores 9,7,5,3,1, referido a los minutos en que tiene efecto un analgésico que es 5 minutos. Significa que 5 divide el grupo de prueba, en dos partes iguales, es decir dos antes y dos después de él. Como son 5 valores de medición, deja 2 superiores antes y 2 inferiores después. 19 Un valor del coeficiente de asimetría de Cas = -1, significa que los valores más frecuentes, de los que toma la variable cuantitativa son mayores que la media aritmética 20 El coeficiente de variación del número de autos vendidos por mes durante un año por un negocio de CV = 16.67%, significa que el valor de la desviación estándar con respecto a la media es de 16.67% F V