Download Unidad 1: Definiciones Básicas
Document related concepts
Transcript
Estadística: Disciplina científica que crea, desarrolla y aplica los adecuados métodos de recopilación de datos y su evaluación para transformarlos en información que describan objetivamente situaciones investigadas, se analice el comportamiento de determinadas características y tomen decisiones en condiciones de incertidumbre. Tarea estadística: surge cuando se necesita estudiar situaciones que requieren ser medidas en condiciones similares y los resultados de estos pueden presentar variabilidad. Experimento o encuesta: es la observación planeada de un fenómeno de cualquier índole con el objetivo de conocer su comportamiento, poder describirlo y/o tomar una decisión. Unidad experimental: cada uno de los entes que son observados en el experimento. Ej.: el experimento consiste en observar las exportaciones realizadas en cada año, luego, la unidad experimental es el año. Medición: es la asignación de símbolos, numerales o números a ciertas características de las Unidades Experimentales conforme a escalas o reglas preestablecidas. Dato estadístico: valuación de un evento. Resultado de la medición. Puede ser: a-cuali: atributos o propiedades para identificar y describir un ente. b-cuanti: identifican las diferencias entre los valores en cantidad y grados. Escalas: (según la complejidad de las operaciones matemáticas que se pueden realizar con los datos) a-E. Nominal: conj de los numerales o símbolos que se usan para clasificar los entes en las distintas categorías. Se usa cuando los datos son cuali. Constituyen el nivel mas bajo de medición. La relación lógica es la relación de equivalencia. b-E. Ordinal: conj de los numerales o símbolos que se usan para clasificar los entes de acuerdo a su rango. Se usa cuando los datos son cuali. Constituyen el nivel de medición superior al anterior. La relaciones lógicas son la relación de equivalencia y la de orden. c-E. de Intervalo: conj de los números que se usan para clasificar los entes de acuerdo a su rango y para poder establecer una distancia entre dos cualesquiera de ellos. Se usa cuando los datos son cuanti. Constituyen el nivel de medición superior al anterior. El punto de origen es un cero arbitrario (no necesariamente indica ausencia. Se pueden aplicar operaciones aritméticas. d- E. de Razón: conj de los números que se usan para clasificar los entes de acuerdo con su rango, poder establecer una distancia y una proporcionalidad entre dos cualesquiera de ellos. Se usa cuando los datos son cuanti. El punto de origen es un cero real (indica ausencia). Nivel mas alto de medición. Información: evaluación de los datos estadísticos, comparándolos con un patrón, de modo tal que permita la toma de decisiones. Universo: conjunto de unidades experimentales que poseen características comunes observables, para obtener información sobre un hecho particular. Puede ser finito o infinito. Un Universo queda determinado cuando se establece cuál es el objetivo del trabajo a realizar. Variable: cualquier característica observable, cualitativa o cuantitativa, que tienen las unidades experimentales. Recorrido de una variable: conjunto de los posibles valores que ella pueda asumir. Cualitativa: los valores no constituyen un espacio métrico, no es posible establecer una distancia entre dos cualesquiera de ellos. Se miden en escala Nominal u ordinal Cuantitativa: los valores constituyen un espacio métrico, es posible establecer la distancia entre dos cualesquiera de ellos. Se miden en escala de Intervalo o de Razón. Continua: es aquella, que dado un intervalo [a; b] de números reales, cualquier número real que pertenece a dicho intervalo, puede ser un valor de la variable. Se originan cuando se miden magnitudes y no establece restricciones. Su recorrido es infinito. Discreta: es aquella que, dado un intervalo [a; b] de números reales, sólo algunos números reales que pertenecen a dicho intervalo, pueden ser valores de la variable. Se originan en los conteos, o cuando se establece restricciones al medir magnitudes. Su recorrido es finito o infinito numerable. Población: conjunto de los valores de una variable particular que se estudia a un Universo Cada Universo origina tantas poblaciones como variables se estudien en él. Universo finito población finita. Muestra: es un subconjunto o parte de una población en base a la cual se puede hacer un juicio acerca de ésta. Etapas de la tarea estadística: es una serie de pasos que se deben cumplir a los efectos de obtener la información necesaria para la realización de un trabajo de investigación, que permitirán una buena planificación, organización y administración de los recursos. Las etapas de la tarea estadística son: 1. Enunciación del problema, definición del Universo e identificación de las variables. 2. Formulación de los instrumentos de medición. 3. Recopilación de los datos. 4. Análisis de los datos. 5. Interpretación de los resultados (obtención de la información) Medidas que resumen información. Parámetros: son las medidas que resumen información calculadas con una población, es decir, con la totalidad de los valores de una o más variables, si los datos fueron recopilados mediante un censo o un registro completo. Son valores poblacionales. Estimadores: son calculados con los datos de una muestra. Las medidas que resumen información se las agrupan en: 1. Medidas de concentración 2. Medidas de tendencia central o de posición. 3. Medidas de variabilidad o dispersión. 4. Medidas de forma. 1-Medidas de concentración: Son las medidas con las cuales se puede establecer la frecuencia, absoluta o relativa, que se concentra dentro de un intervalo dado; o, el intervalo que concentre en su interior una determinada frecuencia, relativa o absoluta Las medidas de concentración se gráfican en el gráfico de la ojiva. Dos tipos de medidas de concentración: 1. Frecuencia acumulada hasta un valor dado de la variable. 2. Percentiles o fractiles. Frecuencia acumulada hasta un valor dado de la variable: mide la concentración de datos que hay, entre el mínimo valor de la variable en una distribución de frecuencias, y un valor dado de la variable, por lo tanto, es una medida de concentración. F ( x0 ) F( s 1) x0 Lis . fs a donde: s: orden del intervalo que contiene a x0 x0: valor de la variable cuya frecuencia absoluta acumulada se quiere interpolar. Fr ( x0 ) F ( x0 ) n para expresarlo en % Percentiles o fractiles. Fractil: es un valor de la variable hasta donde se acumula cierta frecuencia relativa. Si ésta está expresada en porcentaje, dicho valor de la variable se llama percentil. Percentil de orden k: es el valor hasta donde se acumula, a lo sumo, el k% de las observaciones. Percentiles: son medidas de concentración que pueden localizarse en variables cualitativas medidas en escala ordinal Orden relativo del percentil: es la frecuencia relativa acumulad hasta el valor de la variable que se quiere calcular, expresada en porcentaje. Orden absoluto del percentil(OAP): es la frecuencia absoluta acumulada correspondiente al valor k y se obtiene calculando el k% del total de observaciones n OAP k .n 100 Variables discretas. El valor del percentil o Fractil de orden k, se calcula: Se determina el OAP. Se busca el primer valor de la frecuencia absoluta acumulada que supera al OAP. El valor de la variable que le corresponde, es el percentil de orden k buscado. Si el OAP coincide con algún valor de la frecuencia absoluta acumulada, entonces el percentil de orden k buscado es la semi-suma entre el valor de la variable que le corresponde y el siguiente. Variables continuas: El percentil de orden k pertenece a un determinado intervalo, el intervalo P. El primer valor de la frecuencia acumulada que supere al orden absoluto del percentil, determina el intervalo que contiene al percentil buscado. Para localizar el valor del percentil de orden k dentro del intervalo P se utiliza: k .n F( P 1) 100 x k Li P .a fP donde: P: orden del intervalo que contiene el percentil. El percentil de orden k puede interpretarse: Sólo el k% de los datos superó el valor xk o Sólo el (100 – k)% de los datos superó el valor xk. 2-Medidas de posición o de tendencia central: Son aquellos valores destacados con los cuales es posible representar a la totalidad de los valores de la variable. Las medidas de posición o de tendencia central son: 1-Modo. 2-Mediana. 3-Promedios simples Media aritmética Media geométrica Media armónica. 4-Promedio aritmético ponderado. Modo o moda Mo(x): es el valor que se presenta con mayor frecuencia. El valor del modo se ve afectado por la forma de agrupamiento de la variable. Variable discreta: El modo es el valor de la variable que tenga mayor frecuencia simple Variable continua: El intervalo de mayor frecuencia se llama intervalo modal. El modo es un valor q pertenece a dicho intervalo. Para localizar el modo se utiliza: Mo ( x) Li0 donde: d1 f i f (i 1) y d1 .a d1 d 2 d 2 f i f (i 1) En las variables discretas, el modo puede localizarse gráficamente utilizando el gráfico de bastones. En las variables continuas, el modo puede localizarse gráficamente utilizando el histograma. Mediana Me(x): es el valor que supera y es superado por, a lo sumo, igual cantidad de observaciones. Para su localización los valores observados de la variable deben estar ordenados. ( n 1) Este orden se determina haciendo: 2 Si la cantidad de n datos es impar, la mediana es el valor que está ubicado en el medio, y si la cantidad es impar, la mediana es la semi-suma de los valores centrales. El orden mediano es un valor de la frecuencia absoluta acumulada y se lo llama orden absoluto de la mediana, OAM. La frecuencia absoluta acumulada hasta la mediana es, a lo sumo n/2. Variable discreta. La mediana se determina: Se busca el primer valor de la frecuencia absoluta acumulada que supera al OAM. El valor de la variable que le corresponde, es la mediana. Si el OAM. Coincide con algún valor de la frecuencia absoluta acumulada, entonces la mediana es la semi-suma entre el valor de la variable que le corresponde y el siguiente. Variable continua. La mediana pertenece al intervalo m, llamado intervalo mediano. Para localizarlo: OAM Se calcula el n 2 El primer valor de la frecuencia acumulada que sea mayor al OAM, determina el intervalo que contiene a la mediana o intervalo mediano. Para localizar la mediana se utiliza: n F( i 1) 2 Me( x) Li .a fi Características de la mediana: el valor de la mediana es igual al percentil 50 Los valores extremos no la afectan. La suma del módulo de las desviaciones con respecto a la mediana es mínima. En las variables cuantitativas continuas, la mediana puede localizarse gráficamente utilizando la ojiva. Promedios simples. x Variables cuantitativas. Promedio o media aritmética (X): es el número que resulta de sumar todos los valores observados de la variable y dividir esta suma por el número de datos. X x i . fi n Desviación o variación: con respecto al promedio o media aritmética, es la diferencia entre un valor individual de la variable y su promedio o media aritmética. ( xi X ) Promedio o media geométrica: es el número resultante de multiplicar todos los valores observados de la variable extrayendo a este producto la raíz índice igual al total de datos. Promedio o media armónica: es el número resultante de hacer el cociente total de datos, y la suma de la inversa de los valores observados de la variable. Propiedades del promedio o media aritmética: 1 – la suma de las desviaciones con respecto a la media aritmética es nula. El promedio compensa las desviaciones negativas con las positivas. (x X ) f 0 i i 2- la suma de las desviaciones cuadráticas con respecto a la media aritmética es mínima. (x i X )2 . fi 3 – el promedio o media aritmética de una variable x es igual a un número real arbitrario k más el promedio o media aritmética de los desvíos con respecto al número real k. X k (x k ). f i i n 4 – el promedio o media aritmética de una constante es la constante misma xk X k 5 – el promedio de la de una variable más o menos una constante, es igual al promedio de la variable más o menos la constante. entonces y xk y xk 6 – el promedio o media aritmética del producto o cociente de una variable por o dividido una constante no nula, es igual al promedio o media aritmética de la variable multiplicado o dividido por la constante. Sí y x.k Sí x y k entonces y k .x entonces x y k k 0 7 – dada la transformación afín de la variable x el promedio y a b.x es: y a b.x 8 – sean k variables, x1; x2; .................xk y, x1 ; x 2 ;.............x k los correspondientes promedios calculados cada uno ellos con n1; n2; ..............nk observaciones respectivamente, defino a la variable x como la suma de las variables dadas X = X1 + X2 + ..........................XK El promedio o media aritmética se puede calcular haciendo: X n1 . X 1 n 2 . X 2 ..........nk . X k n1 n2 n3 ......... nk Promedios ponderados. Ponderaciones: son aquellos valores que permiten asignar a cada valor de la variable en estudio una determinada importancia o peso relativo. El promedio ponderado puede ser Aritmético, Geométrico o Armónico. Promedio aritmético ponderado: surge de la suma del producto entre cada valor de la variable en estudio y la correspondiente ponderación dividido por la suma de estas últimas. 3-Medidas de variabilidad: Son aquellas que permiten estudiar, cómo se desvían, en su conjunto, los valores observados de una variable, con respecto a alguna medida de tendencia central. Las medidas de variabilidad son: 1-Desvío medio. 2-Suma de cuadrados. 3-Varianza. 4-Desvío estándar o típico 5-Coeficiente de variación. Desvío medio. Con respecto a la mediana: el desvío medio es el promedio aritmético del módulo de las desviaciones con respecto a la mediana. Con respecto a la media aritmética: es el promedio aritmético del módulo de las desviaciones con respecto a la media aritmética. Suma de cuadrados SC(x): es la suma de cuadrados de las desviaciones con respecto de la media aritmética elevadas al cuadrado. Varianza V(x): es el promedio aritmético del cuadrado de las desviaciones con respecto a la media aritmética. ( xi x ) 2 . f i V ( x) n La varianza es una medida de variación porque está midiendo, en su conjunto, las diferencias entre cada valor individual observado de la variable y la media aritmética. Cuando mayor es el valor numérico de la varianza, mayor es la variabilidad de los datos y, consecuentemente, menor la representatividad de la media aritmética. Propiedades de la varianza 1 - la varianza es, necesariamente, un número real no negativo. V ( x) 0 2 – la varianza de una constante es nula. V (k ) 0 3 – la varianza de la suma de una variable más (o menos) una constante, es igual a la varianza de la variable. Sí y xk entonces V(y) = V(x) 4 – la varianza del producto o cociente de una variable por o dividido una constante no nula, es igual a la varianza de la variable por o dividido la constante al cuadrado. Si Sí y = x.k x y k entonces entonces V(y) = k2 . V(x) V ( x) V ( y) 2 k 5 – dada la transformación afín de la variable x; la varianza es V(y) = b2 . V(x) k 0 y = a + b.x Desvío estándar o típico S(x): es la raíz cuadrada positiva de la varianza. S ( x) V ( x) El desvío estándar o típico, es una mediad de variabilidad absoluta, porque su valor numérico está expresado en la misma dimensión de la variable mantenido la magnitud. Esta medida es adecuada para establecer la variabilidad que presentan los valores observados de la variable, en su conjunto, con respecto a la media aritmética. Coeficiente de variación: es el cociente entre el desvío estándar y la media aritmética de dicha variable. S ( x) x El coeficiente de variación es un número puro. Es una medida de variabilidad relativa. Relaciona el desvío estándar con la media aritmética. Permite establecer criterios generales acerca de la homogeneidad de los datos, de la representatividad de la media aritmética. CV ( x) Si el CV ( x) 0,10 ( si el desvío es menor o igual a 0,10 ) los datos son homogéneos y la media aritmética es representativa. Momentos empíricos, absolutos o centrados: son operadores matemáticos que proveen fórmulas generales para el cálculo de medidas que resumen información a partir de los valores de la variable obtenidos empíricamente (valores observados). Momento empírico absoluto mk(x): (de orden k de la variable x) es el promedio aritmético de la potencia késima de los valores observados de la variable. k xi f i mk ( x) Utilizando la frecuencia absoluta simple: n Utilizando la frecuencia relativa simple: mk ( x) xi fri k El momento empírico absoluto de orden 1, es igual a la media aritmética. Momento empírico centrado mck(x): (de orden k de la variable x) es el promedio aritmético de la potencia késima de los desvíos, de cada uno de los valores individuales observados de la variable, con respecto a la media aritmética. Utilizando la frecuencia absoluta simple: Utilizando la frecuencia relativa simple: (x mck ( x) i x) ki . f i n mck ( x) ( xi x) k . fri El momento empírico centrado de orden 2 es igual a la Varianza. 4-Medidas de forma. Una distribución de frecuencias es simétrica cuando: Variable discreta: las frecuencias simples correspondientes a valores de la variable que equidistan de la media aritmética son iguales Variables continua: las frecuencias simples de los intervalos cuyos puntos medios equidisten de la media aritmética son iguales. Luego, si la distribución de frecuencias es simétrica, necesariamente se cumple: f ( x s ) f ( x s )s / s curtosis o apuntamiento: es una determinada relación entre la amplitud total y la máxima ordenada, que presenta una distribución de frecuencia. Las medidas de forma son: 1-Coeficiente de asimetría 2-Coeficiente de curtosis. Coeficiente de asimetría As(x): es el cociente entre el momento centrado de orden 3 y la potencia tercera del desvío estándar. Cuando una distribución de frecuencias es simétrica, todos los momentos centrados de orden impar son nulos. Si una distribución es asimétrica el momento centrado de orden 3 no es nulo. El signo del coeficiente de asimetría se interpreta como sigue: As(x) = 0 distribución simétrica. > 0 es asimetría positiva. La distribución es Si asimétrica a la derecha. < 0 es asimetría negativa. La distribución es asimétrica a la izquierda. Si el valor numérico del modo, la mediana y la media aritmética coinciden, el coeficiente de asimetría es alto, la distribución es asimétrica. Si el valor numérico del modo y de la mediana coinciden, y la diferencia entre ellos con la media aritmética es muy pequeña, el coeficiente de simetría es alto. La distribución es marcadamente asimétrica. Coeficiente de curtosis K(x): es el cociente entre el momento centrado de orden 4 y la cuarta potencia del desvío estándar. El signo del coeficiente de curtosis: Si K(x) = 0 Si la dist de frecuencias es = cero, el coeficiente de curtosis es Mesocúrtica. > 0 Si la dist de frecuencias tiene un coef de curtosis positiva, la dist es Leptocúrtica. < 0 Si la dist de frecuencias tiene un coef de curtosis negativa, la dist es Platicúrtica. Variable de cálculo: es una transformación afín de los valores observados de la variable es estudio que se genera de modo tal que no represente a alguna magnitud, que sus valores sean números enteros, y que el incremento de ellos sea unitario.