Download Modulo #1: DISTRIBUCIÓN DE FRECUENCIAS
Document related concepts
no text concepts found
Transcript
ESTADISTICA I UNIDAD 1: ESTADISTICA DESCRIPTIVA1 Carlos Maggi y Mariano Lanza 1. CONCEPTOS GENERALES Si bien no hay una definición de estadística exacta, se puede decir que la "estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos". Esta definición cubre gran parte de la actividad del científico. Es importante observar que el objeto del que realiza el análisis estadístico son los datos y las observaciones científicas por sí mismos, mas que el material que interviene en el estudio. La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la "inferencia estadística". La estadística descriptiva implica la abstracción de varias propiedades de conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó numéricos. Entre estas propiedades, están la frecuencia con que se dan varios valores en la observación, la noción de un valor típico o usual, la cantidad de variabilidad en un conjunto de datos observados y la medida de relaciones entre 2 ó mas variables. El campo de la estadística descriptiva no tiene que ver con las implicaciones o conclusiones que se puedan deducir de conjuntos de datos. La estadística descriptiva sirve como método para organizar datos y poner de manifiesto sus características esenciales con el propósito de llegar a conclusiones. La inferencia estadística se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta. Por ejemplo, Mendel al estudiar la manera como diferían entre sí las plantas de guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo que hacer sus conclusiones necesariamente basándose en un grupo de plantas relativamente poco numeroso comparado con toda la población de plantas de guisantes de un tipo particular. Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las conclusiones de Mendel dependían de la muestra particular de plantas disponibles para este estudio. En la terminología estadística, el procedimiento inductivo implica el hacer inferencias acerca de una población adecuada ó universo a la luz de lo averiguado en un subconjunto aparte o muestra. La inferencia estadística se refiere a los procedimientos mediante los cuales se pueden hacer tales generalizaciones ó inducciones. Bibliografía consultada: Spiegel M. R y Stephens L. J. (2001): “Estadística”. McGraw-Hill. México. Lind D. A, Marachal W. G. y Mason R. D. (2004): “Estadística para Administración y Economía”. Ed. Alfaomega. México. De la Horra Navarro J. (2003): “Estadística Aplicada”. Ediciones Díaz de Santos. España. Moore D. S. ( 2000): “Estadística Aplicada Básica”. Antoni Bosch Editor S.A. España. Navidi William (2006): “Estadística para Ingenieros y Científicos”. Ed. McGraw-Hil. 1 Es importante por todo lo dicho anteriormente, que el proceso de la inferencia científica, implica el grado mas elevado de cooperación entre la estadística y el estudio experimental. 2. ELEMENTOS CONCEPTUALES DE ESTADÍSTICA DESCRIPTIVA Como se ha señalado anteriormente, el objetivo de la estadística descriptiva, es la descripción mediante el empleo de técnicas que permitan obtener una síntesis de la información con el objetivo de conocer el fenómeno en estudio y extraer los aspectos importantes. Todo estudio estadístico ha de estar referido a un conjunto o colección de elementos. Al conjunto de todas las unidades objeto de estudio es lo que se denomina población. En sentido estadístico un elemento puede ser algo con existencia real (tangible y observable), como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo. A su vez cada elemento de la población tiene una serie de característica que puede ser objeto del estudio estadístico. Así por ejemplo, si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: sexo, edad, nivel de estudios, profesión, peso, altura, color de cabellos, etc. Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres. La población puede ser según su tamaño de dos tipos: Población finita: cuando el número de elementos es finito, por ejemplo el número de estudiantes de la Universidad de Panamá, o de una facultad o especialidad. Población infinita: cuando el número de elementos es infinito, o tan grande que pudiese considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos disponibles en el mercado, hay tantos y de tantas cualidades y precios que esta población podría considerarse infinita. Cuando se toman todas las unidades o elementos de la población, se habla de una investigación exhaustiva o censo. Si sólo se investiga una parte, se le considera como investigación parcial o muestra. Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con todos los elementos de la población sino que se realiza sobre un subconjunto de la misma. Este subconjunto se denomina muestra, cuando se toman para realizar un estudio solo a un determinado número de elementos de la población. Por ejemplo de los alumnos de la UNRN se realiza una encuesta a una parte de los alumnos mediante una elección aleatoria para conocer, por ejemplo, su nivel socioeconómico. El objetivo de trabajar con muestras es que muchas veces no se dispone de toda la información o es muy costosa obtenerla, por lo tanto, se intenta obtener una muestra que sea representativa de la población, lo cual requiere que las unidades o elementos sean seleccionadas al azar, en tal forma que cada elemento de la población (alumnos de la UNRN) tengan la misma posibilidad de ser seleccionados en la muestra. Por lo general, para las medidas obtenidas en poblaciones se usan letras mayúsculas o griegas, en cambio para las muestras, se emplean letras minúsculas. 2 2.1- Tipos de variables: Los tipos de variables fundamentales, por lo menos para este tema, serán los siguientes: a. Variables Cuantitativas o Cardinales: susceptibles de medición cuantitativa; o sea son las que se describen por medio de números y las que a su vez comprenden: i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a lo sumo numerable. Sus valores pueden representarse siempre por X1, X2, … , Xn.; y sólo se pueden asociar a un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad Ejemplos: o Número de hijos en el hogar o .Páginas de un libro ii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los valores de un intervalo de números reales, o sea que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable puede tomar cualquier valor intermedio. Ejemplos: o variable temperatura en grados Celsius (escala de intervalos). o variable longitud en cm. (escala de razón). o variable peso. o variable tiempo b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenación, pero no de medición cuantitativa, reflejan generalmente los atributos del fenómeno. Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número, y a su vez las podemos clasificar en: i. Ordenables: aquellas que sugieren una ordenación, por ejemplo la graduación militar, el nivel de estudios, etc. ii. No Ordenables: aquellas que sólo admiten un ordenamiento alfabético, pero no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo, estado civil, etc. Nota: en muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las personas –variable continua- se trabaja en años cumplidos –variable discreta-. En otros casos las variables cualitativas (atributos) se trabajan como variables cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de calificación por puntos. 2.2- Escalas de medición: a. Escala Nominal: Es una escala en que se establece un número determinado de clases o categorías de tal modo que cada elemento de la población pertenece a una y sólo una clase. Matemáticamente se dice que se ha establecido una relación de 3 equivalencia entre los elementos de la población. Si sólo existen dos clases se denomina escala dicotómica. La única operación matemática que se puede realizar con las clases de cualquier escala nominal es determinar las cantidades de elementos que les corresponden determinar sus frecuencias. Por ejemplo: o Sexo: las clases son masculino o femenino. o Especialidad: las diferentes especialidades (carreras) del CRUSAM. o Número de cedula de identidad personal. o Temperatura de una persona: sanguíneo, flemático, melancólico, colérico. o Número de placa de automóviles del país. b. Escala Ordinal: Es una escala nominal entre cuyas clases está definido un orden, de modo que cualquiera que sean dos de ellas, una será mayor o superior, en algún sentido, que la otra. Por ejemplo: o Evaluaciones en un examen: 5, 4, 3 y 2. o Grado de satisfacción de una necesidad: alto, medio, bajo o Conocimiento de un idioma: excelente, bien, regular, mal c. Escala de Intervalos: No es más que una escala ordinal con una distancia, una unidad de medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede saber cuan distante está uno del otro. La unidad de medida es arbitraria, pero común y el punto de inicio (cero) es también arbitrario. Cuando se tiene una escala de intervalo se pueden realizar las operaciones de adición y sustracción, pero no necesariamente la multiplicación y división dentro de la escala. Por ejemplo: o La temperatura del aire. (caluroso, fresco, agradable, etc.) d. Escala de Razones: Es una escala de intervalos donde existe un cero absoluto que marca la ausencia total del atributo en estudio. La proporción entre los atributos de dos individuos cualesquiera es independiente de la escala de medida utilizada. En ella la razón entre dos clases (puntajes) cualesquiera permanece invariable ante toda la transformación de la escala de razón, o sea ante toda transformación del tipo y=Φ(x). De aquí que siempre el cero de la escala transformada coincide con el cero de la escala original. En las escalas de razones es posible realizar todas las operaciones aritméticas con los puntajes. Por ejemplo: o Estatura de los alumnos: la estatura en metros es proporcional a la estatura en pulgadas. o Peso de los alumnos: (en libras o kilogramos) 4 o El tiempo invertido en una prueba de velocidad en educación física (en minutos o segundos). 2.3- La representación de los datos: FRECUENCIAS. Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases y categorías y determinar las frecuencias de las clases, o sea, el número de elementos que pertenecen a una clase. El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de clases se denomina distribución de frecuencias El caso que se describe a continuación, variables discretas se denomina distribución por conteo de valores individuales. Supongamos que un determinado colectivo, representado por la variable estadística Xi, que para mayor sencillez consideraremos como unidimensional; sean los datos de esta variable (representativo cada uno de ellos de un suceso) X1, X2, … , Xn (supuesto que sean n los valores de la variable considerada.) Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo; consecuentemente, si una variable estadística toma r valores, cada uno de los cuales puede repetirse un cierto número de veces, podríamos decir que el número de datos representado por la variable serían N, siendo N la suma de las respectivas frecuencias de cada dato (N=ΣXi). Este valor N será denominado como frecuencia total, mientras que la frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente frecuencia (fi). La frecuencia absoluta nos habla del número de veces que un dato aparece en un colectivo, más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en el seno de un colectivo, puesto que no es suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se definirá como: el coeficiente entre la frecuencia absoluta del dato considerado y la frecuencia total (fr=fi/ΣXi). Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias: frecuencias absolutas: es el número de veces que aparece en la muestra dicho valor de la variable y se representa por fi. frecuencias relativas: es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fri frecuencias absoluta acumulada: para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por fa, se puede acumular, en la tabla estadística) en orden ascendente (fa↑) o descendente (fa↓). frecuencia relativa acumulada: al igual que en el caso anterior se calcula como el cociente entre la frecuencia absoluta acumulada dividido por el tamaño de la muestra (N) y la denotaremos por fra. Resumiendo lo expuesto, si Xi es un valor de la variable, podemos representar por fi a su frecuencia y por fi/ΣXi a su frecuencia relativa (siendo ΣXi=N o la frecuencia total). Para el conjunto de los valores de la variable X i tendríamos, 5 así la tabla #1, compresiva de la información sobre dicha variable, a través de las respectivas frecuencias: Valores de la variable Xi (datos) X1 X2 … … Xn Tabla 1: Variables Discretas frecuencias absolutas frecuencias relativas fi fi/N F1 F2 … … fn f1/N f2/N … … fn/N Donde: N=Σfi y Σfi/N=1 Otro es el caso de las clases representadas en forma de intervalos, variables continuas, llamados intervalos de clases que poseen extremos llamados limite inferior y limite superior, Un intervalo se dice que es abierto o no cerrado, por un extremo si no contiene el límite correspondiente. La longitud, tamaño o amplitud de un intervalo de clases (C) es la diferencia entre los limites superior e inferior (C=lim sup – lim inf). El Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=Xn – X1) En el caso de variables continuas será necesario fijar intervalos de frecuencias para llegar a un resumen efectivo de la información original. A menudo es necesario representar una clase, o más particularmente, un intervalo por un único valor, este representará a todo el intervalo y se denominará marca de clases. Matemáticamente el punto medio de cada intervalo corresponde a lo que denominamos marca de clase, se denotará por Xi, y constituirá el valor representativo de cada intervalo. El número de observaciones que correspondan a cada intervalo se denominará frecuencias absolutas. Intervalos (C) X1-X2 X2-X3 … … Xn-1-Xn Tabla 2: Variables Continuas Marcas de Clases Frecuencias Absolutas Xi fi X1 f1 X2 f2 … … … … Xn fn Donde X’ – X” Xmi = ------------- = Marca de clases 2 N = Σfi = Número de observaciones C = X’ – X” = Amplitud del intervalo 6 Por último, en el caso de variables no mensurables, dicha tabla adoptará una forma como la siguiente: Tabla3: Variable Ordinales Variable Frecuencias Característica A fA Característica B fB … … … … Característica Z fZ 2.4- Método para agrupar la información en intervalos de clase La forma de cómo agrupar los datos muchas veces depende del objeto de estudio para el cual se realiza el análisis de los datos, con lo cual, no hay una única manera de presentar los datos en intervalos de clase. Sin embargo, si a priori no se sabe como agruparlos, existe una técnica que sirve para determinar la forma en que podríamos presentar dichos datos de manera agrupada (o en clases). Dicha técnica es la siguiente: El primer paso consiste en determinar la cantidad de intervalos (k). Por lo general se utilizan 2 formas, que dependen del tamaño de la muestra, es decir, de n. Si n < 100, entonces k 1 3,3 * log( n) Si n > 100, entonces k n (Como dichas formas no garantizan un nº entero, se recomienda aproximar por derecha) Luego, se debe obtener el rango de variación de los datos (w), que no es más que obtener la diferencia entre el mayor valor observado y el menor. w = max (xi) – min(xi), para todo i = 1, 2, ….,n (n= Nº de observaciones) Una vez ello, se puede obtener la amplitud de cada intervalo de clase, que lo llamamos h. En el caso que se busquen amplitudes regulares, entonces la amplitud de cada intervalo se obtiene de la siguiente manera: w h k 1 Por último, debe definirse el límite inferior de la primear clase ( linf ) . Por lo general se toma el valor mínimo observado, aunque ello también dependerá de la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si tenemos un mínimo de 1,503 m, tal vez convenga empezar con 1,5m. Nota aclaratoria: como los valores verdaderos a utilizar de k, h y l 1 inf no siempre son exactamente los valores que surgen de las relaciones antes planteadas (ya sea por temas de redondeo en el caso de k o por aproximación, según conveniencia, en los casos de h o l 1 inf ), entonces para garantizar que los intervalos cubran todo el rango de variación de los datos observados, necesariamente debe cumplirse que: k * h + l 1 inf > max(xi) 7 Ejemplo: La tienda CANTORAS Y ASOC. estaba interesada en efectuar un análisis de sus cuentas por comprar. Uno de los factores que más interesaba a la administración de la tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en unidades monetarias) como sigue: 77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99 43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97 32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68 Solución: 1- Efectuar el arreglo ordenado de la población o muestra: A= ( 7.42, 8.15, …, …, …, 90.99, 93.91 ) donde: X1 = valor mínimo = 7.42 Xn= valor máximo = 93.91 2 - Encontrar el rengo o recorrido de los datos: “w” w = valor mayor – valor menor = Xn – X1 = 93.91 – 7.42 = 86.49 3- Encontrar en número de clases “k”, según la fórmula del logaritmo, dado que n<100. : k=1+3.322(log N) Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra: K = 1 + 3.322 (log 30) = 1 + 3.322 (1.477) el log fue obtenido según calculadora = 1+ 4.9069 = 5.9069 ~6 aproximado al siguiente entero 4- Determinar la amplitud de la clase: “h” w 86.49 h = -------- = ---------- = 14.415 k 6 Clases 7.420 – 21.835 21.835 – 36.250 36.250 – 50.665 50.665 – 65.080 65.080 – 79.495 79.495 – 93.910 Total X mi fi fr fa↓ fa↑ 14.628 10 0.33 10 30 29.043 4 0.13 14 20 43.458 5 0.17 19 16 57.873 3 0.10 22 11 72.288 3 0.10 25 8 86.703 5 0.17 30 5 XXX 30 1.00 XXX XXX fra↓ fra↑ 0.33 0.46 0.63 0.73 0.83 1.00 XXX 1.00 0.67 0.54 0.37 0.27 0.17 XXX Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o sea como los datos están dados en centésimos, se calculo C hasta los milésimos para evitar que algún dato coincida con el límite de clases 8 Simbología utilizada: X mi = Punto medio o marca de clases fi = frecuencia absoluta fr = frecuencia relativa fa↓ = frecuencia absoluta acumulada descendente fa↑ = frecuencia absoluta acumulada ascendente fra↓ = frecuencia relativa acumulada descendente fra↑ = frecuencia relativa acumulada ascendente Nota: iObsérvese que el límite inferior de la primera clase es el valor mínimo ( X1=7.42 ) y el límite superior es el resultado de X 1+h = 7.42+14.415 = 21.835. iiEl límite inferior de la siguiente clase es igual al límite superior de la clase anterior y el límite superior es el resultado de adicionarle nuevamente la amplitud de la clase (h ). iiiObsérvese que el límite superior de la última clase es igual al valor mayor ( Xn=93.91 ) 3. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS. Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla, que denominaremos distribución de frecuencias, en la que cada valor de la variable se le asocian determinados números que representan el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable, etc. Por tanto, llamaremos distribución de frecuencias a un agrupamiento de datos en clases acompañada de sus frecuencias: frecuencias absolutas, frecuencias relativa o frecuencia porcentuales. En caso de que las variables estén al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas absolutas, y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias varían en dependencia si corresponden a una variable discreta o a una variable continua. 3.1- Tipos de distribuciones de frecuencias Las curvas de frecuencia presentan determinadas formas características que les distinguen como se indica en la Figura 3. a - Las curvas de frecuencia simétricas o bien formadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal. b- En las curvas de frecuencia moderadamente asimétricas o sesgadas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo. c- En las curvas en forma de J o de J invertida, el máximo se presenta en un extremo. d- Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos. e- Una curva de frecuencias bimodal tiene dos máximos. f- Una curva de frecuencias multimodal tiene más de dos máximos.: 9 3.2 Representaciones Gráficas de la Distribución de Frecuencias a. Cuadros estadísticos: La estadística es una disciplina que nos enseña a organizar los datos recogidos para poder analizar sus características y posteriormente inferir, a partir de las muestras tomadas, las características de la población investigada. Los cuadros o tablas corresponden a arreglos sistemáticos de los datos por filas y columnas y son un buen complemento del texto en los informes El primer procedimiento estadístico consiste en tabular los datos según el tipo de escala de medición utilizada. La tabulación de los datos conlleva a representar la información a través de tablas que de forma general contiene las siguientes partes fundamentales: 1- Numeración (siempre que se presenten dos o más cuadros) 2- Título: es la descripción que precede al cuadro, la cuál deberá estar redactada en forma breve y clara, de tal manera que exprese su contenido, siguiendo el ordenamiento del mismo. Es necesario abarcar las características: Qué, Dónde, Cómo y Cuándo 3- Encabezamiento: se refiere al número de atributos o variables que se quieren representar en el cuadro y se anotan como denominaciones de las columnas y subcolumnas; puede ser unidimensional, bidimensonial o multidimensional. Los títulos de las columnas van en mayúsculas y los subtítulos en minúsculas 4- Cuerpo: es el conjunto de columnas y líneas que contiene el cuadro en orden vertical y horizontal, donde se colocan los datos sobre los hechos observados 10 5- Pie: se refiere a la información adicional necesaria a saber: notas, llamadas, fuentes de información y otras. Se anotan en el espacio debajo de la línea inferior que limita el cuerpo del cuadro. b -Gráficos Estadísticos: El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos, es de fácil comprensión y accesible a un número mayor de usuarios. El gráfico además de expresar visualmente los hechos más importantes de la información numérica, permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en el análisis de datos estadísticos al facilitar su apreciación visual en forma conjunta: -Histogramas de frecuencias: Un histograma es un gráfico que sirve para representar una distribución de frecuencias. Este gráfico está formado por un conjunto de rectángulos (caso de variables continuas) que tienen como base un eje horizontal (generalmente el eje de las abscisas o de las X), y como centro los puntos medios de las clases. Los anchos de las clases y las áreas de los rectángulos son proporcionales a las frecuencias de las clases. En el caso de las variables discretas el gráfico consiste de un conjunto de barras verticales en lugar de rectángulos, hallándose cada barra sobre la observación respectiva y con una altura proporcional a la frecuencia de la observación - - Polígono de frecuencias: El polígono de frecuencias es un gráfico formado por líneas quebradas, que tiene los centros de las clases representadas en un eje horizontal (eje de las X) y las frecuencias de las clases en un eje vertical (eje de las Y). La frecuencia correspondiente a cada centro de clase se señala mediante un punto y luego los puntos consecutivos se unen por líneas rectas. Del correspondiente histograma se puede lograr el polígono de frecuencia uniendo los puntos medios de las bases superiores de cada rectángulo mediante líneas rectas. 11 -Ojivas: Las ojivas se refieren a los gráficos que se construyen utilizando una distribución acumulativa de frecuencias, el orden de acumulación se aplica al cuadro de distribución de frecuencia y puede ser descendente (fa↓, fra↓) o ascendente (fa↑, fra↑). La figura que se forma al unir los puntos del polígono de frecuencias acumulativas es lo contrario del orden anunciado (por ejemplo si se utilizó el orden descendente en la acumulación de los datos en el cuadro, la ojiva resulta ser ascendente). 4- MEDIDAS DE TENDENCIA CENTRAL Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo representan los extremos, más bien que valores típicos. Entonces sería más adecuado buscar un valor central. Las medidas que describen un valor típico en un grupo de observaciones suelen llamarse medidas de tendencia central. Es importante tener en cuenta que estas medidas se aplican a grupos más bien que a individuos. Un promedio es una característica de grupo, no individual. Media aritmética: Por lo general si la media se refiera a una población se lo denota con la letra griega x y si proviene de una muestra con la letra x . 12 n x X i 1 i n Es la medida de tendencia central más obvia que se puede elegir, y es el simple promedio de las observaciones del grupo, el cual se obtiene sumando todas las observaciones y dividiendo esta suma por el número de observaciones que hay en el grupo. En realidad hay muchas clases de promedios y ésta se la llama media aritmética para denotar la suma de un grupo de observaciones dividida por su número. Mediana me : es otra medida de tendencia central que se utiliza con mucha frecuencia es la mediana, que es el valor situado en medio en un conjunto de observaciones ordenadas por magnitud. Moda mo : es otra medida de tendencia central es la moda o modo y es el valor que ocurre con más frecuencia en un conjunto de observaciones. 4.1 -Otras Medidas de Tendencia Central Centro de amplitud: Es el valor que queda en medio de los valores mínimo y máximo. ca xmax xmin 2 Media geométrica: La media geométrica de un conjunto de observaciones es la raíz n ésima de su producto. El cálculo de la media geométrica exige que todas las observaciones sean positivas. G n x1 * x2 * ... * xn El logaritmo de la media geométrica es igual a la media aritmética de los N log( xi ) logaritmos de la variable: log( G ) N i 1 La media geométrica, a diferencia de la media aritmética no está influenciada por valores extremos grandes, pero sí se ve afectada por valores extremos chicos y no puede calcularse para valores de la variable negativos. Suele utilizarse en la construcción de números índices. Media armónica: Es el inverso de la media aritmética de los inversos de las observaciones. H n n 1 i 1 xi 13 La recíproca de la media armónica es igual a la media aritmética. Esta medida se la utiliza para promediar cocientes donde el denominador es variable. Propiedades de las medias: H < G < Media ponderada: En ciertas circunstancias no todas las observaciones tienen igual peso. En general si se tienen observaciones con sus respectivos pesos es: n xw w x i 1 n i i w i 1 i Cuartiles, Deciles y Percentiles: Son medidas similares a la mediana. Mientras la mediana divide la población en dos mitades, los cuarteles la dividen en cuatro cuartos, los deciles en 10 partes y los percentiles en 100 partes. Si denotamos a los cuartiles, deciles y percentiles respectivamente como Qi ; Di yPi , donde el subíndice i hace referencia al orden o número del cuartil (decil o percentil). Por ejemplo: el cuarlil 1 (Q1 ) representa el valor de x, tal que conforme a un ordenamiento ascendente de las observaciones, contiene al primer cuarto de las observaciones (25% de la población). i * n 1 Qi x 2 4 i * n 1 Di x 10 2 i * n 1 Pi x 100 2 Las fórmulas nos dan el número de la observación, según el ordenamiento ascendente que represente el cuartil (decil, percentil). Así, por ejemplo, si Q3=6, nos indica que el cuartil 3 está representado por el sexto valor según el ordenamiento ascendente. P40=62,5, nos indica que el percentil 40 está ubicado entre el valor 62 y 63 del ordenamiento ascendente. Nótese que la mediana se corresponde con Q2, D5 y P50. 5. MEDIDAS DE VARIABILIDAD Amplitud: Se obtiene restando el valor mínimo del máximo en un conjunto de observaciones. La amplitud tiene la ventaja de que es fácil de calcular y sus unidades son las mismas que las de la variable que se mide. La amplitud no toma en consideración el número de observaciones de la muestra estadística, sino solamente la observación del valor máximo y la del valor mínimo. Sería deseable utilizar también los valores intermedios del conjunto de observaciones. 14 Desviación media: Esta medida es más acorde que la de amplitud, ya que involucra a todos los valores del conjunto de observaciones corrigiendo la desviación. Ésta medida se obtiene calculando la media aritmética de la muestra, y luego realizando la sumatoria de valor absoluto de las diferencias de todos los valores con respecto de la media. Luego se divide por el número de observaciones. Una medida como ésta tiene la ventaja de que utiliza cada observación y corrige la variación en el número de observaciones al hacer la división final. Y por último también se expresa en las mismas unidades que las observaciones mismas. n i 1 DM x ( xi x ) * f i n Varianza: Ésta medida se obtiene calculando la media aritmética de la muestra, y luego realizando la sumatoria de las diferencias al cuadrado de todos los valores con respecto de la media. Luego se divide por el número de observaciones, el cual es otro mecanismo para solucionar el efecto de cancelación para entre diferencias positivas y negativas. Si elevamos al cuadrado cada diferencia antes de sumar, desaparece la cancelación. Varianza muestral: S 2 x Varianza Poblacional: n i 1 2 x ( xi x) 2 * f i n 1 n i 1 ( xi x ) 2 * f i N Esta fórmula tiene una desventaja, y es que sus unidades no son las mismas que las de las observaciones, ya que son unidades cuadradas. Esta dificultad se soluciona, tomando la raíz cuadrada de la ecuación anterior, que es la desviación típica. La diferencia entre la varianza muestral y poblacional es que se divide a la sumatoria de las diferencias al cuadrado por el total de la población (N) y para las muestras por (n-1), que es el numero de observaciones de la muestra menos uno. Ello, por desgracia ahora no podemos analizarlo, ni dar una respuesta entendible, tema que se analizará en la unidad correspondiente a estimadores. Desviación típica: Es la raíz cuadrada de la varianza. n Desvío muestral: S x S 2 x i 1 ( xi m x ) 2 * f i n 1 n Desvío poblacional: x 2 x i 1 ( xi x ) 2 * f i N 15 Entonces en este caso la unidad de x o S x es la misma que la del conjunto de observaciones de la muestra estadística. Coeficiente De variación: Es el cociente entre la desviación típica y la meria aritmética. Al ser un cociente entre magnitudes que están expresadas en las mismas unidades, tla cociente no posee unidades y es una medida de razón, lo cual permite la comparación entre datos alternativos que presentad diferentes unidades de medida. 6. FÓRMULAS PARA DATOS AGRUPADOS k Media muestral: x x i 1 mi * fi n Donde: k = cantidad de intervalos; n= nº de observaciones; xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i k Media Poblacional: x x i 1 mi * fi n Donde: k = cantidad de intervalos; n= nº de observaciones; xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i k (x Varianza muestral: i 1 mi x) 2 * f i (n 1) Donde: k = cantidad de intervalos; n= número de observaciones; xmi = valor medio del intervalo i x = media muestral para datos agrupados k (x Varianza poblacional: i 1 mi mx ) 2 * f i n Donde: k = cantidad de intervalos; n= número de observaciones. xmi = valor medio del intervalo i. mx media poblacional. n ( f an ) * I Mediana: Li 2 = fa 16 Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la mediana. I = longitud del intervalo o clase que contiene la median. Li = límite inferior del intervalo que contiene la mediana. fa = frecuencia absoluta del intervalo que contiene la mediana. Modo: Li ( d1 )*I = d1 d 2 Donde: d1 = diferencia entre la frecuencia de la clase modal y la anterior. d2 = diferencia entre la frecuencia de la clase modal y la posterior. I = longitud del intervalo modal (o clase modal). Li = límite inferior del intervalo modal. Cuartiles, Deciles y Percentiles para datos agrupados: Qi Linf i*n Fant ) [ 4 ]* I fa ; Di Linf i*n Fant ) [ 10 ]* I ; fa ( Qi Linf ( i*n Fant ) [ 100 ]* I fa ( Donde: Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = numero de cuartil / decil / percentil; n= total de observaciones. Linf Límite exactamente inferior del intervalo que contiene el cuartil / decil/ percentil. Fant frecuencia acumulada simple del intervalo anterior al que contiene el cuartil / decil / percentil. f a frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil. I= amplitud del intervalo que contiene el cuartil /decil / percentil. 7. MEDIDAS DE DEFORMACIÓN Las medidas de deformación, nos sirven para comparar una distribución dada con una distribución normal estándar (campana de gauss). ASIMETRÍA: Una función de distribución de frecuencias es simétrica cuando las frecuencias simples correspondientes a valores de la variable equidistantes de la media son iguales. 17 s R f (m s ) f (m s) (nota aclaratoria: Si la distribución es simétrica, los momentos centrados de orden impar son nulos debido a que las desviaciones positivas y negativas multiplicadas por sus respectivas frecuencias se compensan.) Para calcular la asimetría se utiliza la siguiente forma: As= u3 n i 1 ( Xi X ) 3 * fi n i 1 ( xi x) 2 * fi Resultados posibles: n 3 ( n ) 3 2 As = 0 la distribución es simétrica ( me = m = mo) As > 0 la distribución es asimétrica positiva (m > mo). Las desviaciones positivas superan a las negativas. As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones negativas superan a las positivas. Si bien la anterior fórmula es la general, en muchos paquetes estadísticos se utilizan otras como: 1º coeficiente de Pearson: CA1 = m me , donde si Cam - me s CA1 0 La distribución es simétrica CA1 0 La distribución presenta asimetría positiva. CA1 0 La distribución presenta asimetría negativa. 3 * ( m me ) , s En este caso el rango de variación es (-3;3), donde: CA2 0 La distribución es simétrica CA1 0 La distribución presenta asimetría positiva. CA1 0 La distribución presenta asimetría negativa. 2º coeficiente de Pearson: CA2 = Paquetes estadísticos: n ( xi x) 3 [ ( ) ], (n 1) * (n 2) s Los valores significan lo mismo que para los casos anteriores. CA3 CURTOSIS (o KURTOSIS): Se refiere al apuntamiento de una distribución comparada con el de una normal. Permite comparar la altura de la distribución con la de una normal. Para calcular la curtosis, normalmente se utiliza la siguiente fórmula: K 4 3 4 n i 1 ( xi x) 4 * fi n ( n i 1 ( xi x) * fi 3 2 n )4 18 Resultados posibles: K = 0 la distribución es MESOCÚTICA (posee la misma altura que una distribución normal estándar). K > 0 la distribución es LEPTOCÚRTICA (posee MAYOR altura que una distribución normal estándar). K < 0 la distribución es PLATOCÚRTICA (posee MENOR altura que una distribución normal estándar). As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones negativas superan a las positivas. Al igual que en la asimetría, en algunos paquetes estadísticos la curtosis se calcula como: n(n 1) xi x 4 3(n 1) 2 n , cuyos resultados representan lo ( ) } (n 1)( n 2)(n 3) i 1 s (n. 2)(n 3) mismo que el caso anterior. K { 8. DATOS MULTIVARIADOS A veces, los elementos de una población pueden tener algunos valores asociados entre si. Por ejemplo, si en cada observación se analizan varias características estamos ante la presencia de datos multivariados. En el caso particular que se analicen dos características, de dice que los datos son BIVARIADOS. En el caso particular de datos bivariados, tendremos entonces por cada observación, un par de valores, cada uno correspondiente a la característica que se desea estudiar. Por ejemplo, al analizar el largo y el ancho del caparazón de las tortugas, tendremos que por cada tortuga dos valores (largo; ancho). De esta forma, si los datos constan de pares de arreglos (x1; y1); (x2; y2);….; (xn; yn). Podemos entonces representar dichos datos mediante un diagrama de dispersión, que consiste en representar cada par ordenado en un sistema coordenado bidimensional. De esta forma el grafico nos permite ver si visualmente puede hallarse algún tipo de asociación entre los valores de x e y. Por ejemplo, puede verse que los datos no siguen ningún patrón de comportamiento general (relación entre x e y), se sigue una relación casi lineal o tal vez una relación no lineal (parábola, hipérbola, logarítmica, exponencial, etc). A parte de esta representación gráfica puede establecerse analíticamente si existe algún tipo de asociación entre las variables. Una de las medidas que generalmente se utiliza para saber si existe algún grado de asociación entre variables es la Covarianza. Se defina la covarianza entre X e Y como: Cov( x; y ) (x m x ) * ( y my ) n o alternativamente: n Cov( x; y ) ( xi * y i ) i 1 n n ( n xi i 1 n y * i 1 n i ) media( xy) media( x) * media( y ) Es una medida que sirve para diagnosticas si dos variables son independientes. En este sentido, se entiende que la variable X es independiente de Y, si no existe 19 relación entre los valores que toma la variable X con respecto a los valores que toma la variable Y (asociar con eventos independientes en probabilidad). De este modo, la covarianza da idea del grado de asociación lineal entre variables. Es como una medida de intensidad de asociación lineal. Si Cov(X;Y) = 0, entonces se entiende que no existe asociación lineal entre las variables lo cual indica que son independientes. Cov(X;Y) > 0, nos indica una asociación lineal positiva, es decir, que si los valores de X crecen, por lo general también lo harán los valores de la variable Y. Cov(X;Y) < 0, nos indica una asociación lineal negativa, es decir, que si los valores de X crecen respecto a su media, por lo general los valores de Y caerán respecto de su media. La Covarianza posee la característica que posee unidades, las cuales está dada por la multiplicación de las unidades de la variable X e Y. Ello en la práctica genera algunas desventajas dado que a los efectos de comparar covarianzas para variables diferentes, no es posible determinar cual de los dos pares de variables aleatorias está mas relacionado, dado que las dos covarianzas presentan unidades diferentes. Para ello, se utiliza el concepto de correlación, que no posee unidades. Correlación: ( x;Y ) Cov( X ; Y ) x y Para dos variables aleatorias X e Y: 1 ( x;Y ) 1 Es evidente que si Cov(X;Y)=0, entonces ( x;Y ) Cov( X ; Y ) x y =0, lo cual indica que X e Y no están correlacionadas. Así, entonces diremos que si dos variables aleatorias (X e Y) son independientes, entonces X e Y no están correlacionadas. 20