Download Tipos de variables y sus escalas de medida
Document related concepts
Transcript
Definición de Estadística Estadística: ciencia que se ocupa de recoger, clasificar, representar y resumir los datos de muestras, y de hacer inferencias (extraer conclusiones) acerca de las poblaciones de las que éstas proceden. 1. Estadística descriptiva: parte de la estadística que se ocupa de recoger, clasificar, representar y resumir los datos de las muestras. 2. Estadística inferencial: parte de la estadística que se ocupa de llegar a conclusiones (inferencias) acerca de las poblaciones a partir de los datos de las muestras extraídas de ellas. | Conceptos generales •Población: conjunto de individuos con propiedades comunes sobre los que se realiza una investigación de tipo estadístico. •Muestra: subconjunto de la población. •Tamaño muestral: número de individuos que forman la muestra. •Muestreo: proceso de obtención de muestras representativas de la población. •Variable: propiedad o cualidad que puede manifestarse bajo dos o más formas distintas en un individuo de una población. •Modalidades, categorías o clases: distintas formas en que se manifiesta una variable. Tipos de variables • Multiestado: La variable puede tomar de 2 valores. • Doble estado (binarias): La variable puede tomar sólo 2 posibles valores (ej. Si ó No; Presencia ó Ausencia). • Cualitativas: Expresan cualidades o atributos (ej. Color). • Cuantitativas: Expresan magnitudes o cantidades que son resultados de medición de algún instrumento, conteos de eventos u operaciones matemáticas simples: • Discretas: La magnitud es expresable sólo mediante números enteros (ej. Número de hijos de una familia); • Continuas: Existe potencialmente un número infinito de valores entre dos puntos de la escala (ej. Peso); • Derivadas: Generadas a partir de cálculos simples de medidas discretas o continuas (ej. Índice de masa corporal = Masa/Talla²). Escalas de medida • Nominal: La cualidad que se mide no tiene ninguna secuencia lógica (ej. Sexo: Femenino ó Masculino). • Ordinal: Las observaciones pueden ser ordenadas de menor a mayor, pero las distancias no tienen sentido (ej. Opinión sobre la calidad de un producto: Muy malo, Malo, Regular, Aceptable, Bueno, Muy bueno, Excelente). • Intervalo: Las distancias tienen sentido, su magnitud es igual a todo lo largo de la escala, se puede realizar comparaciones; pero el cero es arbitrario, por lo que operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados. • Razón: Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida. Tabulación de los datos • Variables cualitativas • Ejemplo de recogida (no ordenada) de unos datos cualitativos: Francés Francés Francés Ruso Francés Francés Español Español Alemán Español Inglés Inglés Español Alemán Inglés Alemán Español Alemán Inglés Español Inglés Inglés Alemán Español Inglés Inglés Francés Francés Inglés Inglés Español Francés Ruso Francés Español Inglés Francés Inglés Inglés Francés • Frecuencia absoluta de la clase i-ésima: fi = número de observaciones contenidas dentro de ella. • Frecuencia relativa de la clase i-ésima: hi = fi /n, siendo n el número total de observaciones. • Porcentaje de la clase i-ésima: %i = 100* hi . • Se verifican las propiedades siguientes: f1 + f2 + … + fk = n h1 + h2 + … + h k = 1 %1 + %2 + … + %k = 100, siendo k el número de clases. • Distribución de frecuencias: tabla conteniendo las distintas clases y frecuencias correspondientes a cada una de ellas. La distribución de frecuencias de los datos cualitativos del ejemplo anterior: Clases Frecuencia absoluta Frecuencia relativa Porcentaje Alemán 5 0.125 12.5 Español 9 0.225 22.5 Francés 11 0.275 27.5 Inglés 13 0.325 32.5 Ruso 2 0.050 5.0 Total 40 1.000 100.0 Variables discretas En una investigación sobre lesiones por deportes escolares, se seleccionaron y estudiaron 25 colegios dentro de una misma ciudad. Se obtuvieron los siguientes datos sobre el número de lesiones graves causadas a atletas masculinos mientras participaban en baloncesto: 1 2 4 4 7 3 3 2 4 5 2 4 3 5 3 4 4 3 6 5 5 6 4 6 5 • Los mismos criterios usados para el caso cualitativo sirven para el caso cuantitativo discreto a la hora de presentar tabularmente los datos. Además se pueden calcular: • Frecuencia absoluta acumulada de la clase i-ésima: Fi = f1 + f2 + … + fi = número de individuos que caen dentro de dicha clase y cualquier clase anterior (una vez ordenadas las clases de menor a mayor). • Frecuencia relativa acumulada de la clase i-ésima: Hi = h1 + h2+ … + hi = Fi /n. La distribución de frecuencias de los datos cuantitativos discretos del ejemplo anterior es: Valores de la variable Frecuencia absoluta Frecuencia relativa Frecuencia absoluta acumulada Frecuencia relativa acumulada 1 1 0.04 1 0.04 2 3 0.12 4 0.16 3 5 0.20 9 0.36 4 7 0.28 16 0.64 5 5 0.20 21 0.84 6 3 0.12 24 0.96 7 1 0.04 25 1.00 Total 25 1 Variables continuas • Los datos procedentes de una variable continua se pueden tabular de la misma que los datos de una variable discreta, pero lo usual en el caso de variable continua es dividir el intervalo de valores posibles en intervalos contiguos llamados intervalos de clase. Una vez agrupados los datos en intervalos, éstos se tabulan de forma análoga al caso de variable discreta. • Número adecuado de intervalos (Regla de Sturges): k = 1 + 3.322*log(n). • Amplitud del intervalo de clase (li, li+1): d = li+1 – li • Marca de clase del intervalo (li, li+1): xi = (li + li+1)/2 Ejemplo de recogida (no ordenada) de unos datos cuantitativos continuos: 3.9 2.5 1.9 4.1 1.1 7.3 4.2 8.1 2.4 3.2 5.1 4.9 1.6 2.7 1.6 5.0 6.3 2.5 1.2 6.5 3.3 1.9 1.8 5.2 4.4 Pasos para la agrupación en intervalos de clase de igual amplitud: 1. Se calcula el recorrido de las observaciones: R = xmax – xmin = 8.1 – 1.1 = 7.0 2. El número de intervalos de clase que se puede tomar para agrupar los datos es: k = 1 + 3.322*log25 = 5.64, que aproximamos por el número natural siguiente: k = 6. 3. Por tanto, la amplitud de cada intervalo es: d = R/k = 7/6 = 1.667. Al no ser exacta, se aproxima la cantidad anterior a un número ligeramente superior, por ejemplo, d = 1.17. • Como la amplitud de los intervalos la se tomó un poco mayor de lo que se obtiene en un principio, entonces el nuevo recorrido es: R´ = número de intervalos*amplitud = 6*1.17 = 7.02. • Como el recorrido original es 7, entonces sobra 0.02, con lo cual se reparte este sobrante restando la mitad a la observación mínima y sumando la otra mitad a la observación máxima, es decir: xmin – 0.01, xmax + 0.01, con lo que se obtienen los seis intervalos de clase determinados por los valores siguientes: xmin – 0.01 = 1.10 – 0.01 = 1.09 1.09 + 1.17 = 2.26 2.26 + 1.17 = 3.43 3.43 + 1.17 = 4.60 4.60 + 1.17 = 5.77 5.77 + 1.17 = 6.94 6.94 + 1.17 = 8.11 = xmax + 0.01. • Los intervalos son: (1.09;2.26], (2.26;3.43], (3.43;4.60], (4.60;5.77], (5.77;6.94], (6.94;8.11]. Se agrupan los datos en los intervalos anteriores y se obtiene su distribución de frecuencias en la tabla siguiente: Intervalos de clase Marca de clase Frecuencia absoluta Frecuencia relativa Frecuencia absoluta acumulada Frecuencia relativa acumulada (1.09;2.26] 1.675 7 0.28 7 0.28 (2.26;3.43] 2.845 6 0.24 13 0.52 (3.43;4.60] 4.015 4 0.16 17 0.68 (4.60;5.77] 5.185 4 0.16 21 0.84 (5.77;6.94] 6.355 2 0.08 23 0.92 (6.94;8.11] 7.525 2 0.08 25 1.00 25 1.00 Total Representaciones gráficas Variables cualitativas • Diagrama de barras: se sitúan en el eje horizontal las clases y sobre cada una de ellas se levanta un segmento rectilíneo (o un rectángulo) de altura igual a la frecuencia (absoluta o relativa) de cada clase: Diagrama de barras de frecuencias absolutas 14 Frecuencia absoluta 12 10 8 6 4 2 0 Alemán Español Francés Clase Inglés Ruso • Gráfico de sectores: se divide el área de un círculo en sectores circulares de ángulos proporcionales a las frecuencias absolutas de clases: Gráfico de sectores 5% 12% Alemán Español 33% 22% Francés Inglés Ruso 28% Variables cuantitativas con datos no agrupados en intervalos • Diagrama de barras: igual en el caso de variables cualitativas: Diagrama de barras de frecuencias absolutas 8 Frecuencia absoluta 7 6 5 4 3 2 1 0 1 2 3 4 Valores 5 6 7 • Polígono de frecuencias: se sitúan los puntos que resultan de tomar en el eje horizontal los distintos valores de la variable y en el eje vertical sus correspondientes frecuencias (absolutas o relativas), uniendo después los puntos mediante segmentos rectilíneos: Polígono de frecuencias relativas 0.30 Frecuencia relativa 0.25 0.20 0.15 0.10 0.05 0.00 0 1 2 3 4 Valores 5 6 7 8 • Gráfico de frecuencias acumuladas: es la representación gráfica de las frecuencias acumuladas (absolutas o relativas), para todo valor numérico. Si la frecuencia acumulada (absoluta o relativa) de un valor numérico no aparece en la distribución de frecuencias, entonces será igual a la frecuencia acumulada (absoluta o relativa) de la observación inmediatamente anterior (ordenadas de menor a mayor). Por lo tanto, el gráfico de frecuencias acumuladas siempre tiene forma de “escalera”: Frecuencia absoluta acumulada Gráfico de frecuencias absolutas acumuladas 30 25 20 15 10 5 0 0 1 2 3 4 Valores 5 6 7 8 Variables cuantitativas con datos agrupados en intervalos • Histograma de frecuencias: se sitúan en el eje horizontal los intervalos de clase y sobre cada uno se levanta un rectángulo de área proporcional a la frecuencia absoluta. (a) Si todos los intervalos tienen la misma amplitud, entonces basta con hacer los rectángulos con una altura igual a la frecuencia absoluta o relativa: (b) Si los intervalos tienen distinta amplitud, la construcción del histograma presenta una importante variación. Una vez marcados sobre el eje horizontal los extremos de los intervalos, hay que calcular la altura de los rectángulos de forma que su área sea igual o proporcional a la frecuencia absoluta del intervalo. Ejemplo: Sea la siguiente distribución de frecuencias: Intervalo Frecuencia absoluta [0; 3] 11 (3; 5.5] 10 (5.5; 6.5] 2 (6.5; 8] 1 (8; 10] 1 La fórmula del área de un rectángulo es base x altura y también se considera que los rectángulos del histograma van a tener un área igual a la frecuencia absoluta. Por ejemplo, para averiguar la altura del primer rectángulo, se tiene en cuenta que la base es igual a 3 y el área del rectángulo es igual a 11, por lo tanto la altura debe ser igual a 11/3 = 3.6667. Del segundo rectángulo: 10/2.5 = 4, del tercero: 2/1 = 2, del cuarto: 1/1.5 = 0.6667, del quinto: 1/2 = 0.5. Se obtiene la siguiente histograma: • Polígono de frecuencias: se sitúan los puntos que resultan de tomar en el eje horizontal las marcas de clase de los intervalos y en el eje vertical sus correspondientes frecuencias (absolutas o relativas), uniendo después los puntos mediante segmentos rectilíneos. • Polígono de frecuencias acumuladas: se sitúan los puntos que resultan de tomar en el eje horizontal los extremos superiores de los intervalos de clase y en el eje vertical sus correspondientes frecuencias acumuladas (absolutas o relativas), uniendo después los puntos mediante segmentos rectilíneos. Un vistazo rápido a la distribución: Tallo y Hojas Una técnica para la observación de la distribución que funciona bien es el diagrama de tallo y hojas. Es un diagrama en el que los datos puntuales se agrupan de tal modo que se puede visualizar la forma de la distribución mientras que se mantiene la individualidad de los datos puntuales. Un diagrama de tallos y hojas consiste en una serie de hileras horizontales de números. El número utilizado para designar una hilera es su tallo, el resto de números de la hilera se denominan hojas. Los pasos para seguir para diseñar el diagrama de tallo y hojas: Diseño de un diagrama de tallo y hojas simple 1. Se eligen algunos números oportunos que puedan servir de tallos. Para facilitar la determinación de la forma se necesitan al menos 5 tallos. Los tallos elegidos generalmente son el primero o los dos primeros dígitos de los números del conjunto de datos. 2. Se nombren las hileras mediante los tallos elegidos. 3. Se reproduzcan gráficamente los datos registrando el dígito, siguiendo el tallo, como una hoja del tallo adecuado. 4. Se gira el gráfico hacia un lado para ver cómo se distribuyen los números. En concreto, se intenta responder a preguntas como: a. ¿Los datos tienden a agruparse cerca de un tallo o tallos en particular o se distribuyen de forma uniforme por el diagrama? b. ¿Los datos tienden a juntarse hacia un extremo u otro del diagrama? c. Si se traza una curva a lo largo de la parte superior del diagrama ¿forma más o menos una campana? ¿Es plana? ¿Es simétrica? Ejemplo: Los siguientes datos representan las observaciones sobre la magnitud de un terremoto en California según su medición en la escala de Richter: 1.0 1.2 2.0 3.3 1.4 5.0 8.3 1.0 1.9 2.2 2.7 2.2 3.1 4.1 6.3 2.3 2.4 1.2 1.1 1.1 1.4 2.1 3.0 7.7 5.1 4.0 1.3 2.1 4.1 1.5 Los primeros dígitos de estos números son: 1, 2, 3, 4, 5, 6, 7 y 8. Estos dígitos servirán como nombres de los tallos y las hileras. A continuación se representan los datos gráficamente representando el número que aparece después de la coma decimal como una hoja del tallo apropiado. En la siguiente figura se visualiza todo el conjunto de datos. Para tener una idea de la forma, se observa la curva que se ha trazado en la parte superior del diagrama. Observando el diagrama, puede deducirse que estos datos se aproximan al extremo inferior de la escala. Muchos terremotos eran suaves. También se observa que el diagrama no es simétrica. Hay más bien una cola larga en el extremo superior. Se dice que los datos de este tipo están sesgados hacia la derecha. Diseño de un diagrama de tallos dobles Algunas veces, la utilización del primero o los dos primeros dígitos de los datos puntuales como tallos no proporciona suficientes tallos como para permitirnos detectar la forma. Una manera de solucionar este problema es utilizar tallos dobles. Es decir, utilizar cada tallo dos veces: una vez para trazar las hojas inferiores 0, 1, 2, 3, 4 y a continuación nuevamente para trazar las hojas superiores 5, 6, 7, 8, 9. Ejemplo: En un estudio del crecimiento de los varones se obtuvieron estas observaciones sobre el perímetro en centímetros de la cabeza de un niño al nacer: 33.1 34.5 33.7 33.4 33.7 36.5 34.6 35.8 36.0 34.9 34.8 34.1 34.2 34.5 34.2 33.8 33.9 34.0 36.1 34.2 34.7 33.6 34.7 35.1 34.2 34.3 34.6 35.2 35.1 35.3 35.6 35.2 34.3 34.6 34.2 Si se utilizan los primeros dos dígitos como tallos, sólo se tendrán cuatro tallos 33, 34, 35 y 36. Como no es suficiente para detectar la forma, se utilizarán dos veces cada uno de los tallos y se formará un gráfico de tallo doble con hojas inferiores y hojas superiores. A continuación se presenta el diagrama obtenido: Se observa que los datos tienden a agruparse en el área de 34 centímetros. Aunque el diagrama no es perfectamente simétrico, tiende a aproximarse a la forma de una campana. Diagrama de caja y bigotes El diagrama de caja y bigotes (boxplot) es una representación gráfica de un conjunto de datos que facilita la percepción visual de la posición, extensión y del grado y la dirección del sesgo. También permite identificar los datos atípicos. Es especialmente útil cuando se desean comparar dos o más conjuntos de datos. Un diagrama de caja es un gráfico, basado en cuartíles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes". Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartíles Q1, Q2 ó mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. 1. Ordenar los datos y obtener el valor mínimo, el máximo, los cuartíles Q1, Q2 y Q3 y el Rango Inter Cuartílico (RI) En el ejemplo: Valor 7: es el Q1 (25% de los datos) Valor 8.5: es el Q2 o mediana (el 50% de los datos) Valor 9: es el Q3 (75% de los datos) Rango Inter Cuartílico RI (Q3-Q1)=2 2. Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea. 3. Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos. Para ello se calcula cuándo se consideran atípicos los valores. Son aquellos inferiores a Q1 - 1.5*RIC o superiores a Q3 + 1.5*RIC. En el ejemplo: inferior: 7-1.5*2=4 superior: 9+1.5*2=12 4. Ahora se buscan los últimos valores que NO son atípicos, que serán los extremos de los bigotes. En el ejemplo: 5 y 10. 5. 5. Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls). En el ejemplo: 0.5 y 3.5 Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1-3*RI o Q3+3*RI. De modo que, en el ejemplo: inferior: 7-3*2=1, superior: 9+3*2=15 El valor 0.5 seria atípico extremo (se denota mediante asterisco) y el 3.5 sería atípico moderado (se denota mediante círculo abierto). Se observa que la media (cruz de color rojo) es mayor que la mediana (línea azul dentro de la caja), lo cual indica una mayor concentración de los datos a la izquierda (para los terremotos más suaves). Lo anterior también se constata al comparar los datos rectángulos formados al separar por la línea mediana y el largo de los bigotes. En el extremo derecho se observa el dato atípico moderado, correspondiente al terremoto más intenso (8.3). Los valores de la mediana y media, como también los largos de los bigotes evidencian una distribución de los datos casi simétrica con respecto a la mediana. La no existencia de los datos atípicos, confirma que esta muestra tiene comportamiento normal.