Download Tipos de variables y sus escalas de medida

Document related concepts

Histograma wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Moda (estadística) wikipedia , lookup

Transcript
Definición de Estadística
Estadística: ciencia que se ocupa de recoger, clasificar,
representar y resumir los datos de muestras, y de hacer
inferencias (extraer conclusiones) acerca de las poblaciones
de las que éstas proceden.
1. Estadística descriptiva: parte de la estadística que se
ocupa de recoger, clasificar, representar y resumir los
datos de las muestras.
2. Estadística inferencial: parte de la estadística que se
ocupa de llegar a conclusiones (inferencias) acerca de las
poblaciones a partir de los datos de las muestras
extraídas de ellas.
|
Conceptos generales
•Población: conjunto de individuos con propiedades comunes
sobre los que se realiza una investigación de tipo estadístico.
•Muestra: subconjunto de la población.
•Tamaño muestral: número de individuos que forman la
muestra.
•Muestreo: proceso de obtención de muestras representativas
de la población.
•Variable: propiedad o cualidad que puede manifestarse bajo
dos o más formas distintas en un individuo de una población.
•Modalidades, categorías o clases: distintas formas en que se
manifiesta una variable.
Tipos de variables
• Multiestado: La variable puede tomar de 2 valores.
• Doble estado (binarias): La variable puede tomar sólo 2
posibles valores (ej. Si ó No; Presencia ó Ausencia).
• Cualitativas: Expresan cualidades o atributos (ej. Color).
• Cuantitativas: Expresan magnitudes o cantidades que son
resultados de medición de algún instrumento, conteos de
eventos u operaciones matemáticas simples:
• Discretas: La magnitud es expresable sólo mediante números
enteros (ej. Número de hijos de una familia);
• Continuas: Existe potencialmente un número infinito de
valores entre dos puntos de la escala (ej. Peso);
• Derivadas: Generadas a partir de cálculos simples de medidas
discretas o continuas (ej. Índice de masa corporal =
Masa/Talla²).
Escalas de medida
• Nominal: La cualidad que se mide no tiene ninguna secuencia
lógica (ej. Sexo: Femenino ó Masculino).
• Ordinal: Las observaciones pueden ser ordenadas de menor a
mayor, pero las distancias no tienen sentido (ej. Opinión sobre la
calidad de un producto: Muy malo, Malo, Regular, Aceptable,
Bueno, Muy bueno, Excelente).
• Intervalo: Las distancias tienen sentido, su magnitud es igual a todo
lo largo de la escala, se puede realizar comparaciones; pero el cero
es arbitrario, por lo que operaciones como la multiplicación y la
división no son realizables. Un ejemplo de este tipo de variables es
la temperatura, ya que podemos decir que la distancia entre 10 y
12 grados es la misma que la existente entre 15 y 17 grados. Lo que
no podemos establecer es que una temperatura de 10 grados
equivale a la mitad de una temperatura de 20 grados.
• Razón:
Las variables de razón poseen las mismas
características de las variables de intervalo, con la diferencia
que cuentan con un cero absoluto; es decir, el valor cero (0)
representa la ausencia total de medida, por lo que se puede
realizar cualquier operación Aritmética (Suma, Resta,
Multiplicación y División) y Lógica (Comparación y
ordenamiento). Este tipo de variables permiten el nivel más
alto de medición. Las variables altura, peso, distancia o el
salario, son algunos ejemplos de este tipo de escala de
medida.
Tabulación de los datos
• Variables cualitativas
• Ejemplo de recogida (no ordenada) de unos datos cualitativos:
Francés
Francés
Francés
Ruso
Francés
Francés
Español
Español
Alemán
Español
Inglés
Inglés
Español
Alemán
Inglés
Alemán
Español
Alemán
Inglés
Español
Inglés
Inglés
Alemán
Español
Inglés
Inglés
Francés
Francés
Inglés
Inglés
Español
Francés
Ruso
Francés
Español
Inglés
Francés
Inglés
Inglés
Francés
• Frecuencia absoluta de la clase i-ésima: fi = número de
observaciones contenidas dentro de ella.
• Frecuencia relativa de la clase i-ésima: hi = fi /n, siendo n el
número total de observaciones.
• Porcentaje de la clase i-ésima: %i = 100* hi .
• Se verifican las propiedades siguientes:
f1 + f2 + … + fk = n
h1 + h2 + … + h k = 1
%1 + %2 + … + %k = 100,
siendo k el número de clases.
• Distribución de frecuencias: tabla conteniendo las distintas
clases y frecuencias correspondientes a cada una de ellas.
La distribución de frecuencias de los datos
cualitativos del ejemplo anterior:
Clases
Frecuencia
absoluta
Frecuencia relativa
Porcentaje
Alemán
5
0.125
12.5
Español
9
0.225
22.5
Francés
11
0.275
27.5
Inglés
13
0.325
32.5
Ruso
2
0.050
5.0
Total
40
1.000
100.0
Variables discretas
En una investigación sobre lesiones por deportes escolares, se
seleccionaron y estudiaron 25 colegios dentro de una misma
ciudad. Se obtuvieron los siguientes datos sobre el número de
lesiones graves causadas a atletas masculinos mientras
participaban en baloncesto:
1
2
4
4
7
3
3
2
4
5
2
4
3
5
3
4
4
3
6
5
5
6
4
6
5
• Los mismos criterios usados para el caso cualitativo sirven
para el caso cuantitativo discreto a la hora de presentar
tabularmente los datos. Además se pueden calcular:
• Frecuencia absoluta acumulada de la clase i-ésima:
Fi = f1 + f2 + … + fi
= número de individuos que caen dentro de dicha clase y
cualquier clase anterior (una vez ordenadas las clases de
menor a mayor).
• Frecuencia relativa acumulada de la clase i-ésima:
Hi = h1 + h2+ … + hi = Fi /n.
La distribución de frecuencias de los datos
cuantitativos discretos del ejemplo anterior es:
Valores de la
variable
Frecuencia
absoluta
Frecuencia
relativa
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
1
1
0.04
1
0.04
2
3
0.12
4
0.16
3
5
0.20
9
0.36
4
7
0.28
16
0.64
5
5
0.20
21
0.84
6
3
0.12
24
0.96
7
1
0.04
25
1.00
Total
25
1
Variables continuas
• Los datos procedentes de una variable continua se pueden
tabular de la misma que los datos de una variable discreta,
pero lo usual en el caso de variable continua es dividir el
intervalo de valores posibles en intervalos contiguos llamados
intervalos de clase. Una vez agrupados los datos en
intervalos, éstos se tabulan de forma análoga al caso de
variable discreta.
• Número adecuado de intervalos (Regla de Sturges):
k = 1 + 3.322*log(n).
• Amplitud del intervalo de clase (li, li+1): d = li+1 – li
• Marca de clase del intervalo (li, li+1):
xi = (li + li+1)/2
Ejemplo de recogida (no ordenada) de unos
datos cuantitativos continuos:
3.9
2.5
1.9
4.1
1.1
7.3
4.2
8.1
2.4
3.2
5.1
4.9
1.6
2.7
1.6
5.0
6.3
2.5
1.2
6.5
3.3
1.9
1.8
5.2
4.4
Pasos para la agrupación en intervalos de clase de igual
amplitud:
1. Se calcula el recorrido de las observaciones:
R = xmax – xmin = 8.1 – 1.1 = 7.0
2. El número de intervalos de clase que se puede tomar para
agrupar los datos es:
k = 1 + 3.322*log25 = 5.64,
que aproximamos por el número natural siguiente: k = 6.
3. Por tanto, la amplitud de cada intervalo es:
d = R/k = 7/6 = 1.667.
Al no ser exacta, se aproxima la cantidad anterior a un
número ligeramente superior, por ejemplo, d = 1.17.
• Como la amplitud de los intervalos la se tomó un poco mayor de lo
que se obtiene en un principio, entonces el nuevo recorrido es:
R´ = número de intervalos*amplitud = 6*1.17 = 7.02.
• Como el recorrido original es 7, entonces sobra 0.02, con lo cual se
reparte este sobrante restando la mitad a la observación mínima y
sumando la otra mitad a la observación máxima, es decir:
xmin – 0.01,
xmax + 0.01,
con lo que se obtienen los seis intervalos de clase determinados por
los valores siguientes:
xmin – 0.01 = 1.10 – 0.01 = 1.09
1.09 + 1.17 = 2.26
2.26 + 1.17 = 3.43
3.43 + 1.17 = 4.60
4.60 + 1.17 = 5.77
5.77 + 1.17 = 6.94
6.94 + 1.17 = 8.11 = xmax + 0.01.
• Los intervalos son: (1.09;2.26], (2.26;3.43], (3.43;4.60],
(4.60;5.77], (5.77;6.94], (6.94;8.11]. Se agrupan los datos en
los intervalos anteriores y se obtiene su distribución de
frecuencias en la tabla siguiente:
Intervalos
de clase
Marca de
clase
Frecuencia
absoluta
Frecuencia
relativa
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
(1.09;2.26]
1.675
7
0.28
7
0.28
(2.26;3.43]
2.845
6
0.24
13
0.52
(3.43;4.60]
4.015
4
0.16
17
0.68
(4.60;5.77]
5.185
4
0.16
21
0.84
(5.77;6.94]
6.355
2
0.08
23
0.92
(6.94;8.11]
7.525
2
0.08
25
1.00
25
1.00
Total
Representaciones gráficas
Variables cualitativas
• Diagrama de barras: se sitúan en el eje horizontal las clases y
sobre cada una de ellas se levanta un segmento rectilíneo (o
un rectángulo) de altura igual a la frecuencia (absoluta o
relativa) de cada clase:
Diagrama de barras de frecuencias absolutas
14
Frecuencia absoluta
12
10
8
6
4
2
0
Alemán
Español
Francés
Clase
Inglés
Ruso
• Gráfico de sectores: se divide el área de un círculo en sectores
circulares de ángulos proporcionales a las frecuencias
absolutas de clases:
Gráfico de sectores
5% 12%
Alemán
Español
33%
22%
Francés
Inglés
Ruso
28%
Variables cuantitativas con datos no agrupados en
intervalos
• Diagrama de barras: igual en el caso de variables cualitativas:
Diagrama de barras de frecuencias absolutas
8
Frecuencia absoluta
7
6
5
4
3
2
1
0
1
2
3
4
Valores
5
6
7
• Polígono de frecuencias: se sitúan los puntos que resultan de
tomar en el eje horizontal los distintos valores de la variable y
en el eje vertical sus correspondientes frecuencias (absolutas
o relativas), uniendo después los puntos mediante segmentos
rectilíneos:
Polígono de frecuencias relativas
0.30
Frecuencia relativa
0.25
0.20
0.15
0.10
0.05
0.00
0
1
2
3
4
Valores
5
6
7
8
• Gráfico de frecuencias acumuladas: es la representación
gráfica de las frecuencias acumuladas (absolutas o relativas),
para todo valor numérico. Si la frecuencia acumulada
(absoluta o relativa) de un valor numérico no aparece en la
distribución de frecuencias, entonces será igual a la
frecuencia acumulada (absoluta o relativa) de la observación
inmediatamente anterior (ordenadas de menor a mayor). Por
lo tanto, el gráfico de frecuencias acumuladas siempre tiene
forma de “escalera”:
Frecuencia absoluta acumulada
Gráfico de frecuencias absolutas
acumuladas
30
25
20
15
10
5
0
0
1
2
3
4
Valores
5
6
7
8
Variables cuantitativas con datos agrupados en intervalos
• Histograma de frecuencias: se sitúan en el eje horizontal los intervalos de
clase y sobre cada uno se levanta un rectángulo de área proporcional a la
frecuencia absoluta.
(a) Si todos los intervalos tienen la misma amplitud, entonces basta con
hacer los rectángulos con una altura igual a la frecuencia absoluta o
relativa:
(b) Si los intervalos tienen distinta amplitud, la construcción
del histograma presenta una importante variación. Una vez
marcados sobre el eje horizontal los extremos de los
intervalos, hay que calcular la altura de los rectángulos de
forma que su área sea igual o proporcional a la frecuencia
absoluta del intervalo.
Ejemplo: Sea la siguiente distribución de frecuencias:
Intervalo
Frecuencia absoluta
[0; 3]
11
(3; 5.5]
10
(5.5; 6.5]
2
(6.5; 8]
1
(8; 10]
1
La fórmula del área de un rectángulo es base x altura y también se
considera que los rectángulos del histograma van a tener un área igual
a la frecuencia absoluta. Por ejemplo, para averiguar la altura del
primer rectángulo, se tiene en cuenta que la base es igual a 3 y el área
del rectángulo es igual a 11, por lo tanto la altura debe ser igual a 11/3
= 3.6667. Del segundo rectángulo: 10/2.5 = 4, del tercero: 2/1 = 2, del
cuarto: 1/1.5 = 0.6667, del quinto: 1/2 = 0.5. Se obtiene la siguiente
histograma:
• Polígono de frecuencias: se sitúan los puntos que resultan de
tomar en el eje horizontal las marcas de clase de los intervalos
y en el eje vertical sus correspondientes frecuencias (absolutas
o relativas), uniendo después los puntos mediante segmentos
rectilíneos.
• Polígono de frecuencias acumuladas: se sitúan los puntos que
resultan de tomar en el eje horizontal los extremos superiores de los
intervalos de clase y en el eje vertical sus correspondientes
frecuencias acumuladas (absolutas o relativas), uniendo después los
puntos mediante segmentos rectilíneos.
Un vistazo rápido a la distribución: Tallo y Hojas
Una técnica para la observación de la distribución que funciona
bien es el diagrama de tallo y hojas. Es un diagrama en el que los
datos puntuales se agrupan de tal modo que se puede visualizar
la forma de la distribución mientras que se mantiene la
individualidad de los datos puntuales.
Un diagrama de tallos y hojas consiste en una serie de hileras
horizontales de números. El número utilizado para designar una
hilera es su tallo, el resto de números de la hilera se denominan
hojas.
Los pasos para seguir para diseñar el diagrama de tallo y hojas:
Diseño de un diagrama de tallo y hojas simple
1. Se eligen algunos números oportunos que puedan servir de tallos.
Para facilitar la determinación de la forma se necesitan al menos 5
tallos. Los tallos elegidos generalmente son el primero o los dos
primeros dígitos de los números del conjunto de datos.
2. Se nombren las hileras mediante los tallos elegidos.
3. Se reproduzcan gráficamente los datos registrando el dígito,
siguiendo el tallo, como una hoja del tallo adecuado.
4. Se gira el gráfico hacia un lado para ver cómo se distribuyen los
números. En concreto, se intenta responder a preguntas como:
a. ¿Los datos tienden a agruparse cerca de un tallo o tallos en
particular o se distribuyen de forma uniforme por el diagrama?
b. ¿Los datos tienden a juntarse hacia un extremo u otro del
diagrama?
c. Si se traza una curva a lo largo de la parte superior del diagrama
¿forma más o menos una campana? ¿Es plana? ¿Es simétrica?
Ejemplo: Los siguientes datos representan las observaciones
sobre la magnitud de un terremoto en California según su
medición en la escala de Richter:
1.0
1.2
2.0
3.3
1.4
5.0
8.3
1.0
1.9
2.2
2.7
2.2
3.1
4.1
6.3
2.3
2.4
1.2
1.1
1.1
1.4
2.1
3.0
7.7
5.1
4.0
1.3
2.1
4.1
1.5
Los primeros dígitos de estos números son: 1, 2, 3, 4, 5, 6, 7 y 8.
Estos dígitos servirán como nombres de los tallos y las hileras. A
continuación se representan los datos gráficamente
representando el número que aparece después de la coma
decimal como una hoja del tallo apropiado.
En la siguiente figura se visualiza todo el conjunto de datos.
Para tener una idea de la
forma, se observa la curva
que se ha trazado en la parte
superior del diagrama.
Observando el diagrama,
puede deducirse que estos
datos se aproximan al
extremo inferior de la escala.
Muchos terremotos eran
suaves.
También se observa que el diagrama no es simétrica. Hay
más bien una cola larga en el extremo superior. Se dice que
los datos de este tipo están sesgados hacia la derecha.
Diseño de un diagrama de tallos dobles
Algunas veces, la utilización del primero o los dos primeros
dígitos de los datos puntuales como tallos no proporciona
suficientes tallos como para permitirnos detectar la forma. Una
manera de solucionar este problema es utilizar tallos dobles. Es
decir, utilizar cada tallo dos veces: una vez para trazar las hojas
inferiores 0, 1, 2, 3, 4 y a continuación nuevamente para trazar
las hojas superiores 5, 6, 7, 8, 9.
Ejemplo: En un estudio del crecimiento de los varones se
obtuvieron estas observaciones sobre el perímetro en
centímetros de la cabeza de un niño al nacer:
33.1
34.5
33.7
33.4
33.7
36.5
34.6
35.8
36.0
34.9
34.8
34.1
34.2
34.5
34.2
33.8
33.9
34.0
36.1
34.2
34.7
33.6
34.7
35.1
34.2
34.3
34.6
35.2
35.1
35.3
35.6
35.2
34.3
34.6
34.2
Si se utilizan los primeros dos dígitos como tallos, sólo se tendrán
cuatro tallos 33, 34, 35 y 36. Como no es suficiente para detectar
la forma, se utilizarán dos veces cada uno de los tallos y se
formará un gráfico de tallo doble con hojas inferiores y hojas
superiores. A continuación se presenta el diagrama obtenido:
Se observa que los datos tienden a
agruparse en el área de 34
centímetros. Aunque el diagrama
no es perfectamente simétrico,
tiende a aproximarse a la forma de
una campana.
Diagrama de caja y bigotes
El diagrama de caja y bigotes (boxplot) es una representación
gráfica de un conjunto de datos que facilita la percepción visual
de la posición, extensión y del grado y la dirección del sesgo.
También permite identificar los datos atípicos. Es especialmente
útil cuando se desean comparar dos o más conjuntos de datos.
Un diagrama de caja es un gráfico, basado en cuartíles,
mediante el cual se visualiza un conjunto de datos. Está
compuesto por un rectángulo, la "caja", y dos brazos, los
"bigotes". Es un gráfico que suministra información sobre los
valores mínimo y máximo, los cuartíles Q1, Q2 ó mediana y Q3, y
sobre la existencia de valores atípicos y la simetría de la
distribución.
1. Ordenar los datos y obtener el valor mínimo, el máximo, los cuartíles Q1, Q2 y
Q3 y el Rango Inter Cuartílico (RI)
En el ejemplo: Valor 7: es el Q1 (25% de los datos)
Valor 8.5: es el Q2 o mediana (el 50% de los datos)
Valor 9: es el Q3 (75% de los datos)
Rango Inter Cuartílico RI (Q3-Q1)=2
2. Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la
mediana (Q2) mediante una línea.
3. Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que
calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores
atípicos. Para ello se calcula cuándo se consideran atípicos los valores. Son
aquellos inferiores a Q1 - 1.5*RIC o superiores a Q3 + 1.5*RIC.
En el ejemplo: inferior: 7-1.5*2=4
superior: 9+1.5*2=12
4. Ahora se buscan los últimos valores que NO son atípicos, que serán los
extremos de los bigotes. En el ejemplo: 5 y 10.
5.
5.
Marcar como atípicos todos los datos que están fuera del intervalo (Li,
Ls).
En el ejemplo: 0.5 y 3.5
Además, se pueden considerar valores extremadamente atípicos aquellos
que exceden Q1-3*RI o Q3+3*RI.
De modo que, en el ejemplo: inferior: 7-3*2=1,
superior: 9+3*2=15
El valor 0.5 seria atípico extremo (se denota mediante asterisco) y el 3.5
sería atípico moderado (se denota mediante círculo abierto).
Se observa que la media (cruz de color rojo) es mayor que la mediana (línea azul
dentro de la caja), lo cual indica una mayor concentración de los datos a la izquierda
(para los terremotos más suaves). Lo anterior también se constata al comparar los
datos rectángulos formados al separar por la línea mediana y el largo de los bigotes.
En el extremo derecho se observa el dato atípico moderado, correspondiente al
terremoto más intenso (8.3).
Los valores de la mediana y media, como también los largos de los bigotes
evidencian una distribución de los datos casi simétrica con respecto a la mediana.
La no existencia de los datos atípicos, confirma que esta muestra tiene
comportamiento normal.