Download INTRODUCCIÓN La Estadística se ocupa de los métodos y

Document related concepts
no text concepts found
Transcript
Documento elaborado por:
Francisco Javier Rodríguez Cortés
Matemático
Facultad de Ciencias Exactas - Universidad de Antioquia
INTRODUCCIÓN
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar
regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa
intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar
a la toma de decisiones y de ser necesario, formular predicciones.
La estadística podemos clasificarla en estadística descriptiva y estadística inferencial. La estadística
descriptiva se dedica al ordenamiento y al tratamiento de la información para su presentación por
medio de tablas y representaciones gráficas, así como a la obtención de algunos parámetros útiles
para explicar
y resumir la información. La estadística inferencial se apoya en el cálculo de
probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones y otras
generalizaciones sobre un conjunto mayor de datos.
En este módulo se pretende aplicar la estadística descriptiva a los factores que intervienen en los
procesos de formación, en áreas específicas como las académicas, las tecnológicas, las
infraestructurales, de bienestar estudiantil y de proyección social. Las variables estarán relacionadas
con los alumnos, las instalaciones, los equipos, el medio o lugar de trabajo, los métodos de
enseñanza, entre otras.
Este módulo comenzará con el estudio de los diferentes tipos de datos y sus escalas de medición, y
continuará con las distintas medidas y representaciones gráficas que ayudan a describir, resumir e
interpretar la información.
1. DEFINICIONES Y CONCEPTOS BÁSICOS
Individuos o elementos: personas u objetos que contienen cierta información que se desea estudiar.
Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.
Muestra: subconjunto representativo de una población.
Muestreo: métodos para la recolección de una muestra.
Variable: característica que toma diferentes valores en diferentes personas, lugares o cosas.
Datos: conjunto de valores de una variable para cada uno de los elementos de la muestra.
Parámetro: medición numérica que describe algunas características de una población.
Estadístico: medición numérica que describe algunas características de la muestra.
¿Qué incluye un problema estadístico?
1. Definición clara del objetivo del experimento y de la población pertinente.
2. Diseño del experimento o procedimiento del muestreo.
3. Recolección y análisis de los datos.
4. El procedimiento para hacer inferencias acerca de la población, basado en la información
muestral.
5. La provisión de una medida de bondad (confiabilidad) para la inferencia.
2. CLASIFICACIÓN DE LAS VARIABLES
Las variables se clasifican según la escala de medición como:
2.1 Variables cualitativas
Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad
que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de
dichos atributos. Las variables cualitativas pueden ser ordinales y nominales.
2.1.1 Variable cualitativa ordinal: la variable puede tomar distintos valores ordenados siguiendo una
escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por
ejemplo, leve, moderado, grave.
2.1.2 Variable cualitativa nominal: en esta variable los valores no pueden ser sometidos a un
criterio de orden como por ejemplo los colores o el lugar de residencia.
2
2.2 Variables cuantitativas
Son las variables que se expresan mediante cantidades numéricas. Las variables cuantitativas
además pueden ser (según los valores que pueda tomar la variable):
2.2.1 Variable discreta: es la variable que presenta separaciones o interrupciones en la escala de
valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre
los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4,
5).
2.2.2 Variable continua: es la variable que puede adquirir cualquier valor dentro de un intervalo
especificado de valores. Ejemplo: el peso (2,3 kg, 2,4 kg, 2,5 kg, ...) o la altura (1,64 m, 1,65 m,
1,66 m,...), que solamente está limitado por la precisión del aparato medidor, en teoría permiten que
siempre exista un valor entre dos cualesquiera.
Las variables cuantitativas se clasifican además como de intervalo ó de razón, así:
2.2.3 Variables de intervalo: los datos medidos en una escala ordinal para los cuales pueden
calcularse las distancias entre valores, se llaman datos de intervalo. La distancia entre dos valores es
importante y los datos de intervalo son cuantitativos por necesidad; una escala de intervalo no
siempre tiene un punto cero, uno que indique la ausencia de lo que se quiere medir. Ejemplo: la
temperatura (10°C, 8°C, 35°C, …).
2.2.4 Variables de razón: los datos medidos en una escala de intervalo con un punto cero que
significa ninguno, se llaman datos de razón. Ejemplo: el peso (23 kg, 24 kg, 30 kg, ...)
3. MUESTREO
Cuando se desea conocer o hacer inferencias acerca de alguna característica de una población,
surgen preguntas acerca de cómo seleccionar la información y qué tan grande debe ser el tamaño de
la muestra para que las conclusiones extraídas de ella sean representativas de la población.
Si la población es pequeña, es razonable observarla toda y esto se llama censo. Pero examinar una
población entera no es siempre viable; en la mayoría de los casos hay escasez de tiempo y de
recursos (humanos o financieros) o el censo es impracticable, por tal motivo, se selecciona solo una
3
parte de la población (muestra) cuyo tamaño es escogido de acuerdo a la precisión deseada o a las
estimaciones e inferencias que se deseen realizar.
El muestreo puede hacerse con o sin reposición; en una muestra sin reposición, comúnmente
empleada en los trabajos estadísticos, las unidades se seleccionan apenas una vez; en el muestreo
con reposición se seleccionan las unidades por lo menos una vez.
Ejemplo de muestreo sin reposición: en una encuesta electoral, poco antes de una elección de
voto de las personas entrevistadas, éstas deben ser escuchadas apenas una sola vez, pues, en
una elección, el voto es individual.
Ejemplo de muestreo con reposición: cuando se desea saber cuánto tiempo gasta una persona
haciendo cola en un banco, ésta puede ser observada una o más veces, cada vez que vuelve al
banco.
3.1 Algunos métodos de muestreo
3.1.1 Muestreo aleatorio simple: es la forma más común de obtener una muestra es la selección al
azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población
que estamos manejando es muy grande.
Ejemplo: supongamos que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de
estadística de 20 alumnos. Un procedimiento simple para elegir una muestra aleatoria sería escribir
cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos
y después extraer cinco papeles al mismo tiempo.
3.1.2 Muestreo aleatorio sistemático: es una técnica de muestreo que requiere de una selección
aleatoria inicial de observaciones seguida de otra selección de observaciones obtenida usando algún
sistema o regla.
Ejemplo: para obtener una muestra de suscriptores telefónicos en una ciudad grande, puede
obtenerse primero una muestra aleatoria de los números de las páginas del directorio telefónico; al
elegir el vigésimo nombre de cada página obtendríamos un muestreo sistemático, también podemos
4
escoger un nombre de la primera página del directorio y después seleccionar cada nombre del lugar
número cien a partir del ya seleccionado. Por ejemplo, podríamos seleccionar un número al azar
entre los primeros 100; supongamos que el elegido es el 40, entonces seleccionamos los nombres
del directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente.
3.1.3 Muestreo aleatorio estratificado: una muestra es estratificada cuando los elementos de la
muestra son proporcionales a su presencia en la población. La presencia de un elemento en un
estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios
grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo
de estudio. Para la selección de los elementos o unidades representantes, se utiliza el método de
muestreo aleatorio.
En síntesis, requiere separar a la población según grupos llamados estratos, y elegir después una
muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada
estrato constituiría entonces una muestra global.
Ejemplo: supongamos que nos interesa obtener una muestra de las opiniones de los profesores de
una gran universidad. Puede ser difícil obtener una muestra con todos los profesores, así que
supongamos que elegimos una muestra aleatoria de cada facultad, o departamento académico; los
estratos vendrían a ser los facultades, o departamentos académicos.
3.1.4 Muestreo aleatorio por área o conglomerado: requiere elegir de la población una muestra
aleatoria simple de unidades heterogéneas entre sí llamadas conglomerados. Cada elemento de la
población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado
son usualmente heterogéneos o disímiles.
Ejemplo: supongamos que una compañía de servicio de televisión por cable está pensando en abrir
una sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el
porcentaje de familias que utilizarían sus servicios, como no es práctico preguntar en cada casa, la
empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado.
En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea
posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para
5
estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se
realizan, generalmente, con base en el muestreo por conglomerados.
4. ESTADÍSTICA DESCRIPTIVA
4.1 Análisis de datos cualitativos
La siguiente es la información del nivel académico de 120 empleados de una empresa.
Empleado
Nivel
Académico
Empleado
Nivel
Académico
Empleado
Nivel
Académico
Empleado
Nivel
Académico
1
Profesional
31
Profesional
61
Técnico
91
Tecnólogo
2
Técnico
32
Bachiller
62
Tecnólogo
92
Bachiller
3
Técnico
33
Técnico
63
Tecnólogo
93
Bachiller
4
Tecnólogo
34
Bachiller
64
Técnico
94
Tecnólogo
5
Profesional
35
Posgrado
65
Técnico
95
Posgrado
6
Tecnólogo
36
Técnico
66
Bachiller
96
Bachiller
7
Profesional
37
Bachiller
67
Técnico
97
Técnico
8
Tecnólogo
38
Profesional
68
Profesional
98
Técnico
9
Profesional
39
Bachiller
69
Posgrado
99
Bachiller
10
Posgrado
40
Técnico
70
Técnico
100
Profesional
11
Técnico
41
Bachiller
71
Tecnólogo
101
Profesional
12
Bachiller
42
Tecnólogo
72
Bachiller
102
Tecnólogo
13
Tecnólogo
43
Profesional
73
Tecnólogo
103
Bachiller
14
Bachiller
44
Técnico
74
Técnico
104
Técnico
15
Profesional
45
Bachiller
75
Profesional
105
Técnico
16
Técnico
46
Bachiller
76
Tecnólogo
106
Bachiller
17
Bachiller
47
Tecnólogo
77
Bachiller
107
Posgrado
18
Bachiller
48
Profesional
78
Tecnólogo
108
Tecnólogo
19
Profesional
49
Tecnólogo
79
Bachiller
109
Tecnólogo
20
Tecnólogo
50
Tecnólogo
80
Profesional
110
Técnico
21
Bachiller
51
Técnico
81
Bachiller
111
Técnico
22
Técnico
52
Bachiller
82
Tecnólogo
112
Técnico
23
Técnico
53
Bachiller
83
Tecnólogo
113
Bachiller
6
Empleado
Nivel
Empleado
Académico
Nivel
Empleado
Académico
Nivel
Académico
Empleado
Nivel
Académico
24
Profesional
54
Bachiller
84
Bachiller
114
Tecnólogo
25
Bachiller
55
Bachiller
85
Profesional
115
Tecnólogo
26
Bachiller
56
Técnico
86
Bachiller
116
Bachiller
27
Bachiller
57
Bachiller
87
Tecnólogo
117
Profesional
28
Profesional
58
Posgrado
88
Técnico
118
Técnico
29
Bachiller
59
Tecnólogo
89
Tecnólogo
119
Bachiller
30
Bachiller
60
Bachiller
90
Profesional
120
Bachiller
4.1.1 Representación tabular
Frecuencia
Frecuencia
Frecuencia
Clase
Frecuencia
Bachiller
40
0,33
40
0,33
Técnico
27
0,23
67
0,56
Tecnólogo
27
0,23
94
0,78
Profesional
20
0,17
114
0,95
6
0,05
120
1,00
Posgrado
Relativa
Acumulada relativa acumulada
En un conjunto de datos, se define moda como el valor de mayor frecuencia. En nuestro ejemplo,
Bachiller es la clase modal.
4.1.2 Diagrama de barras
7
4.1.3 Diagrama de sectores
Diagrama de sectores por frecuencias absolutas
8
Diagrama de sectores por frecuencias relativas
4.1.4 Tablas de contingencia
La empresa del ejemplo anterior consta de tres plantas y sus empleados están distribuidos de la
siguiente forma:
Bachiller
Técnico
Tecnólogo
Profesional
Posgrado
Planta A
5
7
6
10
4
Planta B
18
11
9
6
1
Planta C
17
9
12
4
1
4.1.5 Diagrama de barras
9
4.2 Análisis de datos cuantitativos
4.2.1 Estadísticos descriptivos
A. Medidas de tendencia central
•
Media Aritmética: es la más importante de todas las medidas numéricas para
describir datos. Se conoce también como promedio.
10
Ejemplo: la media aritmética de los datos: 2, 3, 5, 0, 11, 2, 4, 7, 2.
•
Mediana: es el valor que divide los datos en dos partes iguales cuando estos se
presentan en orden de magnitud creciente o decreciente.
Ejemplo: organizando los datos anteriores: 0, 2, 2, 2, 3, 4, 5, 7, 11. Vemos que el dato
que está en el centro es 3, por tanto, la mediana es 3.
•
Moda: valor que ocurre con mayor frecuencia (puede no existir la moda o haber varios
valores modales).
Ejemplo: del ejemplo anterior, el dato que más se repite es 2, por tanto, la moda de
este conjunto de datos es 2.
B. Medidas de colocación
•
Percentiles: el n-ésimo percentil, denotado con
, es el valor para el cual al menos
de la distribución de los datos cae en o por debajo de él y al menos
cae en o por arriba de dicho percentil.
Ejemplo: para los datos del ejemplo anterior, el percentil 30 es
•
Cuartiles: los cuartiles son números que dividen en cuatro partes a un conjunto
ordenado de medidas, extendiéndose desde la mínima hasta la máxima medida, por lo
que cada parte cuenta con aproximadamente 25% de las medidas. Hay tres puntos
cuartiles, denotados con
,
Ejemplo: para nuestros datos,
,
,
,
.
C. Estadísticos de dispersión
11
Triola Mario F. (2004). Estadística. Edición: 9. Pearson Educación. pp. 74.
La dispersión o variación de los datos mide cuán esparcidos se encuentran éstos o qué tan
heterogéneos son. Hay varias medidas de dispersión, siendo las más comunes las siguientes:
•
Rango: es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos.
Ejemplo: para nuestros datos,
•
Varianza: medida de variación de los valores con respecto a la media.
Ejemplo: para nuestros datos, la varianza es:
•
Desviación estándar: medida de variación igual a la raíz cuadrada de la varianza.
12
Ejemplo: para nuestros datos, la desviación estándar es:
•
Rango semiintercuartil: también conocido como desviación cuartil, denotado por
,
se define como:
Ejemplo: para nuestros datos,
•
,
, por tanto,
Coeficiente de variación: proporciona una medida de variabilidad que es
independiente de la unidad de medida; por ello, puede usarse para comparar la
variabilidad de dos grupos de datos expresados en dos distintas unidades de medida.
En otras palabras, el coeficiente de variación expresa la desviación estándar como un
porcentaje de la media y se define como:
Ejemplo: para nuestros datos, el coeficiente de variación es:
4.2.2 Tabulación de datos cuantitativos
A continuación se presentan las notas correspondientes a los cursos de matemáticas y español, de
un grupo de 50 estudiantes.
#
Español
Matemáticas
#
Español
Matemáticas
1
3,0
3,0
26
3,5
2,4
2
2,7
2,8
27
2,4
3,8
3
4,2
3,6
28
3,5
2,7
13
•
#
Español
Matemáticas
#
Español
Matemáticas
4
3,5
2,4
29
4,2
4,0
5
3,2
3,3
30
4,9
2,5
6
4,8
3,2
31
1,6
2,8
7
4,8
2,3
32
4,4
2,5
8
3,2
3,6
33
3,5
3,5
9
3,7
3,1
34
2,0
2,5
10
3,5
3,0
35
4,7
2,9
11
4,9
2,6
36
3,6
3,5
12
3,0
3,6
37
5,0
2,4
13
3,0
4,1
38
4,4
1,9
14
4,4
3,0
39
3,8
2,3
15
2,4
2,9
40
3,9
2,7
16
4,0
3,2
41
4,7
2,8
17
1,4
3,0
42
4,1
3,1
18
3,1
3,4
43
3,3
3,3
19
2,7
3,6
44
4,0
3,5
20
4,0
4,6
45
5,0
3,7
21
4,6
3,1
46
3,4
3,1
22
4,9
2,9
47
4,2
1,4
23
4,0
2,7
48
3,4
2,8
24
1,9
2,1
49
3,4
2,8
25
3,9
2,4
50
4,6
2,3
Tabla de frecuencias
Al resumir grandes cantidades de datos, es útil distribuir los datos en clases o categorías y
determinar el número de individuos que pertenecen a cada clase, este número es llamado
frecuencia de clase. Una disposición tabular de los datos por clases junto con las
correspondientes frecuencias de clase, se llama distribución de frecuencias. Los datos así
organizados en clases como en la anterior distribución de frecuencias se llaman datos
agrupados.
Existen algunas reglas generales para formar distribuciones de frecuencia:
14
a. Si k es el número de clases y n el tamaño de la muestra, entonces se recomienda que:
ó
. (Excel utiliza
)
b. Si R es el rango de los datos y k es el número de clases, entonces como tamaño o
extensión de un intervalo de clase se toma el valor
, de tal manera que
c. Las fronteras de clase son cerradas por el lado izquierdo.
Para nuestro ejemplo, la tabla de frecuencias correspondiente a matemáticas es:
Clase
Frecuencia
1,41
1,86
1
1,86
2,31
1
2,31
2,76
3
2,76
3,21
12
3,21
3,66
17
3,66
4,11
11
4,11
4,56
4
4,56 mayor
1
4.2.3 Gráficos
•
Histograma
Un histograma es una representación gráfica en forma de barras para una variable específica
que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia
central, forma y dispersión. Este gráfico es tan ilustrativo que de un vistazo se puede tener
una idea objetiva sobre la calidad de un producto, el desempeño de un proceso o el impacto
de una acción de mejora. El área de cada barra es proporcional a la frecuencia de los valores
representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los
valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del
intervalo en el que están agrupados los datos. La correcta utilización del histograma facilitará
la toma decisiones no solo con base en la media, sino también con base en la dispersión y
formas especiales de comportamiento de los datos.
15
•
Boxplot
El boxplot proporciona información sobre el centro, la dispersión y la simetría de un conjunto
de observaciones. En él se pueden ubicar valores como los cuartiles, la media, la mediana y
los valores máximo y mínimo de los datos. Además se pueden identificar puntos extremos, los
cuales aparecen antes del primer cuartil o después del tercer cuartil indicando que en la
distribución de datos existen valores muy altos o muy bajos que no están incluidos en el rango
intercuartílico. El boxplot también se conoce con el nombre de gráfico de caja y bigotes.
16