Download muestreo - Facultad de Ciencias Naturales y Museo

Document related concepts

Muestra estadística wikipedia , lookup

Muestreo (estadística) wikipedia , lookup

Error muestral wikipedia , lookup

Estadístico muestral wikipedia , lookup

Prueba t de Student wikipedia , lookup

Transcript
MUESTREO
DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES
Marta Alperin
Profesora Adjunta de Estadística
[email protected]
http://www.fcnym.unlp.edu.ar/catedras/estadistica
OBJETIVO
DE TRABAJOS DE INVESTIGACIÓN
Conocer algún aspecto de una población específica
Es imposible contar con la información de todos los individuos de la población.
Conclusiones válidas con una muestra (esfuerzos y costos razonables)
Para tener éxito en un estudio se requiere:
conocimiento del problema concreto para obtener información relevante
 sólida base conceptual de la teoría del muestreo
.
• Muestreo
• Razones para el muestreo
• Conceptos básicos y base teórica del muestreo
• Tipos de muestreo:
Muestreo aleatorio simple
Muestreo sistemático
Muestreo estratificado
Muestreo por conglomerados
• Distribución de las medias muestrales
• Distribución de las varianzas muestrales
CONCEPTOS
FUNDAMENTALES
Población : es la colección completa de individuos, plantas, animales, rocas, agua,
minerales o cosas que tienen por lo menos una característica común.
Población biológica: es el conjunto de individuos de la misma
especie ubicados en espacio y tiempo.
Población geológica: comprenden diferentes clase de objetos (ej.
cristales de minerales, pozos, unidades litológicas, emanaciones de
gases), eventos (erupciones volcánicas, inundaciones,
precipitaciones), o números (ej. producción de barriles de petróleo,
número de manifestaciones minerales en un distrito minero, medidas
de rumbo de estructuras, longitudes de onda de olas de diferente
tipo, profundidades), ubicados en espacio y tiempo.
Población estadística: es la colección completa de todo el grupo posible
de medidas, valores o cualidades que son motivo del estudio.
Población objetivo o blanco: es aquella sobre la que se hacen las inferencias con base a
los datos que se obtienen en el muestreo. La población a ser muestreada debe coincidir con
la población objetivo.
Ejemplares , individuos, especímenes o unidades de muestreo:
son los miembros individuales de la población.
Es la unidad estadística sobre la que se quiere tener información para analizar.
uniformes y estables
fácilmente identificables
suministrar información precisa
 debe tener igual probabilidad de selección
es deseable que permita una fácil conversión a unidades de área
debe tener una magnitud proporcional al objetivo de estudio
Muestra estadística número limitado de datos.
Debe ser representativa de la población y equiprobable.
Muestra geológica cantidad finita de roca o sedimentos
consolidados o inconsolidados, muestreados al azar de la
parte del cuerpo de roca que está disponible.
Datos: valores medidas o cualidades que se obtienen de la observación y/o
medición de las unidades de muestreo.
MUESTREO
OBJETIVO:
Estimar algún parámetro de una población de N elementos partir de la
información de una muestra de n elementos.
MUESTRA: Parte representativa de un todo.
 La proporción y distribución de las
 Todos los elementos de la población
características que se investigan deben ser
iguales en la población y en la muestra.
deben tener igual probabilidad de ser
elegidos para conformar la muestra.
Muestreo no equiprobable

La muestra debe ser representativa si se va a usar para estimar las
características de la población.

El método para seleccionar una muestra representativa depende:
- del tiempo
- dinero
- habilidad
- naturaleza de los individuos

El tamaño de la muestra depende del nivel de precisión deseado:
- en investigación 10% a 15%
- en toma de decisiones 20% a 25%

El tamaño de la muestra está determinado por la variación existente entre las
unidades de muestreo.

Fórmula general para calcular el tamaño de la muestra:
n= tamaño de la muestra
s= desvío estándar obtenido con datos de muestras preliminares
=estimada con datos de muestreos preliminares
E=nivel de precisión requerido
Objetivo del muestreo es estimar algún parámetro de una población a partir de
la información de una muestra.
 Parámetros son los valores fijos que caracterizan a una población.
 Estimador o estadístico son las cantidades que se usan para describir la
muestra (media, desvío estándar, varianza, etc.).
INFERENCIA
Operación mental por la
cual se admite una
proposición cuya verdad no
se conoce directamente,
pero que se acepta por su
relación con otras
proposiciones que ya han
sido consideradas
verdaderas: la deducción y
la inducción son casos
especiales de inferencia.
Muestreo o desmuestre
• Todas las operaciones que conducen a establecer
los parámetros principales de una población.
• Una operación estadística mediante la cual se
eligen n individuos con objeto de representar a una
población N mucho mayor.
Premisas para un buen muestreo:

Objetivo de la investigación.

Definir la población objetivo (delimitar la población en tiempo y espacio).

Definir, describir y listar los elementos de la población (marco muestral).

Seleccionar la/las características que se van a tomar.

Definir el tipo de observación o medida a realizar.

Evaluar la variabilidad que presentan los datos (población homogénea o
heterogénea.

Establecer modo de recolectar datos , el método de medida y volumen de
material.

Establecer el método de muestreo (equiprobable), lugar y frecuencia de toma
de muestra.

Definir la precisión y exactitud requeridas en el estudio.
Tipos de muestreo según el número de muestras tomadas
• MUESTREO SIMPLE
Se toma solamente una muestra de la población.
El tamaño de muestra debe ser los suficientemente grande para extraer una
conclusión.
Una muestra grande muchas veces cuesta demasiado dinero y tiempo.
• MUESTREO DOBLE
Si el resultado del estudio de la primera muestra no es concluyente, se toma una
segunda muestra de la misma población.
Las dos muestras se combinan para analizar los resultados.
• MUESTREO MÚLTIPLE
Similar al muestreo doble, excepto que el número de muestras sucesivas requerido
para llegar a una decisión es de más de dos muestras.
Tipos de muestreo según el procedimiento utilizado para
seleccionar la muestra
A. Muestreo no probabilístico no es posible hacer inferencias sobre la población.
B. Muestreo Aleatorio es posible hacer inferencias sobre la población.
A. MUESTREOS NO PROBABILISTICO
• Muestreo de juicio u opinión: los elementos de la muestra son
seleccionados mediante juicio personal.
• Muestreo por cuotas: se requiere conocer la población y/o los
individuos más representativos. Se fijan cuotas que consisten en
número de individuos con determinadas condiciones.
• Muestreo accidental: los individuos de la muestra se obtienen sin
ningún plan, son elegidas producto de circunstancias casuales.
• Muestreo incidental o de conveniencia: se seleccionan directa e
intencionalmente a los individuos de la población que formaran la
muestra. Se usa en estudios exploratorios y en pruebas piloto.
• Muestreo bola de nieve: la premisa es que los elementos se
relacionen entre sí. Se localizan algunos individuos de la población y
estos conducen a otros que llevan a otros y así hasta tener una
muestra de tamaño suficiente.
B. MÉTODOS DE MUESTREO PROBABILISTICO
MUESTREO ALEATORIO SIMPLE
Muestras están distribuidas aleatoriamente en espacio y tiempo.
La selección de los n individuos tienen igual probabilidad de ser elegidos.
La población debe ser homogénea respecto a la variable de interés.
1000
900
800
Norte (Km)
700
600
500
400
300
200
100
0
0
100
200
300
400
500
600
700
800
900
1000
Este (Km)
10097
08422
66065
31060
74350
37542
63573
73796
65481
80124
B. MÉTODOS DE MUESTREO PROBABILISTICO
MUESTREO SISTEMÁTICO
Las muestras se toman según una regla fija.
Los elementos de la población son seleccionados dentro de un intervalo uniforme
que se mide con respecto al espacio o al tiempo.
Se decide distanciar uniformemente el espacio de muestreo, segmentos de la
misma longitud y se seleccionan los n elementos.
1000
900
800
700
600
500
Norte (Km)
400
300
200
100
0
0
100
200
300
400
500
Este (Km)
600
700
800
900
1000
MUESTREO ESTRATIFICADO SIMPLE
La población está subdividida en subpoblaciones llamados estratos o
capas.
Los estratos pueden considerarse homogéneos al interior, pero diferentes
entre sí, sin traslapes.
En cada estrato se toma una muestra aleatoria simple.
Es apropiado cuando la población ya está dividida en estratos y los
estratos tienen diferente tamaño y es necesario tener ambos en cuenta.
Refleja de forma mas precisa las características de la población
estratificada en comparación con otro tipo de muestras.
MUESTREO DE CONGLOMERADOS
La población está subdividida en subpoblaciones llamados conglomerados.
Los conglomerados deben presentar toda la variabilidad de la población. Además los
conglomerados deben ser muy parecidos entre sí.
La selección de los conglomerados que integran la muestra es al azar.
Todos los elementos del conglomerado representan la población, de modo que
conviene incluirlos a todos en la muestra.
Una muestra de conglomerados, usualmente produce un mayor error muestral y es
menos precisa en las estimaciones que una muestra aleatoria simple del mismo
tamaño pero es menos costosa y mas rápida de muestrear.
RECOLECCION DE DATOS
Las diversas técnicas pueden conducir a diferentes resultados dependiendo de la
pericia del operador, de las capacidad técnica para calcular la variable de análisis.
Ambos permiten definir los factores de corrección o calibración para recolectar datos.
Muestreo de vetas en galería
Muestreo de puntos
Muestreo de canaletas
Muestreos oceanográficos
Saca testigo de caja
Saca testigo tubular
Rastra
Draga
Tipos de recorridos: cuadrícula, zig-zag, diagonal, sinuoso, transectas, banda griega.
Muestreo de microvertebrados
Muestreo de insectos con red
DISTRIBUCIONES EN EL MUESTREO
Con el objetivo es estudiar el parámetro cualquiera ( , ,
), se extraen de manera
aleatoria k muestras de las M posibles de tamaño n de una población finita de tamaño N.
Cada muestra aporta un valor del estadístico (estimativa),
. Los valores de los estadísticos
varían de muestra en muestra.
Las diferencias entre cada muestra y la población, y entre las diferentes muestras entre sí, se
deben únicamente a las características de los individuos que fueron seleccionados por azar
para integrar la muestra (ERROR DE MUESTREO).
DISTRIBUCION MUESTRAL DE UN ESTADISTICO
Es la distribución de todos los valores que puede tomar el estadístico calculado de muestras de
igual tamaño seleccionadas con un muestreo aleatorio exhaustivo de una población.
Población de la
variable X
X = {2, 4, 6}
Frecuencia
Distribución de la Media Muestral
1
0
2
3
4
x
Media poblacional de X
246

4
3
Varianza poblacional de X

2

2  4)

2

 (4  4) 2  (6  4) 2 8
  2,66
3
3
5
6
Muestreo con reposición de la población.
Muestras de tamaño n = 2
Muestra
Media
muestral
X
X    X   
2
2
2;2
2
(2 – 4)2
4
2;4
3
(3 - 4)2
1
2;6
4
(4 -4)2
0
4;2
3
(3 - 4)2
1
4;4
4
(4 - 4)2
0
4;6
5
(5 - 4)2
1
6;2
4
(4 - 4)2
0
6;4
5
(5 - 4)2
1
6
4)2
4
6;6
Total
(6 -
36
12
•Varianza de las medias muestrales
 X2  12 / 9  1,33
4
3
Frecuencia
•
•
2
1
0
2
3
4
5
6
MEDIA MUESTRAL X
•La media de las medias muestrales es
 X  36 / 9  4
•Error típico ó Error estándar de las
medias muestrales
 X2  1,33  1,15
Relaciones entre la distribución de la variable X y la distribución de la variable
media muestral X
Media poblacional de X
Media poblacional de X
 4
Varianza poblacional de X
2 
8
 2,66
3
 La media de las medias muestrales es igual
a la media poblacional.
 La varianza de las medias muestrales es
igual al cociente entre la varianza
poblacional y el tamaño de la muestra.
X  4
Varianza poblacional de X
 X2  1,33 
2,66
2
X    4
 X2  1,33 
2
n
4
Frecuencia
3
Frecuencia
 La distribución de las medias muestrales es simétrica,
aunque la distribución de la variable no lo sea.
2
1
1
0
2
3
4
5
6
MEDIA MUESTRAL X
 Esta distribución simétrica nos induce a pensar en el modelo de
 .
distribución de una variable Normal, con parámetros  y
n
0
2
3
4
x
5
6
EL TEOREMA CENTRAL DEL LÍMITE: DEFINICIÓN FORMAL
Si X1, X2,… Xn son variables aleatorias independientes y tienen todas la misma
distribución, con esperanza matemática, E(X)=μ y varianza V(X)=σ2 finitas y ≠0.
Se define una nueva variable aleatoria
Zn 
X 

n
;
en dónde
1 n
X   Xi
n 1
La función de distribución Zn converge a una función de distribución normal
estándar cuando n →∞.
EL TEOREMA CENTRAL DEL LÍMITE: DEFINICIÓN INFORMAL
Cuando se efectúa un muestreo aleatorio de tamaño fijo ”n” de una población
que tiene forma arbitraria, pero media y varianza finita, la distribución de las
medias muestrales tiende aproximadamente hacia una distribución de
frecuencias normal a medida que el tamaño de la muestra aumenta.

Analicemos la distribución de las medias muestrales

El tamaño de la muestra forma parte del Error estándar de la media
n
A: distribución de la población de la variable
X “talla de Pingüino emperador”. μ=100 y
σ=15.
B: distribución de medias muestrales de
n=10. μ=100 y error estándar= 4,7.
C: distribución de medias muestrales de
n=100. μ=100 y error estándar= 1,5.
El tamaño de la muestra determina el parecido de las medias muestrales a la
media poblacional debido a que existen más probabilidades de incluir
individuos de la población y con ellos la variabilidad. Esto determina que la
distribución del estadístico media muestral se encuentre mas o menos
apretada en torno al parámetro poblacional.

Señalemos
La diferencia entre el resultado obtenido de una muestra (un estadístico) y
el resultado que deberíamos haber obtenido de la población (el parámetro
correspondiente) se llama error muestral o error de muestreo.
 El error de muestreo es medido por el error estadístico, en términos de
probabilidad, bajo la curva normal.
El valor del error muestral indica la precisión de la estimación de la
población basada en el estudio de la muestra.
Mientras más pequeño el error muestral, mayor es la precisión de la
estimación.
Tamaño de la muestra Vs. el tamaño de la población
Ejemplo
Un yacimiento de cobre diseminado es cubicado en 160 * 10 6
toneladas.
• El yacimiento fue reconocido a través 40.000 m de sondajes, con
un peso total de 103 toneladas.
• Razón de Muestreo =103/(160*106) = 0,000064
• Se estima la ley del yacimiento de ciento sesenta millones de
toneladas conociendo sólo sesenta y cuatro millonésimas partes
del yacimiento.
Chuqicamata, Chile. Open pit
 Ubicación de una media muestral en la distribución de medias muestrales
Ejemplo
Población de Pingüino Emperador
(Aptenodytes forsteri)
Variable: talla (cm)
n=25
X  106 cm
μ=100 cm
=15 cm

n
Zn 
X 

n


15
25
3
106  100 6
 2
15
3
25
La P(z≤2)=0,977, de donde
P(z≤2)=0,977
P(z≥2) = 1- P(z≤2)=1-0,977=0,023
La probabilidad de hallar en muestras de 25 ejemplares una talla media mayor a
106 cm es sólo del 2,3%.
Distribución de la Varianza Muestral
 S2 se puede usar como una estima de
2
 se usa para calcular es el error de la estimación de  X
2
Población X = {2, 4, 6}
2  4)

2

 (4  4)2  (6  4)2
8
  2,66
3
3
n
Muestra
X
2
 x  X 
2;2
2;4
2;6
4;2
4;4
4;6
6;2
6;4
6;6
Total
2
3
4
3
4
5
4
5
6
(2–2)2+(2–2)2
(2-3)2+(4–3)2
(2-4)2+(6–4)2
(4–3)2+(2–3)2
(4-4)2+(4–4)2
(4-5)2+(6-5)2
(6–4)2+(2–4)2
(6-5)2+(4–5)2
(6- 5)2+(6–6)2
 S  24 / 9  2,66
1
Varianza
muestral
s2
1 n
2


S 
x

X
 i
n  1 i 1
0
2
8
2
0
2
8
2
0
24
2
5
4
Frecuencia

2
muestreo con reposición, muestras con n=2
3
2
1
0
0
1
2
3
4
S2
2
Error estándar
5
6
7
8
 En muestras de tamaño 2, el promedio de las varianzas
muestrales coincide con la varianza de la población,
.
 La distribución de las varianzas muestrales es asimétrica,
aunque la distribución de la variable no lo sea.
 La relación entre la varianza muestral y la varianza poblacional
está dada por el estadístico :
Grados de libertad (k)

n  1s
 
2
2
2

2
SÍNTESIS
 Cuando se tiene un objetivo claro de un estudio debemos delimitar con precisión
cuál es la población motivo de estudio y cual la población objetivo.
 Para estudiar se toma una muestra de la población esencialmente por razones de
accesibilidad, tiempo y dinero.
 La muestra solo sirve para hacer inferencias sobre la población si el muestreo se
realiza con algún método de muestreo probabilístico, donde todos los elementos de
la población tienen la misma posibilidad de ser elegidos para integrar la muestra.
 Se pueden hacer inferencias sobre la población porque existen relaciones bien
definidas entre los parámetros poblacionales y los estadísticos muestrales.
 Se pueden cometer errores en la estimación de los parámetros poblacionales. Los
errores disminuyen al aumentar el tamaño de la muestra.
Agradezco su atención