Download Inferencia Estadística

Document related concepts
no text concepts found
Transcript
Inferencia Estadística
La explicación que aquí iniciamos tiene como
objetivo dar respuesta a las siguientes preguntas:
9Qué procedimientos de muestreo existen
Tema 1 - Elementos de la teoría
del muestreo
1.1. Conceptos básicos: muestra
aleatoria y estadístico.
1.2. Otros tipos de muestreo.
Introducción
Cuando en estadística se puede observar todos
los elementos de un colectivo (se puede
realizar la llamada observación exhaustiva)
entonces la tarea de la estadística se reduce a
describir las características y regularidades. Es la
materia tratada en Estadística Descriptiva.
Pero frecuentemente, la observación de los
elementos del colectivo NO puede ser
exhaustiva (No podemos conocer TODOS los
elementos)
Como los siguientes casos:
En estos casos se ha de proceder al estudio de
las características de la Población a través de un
subconjunto
representativo
del
colectivo,
Muestra.
La información suministrada por el subconjunto
puede servir para inducir o inferir, con mayor
o menor exactitud, las características de la
Población
Es la materia tratada en Inferencia Estadística.
9Cómo se diseña un muestreo probabilístico
9Cuándo se emplea muestreo no probabilístico
9Ventajas e inconvenientes de los diversos
tipos de muestreo
9Aplicaciones concretas de los métodos de
muestreo expuestos
1. El estudio de los elementos del colectivo puede
implicar la destrucción del propio elemento, como es
el caso de los ensayos destructivos. Por ejemplo:
estudiar la vida media de una partida de bombillas
la tensión de rotura de un cable
2. Los elementos pueden existir conceptualmente,
pero No en la realidad
población de piezas defectuosas que producirá
una máquina
3. Puede ser inviable económicamente (coste)
estudiar toda la Población
Por tanto, la naturaleza de la Inferencia
Estadística está ligada a las nociones de
Población y Muestra. Según lo ya explicado
podemos definir:
Población: Una Población está constituida por
todos
los
elementos
que
poseen
unas
características
por
cuyo
estudio
estamos
interesados
Muestra: Una Muestra es un subconjunto
REPRESENTATIVO seleccionado de una Población
es la idea clave de esta relación
queremos reflejar las características
esenciales de la Población de la cual
se obtuvo
1
La razón de ser de la Inferencia Estadística es la
falta
de
conocimientos
acerca
de
las
características de la Población
Pero aunque tales características se desconozcan no
impide el que se actúe sobre las mismas
toma de decisiones en un ambiente de incertidumbre:
decisiones de políticos, empresarios, etc.- se decide sobre
las características de la Población (estados de la naturaleza)
sin estar del todo seguros de qué cosas son ciertas
Lo que la mayoría de personas hacen, es realizar sus
propias Estimaciones, lo más certeras posibles,
sobre los estados de la naturaleza basándose para
ello en la información disponible de esa Población
Para asegurarnos de la realización correcta de la
selección en la Muestra, por tanto, que no
cometemos errores que puedan afectar al
resultado obtenido se define el concepto de
Muestra Aleatoria
Además,
también
se
definen
ciertos
procedimientos o mecanismos de cálculo de las
Estimaciones basados exclusivamente en la
información disponible de las observaciones, que
conocemos con el nombre de Estadísticos proporcionan
alguna
información
acerca
del
parámetro desconocido de la Población
Es la materia tratada en el apartado de Teoría del
Muestreo.
Por ejemplo: La Media Muestral es un Estimador de
la Media Poblacional - característica poblacional porque,
9proporciona un método para estimar la Media
Poblacional
9es un Estadístico, y como
distribución de probabilidad
tal
tiene
una
Es la materia tratada en el apartado de Estimación
Estadística
De forma parecida, la Inferencia Estadística
hace estas Estimaciones utilizando las
posibilidades o probabilidades
Por ejemplo: a partir de la Media Muestral
(calculada sobre la información disponible) se
hace inferencia sobre la Media Poblacional
(desconocida)
No conoceremos cuál es la diferencia entre
estas 2 medidas (una es desconocida), no
obstante, si se puede saber con una cierta
probabilidad que valores puede tomar
Partiendo del hecho cierto de que una Muestra, en
general, no da una información exacta de las
características de la población que deseamos
estudiar, puede procederse así:
1. Utilizar la Muestra para estimar las características
de la Población. Este enfoque origina la llamada
Teoría de la Estimación.
‰ Al estimar un parámetro poblacional desconocido
se suele hacer una afirmación o juicio
‰ Este juicio solamente ofrece una Estimación
¾ Estimación:
el
valor
particular
obtenido
mediante
la
utilización
de
métodos
o
procedimientos – Estimadores - para estimar
una característica que sólo hace uso de las
observaciones de la muestra
2. Emitir Hipótesis sobre las características
tomando
como
base
la
experiencia,
otras
informaciones o incluso el presentimiento o la
corazonada. Este enfoque da lugar a la llamada
Teoría de la verificación o contrastación de
Hipótesis.
‰Una Hipótesis así formulada tiene, evidentemente,
poco rigor o valor científico
‰Este valor se adquiere tomando una Muestra de la
Población y utilizándola para verificar o contrastar la
hipótesis
Es la materia tratada en el apartado de Contraste
de Hipótesis
2
Conceptos fundamentales
Población: se denomina población a una colección
finita o infinita de unidades (individuos o elementos)
de las cuales se desea obtener una información.
Las unidades de la población pueden ser familias,
empresas, personas, amas de casa, etc.
En cada unidad es posible medir distintas
características, o clasificarla con arreglo a éstas. Por
ejemplo, se puede medir la edad, el nivel de renta, el
status, la actitud hacia un producto, la compra
mensual en euros, etc.
Variables: En los elementos de una población
se pueden definir distintas características o
variables
Unas pueden ser métricas, como el número de
unidades consumidas de un producto, el gasto
en ocio, la edad, o la renta
Otras veces las variables son nominales, como la
marca que se consume, o si es consumidor o no
de un producto
Estadístico o estimador: Es una función de los
valores muestrales
Una descripción resumida de la muestra, como la
media de renta de las personas de la muestra o la
proporción de personas de la muestra que consumen
un producto, o tienen coche, etc.
Los estadísticos se utilizan para estimar los valores de
los parámetros o valores poblacionales
Los estadísticos son aleatorios - No todas las muestras
proporcionan el mismo valor para un estadístico – y
como tal tiene una distribución de probabilidad
Muestra: Se denomina muestra a una parte de
las unidades que forman la población
A partir de la muestra se pueden inferir o estimar
las características de la población, como la media
de consumo por unidad, el porcentaje de unidades
que poseen determinada característica, etc.
Generalmente se trata
varianzas y proporciones
de
estimar
medias,
Parámetros: Un parámetro es un valor que
describe de forma resumida la población
Para variables métricas se utiliza la media: de
unidades consumidas por familia, de edad, etc.
Para variables nominales se utiliza la proporción:
de consumidores de determinada marca
Los parámetros son los verdaderos valores de la
población y generalmente, son desconocidos.
El objetivo del muestreo será determinar su
magnitud
Tipos de muestreo
Se denomina muestreo al procedimiento mediante el
cual se elige una muestra
La muestra debe ser representativa de la población
que se desea estudiar y reflejar las características
de los elementos que la componen
Solamente en este caso se pueden elevar los
resultados de la muestra a la población, de ahí la
importancia del procedimiento mediante el cual se
elige la muestra
Existen muchos tipos de muestreo que se pueden
resumir
en
dos
grandes
grupos:
muestreo
probabilístico y no probabilístico.
3
Muestreo no probabilístico
Muestreo probabilístico
La selección de la muestra no es aleatoria, sino que se
basa, en parte, en el juicio del entrevistador o del
responsable de la investigación.
Se eligen las unidades muestrales a través de un proceso
aleatorio
No se apoya en ninguna teoría de la probabilidad y, por
lo tanto, no es posible calcular la precisión o acotar el error
cometido.
Existen varios procedimientos de muestreo no probabilístico:
Muestreo de conveniencia, según criterio, diseño de bola de
nieve y muestreo por cuotas.
Cada elemento de la población tiene una probabilidad
conocida de ser elegido. Este tipo de muestreo se base en
la estadística teórica, lo que permite acotar los errores
cometidos o evaluar la precisión
Es el único método que puede evaluar la representatividad
de la muestra
Los costes y la dificultad del diseño son más reducidos.
Existen diversos procedimientos, pero todos ellos se basan
en un proceso de azar
Puede dar buenos resultados, pero también apareja el riesgo
de proporcionar una información errónea. En todo caso no es
posible calcular estos errores, que, además, no siempre se
reducen aumentando el tamaño de la muestra. No obstante,
se utilizan, con frecuencia, de forma eficaz.
La representatividad de una muestra depende del
procedimiento con que se ha elegido, de ahí la importancia
de hacer un diseño cuidadoso del muestreo. Un buen diseño
puede obtener mayor representatividad que muestras más
grandes obtenidas con otros procedimientos
Procedimientos de muestreo probabilístico
1 - Muestreo aleatorio simple - M.A.S. –
Es un muestreo sin reemplazamiento
Todas las unidades que componen la población tienen la
misma probabilidad de ser elegidas
Para realizar un M.A.S se necesita la enumeración de las N
unidades que componen la población para obtener
aleatoriamente una muestra de números comprendidos entre
1 y N hasta formar una muestra de n unidades.
La dificultad consiste en la localización previa de todos los
elementos de la población, lo cual suele resultar muy difícil
en la práctica. Por eso se acude a procedimientos
pseudoaleatorios, intentando que todas las unidades de la
población tengan la misma probabilidad de ser elegidas.
Una muestra estratificada se selecciona de la siguiente forma:
Se divide la población en subgrupos o estratos, de forma que
éstos sean homogéneos
Cada estrato tiene un tamaño Nh. El tamaño total de la población
será la suma de los elementos de todos los estratos:
N =
∑N
h
h
Los estratos son excluyentes, de manera que cada individuo
de la población pertenezca a un estrato y sólo a uno
Los criterios de selección de los estratos deben estar
relacionados con el objetivo de estudio
Por ejemplo, si se quiere estudiar la proporción de jóvenes
que consumen alcohol, la estratificación será según el nivel
de edad, ya que se puede esperar que a los 15 años dicho
consumo sea diferente que a los 25 años
Procedimientos de muestreo probabilístico
2 - Muestreo estratificado
Si en la población se pueden diferenciar grupos de tal
forma que su comportamiento respecto a la variable a
estudiar sea homogéneo en cada grupo y muy diferente de
un grupo a otro, se puede lograr mayor precisión
obteniendo una muestra estratificada.
Se obtendría una mayor precisión si se obtuviera una
muestra independiente en cada uno de estos estratos.
Los criterios de estratificación más usuales en investigación
comercial son: sexo, edad, hábitat, clase social, nivel
profesional, número de hijos, zona geográfica, tamaño del
establecimiento, etc.
De cada uno de los estratos se obtiene una muestra aleatoria
simple, de tamaño nh, independiente en cada uno de los
estratos, de manera que:
n = ∑ nh
h
El muestreo estratificado permite obtener una estimación más
precisa de los parámetros de la población, pero además
proporciona estimaciones de los parámetros en cada estrato
Otra ventaja del muestreo estratificado es que se puede dar
un tratamiento diferente a la población en cada estrato
Por ejemplo, si para un estudio de opinión sobre una revista se
consideran dos estratos, el de los lectores y el de los anunciantes, se
pueden dar dos tratamientos diferentes. En el primer caso, recoger la
información mediante encuesta postal con el incentivo de un sorteo, y en
el de los anunciantes, mediante encuesta telefónica.
4
El mayor inconveniente es el diseño. Para planificarlo es
necesario tener bastante información sobre algunos aspectos
de la población para poder diseñar los estratos y disponer de
un marco en cada uno de ellos
En cuanto al número de estratos, no existe ninguna norma
precisa. En general, si los estratos están bien definidos,
cuanto mayor sea su número, mayor es la precisión, pero
cuanto mayor es el número de estratos, más difícil es el
diseño y más complicados los cálculos
En el diseño no sólo hay que decidir sobre el tamaño de la
muestra n, sino también sobre el reparto por estratos nh. Este
reparto se denomina afijación
La afijación en cada estrato, nh, depende del tamaño del estrato
Nh y de la heterogeneidad del estrato Sh- a los estratos más
heterogéneos se les asigna mayor tamaño muestral En general se cumple que la afijación óptima es más precisa que
la proporcional y ésta más que la afijación simple
Obsérvese que si todos los estratos tienen la misma varianza, la
afijación óptima coincide con la proporcional
El problema de la afijación óptima es que para su diseño se
necesita mayor información que para la proporcional - el tamaño
del estrato, Nh, su variabilidad Sh
En la práctica no se suele conocer este parámetro y se recurre a
procedimientos aproximados, igual que para la estimación de S
en el M.A.S., como encuestas piloto, métodos subjetivos, etc.
Existen distintas formas de realizar la afijación:
Afijación Simple - En todos los estratos se obtiene una muestra
de igual tamaño. Si hay L estratos, tendremos
n1 = ... = nh = ... = nL =
n
L
Afijación proporcional - El tamaño muestral de cada estrato
está en proporción al tamaño del estrato en la población
n1
n
n
n
= ... = h = ... = L =
N1
Nh
NL N
De donde
nh = n
Nh
N
en este caso el peso del estrato en la población es igual el
nh
peso del estrato en la muestra:
N
Wh = h y w h =
n
N
Afijación Óptima - Se asignan los tamaños muestrales de
forma que el error de la estimación del parámetro poblacional
sea mínimo, es decir, los resultados, más precisos
S ·N
n1
nh
nL
n
=
= ... =
= ... =
nh = n h h
S1 ·N1
S h ·N h
S L ·N L S · N De donde
S ·N
Procedimientos de muestreo probabilístico
3 - Muestreo sistemático
Constituye una alternativa a la selección aleatoria, ya que es
sencillo de aplicar
Exige la existencia de un listado en el que las unidades de la
población estén numeradas
Permite seleccionar cada elemento de una lista. Además, es más
fácil de supervisar
Consiste en tomar cada unidad k-ésima del muestreo después de
un arranque aleatorio, como en el siguiente ejemplo.
Consideremos una població
población de tamañ
tamaño N en la que se desea
tomar una muestra de tamaño n.
El intervalo de muestreo será k = N / n (número entero).
Se selecciona al azar un número del 1 al k, éste es r, el
arranque aleatorio. Los elementos seleccionados serán los
numerados con: r, r + k, r + 2k, ..., r + (n-1)k
Ejemplo.
Si la población es de N = 4.000 y se desea obtener una
muestra de tamaño n = 200, se obtendrá
k = 4.000/200
= 20.
4.000
Si el número aleatorio obtenido no superior al 20 ha sido el
r =15
se selecciona el elemento de la población numerado con el 15
como primer elemento de la muestra y se suma 20 a los
números que se van obteniendo hasta completar la muestra;
serán los numerados con 15, 35, 55, ..., 3.995.
Si el orden de los elementos en la lista es al azar, este
procedimiento es equivalente al M.A.S, aunque resulta más
fácil de llevar a cabo sin errores
Si por el contrario, el orden de los elementos es tal que los
individuos próximos tienden a ser más semejantes que los
alejados, el muestreo sistemático tiende a ser más preciso que
el M.A.S, al cubrir más homogéneamente toda la Población
5