Download preuba de hipotesis bien - Recursos Humanos y Estadistica

Document related concepts
no text concepts found
Transcript
2011
Temas Estadísticos
ÍNDICE
I.
ESTIMACIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS
POBLACIONALES, CASO DE MUESTRAS INDEPENDIENTES. ¿QUÉ ES
UNA ESTIMACIÓN?......................................................3
II.
PRUEBAS DE HIPÓTESIS DE DOS MEDIAS POBLACIONALES. CASO
MUESTRAS INDEPENDIENTES …………………………………………………………………..8
III.
INFERENCIAS SOBRE DOS MEDIAS POBLACIONALES. CASO DE
MUESTRAS PARALELAS ………………………………………………………………………………..15
IV.
INTERVALO DE CONFIANZA Y PRUEBAS DE HIPÓTESIS. SOBRE DOS
PROPORCIONES POBLACIONALES …………………………………………………………..26
2
I
ESTIMACIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS
POBLACIONALES
CASO DE MUESTRAS INDEPENDIENTES ¿QUÉ ES UNA ESTIMACIÓN?
Población
En lenguaje estadístico, también llamada universo o colectivo, es el conjunto de
elementos de referencia sobre el que se realizan las observaciones
Muestra;
Una pequeña parte o fragmento de una población.
Estimar;
Apreciar, poner precio, apreciar las cosas
Estimación; aprecio y valor que se da y en que se tasa y considera algo.
Calcular el valor aproximado de algo. Sentir aprecio o estima por alguien. Tener una
opinión de algo o alguien; Reconocer el valor, atributos o méritos de una persona o
cosa.
Estimación estadística;
Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una
población a partir de los datos proporcionados por una muestra.
Por ejemplo, una estimación de la media de una determinada característica de una
población de tamaño N podría ser la media de esa misma característica para una
muestra de tamaño n. [1]
3
Estimador;
El estimador es una variable aleatoria que asigna a cada posible valor de la muestra un
valor numérico. Lo más importante de un estimador, es que sea un estimador eficiente.
Esperanza matemática;
En estadística la esperanza matemática (también llamada esperanza, valor esperado,
media poblacional o media) de una variable aleatoria X, es el número
formaliza la idea de valor medio de un fenómeno aleatorio.
que
¿Qué se necesita para estimar?
Con base en los datos de una muestra se hacen estimaciones relacionadas con el valor
de la media o de la población.
La estimación se divide, cada tipo de estimación tiene distintos métodos que
se usan en función de las características y propósitos del estudio:
Estimación puntual:
Es un solo número que tiene como finalidad la estimación de un dato de población
desconocido.
Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de
una fórmula determinada,
Ejemplo; si se desea saber la asistencia media de un grupo de personas a un
restaurante x puede extraerse una muestra y ofrecer como estimación puntual la
asistencia de un grupo de comensales a un restaurante x.
Estimación por intervalos.
Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro
estimado con una cierta probabilidad.
Se define como la descripción de un intervalo de valores dentro del cual es posible que
se encuentre un parámetro de población.
La constituye;
4
Un concepto adicional que implica la incertidumbre que acompañara dicha estimación.
Una afirmación acerca del intervalo dentro del cual es probable que este la media de
población desconocida.
También es importante tomar una afirmación dentro del cual es probable que este la
media de población desconocida, y para localizar dicha estimación es necesario
encontrar el error estándar de la media. .
Error estándar de la media;
La desviación estándar de la distribución de muestreo de las medias muéstrales.
Desviación estándar;
Se define como la raíz cuadrada de la varianza.
En la estimación por intervalos se usan los siguientes conceptos:
Intervalo de confianza;
Intervalo de confianza;
Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de
confianza. Pero a veces puede cambiar este intervalo cuando la muestra no garantiza
un axioma (proposición clara y evidente que no necesita demostración).
Variabilidad del Parámetro;
Se utiliza solo cuando se desea saber el tamaño de la muestra.
Error de la estimación;
Es una medida de precisión de la muestra que corresponde con la amplitud del
intervalo de confianza.
Limite de Confianza;
5
Probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe
en el intervalo de confianza obtenido.
Valor α;
También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar
en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de
confianza (1-α).
CONCLUCION
La estimación de dos medias poblacionales es importante dentro de la gastronomía
para poder estudiar las preferencias de dos muestras que se encuentran sumergidas
en una población, así pues saber los resultados ayudan a la toma de buenas decisiones
y obtener datos verídicos y fiables que puedan aplicarse fácilmente en un
establecimiento de A y B.
6
EJEMPLO DE ESTIMACION APLICADO A LA GASTRONOMÍA
Se toma una muestra de la población de hombres y
de mujeres, que asisten al
restaurante “AZUL y ORO” localizado en la UNAM, administrado por el chef
investigador mexicano Ricardo Muñoz Zurita, por el periodo de un mes, tomando en
cuenta las asistencias y sacando una media en base a estos datos.
Se desea saber que sexo consume más el mole amarillito oaxaqueño, para estimar la
porción que se montara en un plato individual.
Se coloca en la carta por un mes y se realiza el estudio de estimación entre la
diferencia de dos medias poblacionales en este caso hombres y mujeres.
Antes de obtener los resultados se estima
que las mujeres son las que mas
regularmente piden este platillo ya que son mayoría, las asistencias contadas a este
establecimiento.
Ya que se obtiene los resultados, define que el ganador es el sexo masculino, es por
ello que el platillo se servirá con una porción un poco más grande que lo que se ha
venido haciendo.
Esto servirá para complacer al cliente y tener la confianza de que lo que se esta
haciendo partió de un buen estudio de dos medias poblacionales.
7
II Prueba de hipótesis
Hipótesis es una aseveración de una población elaborado con el propósito de poner a
prueba, para verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis,
después se hacen las pruebas para verificar la aseveración o para determinar que no
es verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral
y la teoría de probabilidad; se emplea para determinar si la hipótesis es una
afirmación razonable.
Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de seis
paso:
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no
rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que
en la consideración de estadística no proporciona evidencia de que algo sea verdadero.
Esta prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos
cada paso en detalle
Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado del
estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre
estadístico de muestra y un valor planteado del parámetro.
3.- Procedimiento sistemático para una prueba de hipótesis de una muestra
.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.
8
Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones
acerca de las poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de
población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice
cero no hay diferencia. Por lo general hay un “no” en la hipótesis nula que indica que
“no hay cambio” Podemos rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos
maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la
hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado
del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es
una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente
de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de
investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de
igualdad con respecto al valor especificado del parámetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera.
Se le denota mediante la letra griega α, tambiιn es denominada como nivel de riesgo,
este termino es mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula,
cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que
realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de
significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de
9
aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis
planteada, cuando es verdadera en la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una
región de rechazo (conocida como región crítica) y una región de no rechazo
(aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se
puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística
de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera.
Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula
es falsa. El valor crítico separa la región de no rechazo de la de rechazo.
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de
aceptación de la Ho o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera
y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la
letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es
aceptada cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
10
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que
minimice los errores de decisión. En la práctica un tipo de error puede tener más
importancia que el otro, y así se tiene a conseguir poner una limitación al error de
mayor importancia. La única forma de reducir ambos tipos de errores es incrementar
el tamaño de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β,
depende de la diferencia entre los valores supuesto y real del parámetro de la
población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la
estadística de muestra y el correspondiente parámetro de población es grande, la
probabilidad de cometer un error de tipo II, probablemente sea pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán
apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la
que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de
la muestra requerida. Las contrastaciones se apoyan en que los datos de partida
siguen una distribución normal
Existe una relación inversa entre la magnitud de los errores α y β: conforme a
aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de a para las
pruebas estadísticas. Lo ideal sería establecer α y β.En la práctica se establece el
nivel α y para disminuir el Error β se incrementa el número de observaciones en la
muestra, pues así se acortan los limites de confianza respecto a la hipótesis planteada
.La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras
palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que
se llama poder de la prueba (1- β) La aceptación de la hipótesis planteada debe
interpretarse como que la información aleatoria de la muestra disponible no permite
detectar la falsedad de esta hipótesis.
11
Paso 3: Cálculo del valor estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar
si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro
caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la
cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o
mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t.
PRUEBA Z
La prueba Z compara con μ y permite si la le permite concluir que la media poblacional
( μ ) es verdadera.
La prueba Z es adecuada para los datos de intervalos donde:
1.- El tamaño es de cualquier orden y se conoce la σ (desviación standard poblacional),
2.- El tamaño de la muestra es mayor que 30 y NO se conoce la σ
Nota : Si n < 30 y no se conoce σ Prueba
PRUEBA T
Se utiliza para obtener conclusiones sobre la media poblacional y se parte de:
Para muestras pequeñas n < 30
No se conoce la δ
Para valores n > 30 la distribución “t” y la “z” son virtualmente idénticas; los valores de
“t” no se han calculado para tamaños grandes de muestra.
12
Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la
igualdad
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤
H0 : µ ≥ 200 H0 : µ ≤ 200
H1 : µ < 200 H1 : µ > 200
En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar
(σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor
estadístico de prueba es z y se determina a partir de:
El valor estadístico z, para muestra grande y desviación estándar poblacional
desconocida se determina por la ecuación:
En la prueba para una media poblacional con muestra pequeña y desviación estándar
poblacional desconocida se utiliza el valor estadístico t.
Paso 4: Formular la regla de decisión
SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las
condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la
ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad
13
de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy
remota
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis
nula y la región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara
con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga
presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones:
aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la
posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error
tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería
haberse rechazado (error de tipo II).
Paso 6: aceptar o rechazar hipótesis
14
III
Inferencias sobre dos medias poblacionales, caso de muestras
paralelas
Conceptos generales
En el campo de la estadística se denominan parámetros a todas aquellas medidas que
expresan alguna característica general de una población, tales como la media de los
valores que toma una variable en todos los individuos de la población, la varianza de
estos valores, el percentil k-ésimo, la proporción de individuos que poseen
determinada característica, etc.
Su desarrollo formal fue iniciado por J. Neyman y E. Pearson (1933)1 y hoy en día
engloba una amplia
Colección de métodos con los que se pueden extraer conclusiones sobre los
parámetros
poblacionales a partir de la información que expresan los datos observados en una
muestra.
De forma general se distinguen dos grandes categorías de métodos de inferencia:
Métodos para estimación de parámetros.
Métodos para contraste de hipótesis.
Estimación de parámetros
El valor de un parámetro se estima a partir de alguna medida (estimador) calculada a
partir de los datos de una muestra, que pueda proporcionar un valor aproximado
(estimación) del Parámetro. Por ejemplo, la media de los datos de una muestra ofrece
un valor que puede Utilizarse como estimación de la media poblacional; éste es un
ejemplo de estimación Puntual, pero se sabe que esta estimación es aproximada.
Estimación por intervalo. Dar una estimación puntual sin indicar su precisión es de
escasa utilidad y puede ser engañoso; por este motivo es recomendable dar, junto con
la estimación puntual del parámetro, los límites de un intervalo de valores entre los
15
cuales podrá hallarse el valor exacto del parámetro con una confianza elevada. Esta
confianza se deriva de que el procedimiento usualmente empleado otorga una
probabilidad igualmente alta de que los intervalos generados por su conducto
contengan al parámetro en cuestión. El grado de confianza deseado debe ser prefijado
por el investigador (se acostumbra a utilizar valores tales como 0,90; 0,95 ó 0,99) y
se expresa como 10,05 y 0,01 respectivamente).
Contrastes de hipótesis
Los contrastes de hipótesis sobre parámetros, también llamados pruebas de
significación, aunque son técnicas muy relacionadas con las de estimación por
intervalos, tienen una orientación algo distinta. Son recursos de inferencia estadística
que, partiendo de la formulación de dos hipótesis contrarias sobre el posible valor de
un parámetro (o de una expresión de varios parámetros), permiten pronunciarse
acerca de la veracidad de una de ellas.
En el planteamiento de un contraste se llama hipótesis nula (H0) a aquella que expresa
la afirmación de que el parámetro (o la expresión de varios parámetros) cumple
determinada 3 condición y se llama hipótesis alternativa (H1) a la que expresa lo
contrario, la negación de H0.
A partir de los datos de una muestra, la aplicación de un método de contraste indicará
si se debe rechazar o no la hipótesis nula. Tal decisión se adopta en dependencia de la
magnitud de la probabilidad (valor p) de que, en el supuesto de que fuera cierta la
hipótesis nula, pudiera obtenerse un resultado muestral como el que se está
observando u otro más discrepante que éste con la hipótesis nula. Por ejemplo, si la
hipótesis nula
la muestra observada arrojan un valor de la media muestral X =43,5, el contraste de
hipótesis en este caso permite calcular la probabilidad (valor p) de que, siendo cierta
16
la hipótesis nula, pudiera resultar elegida una muestra cuya media X cumpla lo
siguiente:
Contraste bilateral: X se separe del valor 42 una distancia igual o mayor de 1,5.
Contraste unilateral: X supere el valor 42 en una distancia igual o mayor de 1,5.
Un valor muy bajo de p indica una fuerte discrepancia (“discrepancia significativa”) de
los datos de la muestra que se han observado con la hipótesis nula H0, lo cual indica la
posible falsedad de H0 y conduce a su rechazo. Se acostumbra a interpretar que el
valor p es “significativamente” bajo cuando es inferior a 0,05 (5%) y más aun cuando
es inferior a 0,01 (1%), aunque resulta preferible evitar esta dicotomía entre
“significativo” y “no significativo” expresando simplemente este grado de significación
(el valor p) como resultado del contraste.
Si el valor p no fuera pequeño, ello quiere decir que la información de la muestra no es
demasiado incompatible con la hipótesis nula y, por tanto, que no hay motivos para
rechazar H0. Pero esto no confirma su veracidad, pues estos mismos datos podrían
ser igualmente compatibles con otras hipótesis diferentes de esta hipótesis nula.
En este módulo de Epidat 3.1 se reúne un conjunto de métodos de inferencia sobre
parámetros para aplicar a datos de una muestra o a datos de dos muestras. En la
mayoría de los casos, las salidas presentarán resultados de una estimación por
intervalo y de un contraste de hipótesis para los parámetros propuestos. Todos los
contrastes incluidos en Epidat 3.1 son bilaterales y se realizan sobre el supuesto de
que la muestra ha sido seleccionada mediante Muestreo Simple Aleatorio. La solución
del problema de estimación cuando se trata de una “muestra compleja” no ha sido
incorporada en la versión actual de Epidat.
MÉTODOS DE INFERENCIA CON UNA MUESTRA
Media
17
Los métodos incluidos en este apartado permiten obtener un intervalo de confianza
para el valor de la media poblacional y también realizar el contraste de hipótesis
sobre un valor propuesto para la misma2.
La entrada de datos requiere el tamaño (n), así como la media ( X ) y la desviación
estándar (s) muestrales. Los resultados presentan los límites del intervalo de
confianza de la media poblacional para el nivel de confianza (1-
valor p
propuesto para la media poblacional. El valor p para el contraste unilateral, dado el
carácter simétrico de la distribución t-Student sería, en este caso, la mitad del valor
p del contraste bilateral.
El estadístico para el contraste sobre la media sigue una distribución t-Student con n1
grados de libertad, donde n es el tamaño de la muestra. En virtud del Teorema Central
del Límite, la distribución de este estadístico tiende a la normal(es decir, es
aproximadamente normal cuando el tamaño de muestra es grande. Por esta razón, el
valor p del contraste es virtualmente igual al que se obtendría con la distribución
normal si el tamaño es grande).
Proporción
En este apartado se deben introducir el tamaño de la muestra (n) y el número de veces
que aconteció el suceso de interés en la misma. Los resultados presentan los límites
del intervalo de confianza para la proporción poblacional y para el nivel de confianza
elegido, así como el valor p del contraste bilateral correspondiente a la hipótesis H0:
p=p0, donde p0 es un valor propuesto para la proporción poblacional.
El cálculo de los resultados se puede realizar de dos maneras: cuando se cumple la
condición np(1-p)>5, se aplica un método de aproximación por la distribución normal3;
si no se cumple esta condición, los resultados se obtienen por el método exacto,
basado en la distribución Binomial2,4.
18
Percentiles
La entrada de datos requiere el tamaño de la muestra (n) y el número indicador de
orden del percentil (k=1, 2, ..., 99). La salida de resultados en este caso sólo presenta
el intervalo de confianza para el percentil de orden k, con el nivel de confianza
elegido. Los límites de dicho intervalo vienen expresados en términos de su posición en
la muestra ordenada, es decir son los rangos de los valores muestrales, y su cálculo se
realiza por dos métodos:
Método exacto basado en la distribución binomial5.
Método basado en la aproximación a la distribución normal6 (sólo debe utilizarse
cuando se cumple la condición nk(100-k)/100>500).
Coeficiente de correlación
El programa requiere el tamaño de la muestra y el valor del coeficiente de correlación
lineal de Pearson en la muestra. Los resultados presentan los límites del intervalo de
valor p del contraste de
hipótesis sobre el mismo2.
El contraste se puede realizar para la hipótesis nula H0:
Recuento
Se llama recuento al número de sucesos registrados (número de accidentes, número
de casos diagnosticados, etc.) en una población durante cierto período. Bajo el
supuesto de que la variable “número de casos” sigue una distribución de Poisson, se
puede construir un intervalo de confianza para el valor medio (o valor esperado) y se
puede hacer un contraste de hipótesis sobre algún valor de referencia2,4.
Tasa de incidencia
La incidencia de una enfermedad o daño a la salud representa la frecuencia de
aparición de casos nuevos en una población durante determinado período. La tasa de
incidencia es el cociente entre el número de nuevos casos registrados y la suma de
todos los períodos de observación de cada uno de los sujetos en estudio, lo que se
19
conoce como personas-tiempo a riesgo (personas-años, personas-meses, etc.). Por
ejemplo, una persona-año representa un individuo en riesgo de desarrollar la
enfermedad durante un año, o equivalentemente, 2 personas observadas durante un
semestre cada una, 2 personas una de las cuales estuvo en riesgo durante 9 meses y la
otra durante 3, etc.
Entonces:
N de personas tiempo
Tasa de incidencia N de casos nuevos
Acumulado
Esta medida se utiliza cuando la población observada es inestable en el tiempo, es
decir, cada sujeto ha estado “en riesgo” o expuesto al evento de interés por períodos
distintos, ya sea por abandono del estudio, por contraer la enfermedad, etc. Es una
medida útil para el estudio de riesgos en poblaciones dinámicas (ingresan y salen
individuos, durante el lapso que dure el estudio).
Supóngase que, en el ejemplo anterior, las 33 defunciones por cáncer de pulmón se
registraron entre 1.000 trabajadores del asbesto seguidos durante un período de 5
años (4.550 personas-año). En este caso, la tasa de incidencia anual es el resultado del
cociente:
0,0073
4.550
Tasa de incidencia
Como el denominador de las tasas de incidencia (personas-tiempo) es un parámetro
fijo, suponiendo nuevamente que el numerador sigue una distribución de Poisson, se
pueden construir intervalos de confianza para el valor esperado y se pueden hacer
contrastes de hipótesis sobre valores propuestos del mismo2,4.
MÉTODOS DE INFERENCIA CON DOS MUESTRAS
20
Comparación de medias (muestras independientes)
En este apartado se presentan métodos de construcción del intervalo de confianza
para la diferencia de medias y contrastes de igualdad de las mismas basados en la
distribución t-Student2. Son aplicables en aquellas situaciones en las que se dispone
de dos muestras independientes extraídas de poblaciones con distribución normal. Se
aplica la prueba t de dos maneras: asumiendo o no que las varianzas de las dos
poblaciones son iguales. Con el objeto de elegir cuál es la forma de contraste
adecuada en cada estudio, también se presenta un contraste sobre la igualdad de
varianzas basado en la distribución F2.
Comparación de medias (muestras emparejadas)
Cuando se trata de comparar las medias de dos muestras emparejadas se utilizan los
métodos de inferencia para una sola muestra y se aplican sobre los valores resultantes
de formar las diferencias de pares de valores de las dos muestras originales.
En este apartado se proponen métodos basados en la distribución t y, por tanto, se
asume que los datos siguen una distribución normal2.
Comparación de dos proporciones (muestras independientes)
Cuando se enfrenta el problema de comparar las proporciones de individuos que tienen
determinada característica en dos poblaciones distintas, se suele disponer de dos
muestras independientes, una de cada población.
Los métodos de inferencia en este caso permiten construir un intervalo de confianza
para la diferencia de proporciones y realizar un contraste sobre su posible valor bajo
el supuesto de que el estadístico de esta diferencia sigue una distribución normal3.
Comparación de dos proporciones (muestras emparejadas)
21
Cuando se realizan estudios en el que una misma muestra de pacientes es sometida de
forma alternativa a dos tratamientos diferentes, o cuando se establece la presencia
de un rasgo dado antes y después, o cuando se realizan estudios de caso-control con
emparejamiento, se obtienen resultados en dos muestras dependientes cuyas
proporciones pueden ser comparadas pero utilizando métodos apropiados y distintos
de los del apartado anterior.
Estos métodos de inferencia sobre las proporciones se basan siempre en la
distribución binomial, pero presentan dos variantes dependiendo del número de datos:
utiliza la aproximación de la distribución binomial a la normal (test de
McNemar)3.
2. Si nd < 20, se utiliza la distribución binomial (método exacto)2.
Donde nd es el número de datos con respuesta diferente en las dos muestras.
Comparación de tasas de incidencia
Para el estudio comparativo de dos tasas de incidencia suele utilizarse como medida
de referencia la razón o cociente de tasas. En este módulo se puede construir un
intervalo de confianza para la razón de tasas y también se puede realizar un contraste
sobre la igualdad entre ellas2,7. Como en otros casos se pueden aplicar métodos de
inferencia basados en aproximaciones a la distribución normal, o bien procedimientos
exactos cuando los tamaños muestrales son pequeños.
Espacio Muestral
El espacio muestral del que se toma una muestra concreta está formado por el
conjunto de todas las posibles muestras que se pueden extraer de una población
mediante una determinada técnica de muestreo.
Es decir, si designamos a la "población" sobre la que tomamos la muestra (en ciertos
contextos también llamada "universo") por
toda muestra será un subconjunto de
este conjunto, y el espacio muestra por tanto será el conjunto potencia
22
.
Parámetro o Estadístico muestral
Un parámetro estadístico o simplemente un estadístico muestral es cualquier valor
calculado a partir de la muestra, como por ejemplo la media, varianza o una proporción,
que describe a una población y puede ser estimado a partir de una muestra. Valor de la
población.
Estimación
Una estimación es cualquier técnica para conocer un valor aproximado de un
parámetro referido a la población, a partir de los estadísticos muestrales calculados a
partir de los elementos de la muestra.
Nivel de confianza
El nivel de confianza de una aseveración basada en la inferencia estadística es una
medida de la bondad de la estimación realizada a partir de estadísticos muestrales.
Ejemplo
La descripción de una muestra, y los resultados obtenidos sobre ella, puede ser del
tipo mostrado en el siguiente ejemplo:
Dimensión de la población: ej. 222.222 habitantes
Probabilidad del evento: ej. Hombre o Mujer 50%
Nivel de confianza:
ej. 96%
Desviación tolerada:
ej. 5%
Resultado
ej. X
Tamaño de la muestra:
ej. 270
La interpretación de esos datos sería la siguiente:
La población a investigar tiene 222.222 habitantes y queremos saber cuántos son
varones o mujeres.
Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un
90% de seguridad con un nivel entre 90 - 5 y 90 + 5.
Generamos una tabla de 270 números al azar entre 1 y 222.222 y en un censo
numerado comprobamos el género para los seleccionados.
23
Ventajas de la elección de una muestra
El estudio de muestras es preferible a los censos (o estudio de toda la población) por
las siguientes razones:
La
población
es
muy
grande
(en
ocasiones,
infinita,
como
ocurre
en
determinados experimentos aleatorios) y, por tanto, imposible de analizar en su
totalidad.
Las características de la población varían si el estudio se prolonga demasiado tiempo.
Reducción de costos: al estudiar una pequeña parte de la población, los gastos de
recogida y tratamiento de los datos serán menores que si los obtenemos del total de
la población.
Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue
mayor rapidez.
Viabilidad: la elección de una muestra permite la realización de estudios que serían
imposible hacerlo sobre el total de la población.
La población es suficientemente homogénea respecto a la característica medida, con
lo cual resultaría inútil malgastar recursos en un análisis exhaustivo (por ejemplo,
muestras sanguíneas).
El proceso de estudio es destructivo o es necesario consumir un artículo para extraer
la muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda,
precisión de un proyectil, etc.).
Descripción matemática de una muestra aleatoria
El uso de muestras para deducir fiablemente características de la población requiere
que se trate con muestras aleatorias. Si la muestra estadística considerada no
constituye una muestra aleatoria las conclusiones basadas en dicha muestra no son
fiables y en general estarán sesgadas en algún aspecto.
24
En términos matemáticos, dada una variable aleatoria X con una distribución de
probabilidad F,
una
muestra
aleatoria
de
tamaño N es
un
conjunto
finito
de N variables independentes, con la misma distribución de probabildad F.1
Otra forma más intuitiva, de entender una muestra es considerar que una muestra es
una sucesión de N experimentos independientes de una misma cantidad. Es importante
diferenciar una muestra de tamaño N, o más exactamente un muestreo de tamaño N,
del resultado concreto de de los N experimentos (que como conjunto de valores fijos,
en sí mismo, no es una muestra). El concepto de muestra incluye de alguna manera el
procedimiento escogido para obtener los datos (es decir, si las variables aleatorias
consideradas son independientes entre sí, y si tienen la misma distribución).
En general, resulta muy difícil comprobar si una determinada muestra es o no
aleatoria, cosa que sólo puede hacerse considerando otro tipo de muestreos aleatorios
robustos que permitan decir si la primera muestra era aleatoria o no.
25
IV
“INTERVALO DE CONFIANZA Y PRUEBA DE HIPOTESIS SOBRE
DOS PROPORCIONES POBLACIONALES”
Intervalo de Confianza
Se llama intervalo de confianza, a un cierto número de datos en los cuales se estima
que estará, cierto valor desconocido con una determinada población. Estos números
determinaran un intervalo, que se calculara a partir de datos de una población
(muestra), y el valor desconocido es un “parámetro de población”.
La probabilidad de éxito en la estimación se representa, por: “1-a”, y a esto se le
denominada “nivel de confianza”. En donde “a”, es el error aleatorio o nivel de
significación, esto es, una medida de las poblaciones, de fallar en la estimación del
intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, esto
representa, que si tenemos un intervalo más amplio, el nivel de confianza es mayor,
mientras que si tenemos un intervalo más pequeño, que se supone ofrece una
estimación más precisa, aumentan sus posibilidades de dar como resultado un error.
NOTA: Para la construcción de un determinado intervalo de confianza es necesario,
conocer la distribución que sigue el parámetro a estimar, el cual se representa con:
“θ”.
En definitiva, un intervalo de confianza al “1-a%”, para la estimación de un parámetro
de población (θ), que sigue una determinada distribución de probabilidad, es una
expresión del tipo: [θ1, θ2], tal que P [θ1 ≤ θ ≤ θ2] = 1 – α.
26
Donde:
-
“P”: es la función de distribución de probabilidad del parámetro de una
población.
-
“θ1”: Parámetro de población con información que si me sirve.
-
“θ2”: parámetro de población con información que no me sirve.
NOTA: Para que la investigación sea confiable o aceptable, el parámetro de población
con información que si me sirve debe de ser mayor al parámetro de población con
información que no me sirve.
Prueba de Hipótesis
La prueba de hipótesis suele comenzar con alguna teoría, afirmación o aseveración
sobre un parámetro especifico de una población.
La hipótesis de que el parámetro de población es igual a la especificación de la
investigación se denomina hipótesis nula. Una hipótesis nula se denota mediante el
símbolo “Ho”.
A pesar de que solo se cuenta con información de la muestra, la hipótesis nula se
escribe en términos de la población. Si se considera que la hipótesis nula es falsa,
entonces habrá otra afirmación que debe ser cierta.
Siempre que se especifica una hipótesis nula, también se determina una hipótesis
alternativa la cual se representa con el símbolo “Hi”, esta debe ser cierta si la
hipótesis nula es falsa. La hipótesis alternativa siempre será opuesta a la hipótesis
nula.
27
La hipótesis alternativa representa la conclusión obtenida al rechazar la hipótesis
nula. Cuando a partir de la información de la muestra, existe suficiente evidencia de
que es falsa, se rechaza la hipótesis nula.
Si no se rechaza la hipótesis nula, entonces se debe continuar confiando en que el
proceso funciona correctamente y por lo tanto, no es necesaria una acción correctiva.
En la metodología de la prueba de hipótesis, la hipótesis nula se rechaza cuando la
evidencia muestral sugiere que es más probable que esta sea cierta que la hipótesis
nula. Sin embargo, el no poder rechazar la hipótesis nula no comprueba que esta sea
cierta. Nunca se podrá demostrar que la hipótesis nula es correcta, porque la decisión
se basa solo en información de la muestra, no en toda la población.
NOTA: Si no rechaza la hipótesis nula, solo puede concluir que no existe evidencia
para garantizar su rechazo.
Los siguientes puntos fundamentales resumen las hipótesis nula y alternativa:
-
La hipótesis nula representa creencia actual en una situación.
-
La hipótesis alternativa es lo opuesto a la hipótesis nula y representa una
afirmación de investigación o inferencia especifica que quisiera demostrar.
-
Si usted rechaza la hipótesis nula, tiene una prueba estadística de que la
hipótesis alternativa es correcta.
-
Si usted no rechaza la hipótesis nula, entonces no ha podido demostrar la
hipótesis alternativa.
-
La hipótesis nula siempre refiere a un valor específico del parámetro
poblacional, no a un estadístico de muestra.
28
-
El enunciado que describe la hipótesis nula siempre contiene un signo de igual
(=), relacionado con el valor especifico del parámetro poblacional.
-
El enunciado que describe la hipótesis alternativa nunca contiene un signo de
igual (=), relacionado con el valor especifico del parámetro poblacional.
Regiones de Rechazo y Aceptación
La distribución muestral del estadístico de muestra se divide en dos regiones, una de
rechazo (a veces llamada región crítica) y una de aceptación.
Si el estadístico de prueba queda en la región de aceptación, no rechace la hipótesis
nula. Si el estadístico de prueba queda en la región de rechazo, usted rechaza la
hipótesis nula.
La región de rechazo se compone de los valores del estadístico de prueba con muy
pocas posibilidades de presentarse en caso de que la hipótesis nula sea cierta. Es más
probable que tal vez valores se presenten si la hipótesis nula es falsa. Si un valor del
estadístico de prueba queda dentro de la región rechazado, la hipótesis nula se
rechaza porque ese valor tiene pocas posibilidades de presentarse si la hipótesis nula
es cierta.
Para tomar una decisión con respecto a la hipótesis nula, debe determinarse cual es el
valor crítico del estadístico de prueba. Ese valor separa la región de aceptación de la
región de rechazo. Determinar este valor crítico depende del tamaño de la región del
rechazo. El tamaño de la región de rechazo se relaciona directamente con los riesgos
implícitos a utilizar solo evidencia muestral para tomar decisiones con respecto a un
parámetro poblacional.
Riesgos de la toma de decisiones al utilizar la metodología de la prueba de
hipótesis
29
Al utilizar un estadístico de muestra para tomar decisiones sobre el parámetro
poblacional, existe el riesgo de llegar a una conclusión equivocada. Al aplicar la
metodología de prueba de hipótesis, puede cometer dos tipos de errores: el error tipi
I y el error tipo II.
-
Error tipo I: Se presenta cuando se rechaza la hipótesis nula siendo cierta y
no debería rechazarse. La probabilidad de que se presente un error tipo I, es
“a”.
-
Error tipo II: Se presenta cuando se rechaza la hipótesis nula siendo falsa y
debería rechazarse. La probabilidad de que se presente un error tipo II, es
“b”.
a: Es el nivel de significancia, probabilidad de cometer un error del tipo I, se controla
al decidir el nivel de riesgo que está dispuesto a correr al rechazar la hipótesis nula,
siendo cierta.
b: es el riesgo, probabilidad de cometer un error del tipo II, depende de la diferencia
que existe entre los valores de hipotético y real del parámetro poblacional.
Ejemplo:
Se seleccionaron muestras aleatorias independientes de n1= 100 y n2= 100,
observaciones de dos poblaciones binomiales, 1 y 2, respectivamente. El numero de
éxitos en las muestras y los parámetros poblacionales se muestran en la tabla
siguiente:
Estadística y parámetro
Población 1
Población 2
Tamaño de la muestra
100
100
Numero de éxitos
60
30
Parámetro binomial
P1
P2
30
31