Download APUNTE__MED_-_DIF_MED_-_PROP_

Document related concepts

Intervalo de confianza wikipedia , lookup

Estimador wikipedia , lookup

Muestra estadística wikipedia , lookup

Estadístico muestral wikipedia , lookup

Prueba t de Student wikipedia , lookup

Transcript
ESTADISTICA INFERENCIAL
Uno de los propósitos de la estadística es extraer conclusiones acerca de la
naturaleza de una población. Como las poblaciones son grandes y no puede
ser estudiada en su totalidad, generalmente el estudio se basa en el examen
de solo una parte de esta. La estadística inferencial nos permite estimar las
características poblacionales desconocidas, examinando la información
obtenida de una muestra, de una población. Una muestra es un subconjunto
de observaciones seleccionadas de una población. Esta muestra debe ser
representativa de la población objeto de estudio. La teoría del muestreo estudia
las relaciones que existen entre la distribución de un carácter en una población
y la distribución del mismo carácter en todas las muestras que tomemos de la
misma. El muestreo más importante es el muestreo aleatorio, en el que todos
los elementos de la población tienen la misma probabilidad de ser extraídos e
incluidos en la muestra. Existen otros tipos de muestreo como el muestreo por
conglomerados, sistemático y estratificado.
Cuando contamos con una muestra, la aplicación de los principios de la
estadística inferencial puede hacerse en forma sistemática, dividiendo el
estudio en tres partes. Estas tres aéreas de la Estadística Inferencial son las
distribuciones muestrales, la estimación y el contraste de hipótesis.
Este apunte está organizado de manera que para cada caso, sean tratados los
tres aspectos estadísticos.
DISTRIBUCIONES MUESTRALES
Si las muestras obtenidas de una población son aleatorias, no se espera que
dos muestras aleatorias del mismo tamaño y tomadas de la misma población
sean completamente parecidas; puede esperarse que cualquier estadístico,
como por ejemplo la media muestral, calculado a partir de las medias en una
muestra aleatoria, cambie su valor de una muestra a otra. Por ello, lo que se
busca es estudiar la distribución de todos los valores posibles de un
estadístico. Es decir, como los valores de un estadístico, tal como x, varían de
una muestra aleatoria a otra, se le puede considerar como una variable
aleatoria con su correspondiente distribución de frecuencias. La distribución de
frecuencias de un estadístico muestral se denomina distribución muestral. En
general, la distribución muestral de un estadístico es la de todos sus
valores posibles calculados a partir de muestras del mismo tamaño.
Las distribuciones muestrales pueden construirse experimentalmente a partir
de poblaciones finitas y discretas de la siguiente manera:
1.
De una población finita de tamaño N, se extraen de manera aleatoria
todas las muestras posibles de tamaño n.
2.
Se calcula la estadística de interés para cada muestra.
3.
Se lista en una columna los distintos valores de la estadística, y en otra
columna las frecuencias correspondientes de cada valor observado.
Así, si se calcula la media muestral para cada muestra; la colección de todas
estas medias muestrales recibe el nombre de distribución muestral de medias.
1
Si hacemos lo mismo con las desviaciones estándares, la colección de todas
estas desviaciones estándar muestrales se llama distribución muestral de la
desviación
estándar.
Normalmente, para una distribución muestral, se tiene interés en conocer tres
cosas: media, varianza y forma funcional (apariencia gráfica).
ESTIMACION
El objetivo principal de la estadística inferencial es la estimación, esto es que
mediante el estudio de una muestra de una población se quiere generalizar las
conclusiones al total de la misma. Existen dos tipos de estimaciones para
parámetros; puntuales y por intervalo. Una estimación puntual es un único
valor estadístico y se usa para estimar un parámetro. El estadístico usado se
denomina estimador. Una estimación por intervalo es un rango,
generalmente de ancho finito, que se espera que contenga el parámetro.
Estimación Puntual
La inferencia estadística está casi siempre concentrada en obtener algún tipo
de conclusión acerca de uno o más parámetros (características poblacionales).
Para ello se requiere datos muestrales de cada una de las poblaciones en
estudio. De esta manera, las conclusiones pueden estar basadas en los valores
calculados de varias cantidades muestrales. Por ejemplo, si deseamos conocer
el verdadero valor de la media poblacional para un cierto carácter  , se puede
tomar muestras de la población y usando las medias muestrales X estimar la
media poblacional. De forma similar, si  2 es la varianza de la distribución de
del parámetro en la población, el valor de la varianza muestral s2 se podría
utilizar
para
inferir
algo
acerca
de
 2.
Una estimación puntual de un parámetro es un sólo número que se puede
considerar como el valor más razonable de . La estimación puntual se obtiene
al seleccionar una estadística apropiada y calcular su valor a partir de datos de
la muestra dada. La estadística seleccionada se llama estimador puntual de
.
Estimación por Intervalos
Debido a la variabilidad de la muestra, nunca se tendrá el caso de que =  . El
estimador puntual nada dice sobre lo cercano que esta de  .
Una alternativa para obtener un solo valor del parámetro que se esté estimando
es calcular e informar todo un intervalo de valores factibles, un estimado de
intervalo o intervalo de confianza (IC), en el que pueda precisarse, con una
cierta probabilidad, que el verdadero valor del parámetro se encuentre dentro
de esos límites. Elegiremos probabilidades cercanas a la unidad, que se
representan por 1-α y cuyos valores más frecuentes suelen ser 0'90, 0'95 y
0'99. Tendremos que obtener dos estadísticos que nos darán los valores
extremos del intervalo, tales que
2
Al valor 1-α se le llama coeficiente de confianza, y
Al valor 100 (1-α) % se le llama nivel de confianza.
Se denomina estimación confidencial o intervalo de confianza para un nivel de
confianza 1-α dado, a un intervalo que ha sido construido de tal manera que
con frecuencia 1-α realmente contiene el parámetro
Un intervalo de confianza se calcula siempre seleccionando primero un nivel
de confianza, que es una medida del grado de fiabilidad en el intervalo. La
probabilidad de error (no contener el parámetro) es α y la probabilidad de
acierto
(contener
el
parámetro)
es
1-α.
Un intervalo de confianza con un nivel de confianza de 95% podría tener un
límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de
confianza de 95%, es posible tener cualquier valor de  entre 9162.5 y 9482.9.
Un nivel de confianza de 95% (1-α= 0.95) implica que 95% de todas las
muestras daría lugar a un intervalo que incluye  o cualquier otro parámetro
que se esté estimando, y sólo 5% (α = 0,05) de las muestras producirá un
intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que
el valor del parámetro que se estima está dentro del intervalo.
Se denomina coeficiente de confianza a la probabilidad de que un estimador
por intervalos cubra el verdadero valor del parámetro que se pretende estimar,
se lo representa por 1-α.
PRUEBA DE HIPOTESIS
Otra rama de la estadística inferencial recibe el nombre de Contraste de
Hipótesis. En la práctica, muchas veces nos encontramos con casos en los que
existe una teoría preconcebida relativa a la característica de la población en
estudio. El Contraste de Hipótesis, en toda investigación, implica la existencia
de dos teorías o hipótesis implícitas, que reflejan esta idea a priori que tenemos
y que pretendemos contrastar con la realidad.. Este es uno de los aspectos
más útiles de la inferencia estadística, puesto que muchos tipos de problemas
de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería,
pueden formularse como problemas de prueba de hipótesis.
Una hipótesis estadística es una proposición o supuesto sobre los
parámetros de una o más poblaciones.
Un contraste o test de hipótesis es una técnica de Inferencia Estadística que
permite comprobar si la información que proporciona una muestra observada
concuerda (o no) con la hipótesis estadística formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada.
Una hipótesis estadística puede ser:
3
Paramétrica: es una afirmación sobre los valores de los parámetros
poblacionales desconocidos. Las hipótesis paramétricas se clasifican en:


Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5,
= 10, X = Y ,...).
Compuesta: si la hipótesis asigna un rango de valores a los parámetros
poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...).
No Paramétrica: es una afirmación sobre alguna característica estadística de la
población en estudio. Por ejemplo, las observaciones son independientes, la
distribución de la variable en estudio es normal, la distribución es simétrica,...
En el contraste de hipótesis estadísticas siempre se acepta, provisionalmente,
una hipótesis como verdadera, que es la hipótesis nula H0, y que es sometida a
comprobación experimental frente a otra hipótesis complementaria que
llamaremos hipótesis alternativa H1. Como consecuencia de la comprobación
experimental, la hipótesis nula H0 podrá seguir siendo aceptada como
verdadera o, por el contrario, tendremos que rechazarla y aceptar como
verdadera la hipótesis alternativa H1. Las hipótesis deben ser formuladas de tal
manera que sean mutuamente excluyentes y complementarias.
La especificación apropiada de la hipótesis nula y alternativa depende de la
naturaleza propia del problema en cuestión. Las formas básicas de establecer
las hipótesis sobre el parámetro θ son las siguientes:
I
H o :   0
H1 :   0
II
H o :   0
H1 :   0
III
H o :   0
H1 :   0
IV
H o : 1     2
H1 :   1 ó  >2
Es importante recordar que las hipótesis siempre son proposiciones sobre la
población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo
general, el valor del parámetro de la población especificado en la hipótesis nula
se determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del
proceso, entonces el objetivo de la prueba de hipótesis usualmente es
determinar si ha cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con
el proceso bajo estudio. En este caso, el objetivo de la prueba de
hipótesis es verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas,
tales como las especificaciones de diseño o ingeniería, o de
obligaciones contractuales. En esta situación, el objetivo usual de la
prueba de hipótesis es probar el cumplimiento de las especificaciones.
4
Un procedimiento que conduce a una decisión sobre una hipótesis en particular
recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de
hipótesis dependen del empleo de la información contenida en la muestra
aleatoria de la población de interés. Si esta información es consistente con la
hipótesis, se concluye que ésta es verdadera; sin embargo si esta información
es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse
hincapié en que la verdad o falsedad de una hipótesis en particular nunca
puede conocerse con certidumbre, a menos que pueda examinarse a toda la
población. Usualmente esto es imposible en muchas situaciones prácticas. Por
tanto, es necesario desarrollar un procedimiento de prueba de hipótesis
teniendo en cuenta la probabilidad de llegar a una conclusión equivocada.
La hipótesis nula, representada por Ho, es la afirmación sobre una o más
características de poblaciones que al inicio se supone cierta (es decir, la
"creencia a priori").
La hipótesis alternativa, representada por H1, es la afirmación contradictoria a
Ho, y ésta es la hipótesis del investigador.
La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la
evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice
decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula.
Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis
son rechazar Ho o no rechazar Ho.
Región crítica y región de aceptación
La región crítica está constituida por el conjunto de muestras para las cuales se
rechaza la hipótesis nula H0.
La región de aceptación está constituida por el conjunto de muestras para las
cuales se acepta la hipótesis nula H0.
El valor o valores que separan la región crítica de la región de aceptación
reciben el nombre de valor o valores críticos.
Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán
del tipo de las indicadas en el siguiente gráfico:
Región crítica
(Rechazar H 0 )
Región de aceptación
crítica
(Aceptar H 0 )
Región
(Rechazar H 0 )
C
C
C
|-----------------------|-----------------------------------------------------|-----------------------|
↑
↑
|----- - - - - --Valores críticos---------------|
Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones
serán del tipo de las indicadas en el siguiente gráfico:
Región crítica
Región de aceptación
5
(Rechazar H 0 )
(Aceptar H 0 )
C
C
← |-------------------------------------|-------------------------------------------------------| →
↑
Valor crítico
Análogamente, si el contraste es de forma III, es decir, unilateral a la derecha,
entonces las regiones son del tipo a las indicadas en el gráfico siguiente:
Región de aceptación
(Aceptar H 0 )
Región crítica
(Rechazar H 0 )
C
C
←|-----------------------------------------------------------------|---------------------------------|→
↑
Valor crítico
Errores de Tipo I y de Tipo II
En todo problema de decisión, cuando tenemos que elegir entre varias
alternativas o decisiones existe la posibilidad o riesgo de equivocarnos
cometiendo los correspondientes errores. Así pues, en el contraste de
hipótesis, basándonos en la información proporcionada por la muestra,
tenemos que decidir si aceptamos la hipótesis nula H 0 o si la rechazamos. La
decisión siempre la hacemos sobre la hipótesis nula, existiendo un riesgo de
equivocarnos que nos llevará a los errores de tipo I y de tipo II.
El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es
verdadera. También es conocido como  ó nivel de significancia. Si
tuviéramos un nivel de confianza del 95% entonces el nivel de significancia
sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces
el nivel de significancia sería del 10%.
El error tipo II ó error  se define como la aceptación de la hipótesis nula
cuando ésta es falsa.
Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula,
dos de ellos no nos llevan a ningún tipo de error y los otros dos dan lugar a los
errores de tipo I y de tipo II. En efecto, la tabla siguiente nos muestra los cuatro
posibles resultados:
Decisión
Aceptamos H 0
H 0 es verdadera
H 0 es falsa
Decisión correcta
No hay error
1- 
Nivel de confianza
Error de tipo II

6
Rechazamos H 0
Error de tipo I

Decisión correcta
No hay error
1- 
Si la hipótesis nula H0 es verdadera, podemos aceptar H0 o rechazar H0
basándonos en la información proporcionada por la muestra. Si aceptamos H0
cuando es verdadera, la decisión es correcta y no hay error. Si rechazamos H0
cuando es verdadera, hemos cometido un error, que se llama error de tipo I.
Si la hipótesis nula H0 es falsa, podemos aceptar H0 o rechazar H0 basándonos
en la información muestral. Si aceptamos H0 cuando es falsa, hemos cometido
un error, que se llama error de tipo II. Si rechazamos la hipótesis nula H0
cuando es falsa, la decisión es correcta y no hay error.
Es necesario dar una medida de la posibilidad o del riesgo de cometer estos
dos tipos de errores. Estas medidas son probabilidades y las notaremos por α y
β, siendo:
 = Riesgo de error de tipo I = P (Error de tipo I) = P (Rechazar H 0 / H 0 es
cierta).
 = Riesgo de error de tipo II = P (Error de tipo II)= P (Aceptar H 0 / H 0 es falsa)
Los errores tipo I y tipo II están relacionados. Una disminución en la
probabilidad de uno por lo general tiene como resultado un aumento en la
probabilidad del otro. El tamaño de la región crítica, y por tanto la probabilidad
de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores
críticos. Un aumento en el tamaño muestral n reducirá la probabilidad de error.
Si los errores de tipo I y de tipo II son nulos, α=β=0, entonces decimos que el
test o contraste es ideal.
Cuando estudiamos los intervalos de confianza, decimos que 1-α es el nivel
de confianza, y ahora podemos decir que representa el complemento de la P
(error de tipo I), siempre y cuando el test sea bilateral, es decir:
Nivel de confianza = 1-α
=1-P(error de tipo I)= P(aceptar H 0 / H 0 es cierta)
Se denomina nivel de significación de un contraste a la probabilidad de cometer
un error tipo I. Fijar el nivel de significación equivale a decidir de antemano la
probabilidad máxima que se está dispuesto a asumir de rechazar la hipótesis
nula cuando es cierta. El nivel de significación lo elige el experimentador y tiene
por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma
=
0'05,
0'01
o
0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el
conjunto de posibles valores del estadístico de contraste:
La región de Rechazo, con probabilidad α, bajo H0.
La región de Aceptación, con probabilidad 1 - α, bajo H0.
7
Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico
o no, se denomina:
Contraste unilateral o contraste de una cola: es el contraste de hipótesis cuya
región de rechazo está formada por una cola de la distribución del estadístico
de contraste, bajo H0.
Contraste bilateral o contraste de dos colas: es el contraste de hipótesis cuya
región de rechazo está formada por las dos colas de la distribución del
estadístico de contraste, bajo H0. Es decir, la región de rechazo se divide en
dos lados o colas de la distribución de la estadística de prueba.
Estadística de prueba:
La estadística de prueba es alguna estadística que se puede calcular a partir
de los datos de la muestra. Sirve como un productor de decisiones, ya que la
decisión de rechazar o no la hipótesis nula depende de la magnitud de la
estadística de prueba. La fórmula para la estadística de prueba que se aplica
en muchas de las pruebas de hipótesis es:
Estadística de prueba = estadística relevante – parámetro supuesto / error
estándar
La calve para la inferencia estadística es la distribución muestral. Es necesario
recordar esto en los casos en los que se deba especificar la distribución de
probabilidad de la estadística de prueba.
A continuación, se analizaran las distribuciones muestrales, estimación y
prueba de hipótesis para: la media, una proporción, la diferencia de medias y la
diferencia de proporciones. Se recomienda hacer un estudio completo de cada
tema, y al final de cada uno hacer un resumen integratorio.
Distribución Muestral de Medias
El conocimiento y comprensión de las distribuciones muestrales son necesarios
para entender los conceptos de la estadística inferencial. Una de las
distribuciones muestrales más importantes es la distribución de la media de la
muestra. La aplicación mas sencilla de la distribución muestral de la media de
la muestra es el cálculo de la probabilidad de obtener una muestra con una
media de alguna magnitud especifica. Este es un ejemplo de cómo elaborar
esta distribución.
Se tiene una población de tamaño N=5, la cual se compone de las edades de
cinco niños que son pacientes externos de una clínica de salud mental. Las
8
edades son las siguientes: x1=6, x2=8, x3=10, x4=12, x5=14. La media para esta
población es igual a  x / N =(6+8+10+12+14)/5 = 10. La varianza es
 x   
=
2

2
=
N
40
=8
5
Otra medida de dispersión que se puede calcular es:
 x   
2
S2=
N 1
=
40
=10
4
Esta cantidad se utilizara en el los temas de inferencia estadística.
Siguiendo con el ejemplo, a partir de esta población se extraen todas las
muestras posibles de tamaño n=2. Se observa que cuando el muestreo se
efectúa con reemplazos, hay 25 muestras posibles, cada una con sus
respectivas medias muestrales. Para elaborar una distribución muestral para x
se listan los diferentes valores de x en una columna y sus frecuencias de
ocurrencia en otra.
Como dijimos anteriormente, para una distribución muestral se tiene interés en
la forma funcional de la distribución, su media y su varianza.
Para el cálculo de la media muestral se suman las 25 medias de las muestras y
se divide entre el número de muestras. Es interesante destacar que la media
de la distribución muestral para x tiene el mismo valor que la media para la
población original. El cálculo de la varianza se calcula de la siguiente manera:

2
x
 x
=
 x 
2
i
Nn
100
8 2
=
=4= =
25
2 n
Se puede advertir que la varianza de la distribución muestral no es igual a la
varianza de la población. Sin embargo, la varianza de la distribución muestral
es igual a la varianza de la población dividida por el tamaño de la muestra
utilizada para obtener la distribución muestral. La raíz cuadrada de la varianza
de la distribución muestral se llama error estándar y es igual a  / n .
Se puede distinguir dos situaciones: muestreo a partir de una población que
sigue una distribución normal y muestreo a partir de una que no sigue una
distribución normal. Si la población es normal se cumplen las propiedades
enunciadas anteriormente. Si la población no es normal, se utiliza un teorema
conocido como el teorema del límite central.
Teorema del límite central
Si se seleccionan muestras aleatorias de una población con media  y
desviación estándar  , entonces, cuando n es grande, la distribución maestral
de medias tendrá aproximadamente una distribución normal con una media
igual a  y una desviación estándar de  / n . La aproximación será cada vez
más exacta
a medida
de
que
n
sea
cada vez mayor.
9
Aplicando este teorema, cuando el tamaño de la muestra es grande, el muestro
de x tendrá una distribución aproximadamente normal.
Si la población de la que se extraen las muestras es normal, la distribución
muestral de medias será normal sin importar el tamaño de la muestra.
Si la población de donde se extraen las muestras no es normal, entonces el
tamaño de la muestra debe ser mayor o igual a 30, para que la distribución
muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la
muestra, más cerca estará la distribución muestral de ser normal. Para muchos
propósitos, la aproximación normal se considera buena si se cumple n=30
Cuando el muestreo se realiza sin reemplazos, la varianza de la distribución
muestral no es igual a la varianza poblacional dividida entre el tamaño de la
muestra. Sin embargo existe una relación que se obtiene al multiplicar:
 / n . (N-n)/(N-1)
Esta es la varianza de la distribución maestral de x cuando el muestreo es sin
reemplazos. El factor (N-n)/(N-1) se llama corrección por población finita y se
puede omitir cuando el tamaño de la muestra es pequeño en comparación con
el tamaño de la población. Es decir, la corrección de población finita
generalmente se ignora cuando n/N  0.5
La distribución normal es una distribución continua, en forma de campana en
donde la media, la mediana y la moda tienen un mismo valor. Con esta
distribución podíamos calcular la probabilidad de algún evento relacionado con
la variable aleatoria, mediante la siguiente fórmula:
z=
x

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de
cualquier tamaño de una población normal, la distribución muestral de medias
tiene un comportamiento aproximadamente normal. Teniendo en cuanta esto y
sabiendo que la desviación estándar es  / n , se hacen los reemplazos
correspondientes. Así la formula para calcular la probabilidad del
comportamiento del estadístico, en este caso la media de la muestra, quedaría
de la siguiente manera:
y para poblaciones finitas y muestro con reemplazo:
Ejemplo 1: Si la media y la desviación estándar de la concentración en suero
en hombres sanos es de 120 15mg por cada 100 ml, respectivamente, ¿Cuál
es la probabilidad de que una muestra aleatoria de 50 hombres normales tenga
una media entre 115 y 125mg/100ml?
10
Solución: No se especifica la forma funcional de la población de valores de las
concentraciones de hierro en el suero, pero como el tamaño de la muestra es
mayor a 30, se puede utilizar el teorema del limite central para transformar la
distribución muestral de x en aproximadamente normal con media de 120 y una
desviación estándar de 15/ 50 =2.12. La probabilidad buscada es:
125  120 
 115  120
P (115  x  125) = P 
 z 

2.12 
 2.12
=P (-2.36  z  2.36
= 0.9909 – 0.0091
=0.9818
Ejemplo 2: Las estaturas de 1000 estudiantes están distribuidas
aproximadamente en forma normal con una media de 174.5 centímetros y una
desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias
de tamaño 25 sin reemplazo de esta población, determine:
a. El número de las medias muestrales que caen entre 172.5 y 175.8
centímetros.
b. El número de medias muestrales que caen por debajo de 172
centímetros.
Solución: Como se puede observar en este ejercicio se cuenta con una
población finita y un muestreo sin reemplazo, por lo que se tendrá que agregar
el factor de corrección. Se procederá a calcular el denominador de Z para sólo
sustituirlo en cada inciso.
a.
11
(0.7607)(200)=152 medias muestrales
b.
(0.0336)(200)= 7 medias muestrales
Estimación para la Media
Supongamos que un grupo de investigadores quiere estimar la media de una
población que sigue una distribución normal y que, para ello, extraen una
muestra aleatoria de tamaño n de la población y calculan el valor de x , el cual
utilizan como una estimación puntual de  . Aunque este estimador posee
todas las cualidades de un buen estimador, no se puede esperar que x sea
igual a  . Por lo tanto, es mucho más significativo estimar  mediante un
intervalo que de alguna forma muestre el valor de  .
Para realizar esa estimación por intervalos, aprovechamos las distribuciones
muestrales. En este caso, como el interés está en la media de la muestra como
estimador de la media de una población, es necesario tener en cuenta la
distribución muestral de la media.
En base a la distribución muestral de medias, la fórmula para el cálculo de
probabilidad es la siguiente:
.
Cuando se desconoce el valor de la media poblacional lo podemos estimar por
medio de la media de la muestra, para ello sólo se despejará  de la formula
anterior, quedando lo siguiente:
Tomamos un intervalo que contenga una masa de probabilidad de1-  . La
cantidad 1-  se conoce como coeficiente de confianza y designa el área total
12
dentro del intervalo en el que puede hallarse el valor real de  . Este intervalo
lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo
simétrico con respecto a la media (0), ya que allí es donde se acumula más
masa. Así las dos colas de la distribución (zonas más alejadas de la media) se
repartirán a partes iguales el resto de la masa de probabilidad, .
El intervalo de confianza al nivel de1-  para la esperanza de una normal de
varianza conocida es el comprendido entre los valores
La forma habitual de escribir este intervalo es:
De esta fórmula se puede observar que tanto el tamaño de la muestra como el
valor de z se conocerán. Z se puede obtener de la tabla de la distribución
normal a partir del nivel de confianza establecido. Este valor de Z se conoce
como coeficiente de confiabilidad, que indica en  cuantos errores estándar
están aproximadamente el 95% de los valores posibles de x (siempre que 1 =0.95). El otro componente conocido  es el error estándar o desviación
estándar de la distribución muestral de x .
Cuando 1-  = 0.95, el intervalo recibe el nombre de confianza del 95% para
 . Se dice que se tiene el 95 por ciento de confianza de que la media de la
población esté dentro del intervalo calculado.
Como vemos, conociendo la ley de distribución, la media muestral y la
varianza, podemos estimar el valor de la media poblacional.
13
Ejemplo: Un fisioterapista desea estimar, con el 99% de confianza, la media de
fuerza máxima de un músculo particular en cierto grupo de individuos. Se
inclina a suponer que los valores de dicha fuerza muestran una distribución
aproximadamente normal con una varianza de 144. Una muestra de 15
individuos que participaron en el experimento proporcionó una media de 94.3.
Solución: En la tabla de distribución normal, el valor de Z que corresponde a un
coeficiente de confianza de .99 es de 2.58. Este es el coeficiente de
confiabilidad. El error estándar es de  x=12/ 15 = 3.10. Por lo tanto el intervalo
de confianza del 99% para  es:
84.3  2.58(3.10)
84.3  8.0
(76.3 ; 92.3)
Se dice que se tiene el 99% de confianza de que la media de la población esta
entre 76.3 y 92.3 ya que, al repetir el muestreo, el 99% de todos los intervalos
que podrían ser construidos de esta forma, incluirían a la media de la
población.
Este procedimiento para obtener un intervalo de confianza para la media de la
población, requiere el conocimiento de la varianza de la población de la que se
extrae la muestra. Sin embrago, la situación más común es aquella en donde
no se conoce el valor de la media ni el valor de la varianza. Esto impide que
podamos utilizar el estadístico Z para la construcción de intervalos. Aunque la
estadística Z tiene una distribución normal cuando la población es normal o
aproximadamente normal cuando n es muy grande, no se puede utilizar porque
se desconoce  . En estos casos se puede utilizar una estimación puntual de la
desviación estándar, es decir igualar la desviación estándar de la muestra a la
de
la
población
(s=  ).
Sin embargo, en estadística inferencial, los estadísticos para medir la
dispersión más convenientes son los insesgados como la cuasivarianza típica.
Según el caso se utilizará la cuasivarianza típica o la desviación típica.
Por ejemplo si tomamos una muestra de tamaño 25 y desviación típica igual a
10, la cuasivarianza típica será:
En los casos en los que se desconoce  pero la población de donde provienen
los datos es normal, lo correcto es utilizar otra distribución llamada "t" de
student, que no depende de  (desconocido) sino de su estimación puntual
insesgada, es decir la cuasivarianza típica. Esta distribución se aplicara
siempre que no sean conocidos la media y varianza de la población. El calculo
de la media y el intervalo de confianza al nivel 1-  cuando los parámetros son
desconocidos es:
14
Y se tomara como intervalo de confianza aquella región en la que
En este caso se usa la notación:
El procedimiento es básicamente el mismo, lo que es diferente es el origen del
coeficiente de confiabilidad. Este se obtiene a partir de la tabla de distribución t.
Ejemplo: Se desea estimar la concentración media de amilasa en suero de una
población sana. Las mediciones se efectuaron en una muestra de 15 individuos
aparentemente saludables. La muestra proporcionó una media de 96
unidades/100ml y una desviación estándar de 35 unidades/100ml. La varianza
se desconoce.
Solución: Podemos utilizar la media de la muestra 96 como una estimación
puntual de la media de la población. Pero al no conocer la desviación estándar,
podemos suponer que la población sigue una distribución aproximadamente
normal antes de construir un intervalo de confianza para  . Si suponemos que
esta hipótesis es razonable, podemos buscar un intervalo de confianza del
95%. Se tiene el estimador x y el error estándar es s/ n = 35 / 15 = 9.04.
Buscamos el coeficiente de confiabilidad, es decir, el valor de t asociado a un
coeficiente de confianza de .95 y n – 1 =14 grados de libertad. Se encuentra
que el valor de t, que es el coeficiente de confiabilidad, es de 2.1448. Ahora se
construye el intervalo de confianza al 95 por ciento:
96  2.1448(9.04)
96  19
( 77 ; 15 )
Este intervalo se puede interpretar desde dos puntos de vista, probabilístico y
práctico. Se dice que se tiene el 95% de confianza de que la media real de la
población  está entre 77 y 115 ya que con muestreos repetidos, el 95% de los
intervalos construidos de una forma semejante incluyen a  .
Contrastes para la media
Los contrastes para la media son muy importantes. Cuando analizamos un
carácter dentro de una población, una de las primeras cosas que hacemos es
calcular la media para dicho carácter. Muchas veces tenemos un valor a priori
de la media poblacional y es necesario determinar si coincide o se aproxima al
valor real en la población. Los contrastes de hipótesis para la media nos
15
permiten comprobar si el valor fijado a priori de la media coincide con el de la
población. Cuando el muestreo se realiza a partir de una población normal y se
conoce la varianza de la población, la estadística de prueba para H 0 :  =  0 es:
Contrastes sobre la media de una población N(μ,σ) con σ conocida:
Este contraste se aplica cuando tenemos una población que se distribuye
normalmente N(μ,σ), en donde la varianza  2 es conocida, y mediante una
muestra aleatoria simple de tamaño n, ( x1 , x2 , x3 ,..., xn ) , y un nivel de
significación α dado, queremos realizar los siguientes contrastes:
1.
2.
3.
 H 0 :   0 


 H1 :   0 
 H 0 :   0 


 H1 :   0 
 H 0 :   0 


 H1 :   0 
La técnica para hacer el contraste consiste en suponer que H0 es cierta, y
averiguar con los datos muestrales si es verdaderamente cierta o no. Para dar
una forma homogénea a todos los contrastes de hipótesis es costumbre
denominar al valor del estadístico del contraste calculado sobre la muestra
como valor experimental y a los extremos de la región crítica, como valores
teóricos. Definiendo entonces para cada caso un valor teórico y uno
experimental.
 H 0 :   0 
1. Contraste de 
 De dos colas
H
:



0
 1
Sabemos que la población se distribuye normalmente, por lo que
El valor teórico se obtiene de la tabla de distribución normal. Si H0 es cierta,
entonces esperamos que el valor zexp obtenido sobre la muestra esté cercano a
cero con una gran probabilidad. La regla de decisión será:
x  0
x  0
- Rechazamos H 0 si: zexp 
<  z / 2 ó zexp 
>  z / 2


n
n
16
- Aceptamos H 0 si:
 z / 2  zexp  z / 2
La regla de decisión también la podemos formular en función de la región
crítica o de la región de aceptación, así pues, si calculamos la media x (media
muestral) correspondiente a la muestra aleatoria de tamaño n, entonces:

Si x   0  z / 2


Si x   0  z / 2


 
, 0  z / 2
 aceptamos H 0 .
n
n

 
, 0  z / 2
 rechazamos H 0 .
n
n
Por lo tanto, se rechaza la hipótesis nula si el valor calculado de la estadística
de prueba cae en la región de rechazo y no se rechaza si cae en la región de
aceptación.
 H :   0 
2. Contraste de  0
 De una cola
 H1 :   0 
Bajo la hipótesis nula la distribución de la media muestral es
y como región crítica consideraremos aquella formada por los valores
extremadamente bajos de Zexp, con probabilidad , es decir
Entonces la región de aceptación, o de modo más correcto, de no rechazo de
la hipótesis nula es:
.
La regla de decisión será:
- Rechazamos H 0 si: zexp 
x  0

<- z / 2
n
- Aceptamos H 0 si: zexp 
x  0

 - z / 2
n
17
Se rechaza la hipótesis nula, cuando uno de los estadístico Z o
valor en la zona sombreada de sus gráficas respectivas.
toma un
 H :   0 
3. Contraste de  0

 H1 :   0 
Si observamos el caso anterior, podemos ver que aquí tomamos como
hipótesis alternativa su contraria. Por simetría con respecto al caso anterior, la
región donde no se rechaza la hipótesis nula es
La regla de decisión será:
- Rechazamos H 0 si: zexp 
x  0

> z / 2
n
- Aceptamos H 0 si: zexp 
x  0

 z / 2
n
Regiones de aceptación y rechazo para el test unilateral contrario
18
Ejemplo: Supóngase que un investigador está estudiando el nivel promedio de
alguna enzima en cierta población de seres humanos. El investigador toma una
muestra de 10 individuos, determina el nivel de la enzima en cada uno de ellos
y calcula la media muestral igual a 22. La variable de interés sigue una
distribución aproximadamente normal con una varianza de 45. Con estos datos
y los procedimientos de prueba de hipótesis, ¿es posible concluir que el nivel
medio de la enzima en esta población es diferente de 25?
Solución: H0:  = 25
H1:  ≠ 25
Primero, es necesario especificar las regiones de rechazo y aceptación. Para
ello definimos un nivel de significación  , que es la probabilidad de cometer un
error de tipo I. Supongamos que queremos que la probabilidad de rechazar una
hipótesis nula verdadera es  =0.05. Al estar la región de rechazo formada por
dos partes (contraste bilateral), parece lógico que se pueda dividir a  en
partes iguales siendo  /2=0.025. La región de aceptación será 1-  /2= 0.975.
Este valor nos ayudara a encontrar el valor de z en la tabla de distribución
normal. El valor z para 1-  /2=0.975 es 1.96. Como el contraste es bilateral, la
región de rechazo consiste en todos los valores de la estadística de prueba
mayores o iguales que 1.96 o menores o iguales que -1.96. Entonces, se
rechaza H0 si el valor calculado es ≥1.96 o ≤-1.96. De otra manera no se
rechaza.
El valor de  y la regla de decisión deben ser establecidos antes de reunir los
datos, lo cual evita que los resultados de la muestra influyan en la decisión.
Calculo de la estadística de prueba:
zexp=
22  25
3
= -1.41
45 / 10 2.1213
=
Como -1.41 no está en la región de rechazo, no se puede rechazar la hipótesis
nula. Se puede concluir que  puede ser igual a 25 y que las acciones del
administrador o medico deben estar de acuerdo con esta conclusión.
También se puede llegar a esta misma conclusión mediante el uso de un
intervalo confianza del 10(1-  ) por ciento. El intervalo de confianza de 95%
para  es:
22  1.96 45 / 10
22  1.96 (2.1213)
22  4.16
(17.84 ; 26.16)
Dado que este intervalo incluye a 25, se dice que 25 es un candidato para la
media y por lo tanto,  puede ser igual a 25. H0 no se rechaza.
19
Contrastes sobre la media de una población N (μ,σ) con σ desconocida
Este contraste es aplicable cuando se tiene una muestra aleatoria simple
( x1 , x2 , x3 ,..., xn ) procedente de una población N (μ,σ), en donde ni la media  ni
la varianza  2 son conocidos y, con un nivel de significación α dado, queremos
realizar los siguientes contrastes:
1.
2.
3.
 H 0 :   0 


 H1 :   0 
 H 0 :   0 


 H1 :   0 
 H 0 :   0 


 H1 :   0 
Es decir nuevamente queremos ver si el valor fijado a priori de la media
poblacional es o no el real. Utilizando el estadístico de prueba:
texp 
x  0
s
n
Se tendrán los siguientes contrastes.
 H :   0 
1. Contraste de  0
 o Test de dos colas
 H1 :   0 
Al no conocer  2 va a ser necesario estimarlo a partir de su estimador
insesgado: la cuasivarianza muestral, Ŝ 2. Por ello la distribución del estimador
del contraste será una t de Student, que ha perdido un grado de libertad, y
según la definición de la distribución de Student:
Definimos al valor del estadístico del contraste calculado sobre la muestra
como valor experimental y a los extremos de la región crítica, como valores
teóricos:
Entonces:
- Se rechaza H 0 si: texp  t / 2
ó texp  t / 2
- Se acepta H 0 si: t / 2  texp  t / 2
20
Región crítica para el contraste bilateral de una media
Ejemplo: Conocemos que las alturas X de los individuos de una ciudad, se
distribuyen de modo gaussiano. Deseamos contrastar con un nivel de
significación de  =0.05 si la altura media es diferente de 174 cm. Para ello nos
basamos en un estudio en el que con una muestra de n=25 personas se
obtuvo:
Solución:
El contraste que se plantea es: H0:  = 174cm
H1:  ≠ 174cm
La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que
toma el estadístico
es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado.
Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la
hipótesis nula) si
Para ello procedemos al cálculo de Texp:
Luego, aunque podamos pensar que ciertamente el verdadero valor de  no es
21
174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de
confianza del 95%. Es decir, no se rechaza H0.
 H :   0 
2. Contraste de  0
 Tests de una cola
 H1 :   0 
Por analogía con el contraste bilateral, definiremos
Entonces:
- Se rechaza H 0 si: texp  t
- Se acepta H 0 si: texp  t
Región crítica para uno de los contrastes unilaterales de una media.
 H 0 :   0 
3. Contraste de 

 H1 :   0 
En este caso también definimos Texp y Tteo
22
- Se rechaza H 0 si: texp  t
- Se acepta H 0 si: texp  t
Región crítica para el contraste unilateral de una media contrario al anterior.
Ejemplo: Consideramos el mismo ejemplo de antes. Visto que no hemos
podido rechazar el que la altura media de la población sea igual a 174 cm,
deseamos realizar el contraste sobre si la altura media es menor de 174 cm.
Solución: Ahora el contraste es H0:  ≥ 174cm
H1:  < 174cm
Para realizar este contraste, consideramos el caso límite y observamos si la
hipótesis nula debe ser rechazada o no. Este es:
De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el
valor que toma el estadístico
es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se
aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis
nula) si
El valor de Texp obtenido fue de
23
Texp= -1.959< t24,0.05= -t24,0.95 = -1.71
Por ello hemos de aceptar la hipótesis alternativa
Mientras que en el ejemplo anterior no existía una evidencia significativa para
decir que   174 cm, el ``simple hecho" de plantearnos un contraste que
parece el mismo pero en versión unilateral nos conduce a rechazar de modo
significativo que  =174 y aceptamos que  <174 cm. Es por ello que podemos
decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el
que los tests con H0 y H0' los consideramos equivalentes:
Distribución muestral de Proporciones
Existen ocasiones en las cuales no estamos interesados en la media de la
muestra, sino que queremos investigar la proporción de artículos defectuosos o
la proporción de alumnos reprobados en la muestra. La distribución muestral de
proporciones es la adecuada para dar respuesta a estas situaciones. Esta
distribución se genera de igual manera que la distribución muestral de medias,
a excepción de que al extraer las muestras de la población se calcula el
estadístico proporción (p=x/n en donde "x" es el número de éxitos u
observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico
media.
Una población binomial está estrechamente relacionada con la distribución
muestral de proporciones; una población binomial es una colección de éxitos y
fracasos, mientras que una distribución muestral de proporciones contiene las
posibilidades o proporciones de todos los números posibles de éxitos en un
experimento binomial, y como consecuencia de esta relación, las afirmaciones
probabilísticas referentes a la proporción muestral pueden evaluarse usando la
aproximación
normal
a
la
binomial,
siempre
que
np 5
y
n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide
el número obtenido entre el número de intentos.
La distribución muestral de proporciones se puede obtener experimentalmente.
A partir de la población, que se supone es finita, se toman todas las muestras
24
posibles de un tamaño dado, y para cada muestra se calcula la proporción de
la muestra p̂ . Después, se elabora una distribución de frecuencias de p̂ ,
numerando los distintos valores de p̂ junto con sus frecuencias de ocurrencias.
Esta distribución de frecuencias constituye la distribución muestral de p̂ .
La media de la distribución muestral de proporciones es el promedio de todas
las proporciones posibles de la muestra y es igual a la proporción en la
población de un cierto evento p:

p̂ = p
La varianza de la distribución binomial es  2= npq, por lo que la varianza de la
distribución muestral de proporciones es:

p̂ =
pq
=
n

2
p̂ =
pq
n
La fórmula que se utilizará para el cálculo de probabilidad en una distribución
muestral de proporciones está basada en la aproximación de la distribución
normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del
comportamiento de la proporción en la muestra.
z=
pˆ  p
pq
n
Ejemplo 1: Supóngase que en una población de seres humanos, el 0.8 son
daltónicos. Si se eligen aleatoriamente 150 individuos de esta población, ¿Cuál
es la probabilidad de que una proporción de individuos daltónicos tenga un
tamaño del 0.15?
Solución: Si la proporción de la población se designa como p, se puede decir
que p=0.8. Como np y n(1-p) son mayores que 5 (150x0.8=12 y
150x0.92=138), se puede decir que, en este caso p sigue una distribución
aproximadamente normal, con una media  p̂ = p= 0.8 y una varianza igual a
p(1-p)/n = (0.8).(0.92)/150=0.00049. La probabilidad buscada es el área bajo la
curva de p̂ a la derecha de 0.15. Esta área es igual al área bajo la curva normal
estándar a la derecha de:
z=
pˆ  p
pq
n
=
0.15  0.8
0.00049
=
0.07
=3.15
0.0222
Al utilizar la tabla de distribución normal estándar se tiene que el área a la
derecha de z=3.15 es 1-0.9992=0.0008. Se puede decir que la probabilidad de
observar p̂  0.15 en una muestra aleatoria de tamaño n=150 de una población
en la que p=0.08 es 0.0008. Si se extrajera una muestra de este tipo, seria un
evento muy extraño.
25
Ejemplo 2: Un medicamento para malestar estomacal tiene la advertencia de
que algunos usuarios pueden presentar una reacción adversa a él, más aún, se
piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra
aleatoria de 150 personas con malestar estomacal usa el medicamento,
encuentre la probabilidad de que la proporción de la muestra de los usuarios
que realmente presentan una reacción adversa, exceda el 4%.
a. Resolverlo mediante la aproximación de la normal a la binomial
b. Resolverlo con la distribución muestral de proporciones
a. Aproximación de la distribución normal a la binomial:
Datos:
n=150 personas
p=0.03
x= (0.04)(150) = 6 personas
p(x>6) = ?
Media = np= (150)(0.03)= 4.5
p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17%
de que al extraer una muestra de 150 personas, más de 6 presentarán
una reacción adversa.
b. Distribución Muestral de Proporciones
Datos:
n=150 personas
P=0.03
p= 0.04
p(p>0.04) = ?
26
Observe que este valor es igual al obtenido y la interpretación es: existe una
probabilidad del 17% de que al tomar una muestra de 150 personas se tenga
una proporción mayor de 0.04 presentando una reacción adversa.
Estimación de una Proporción
Muchas preguntas de interés para los profesionales tienen relación con las
proporciones de la población. Por ejemplo ¿Qué proporción de alguna
población tienen cierta enfermedad? o ¿Qué proporción es inmune a cierta
enfermedad?
Para estimar la proporción de una población se procede de la misma manera
que cuando se estima la media de una población. Se extrae una muestra de la
población de interés y se calcula la proporción p̂ . Esta se utiliza como el
estimador puntual para la proporción de la población.
Un estimador puntual de la proporción P en un experimento binomial está dado
por la estadística P =X/N, donde x representa el número de éxitos en n
pruebas. Por tanto, la proporción de la muestra p =x/n se utilizará como
estimador puntual del parámetro P.
Como vimos anteriormente, cuando np y n(1-p) son mayores que 5, se puede
considerar que la distribución muestral de p̂ se aproxima bastante a una
distribución normal. En estos casos, el coeficiente de confiabilidad es algún
valor de Z de la distribución normal estándar. El error estándar es igual
pˆ (1  pˆ ) / n . Como P es el parámetro que se tarta de calcular, se desconoce,
p̂
se
debe
utilizar
como
estimación.
Podemos establecer un intervalo de confianza para P al considerar la
distribución muestral de proporciones.
Al despejar P de esta ecuación nos queda:
27
En este despeje podemos observar que se necesita el valor del parámetro P y
es precisamente lo que queremos estimar, por lo que lo sustituiremos por la
proporción de la muestra p siempre y cuando el tamaño de muestra no sea
pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0
ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es
confiable, por tanto, no se debe utilizar. El error de estimación será la diferencia
absoluta entre p y P.
Para encontrar el intervalo de confianza al nivel de significación  para p se
considera el intervalo que hace que la distribución de Z~N(0,1) deje la
probabilidad
fuera del mismo. Es decir, se considera el intervalo cuyos
extremos son los cuantiles  2 y 1-  2 . Así se puede afirmar con una
confianza de 1-  que:
Ejemplo: Se llevo a cabo una encuesta para estudiar los hábitos y actitud hacia
la salud mental de cierta población urbana de adultos. De los 300
entrevistados, 123 de ellos dijeron que se sometían regularmente a una
revisión dental dos veces por año. Se desea construir un intervalo de confianza
de 95% para la proporción de individuos de la población muestreada que se
somete a la revisión dental dos veces al año.
Solución: La mejor estimación puntual de la proporción de la población es
p̂ =123/300 = 0.41. El tamaño de la muestra y la estimación de p son
suficientes como para justificar el uso de la distribución normal estándar para
construir el intervalo de confianza. El coeficiente de confiabilidad que
corresponde a un nivel de confianza de .95 es de 1.96 y la estimación del error
estándar  p̂ es pˆ (1  pˆ ) / n = 0.41(0.59) / 300 =0.28. El intervalo de confianza
del 95% para p, con base en estos datos, es
0.41  1.96(0.28)
0.41  0.05
(0.36 ; 0.46)
Se puede decir que se tiene el 95% de confianza de que la proporción real p
está entre 0.36 y 0.46 ya que, al repetir el muestreo, el 95% de los intervalos
construidos de esta forma incluyen a la proporción p real.
28
Contrastes de una proporción
Este test se utiliza para contrastar la igualdad o desigualdad de proporciones
que han sido estimadas y las proporciones reales. Supongamos que tenemos
una sucesión de observaciones independientes, de modo que cada una de
ellas se comporta como una distribución de Bernoulli de parámetro p. La v.a. X,
definida como el número de éxitos obtenidos en una muestra de tamaño n es
por definición una v.a. de distribución binomial:
La proporción muestral (estimador del verdadero parámetro p a partir de la
muestra) es:
Nuestro contraste de significación es:
frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico
(de contraste) que ya fue considerado anteriormente en la construcción de
intervalos de confianza para proporciones y que sigue una distribución
aproximadamente normal para tamaños muestrales suficientemente grandes:
Entonces, si la hipótesis H0 es cierta se tiene
Se pueden hacer pruebas unilaterales y bilaterales para rechazar o no la
hipótesis nula.
 H 0 : p  p0 
1. Contraste de 
 Contraste bilateral
 H1 : p  p0 
Extraemos una muestra y observamos el valor X=x = p̂ =
x
.
n
Entonces se define
29
Se acepta H 0 si:  z / 2  zexp  z / 2
Siendo el criterio de aceptación o rechazo de la hipótesis nula el que refleja la
figura para el contraste bilateral de una proporción
 H 0 : p  p0 
2. Contraste de: 
 Contrastes unilaterales
 H1 : p  p0 
El criterio de aceptación o rechazo a seguir es:
Se acepta H 0 si:
Siendo
z
zexp  z
P  Z  z    ó
P  Z  z   1 
Entonces para un contraste unilateral cuando H0: p  p0
30
 H : p  p0 
3. Contraste de:  0

 H1 : p  p0 
Este es el test unilateral contrario, se tiene la expresión simétrica
Se acepta H 0 si:
zexp   z
Contraste unilateral cuando se tiene H0: p  p0
Ejemplo: Suponer que hay interés por saber que proporción de la población de
conductores de automóviles utilizan con regularidad el cinturón de seguridad
del asiento. En una encuesta de 300 conductores adultos de automóviles, 123
de ello dijeron que regularmente utilizaban el cinturón de seguridad. ¿Es
posible concluir a partir de estos datos que, en la población muestreada, la
proporción de quienes utilizan regularmente el cinturón de seguridad no es del
50?
Solución: H0: p = 0.5
H1: p ≠ 0.5
31
A partir de los datos se tiene que
p̂ =0.41 y el error estándar es
(0.5)(0.5) / 300 .
El cálculo de la estadística de prueba es:
Z=
0.41  0.5
(0.5)(0.5)
300
=
 0 .9
= - 3.11
0.0289
Si  =0.05, los valores críticos son ± 1.96. Se rechaza H0 a menos que
-1.96<zcalculada<1.96.
Como -3.11< -1.96 se rechaza la hipótesis nula. Se concluye que la proporción
de la población que usa regularmente el cinturón de seguridad no es de 0.5.
Distribución muestral de diferencia de medias
Con frecuencia, el interés se centra en dos poblaciones. Puede ser que un
investigador desee saber algo acerca de las diferencias entre las medias de
dos poblaciones. Para este y otros casos, el conocimiento acerca de la
distribución muestral de la diferencia entre dos medias es muy útil.
Se tienen dos poblaciones distintas, la primera con media  1 y desviación
estándar  1, y la segunda con media  2 y desviación estándar  2. Se elige
una muestra aleatoria de tamaño n1 de la primera población y una muestra
independiente aleatoria de tamaño n2 de la segunda población; se calcula la
media muestral para cada muestra y la diferencia entre dichas medias. La
colección de todas esas diferencias junto con sus frecuencias, se llama
distribución muestral de las diferencias entre medias o la distribución muestral
del estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las
poblaciones son normales, entonces la distribución muestral de medias es
normal
sin
importar
los
tamaños
de
las
muestras.
Sabemos que cuando n es grande, la distribución muestral de medias tendrá
aproximadamente una distribución normal con una media igual a  (la media de
la población) y una desviación estándar de  / n . Con esto podemos deducir
que la media para esta distribución muestral de diferencia de medias es igual a
las diferencia entre las medias reales de las poblaciones  1-  2. La varianza
es igual a (  21/n1) + (  22/n2). Y el error estándar de la diferencia entre las
medias muestrales es:
.
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de
diferencia de medias es:
32
Este procedimiento es válido incluso cuando el tamaño de las muestras es
diferente y cuando las varianzas tienen valores diferentes.
Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de
sexto grado en una escuela primaria se usará una muestra aleatoria de 20
niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los
pesos siguen una distribución normal. El promedio de los pesos de todos los
niños de sexto grado de esa escuela es de 100 libras y su desviación estándar
es de 14.142, mientras que el promedio de los pesos de todas las niñas del
sexto grado de esa escuela es de 85 libras y su desviación estándar es de
12.247 libras. Si
representa el promedio de los pesos de 20 niños y
es el
promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad
de que el promedio de los pesos de los 20 niños sea al menos 20 libras más
grande que el de las 25 niñas.
Solución: Datos:
 1 = 100 libras
 2 = 85 libras
 1 = 14.142 libras
 2 = 12.247 libras
n1 = 20 niños
n2 = 25 niñas
=?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de
niños sea al menos 20 libras más grande que el de la muestra de las niñas es
0.1056.
33
Estimación de la Diferencia entre dos Medias
En ciertos casos, se desea estimar la diferencia entre las medias de dos
poblaciones. Teniendo dos poblaciones donde el carácter que estudiamos en
ambas (X1 y X2) son v.a. distribuidas según leyes gaussianas, podemos realizar
una
estimación
de
la
diferencia
entre
dos
medias.
A partir de cada población se extrae una muestra aleatoria independiente y de
los datos de cada una se calculan las medias muestrales x 1 y x 2. Sabemos
que el estimador x 1- x 2 proporciona una estimación insesgada de  1 -  2, que
es la diferencia entre las medias de las poblaciones. La varianza del estimador
es (  12/n1) + (  22/n2).
Por
tanto,
para
obtener
una
estimación
puntual
de
 1-  2, se seleccionan dos muestras aleatorias independientes que no tienen
por qué ser necesariamente del mismo tamaño, una de cada población, de
tamaño n1 y n2, se calcula la diferencia
, de las medias muestrales.
Intervalo para la diferencia de medias cuando se conoce la varianza:
Recordando a la distribución muestral de diferencia de medias:
Al despejar de esta ecuación  1 -  2 se tiene:
En el caso en que se desconozcan las varianzas de la población y los tamaños
de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como
una estimación puntual.
Ejemplo: A un equipo de investigación le interesa conocer la diferencia entre
las concentraciones de acido úrico en pacientes con y sin mongolismo. En una
hospital para el tratamiento del retardo mental, una muestra de 12 individuos
con mongolismo proporciona una media de x 1= 4.5mg/100ml. En un hospital
general se encontró que una muestra de 15 individuos normales de la misma
edad y sexo presenta un nivel medio de x 2= 3.4. Si suponemos que las dos
poblaciones de valores muestran una distribución normal y sus varianzas son
iguales a 1, calcular el intervalo de confianza del 95% para  1-  2.
Solución: Para una estimación puntual de  1-  2 se utiliza
= 4.5 3.4=1.1. El coeficiente de confiabilidad correspondiente al .95, que se halla en
la tabla normal, es 1.96. El error estándar es:
34
1 1
 = 0.39
12 15
Por lo tanto el intervalo de confianza del 95% es:
1.1  1.96 (0.39)
1.1  0.8
(0.3 ; 1.9)
Se dice que se tiene una confianza del 95% de que la diferencia real  1-  2,
está entre 0.3 y 1.9 debido a que en muestreos repetidos el 95% de los
intervalos construidos de esa manera incluiría la diferencia entre las medias
reales.
Intervalo para la diferencia de medias cuando se desconoce la varianza
Cuando se desconocen las varianzas de la población y se requiere estimar la
diferencia entre las medias de dos poblaciones con un intervalo de confianza,
se puede utilizar la distribución t para extraer el factor de confiabilidad, siempre
que las poblaciones sean normales o supongamos que lo son.
1. Intervalo para la diferencia de medias homocedáticas:
Si suponemos que las varianzas de dos poblaciones son iguales, las dos
varianzas de las muestras calculadas a partir de las muestras independientes
pueden construirse como estimaciones de una sola cosa, la varianza común.
Esta varianza se obtiene calculando el promedio ponderado de las dos
varianzas de las muestras. Cada varianza de las muestras es ponderada en
base a sus grados de libertad. La estimación conjunta se obtiene con la
formula:
Donde se ha definido a
como la cuasivarianza muestral ponderada de Ŝ 21 y
Ŝ 22.
Las varianzas se desconocen, el intervalo se distribuye entonces como una
de
Student
con
n1+n2-2
grados
de
libertad
Si 1-  es el nivel de significación con el que deseamos establecer el intervalo
para la diferencia de las dos medias, calculamos el valor t n1+n2-1,1-  /2 que deja
por encima de si  /2 de la masa de probabilidad de Tn1+n2-2.
El intervalo de confianza al nivel 1-  para la diferencia de esperanzas de dos
poblaciones con la misma varianza (aunque esta sea desconocida) es:
35
Ejemplo: Se efectuaron estudios sobre la concentración media de amilasa en
suero de una población sana. Las mediciones se efectuaron en una muestra de
15 individuos aparentemente saludables. La muestra proporcionó una media de
96 unidades/100ml y una desviación estándar de 35 unidades/100ml. Se
hicieron también las determinaciones de amilasa en el suero de 22 individuos
hospitalizados que forman una muestra independiente. La media y la
desviación estándar de esta muestra son 120 y 40 unidades/ml,
respectivamente. La estimación puntual de  1-  2 es de 120 – 96 =24. Se
desea construir un intervalo de confianza para la diferencia entre las
concentraciones medias de amilasa del suero en individuos aparentemente
sanos y la media para los pacientes hospitalizados.
Solución: Suponemos que las dos poblaciones en estudio tienen una
distribución normal y que sus varianzas son iguales. Primero, buscamos la
estimación conjunta de la varianza común como sigue:
Ŝ 2 = 14(35)2 + 21(40)2 / 15 + 22 – 2 = 1450
El intervalo de confianza del 95% para  1-  2 es:
1450 1450

15
22
24  (2.0301)(12.75)
24  26
(-2 ; 50)
(120-96)  2.0301
Se dice que se tiene un 95% de confianza de que la diferencia real  1-  2 esta
entre -2 y 50 ya que, al muestrear varias veces, el 95% de los intervalos así
construidos incluyen a  1-  2.
Ejemplo: Queremos estudiar la influencia que puede tener el tabaco con el
peso de los niños al nacer. Para ello se consideran dos grupos de mujeres
embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen
los siguientes datos sobre el peso X, de sus hijos:
En ambos grupos los pesos de los recién nacidos provienen de sendas
distribuciones normales de medias desconocidas, y con varianzas que si bien
son desconocidas, podemos suponer que son las mismas. Calcular en cuanto
influye el que la madre sea fumadora en el peso de su hijo.
Solución: Si queremos estimar en cuanto influye el que la madre sea fumadora
en el peso de su hijo, podemos estimar un intervalo de confianza para  1-  2,
lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y
otro del segundo. El estadístico que se ha de aplicar para esta cuestión es:
36
donde
Consideramos un nivel de significación que nos parezca aceptable, por ejemplo
 =0.05, y el intervalo buscado se obtiene a partir de
95%
Con lo cual se puede decir que un intervalo de confianza para el peso esperado
en que supera un hijo de madre no fumadora al de otro de madre fumadora
está comprendido con un nivel de confianza del 95% entre los 0,068 Kg y los
0,731 Kg.
Contrastes para la diferencia de medias apareadas
En el análisis de la diferencia de medias de dos poblaciones, se supone que las
muestras son independientes. Un método que se utiliza con frecuencia para
averiguar la efectividad de un tratamiento o procedimiento experimental es
aquel que hace uso de observaciones relacionadas que resultan de muestras
no independientes. Una prueba de hipótesis que se basa en este tipo de datos
se conoce como prueba de comparaciones por parejas o para muestras
apareadas. Las muestras apareadas aparecen como distintas observaciones
realizadas sobre los mismos individuos. Un ejemplo de observaciones
apareadas consiste en considerar a un conjunto de n personas a las que se le
37
aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la
sangre antes (X) y después del mismo (Y). No es posible considerar a X e Y
como variables independientes ya que va a existir una dependencia clara entre
las dos variables. Si queremos contrastar el que los pacientes han
experimentado o no una mejoría con el tratamiento, llamemos di a la diferencia
entre las observaciones antes y después del tratamiento
di = xi-yi
El objetivo de la prueba de comparaciones por pares es eliminar al máximo las
fuentes de variación por medio de la formación de parejas similares respecto a
tantas variables como sea posible. En estos casos, en lugar de llevar a cabo el
análisis con observaciones individuales, se puede utilizar como variable de
interés la diferencia entre los pares individuales de observación.
Supongamos que la v.a. que define la diferencia entre el antes y después del
tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media y
varianza son desconocidas.
Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto
efecto
En el caso en que H0 fuese cierta tendríamos que el estadístico de contraste
que nos conviene es:
Donde
es la media muestral de las diferencias di y Ŝ d es la cuasivarianza
muestral de las mismas. El tipo de contraste sería entonces del mismo tipo que
el realizado para la media con varianza desconocida.
Cuando H0 es verdadera la estadística de prueba sigue una distribución t de
Student con n-1 grados de libertad.
1. Contraste bilateral: Consideramos el contraste de tipo
Entonces se define
38
y se rechaza la hipótesis nula cuando:
ó
.
2. Contrastes unilaterales: En los dos tipos de contrastes unilaterales o de una
cola se utiliza el mismo estadístico:
Si el contraste es
entonces:
Se rechaza H0 si:
.
Para el test contrario
Se rechaza H0 si: Texp > t n-1 ,1-  .
Si el contraste se realiza cuando  2d es conocida, entonces el estadístico del
contraste es:
y el tratamiento es análogo en los tres casos.
Contrastes de diferencia entre medias poblacionales independientes
Este tipo de contraste también es aplicado para diferencia de medias, pero en
los casos en los que se comparan medias poblacionales para un carácter
determinado en dos poblaciones distintas. Sean dos poblaciones normales
N  x ,  x  y N   y ,  y  con  x y  y conocidas, de las cuales se extraen
dos muestras aleatorias e independientes de tamaño nx y ny respectivamente.
Con un nivel de significación α dado, queremos realizar los siguientes
contrastes:
39
 H 0 :  x   y  d 0 
1. 

 H1 :  x   y  d 0 
 H 0 :  x   y  d 0 
2. 

 H1 :  x   y  d 0 
 H 0 :  x   y  d 0 
3. 

 H1 :  x   y  d 0 
El caso más frecuente es cuando d0=0. Sin embrago, es posible probar la
hipótesis de que la diferencia es igual que, mayor o igual que, menor o igual
que algún valor distinto de cero.
Utilizando el estadístico zexp 
x  y  d0

2
x
nx

 y2
se tienen los siguientes contrastes.
ny
Contraste de medias con varianzas conocidas:
De manera similar al caso del contraste para una media, queremos en esta
ocasión contrastar la hipótesis de que las dos poblaciones (cuyas varianzas
suponemos conocidas) sólo difieren en una cantidad
frente a hipótesis alternativas que darán lugar a contrastes unilaterales o
bilaterales. Para ello nos basamos en la distribución del siguiente estadístico de
contraste:
40
1. Contraste bilateral o de dos colas:
Se define entonces
Se acepta H 0 si:
 z / 2  zexp  z / 2
y el test consiste en:
2. Contrastes unilaterales o de una cola
Se utiliza en ambos caso el mismo estadístico utilizado para el contraste
bilateral:
Para el test
Se acepta H 0 si: zexp   z
y para el contraste de significación contrario:
41
Se acepta H 0 si: zexp  z
Ejemplo: Un equipo de investigadores desea saber si los datos que han
recolectado proporcionan la evidencia suficiente para indicar una diferencia
entre las concentraciones medias de ácido úrico en el suero de individuos
normales e individuos con síndrome de Down. Los datos presentan las
concentraciones de acido úrico en el suero de 12 individuos con síndrome de
Down y 15 individuos sanos. Las medias son x 1=4.5mg/100ml y
x 2=3.4mg/100ml.
Solución: El contraste es H0:  1-  2 = 0 o  1=  2
H1:  1-  2 ≠ 0 o  1≠  2
Si  =0.05, los valores críticos de z son ± 1.96. Se rechaza H0 a menos que 1.96<zcalculada<1.96.
Cálculo de la estadística de prueba:
Z=
(4.5  3.4)  0
1 / 12  1 / 15
=
1 .1
=2.82
0.39
Como 2.82 es mayor que 1.96 se rechaza la hipótesis nula. Se concluye que,
de acuerdo con estos datos, hay indicios de que las medias de las poblaciones
son diferentes.
Contraste de medias homocedáticas
Aplicable al caso en el que deseamos contrastar la diferencia de medias de dos
poblaciones independientes cuando sólo conocemos que las varianzas de
ambas poblaciones son iguales, pero desconocidas. El problema a contrastar
es:
El estadístico que usaremos para el contraste ya lo hemos visto. Si suponemos
que H0 es cierta se tiene
Donde
es la cuasivarianza muestral ponderada de Ŝ 21 y Ŝ 22.
42
Se han perdido dos grados de libertad a causa de la estimación de  21=  22
mediante Ŝ 21 y Ŝ 22.
1. Contraste bilateral
Para el contraste de significación
Se tiene como en casos anteriores que el contraste adecuado consiste en
definir
Y rechazar o admitir la hipótesis nula siguiendo el criterio
2. Contrastes unilaterales
Cuando el contraste es unilateral del modo
El contraste se realiza siguiendo el mismo proceso que en otros realizados
anteriormente y utilizando el mismo estadístico, lo que nos lleva a
Y cuando el contraste de significación es el contrario
43
Del mismo modo
Ejemplo: Un grupo de investigadores colecto datos acerca de las
concentraciones de amilasa en el suero de muestras de individuos sanos y de
individuos hospitalizados. Desean saber si es posible concluir que las medias
de las poblaciones son distintas. Los datos son las mediciones de amilasa en
suero de n2= 15 individuos sanos y n1= 22 individuos hospitalizados. Las
medias muestrales y sus desviaciones estándar son las siguientes:
s1=40 unidades/ml
x 1=120 unidades/ml
s2=35 unidades/ml
x 2=96 unidades/ml
Solución: El contraste es: H0:  1-  2 = 0
H1:  1-  2 ≠ 0
Si definimos a  =0.05, los valores críticos de t son ± 2.0301. Se rechaza H 0 a
menos que -2.0301<tcalculada<2.0301.
El cálculo de la estadística de prueba es:
Ŝ 2=
t=
21(1600)  14(1225)
=1450
21  14
(120  96)  0
1450 1450

15
22
=
24
=1.88
12.75
No es posible rechazar H0 porque -2.0301<1.88<2.0301. Es decir, 1.88 cae
dentro de la región de aceptación. Con base a estos datos no es posible
concluir que las dos medias de la población son diferentes.
Contraste de medias no homocedáticas
Es un tipo de contraste que se aplica en el caso más problemático, es decir
cuando sólo conocemos de las dos poblaciones que su distribución es normal,
y que sus varianzas no son conocidas y significativamente diferentes. El
contraste es:
En este caso el estadístico de contraste tendrá una ley de distribución muy
particular. Consistirá en una distribución t de Student, con un número de
grados de libertad que en lugar de depender de modo determinista de la
44
muestra (a través de su tamaño), depende de un modo aleatorio mediante las
varianzas muestrales. Concretamente, el estadístico que nos interesa es
donde f es el número de grados de libertad que se calcula mediante la fórmula
de Welch
No desarrollamos en detalle los cálculos a realizar, pues la técnica para
efectuar los contrastes es análoga a las vistas anteriormente cuando las
varianzas son desconocidas e iguales.
Nota
Si lo que pretendemos contrastar es si las medias poblacionales de dos
muestras independientes obtenidas de poblaciones normales son idénticas,
esto se reduce a los casos anteriores tomando
, es decir, realizando el
contraste:
Distribución Muestral de Diferencia de Proporciones
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse
utilizando
proporciones
o
porcentajes.
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con
dos proporciones muestrales, la distribución muestral de diferencia de
proporciones es aproximadamente normal para tamaños de muestra grande
(n1p1 5, n1q1 5, n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones
muestrales aproximadamente normales, así que su diferencia p 1-p2 también
tiene
una
distribución
muestral
aproximadamente
normal.
Cuando se estudió la distribución muestral de proporciones se comprobó que
 p̂ = p y que p̂ = pq por lo que se puede deducir que:
n

45

p̂ 1 -

p̂ 2 = p1-p2 y que
.
Si tenemos dos poblaciones suficientemente pequeñas, podemos extraer de la
población 1 todas las muestras aleatorias posibles de tamaño n1 y calcular a
partir de cada conjunto de datos de la muestra la proporción de la muestra p̂ 1.
Lo mismo podemos hacer con la población 2. Luego es posible calcular las
diferencias entre todos los pares posibles de proporciones muestrales, donde
un miembro de cada par tiene un valor p̂ 1 y el otro un valor p̂ 2. La distribución
muestral de la diferencia ente las dos porciones de las muestras consiste en
todas las diferencias existentes acompañadas de sus frecuencias de
ocurrencias. La fórmula que se utilizará para el cálculo de probabilidad del
estadístico de diferencia de proporciones es:
Ejemplo: Los hombres y mujeres adultos de una ciudad grande en sus
opiniones sobre la promulgación de la pena de muerte para personas culpables
de asesinato. Se cree que el 12% de los hombres adultos están a favor de la
pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se
pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión
sobre la promulgación de la pena de muerte, determine la probabilidad de que
el porcentaje de hombres a favor sea al menos 3% mayor que el de las
mujeres.
Solución: Datos:
PH = 0.12
PM = 0.10
nH = 100
nM = 100
p(pH-pM 0.03) = ?
Hay que tener en cuanta que debe incluirse el factor de corrección de 0.5 por
ser una distribución binomial y que se está utilizando la distribución normal.
46
Se concluye que la probabilidad de que el porcentaje de hombres a favor de la
pena de muerte, al menos 3% mayor que el de mujeres es de 0.4562.
Estimación de la Diferencia de dos Proporciones
Muchas veces se tiene interés en conocer la magnitud de la diferencia entre
dos poblaciones, podemos comparar por ejemplo, entre hombres y mujeres,
dos grupos de edades, dos grupos socioeconómicos.
Un estimador puntual insesgado de la diferencia de proporciones de las
poblaciones se obtiene al calcular las diferencias de las proporciones de las
muestras p̂ 1 - p̂ 2. Cuando n1 y n2 son de gran tamaño y las proporciones de la
población no están muy cerca de 0 o de 1, es posible aplicar el teorema del
límite central y utilizar la teoría de la distribución normal para obtener los
intervalos de confianza.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una
de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos
p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2
Si las muestras son suficientemente grandes ocurre que
Anteriormente, se vio el tema de la generación de las distribuciones
muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos
muestras y podíamos calcular la probabilidad del comportamiento de los
estadísticos. Para este caso en particular se utilizará la distribución muestral de
diferencia de proporciones para la estimación de la misma. Recordando la
formula:
Despejando P1-P2 de esta ecuación obtenemos un intervalo de confianza del
100(1 -  ) para P1-P2 :
47
Donde Z se obtiene de la tabla de distribución normal al nivel 1-α/2.
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al
hacer el despeje nos queda las dos proporciones poblacionales y es
precisamente lo que queremos estimar, por lo que se utilizarán las
proporciones de la muestra como estimadores puntuales:
Ejemplo: Un artículo relacionado con la salud, reporta los siguientes datos
sobre la incidencia de disfunciones importantes entre recién nacidos con
madres fumadoras de marihuana y de madres que no la fumaban:
Usuaria
No Usuaria
Tamaño Muestral
1246
11178
Número de disfunciones
42
294
Proporción muestral
0.0337
0.0263
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.
Solución: Representemos P1 la proporción de nacimientos donde aparecen
disfunciones entre todas las madres que fuman marihuana y definamos P2, de
manera similar, para las no fumadoras. El valor de z para un 99% de confianza
es de 2.58.
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado
de manera precisa.
Contrastes sobre la diferencia de proporciones
Supongamos que tenemos dos muestras independientes tomadas sobre dos
poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli):
Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se
tiene que cada una de ellas se distribuye como una variable aleatoria binomial,
de modo que los estimadores de las proporciones en cada población tienen
48
distribuciones que de un modo aproximado son normales (cuando n1 y n2 son
bastante grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las
proporciones en cada población es una cantidad conocida
Si H0 fuese cierta se tendría que:
Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus
estimadores, lo que da lugar a un error que es pequeño cuando los tamaños
muestrales son importantes:
La prueba que se utiliza con más frecuencia con relación a la diferencia entre
las proporciones de dos poblaciones es aquella en la que su diferencia es cero.
Sin embargo, es posible probar que dicha diferencia es igual a algún otro valor.
Se pueden hacer pruebas unilaterales y bilaterales.
Siempre que la hipótesis nula sea p1-p2=0, se supone que las proporciones de
las dos poblaciones son iguales. Esto permite combinar los resultados de las
dos muestras y obtener una estimación ponderada de la proporción común
supuesta:
p = x1+x2 / n1+n2
Donde x1 y x2 son el número de la primera y segunda muestra que poseen la
característica de interés. Esta estimación ponderada se utiliza para calcular el
error estándar estimado para el estimador como sigue:
ˆ 
p(1  p) p(1  p)

n
n
El estadístico de contraste se convierte en:
Z=
( pˆ  pˆ )  ( p  p )
ˆ
49
1. Contraste bilateral
El contraste bilateral sobre la diferencia de proporciones es
Entonces se define
y se rechaza la hipótesis nula si Zexp<-z1-  /2 o si Zexp>-z1-  /2
2. Contrastes unilaterales
En el contraste
Se rechazará H0 si Zexp< -z1-  .
Para el test contrario
Se rechaza H0 si Zexp> -z 1-  .
Ejemplo: En un estudio para comparar un nuevo tratamiento para la migraña
con el tratamiento habitual, 78 de los 100 individuos que recibieron el
tratamiento habitual respondieron favorablemente. De los 100 individuos que
recibieron el nuevo tratamiento, 90 respondieron satisfactoriamente.
¿Proporcionan estos datos la evidencia suficiente para afirmar que el nuevo
tratamiento es más efectivo que el habitual?
Solución: Se calculan:
p̂ 1= 78/100=0.78
p=
p̂ 2=90/100=0.90
90  78
=0.84
100  100
50
Las hipótesis son: H0=p2-p1  0
H1= p2-p1>0
Sea  =0.05. El valor crítico de z es 1.645. Se rechaza H0 si el valor de z es
mayor que 1.645.
El cálculo del estadístico de prueba es:
z=
(0.90  0.78)
(0.84)(0.16) (0.84)(0.16)

100
100

0.12
=2.32
0.0518
Como 2.32>1-645, se rechaza H0. Estos datos sugieren que el tratamiento es
más efectivo que el habitual
EJERCICIOS DE DISTRIBUCION MUESTRAL:
1. Un investigador se siente inclinado a creer que los niveles de vitamina A en
el hígado de dos poblaciones de seres humanos tiene, cada una, una
distribución normal. Se supone que las varianzas de las dos poblaciones son
las siguientes:
Población 1:  21=19.600
Población 2:  22=8100
¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 15 de la
primer población y otra de tamaño 10 de la segunda población proporcionen un
valor de
mayor o igual a 50, si no hay diferencia entre las dos medias de
la población?
2. Se cree que en una ciudad el 20% de las familias tiene por lo menos un
miembro que sufre de algún malestar debido a la contaminación atmosférica.
Una muestra aleatoria de 150 familias produjo un valor de p̂ =0.27. Si el valor
del 20% es correcto, ¿Cuál es la probabilidad de obtener una proporción
muestral mayor o igual de la muestra?
3. Si las concentraciones de acido úrico en hombres adultos normales siguen
una distribución aproximadamente normal, con una media y desviación
estándar de 5.7 y 1 mg por ciento, respectivamente, encontrar la probabilidad
de que una muestra aleatoria de tamaño 9 proporcione una media:
a. Mayor que 6
b. Menor que 5.2
c. Entre 5 y 6
4. En una población de niños con retardo mental, se sabe que la proporción de
los que son hiperactivos es de 0.40. Se extrajo una muestra aleatoria de
tamaño 120 de esa población y otra de tamaño 100 a partir de otra población
con el mismo problema. Si la proporción de niños hiperactivos es la misma en
51
ambas poblaciones, ¿Cuál es la probabilidad de que la muestra proporcione
una diferencia p̂ 1- p̂ 2 de 0.16 o mas?
5. Supóngase que una población se compone de los siguientes valores: 1, 3,
5, 7, 9. Construir la distribución muestral de x a partir de muestras de tamaño 2
seleccionadas sin reemplazo. Calcular la media y la varianza.
6. Para una población de hombres jóvenes de 17 años y otra población de
mujeres de 17 años, las medias y desviaciones estándar respectivamente del
grosor del pliegue subescapular son: para los varones 9.7 y 6.0; y para las
mujeres 15.6 y 9.5. Si se obtiene una muestra aleatoria simple de 40 varones y
otra de 35 mujeres a partir de dicha población, ¿Cuál es la probabilidad de que
la diferencia entre las medias de las muestras (xchicas - xchicos) sea mayor que
10?
7. El resultado de una investigación sanitaria revela que el 55% de los
individuos de la población A y el 35% de los de la población B no padecen
enfermedades cardiovasculares. Suponer que se extrae una muestra aleatoria
de tamaño 120 a partir de la población A, y una muestra aleatoria
independiente de tamaño 130 de la población B. ¿Cuál es la probabilidad de
que las diferencias entre las proporciones de la muestras p̂ A - p̂ B esté entre
0.30 y 0.40)?
8. En una muestra al azar de 75 adultos, 35 de ellos consideran que el cáncer
de mamas es curable. Si en la población de la cual se extrajo la muestra, la
probabilidad real de quienes piensan que dicho tipo de cáncer es curable es de
0.55, ¿Cuál es la probabilidad de obtener una proporción muestral menor o
igual que la obtenida en esta muestra?
EJERCICIOS DE ESTIMACION:
1. En cierta comunidad se efectuó un análisis neurológico a 110 empleados de
una fábrica de herbicidas, el cual mostró que 44 tenían anormalidades
neurológicas. En una muestra de 150 residentes que no eran empleados de la
fábrica, 16 individuos mostraron anormalidades neurológicas. Construir un
intervalo de confianza del 95% para la diferencia entre las proporciones de las
poblaciones.
2. En un experimento diseñado para estimar el número promedio de latidos del
corazón por minuto para cierta población, se encontró que el número promedio
de latidos por minutos para 49 personas era de 90. Si resulta lógico suponer
que esos 49 pacientes constituyen una muestra aleatoria y que la población
sigue una distribución normal, con una desviación estándar de 10, calcular el
intervalo de confianza de 90% y 95% para  .
3. Se llevo a cabo un estudio para comparar las concentraciones de lipoproteína de alta densidad en hombres adultos con trabajos sedentarios y con
trabajos manuales. Los datos de la muestra proporcionaron los siguientes
resultados:
Trabajadores sedentarios: x = 56.5, s =14.1, n=55
Trabajadores manuales: x = 51.3, s =13.5, n=50
52
Construir un intervalo de confianza del 95% para la diferencia entre las medias
de las poblaciones.
4. A nueve pacientes que sufren la misma incapacidad física, y por lo tanto
son comparables, se les pidió que llevaran a cabo cierta tarea como parte de
un experimento. El tiempo promedio necesario para realizar la tarea fue de
siete minutos con una desviación estándar de dos minutos. Suponiendo que la
distribución de datos es normal, construir intervalos de confianza del 90% y
95% para el tiempo medio real necesario para que este tipo de pacientes
efectúe la tarea.
5. En un estudio diseñado para establecer la relación entre un medicamento y
cierta anomalía en los embriones de pollo, se inyectaron con el medicamento
50 huevos fecundados al cuarto día de incubación. En el vigésimo día de
incubación se examinaron los embriones y se observó la presencia de la
anomalía en 12 de ellos. Encontrar los intervalos de confianza del 95% y 99%
para p.
6. Veinticuatro animales de laboratorio con deficiencia de vitamina D fueron
divididos en dos grupos iguales. El grupo 1 recibió un tratamiento consistente
en una dieta que proporcionaba la vitamina D. El segundo grupo no fue tratado.
Al término del período experimental, se midieron las concentraciones de calcio
en suero, obteniéndose los siguientes resultados:
Grupo tratado: x = 11.1mg/100ml, s = 1.5
Grupo sin tratamiento: x = 7.8mg/100ml, s = 2.0
Suponer que las poblaciones siguen una distribución normal con varianzas
iguales y calcular los intervalos de confianza del 95% para la diferencia entre
las medias de las poblaciones.
7. Algunos estudios acerca de la enfermedad Alzheimer han demostrado un
incremento en la producción de 14CO2 en pacientes con este padecimiento.
Durante un estudio, se obtuvieron los siguientes valores de a partir de 16
biopsias de neocorteza de pacientes con la enfermedad:
1009, 1280, 1180, 1255, 1547, 2352, 1956, 1080
1776, 1767, 1680, 2050, 1452, 2857, 3100, 1621
Suponer que la población de tales valores presenta una distribución normal con
una desviación estándar de 350 y construir intervalos de confianza al 95% para
la media de la población.
EJERCICIOS DE CONTRASTE DE HIPOTESIS:
1. ¿Es posible concluir que los niños crónicamente enfermos tienden, en
promedio, a tener menos confianza en sí mismos que los niños sanos? Se
aplicó una prueba diseñada para estimar la confianza en sí mismos de 16 niños
crónicamente enfermos y a 21 niños sanos. Los puntajes medios y
desviaciones estándar fueron:
Niños enfermos: x =22.5 s=4.1
Niños sanos: x =26.9 s=3.2
Sea  =0.05
53
2. En una muestra de 1500 residentes de un barrio de la ciudad, quienes
participaron en un programa selectivo de salud, 125 pruebas proporcionaron
resultados positivos en cuanto a la anemia de células falciformes.
¿Proporcionan estos datos la evidencia suficiente para indicar que la
proporción de individuos con anemia de células falciformes en la población
muestreada es mayor que 0.06? Sea  =0.05.
3. Setenta pacientes que sufren de epilepsia se dividieron al azar en dos
grupos iguales. El grupo A recibió un tratamiento que incluía dosis diarias de
vitamina D. El grupo B recibió el mismo tratamiento con la excepción de que a
este grupo se le dio un placebo en lugar de la vitamina D. El número medio de
ataques convulsivos observados durante el periodo de tratamiento en los
grupos fue x A=15 y x B=24. Las varianzas de las muestras fueron S2A=8 y
S2B=12. ¿Estos datos proporcionan evidencia suficiente para indicar que la
vitamina D es efectiva para disminuir el número de ataques convulsivos? Sea
 =0.05
4. En una muestra de 49 adolescentes que se prestaron como sujetos para un
estudio inmunológico, una variable de interés fue la prueba del diámetro de
reacción de la piel a un antígeno. La media de la muestra y la desviación
estándar fueron 21 y 11 mm de eritema, respectivamente. ¿Es posible concluir
a partir de estos datos que la media de la población es menor que 30? Sea
 =0.05.
5. Se desea saber si los niños de dos grupos étnicos difieren con respecto a la
proporción de anémicos. De cada grupo se extrajo una muestra de niños de un
año de edad atendidos en cierto grupo de departamentos de salud locales en
un periodo de un año. Se obtuvo la siguiente información respecto a la anemia:
Grupo étnico
1
2
Número de elementos
450
375
Número de anémicos
105
120
¿Proporcionan estos datos la suficiente evidencia para indicar una diferencia
entre las dos poblaciones con respecto a la proporción de anémicos? Sea
 =0.05.
6. Una muestra de 100 empleados de un hospital, los cuales habían estado en
contacto con sangre o sus derivados, fue examinada para averiguar si
presentaban evidencia serológica de hepatitis B. Se encontró que 23 de ellos
presentaron resultados positivos. ¿Es posible concluir a partir de estos datos
que la proporción de la población de individuos que presentaron resultados
positivos en la población muestreada es mayor que 0.15? Sea  =0.05
7. Se desea saber si es posible concluir que el consumo medio diario de
calorías de la población rural de un país en desarrollo es de menos de 2000.
Una muestra de 500 individuos produjo un consumo medio de 1985 y una
desviación estándar de 210. Sea  =0.05.
54