Download Distribuciones de probabilidad

Document related concepts

Intervalo de confianza wikipedia , lookup

Distribución t de Student wikipedia , lookup

Estimación estadística wikipedia , lookup

Error estándar wikipedia , lookup

Muestra estadística wikipedia , lookup

Transcript
Distribuciones de probabilidad
1. Variable aleatoria
Una variable aleatoria X es una función que asocia a cada elemento del espacio muestral E un número
real:
X: E ÷ ú
Ejemplo:
Consideremos el experimento aleatorio consistente en lanzar 3 monedas al aire. Podemos definir la
variable aleatoria X=”número de caras obtenido”. Esta variable toma los valores del conjunto{0,1,2,3}.
Se trata de una variable aleatoria discreta porque su recorrido es un número finito de valores.
Cuando el recorrido está formado por los infinitos números reales de un intervalo hablaremos de variable
aleatoria continua.
2. Distribución de probabilidad discreta
Una variable aleatoria adquiere todo su significado cuando se asigna a cada valor de la variable la
probabilidad de que se verifique al realizar el experimento.
2.1 Función de probabilidad
La función de probabilidad de una variable aleatoria discreta es aquella que hace corresponder a cada
valor de la variable su probabilidad:
X ÷ [0, 1]
xi ÷ pi
donde pi es la probabilidad de que la variable aleatoria tome el valor xi : p( X= xi ) = pi
Ejercicio
Halla la función de probabilidad de la variable aleatoria X=”Número de caras obtenido al lanzar 3
monedas al aire”.
Solución: p(X=0)=1/8
p(X=1)=3/8
p(X=2)=3/8
p(X=3)=1/8
2.2 Distribución binomial
Es la más importante de las distribuciones de probabilidad discretas. Corresponde a la realización de
un experimento que cumpla las condiciones siguientes:
# Únicamente se observa si se cumple un suceso, A (éxito), o si, por el contrario, no se cumple A (fracaso).
# La probabilidad del suceso A es constante, es decir, no varía al repetir el experimento.
Si p(A) = p entonces p( A ) = 1- p = q
La variable aleatoria que expresa el número de éxitos obtenidos en cada realización del experimento recibe
el nombre de variable de la distribución binomial. Si se realizan n pruebas del experimento hablaremos de
una binomial de parámetros n y p: B( n, p)
1
Función de probabilidad
La función de probabilidad de una distribución binomial B( n, p) viene dada por la expresión:
p( k exitos) = p( X = k ) =
( ). p
n
k
k
. q n− k
Ejercicio
Cuatro de cada diez trabajadores de una determinada empresa son mujeres. Si elegimos 8 personas de esa
empresa al azar, calcula la probabilidad de que sean:
a) 3 mujeres.
b) más de 5 mujeres.
c) al menos 2 mujeres.
Solución:
Sea A el suceso A=” Elegir una mujer”. Es claro que p(A) = 0,4 = p y que p( A ) = 0,6 = q
La variable aleatorria X=”Número de mujeres elegidas” es una binomial B(8, 0,4). Por tanto:
a) p(X=3)=
( ) . 0,4
8
3
3
.0,65
8
6
6
b) p(X>5)= p(X=6) + p(X=7) + p(X=8)= ( 6 ) .0,4 . 0,6 +
c) p(X$2)= 1- p(X<2)= 1- p(X=0) - p(X=1)= 1-
( ) .0,4
8
7
7
. 0,6 + ( 88 ) .0,4 8
( ) .0,6 − ( ) .0,4 . 0,6
8
0
8
8
1
7
Media, varianza y desviación típica
Si se realizan n pruebas, se puede demostrar que la media, la varianza y la desviación típica son,
respectivamente:
: = n.p
F2 = n.p.q
F = n. p. q
3. Distribución de probabilidad continua.
Dada una variable aleatoria continua X , carece de sentido asignar a cada uno de sus valores xi su
correspondiente probabilidad pi, ya que X puede tomar los infinitos valores de un intervalo. En una
distribución continua, la probabilidad de que la variable tome un determinado valor es siempre cero.
Puesto que no es posible definir la función de probabilidad para una variable continua, es preciso introducir
un nuevo concepto que la sustituya y que caracterice a la distribución de probabilidad continua, como hacía
la función de probabilidad con la discreta. Es así como nace el concepto de función de densidad, f(x), que
siempre debe cumplir:
# f(x) $0 en todo su dominio.
# El área encerrada bajo la curva f(x) vale 1.
3.1 Distribución normal
La distribución normal se caracteriza por tener una función de densidad de probabilidad f(x), cuya
representación gráfica tiene forma de campana. Una distribución normal de media : y desviación típica F se
representa por N ( :, F ).
2
1 x− µ  2

σ 

− 
1
2
f ( x) =
.e
σ . 2π
- Su dominio es ú.
- Es una función simétrica respecto de la recta x = :
- El eje de abscisas es una asíntota horizontal.
- Tiene un máximo en x = :.
- El área encerrada entre la curva f(x) y el eje de abscisas es 1.
La más sencilla, denominada normal estándar, es la normal de media 0 y desviación típica 1: N(0,1) de la
cual se han tabulado las probabilidades.
Con el manejo de las tablas se pueden calcular probabilidades del tipo p(Z#k).
Ejercicio 1
Sea Z una variable aleatoria N(0,1). Calcula:
b) p(Z$-1,32)
c) p(1,52<Z<2,03)
a) p(Z$1,32)
d) p(-2,03<Z#1,52)
Solución: a) 0,0934
d) 0,9146
b) 0,9066
c) 0,0431
Ejercicio 2
a) ¿ Para qué valor de k se cumple p(Z#k)=0,84 ?
b) ¿ Para qué valor de k se cumple p(-k#Z#k)=0,8 ?
Solución: a) k=0,995 b) k=1,28 El intervalo (-1,28, 1,28) encierra un 80% del área total en una N(0,1)
Intervalo característico y nivel de confianza
Si un intervalo (-k, k) encierra un área igual a p, recibe el nombre de intervalo característico correspondiente
a la probabilidad p, y k es el valor crítico.
Habitualmente la probabilidad p se designa por 1- " y se llama nivel de confianza. De la misma forma, el
valor crítico k se designa por z"/2.
p(Z$z"/2)="/2
p(-z"/2 #Z#z"/2)=1- "
3
Ejercicio 3
Calcula z"/2 para 1- "= 0,9
Solución:
Si el intervalo abarca un área de 0,9, fuera de él deberá haber un área de 0,1 ; el área de cada una de las
“colas” es 0,05.
Se trata de buscar el valor de k tal que p(Z$k)=0,05 , esto es, p(Z#k)=0,95
En las tablas encontramos:
p(Z#1,64)=0,9495
p(Z#1,65)=0,9505
El valor promedio entre 1,64 y 1,65 es 1,645. Por tanto z"/2 =1,645
El intervalo característico [-1,645,1,645] es aquel dentro del cual, en una distribución de probabilidad N(0,1),
hay un área 90% del total.
En la siguiente tabla figuran los intervalos característicos que se suelen utilizar más:
1- "
"/2
z"/2
Intervalo característico
0,9
0,05
1,645
(-1,645, 1,645)
0,95
0,025
1,96
(-1,96, 1,96
0,99
0,005
2,575
(-2,575, 2,575)
Tipificación de la variable
Las distribuciones normales que nos encontramos más a menudo no son del tipo N(0,1).
Para calcular las probabilidades de una distribución normal N( :,F ) utilizando la tabla se debe efectuar el
cambio de variable Z =
X−µ
. En este caso se dice que se ha tipificado la variable. Una vez tipificada,
σ
la variable seguirá una distribución normal N(0,1) y utilizaremos las tablas.
Ejemplo
La longitud de las truchas de una piscifactoría sigue una normal de media 25 cm, con una desviación típica
de 2 cm. Calcula la probabilidad de que una trucha tomada al azar tenga un tamaño inferior a 26 cm.
Solución:
Se trata de una normal N(25, 2).
 X − 25 26 − 25
P(X#26) = p( 
≤
 = p( Z ≤ 0,5) = 0,6915
 2
2 
4
Aproximación de la binomial por la normal
La distribución binomial puede aproximarse a una distribución normal cuando n es grande y p y q
toman valores cercanos a 0,5. En la práctica la aproximación es buena si npq>10.
En este caso B(n,p) se puede aproximar a N(np, npq )
Para calcular p(X< k) se toma p(X#k- 0,5) para no incluir el valor de k.
Para calcular p(X#k) se toma p(X# k+ 0,5) para contar con el valor k.
Para calcular p(X=k) se aplica p(k- 0,5#X#k+ 0,5).
Ejercicio
La probabilidad de que un tenista obtenga un punto de saque directo es de 0,02. Si durante un torneo realiza
3000 servicios, ¿cuál es la probabilidad de que consiga más de 80 puntos de saque directo?.
Solución:
Se trata de una binomial B(3000, 0,02).
Como npq>10 se puede aproximar por una normal N(np, npq ) es decir N(3000.0,02,
Operando tenemos N(60, 7,67)
Luego p(X>80)=1- p(X#80) = 1- p(X#80,5) = 1- p(Z#
3000.0,02.0,98 )
80,5 − 60
)= 1- p(Z#2,67) =1- 0,9962=0,0038
7,67
Teoría de muestras
1. Distribución de variables aleatorias en el muestreo
1.1 Distribución de medias muestrales
Dada una variable estadística observada en una población, se puede calcular se media x y su
desviación típica F.
Si tomamos una muestra aleatoria de la población y calculamos su media, ésta no tiene por qué coincidir con
la media de la población x .
Si consideramos k muestras del mismo tamaño de una población y calculamos sus medias xi , la distribución
de estas medias muestrales constituye una nueva variable aleatoria llamada distribución de medias
muestrales. Los valores xi no son iguales a x ,sin embargo, cuanto mayores sean las muestras, más se
aproximarán sus medias a la media poblacional.
1.2 Teorema central del límite
Dada una población de media : y desviación típica F, si se extraen muestras de tamaño n, la
distribución de las medias de todas las muestras, denominada distribución de las medias muestrales, verifica
lo siguiente:
• Tiene la misma media, :, que la población.
σ
• Su desviación típica es s =
.
n
• Cuando n>30, se aproxima a una distribución normal si la población de partida no lo era. (Por supuesto es
normal si la población de partida ya lo era cualquiera que sea el valor de n).
5
Este teorema nos permitirá, conociendo la distribución de las medias muestrales de tamaño n, extraer
conclusiones de la media de la población. Debemos observar también que cuando n aumenta, la desviación
típica disminuye.
Ejercicio 1
El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica
11.
a) Se elige una persona al azar. Halla la probabilidad de que si C.I esté entre 100 y 103.
b) Se elige al azar una muestra de 25 personas. Halla la probabilidad de que la media de sus cocientes
intelectuales está entre 100 y 103.
Solución:
La población de partida es N(100, 11).
a)
103 − 100 
 100 − 100
p(100 < X ≤ 103) = p
< Z≤
 = p(0 < Z ≤ 0,27) = p( z ≤ 0,27) − p( z ≤ 0) = 0,6064 − 0,5 = 0,1064

11
11 
b) Como la población de partida es normal, la distribución de la media muestral es normal
independientemente del valor de la muestra n.
σ
11
Los parámetros de esta distribución son: : = 100 ;
=
= 2,2
n
25
Por tanto, la distribución de la media muestral es N(100, 2,2)
103 − 100 
 100 − 100
p(100 ≤ X ≤ 103) = p
≤ Z≤
 = p(0 ≤ Z ≤ 1,36) = p( Z ≤ 1,36) − p( Z ≤ 0) = 0,9131 − 0,5 = 0,4131

2,2
2,2 
Ejercicio 2
En una urna hay 3 bolas con los números 1,2 y 3.
a) Calcula la media y la desviación típica de esta población
b) Forma todas las muestras posibles que podemos extraer con devolución de esta población de tamaño 2.
c) Forma la distribución de las medias de las muestras, halla la media, la desviación típica y confirma el
teorema central de límite.
Solución:
a) Media poblacional :=
∑x
N
i
=
1+ 2 + 3
= 2 donde N es el número total de población.
3
Desviación típica poblacional F=
∑x
N
2
i
− µ2 =
12 + 2 2 + 32
14
− 22 =
−4=
3
3
2
= 0,8165
3
b) El número de muestras posibles con devolución de tamaño 2 son VR3,2 = 32 = 9 :
(1, 1); (1, 2); (1, 3); (2, 1); (2, 2); (2, 3); (3, 1); (3, 2); (3, 3)
c) Distribución de las medias de las muestras: 1; 1,5; 2; 1,5; 2; 2,5; 2; 2,5; 3
1 + 1,5. 2 + 2 . 3 + 2,5.2 + 3
Media de esta distribución: x =
=2
9
12 + 1,52 . 2 + 2 2 . 3 + 2,52 . 2 + 32
− 2 2 = 0,5774
Desviación típica de esta distribución s =
9
Se confirma el teorema central del límite porque si la población tenía media : = 2 ,la distribución de las
6
medias muestrales también tiene media 2 y si la desviación típica de la población era F = 0,8165, la
σ 0,8165
desviación típica de la distribución de medias centrales es s =
=
= 0,5774
n
2
Ejercicio 3
En una universidad se sabe que las tallas de los alumnos se distribuyen normalmente con media 172 cm y
desviación típica 17,5 cm. Se toman muchas muestras de 35 estudiantes.
a) ¿Cuál es la media y la desviación típica de la distribución de las medias muestrales?.
b) Halla la probabilidad de que la media muestral sea inferior a 171 cm.
c) Si se eligen 150 muestras de 35 alumnos, ¿en cuántas de ellas cabe esperar que la media muestral sea mayor
que 170 cm y menor que 171,5 cm?.
Solución:
a) Las tallas siguen una N(172, 17,2).
La distribución de las mediales muestrales seguirá una normal de media x = 172 cm y desviación típica
s=
σ 17,5
=
= 2,96 ,esto es, N(172, 2,96)
n
35
171 − 172 

b) p( x < 171) = p Z <
 = p( Z < − 0,3378) = 0,3678

2,96 
171,5 − 172 
 170 − 172
c) p(170 < x ≤ 171,5) = p
< Z≤
 = p( − 0,67 < Z ≤ − 0,17) = 0,1833
 2,96
2,96 
Por lo tanto 150. 0,1833 .27 muestras.
Es decir, cabe esperar que en 27 muestras de las 150 seleccionadas, la media muestral será mayor que 170
y menor que 171,5.
1.3 Intervalo de confianza para las medias muestrales
Tenemos una población que sigue una normal N( :, F ) y queremos estimar, mediante un intervalo,
el parámetro :. Se toma una muestra de tamaño n y se calcula su media x . Sabemos que la distribución de
la variable aleatoria formadas por las medias xi de todas las muestras del mismo tamaño n es una N( :,
σ
)
n
x−µ
presentará una distribución N(0,1) donde p(-z"/2 #Z#z"/2)=1 - " como
σ / n
se vio anteriormente. Sustituyendo la expresión de Z, tenemos:
Si se tipifica la variable, Z =
p(-z"/2 #
x−µ
#z"/2) =1 - " , p(-z"/2 A σ / n # x - : # z"/2 A σ / n )=1 - " ,
σ / n
, p( x - z"/2 . σ
/
n≤ µ ≤
x + z"/2 . σ / n ) = 1 - "
Por tanto el intervalo de confianza para el parámetro : de una población N( :, F ) a un nivel de confianza
1 - " es un intervalo centrado en x y de radio zα / 2 .σ /
n ,esto es:
(
IC = x − zα / 2 .σ / n , x + zα / 2 .σ / n
Si F es desconocida y n >30 se usa en su lugar la cuasivarianza s 2 = σ 2 .
)
n
n− 1
7
Ejercicio
Un psicólogo escolar ha estudiado que el tiempo de reacción de 1º de Primaria se distribuye normalmente.
Con una muestra de 100 alumnos, la media de tiempo de reacción fue de 45 segundos y la desviación típica
de 0,04 segundos. Halla un intervalo de confianza para la media de tiempos de reacción al nivel de confianza
de:
a) 90%
b) 95%
c) Interpretar los resultados
(
Solución: IC = x − zα / 2 .σ / n , x + zα / 2 .σ / n
)
Sabemos que se trata de una normal N( 45, 0,04). Por tanto x = 45 y σ = 0,04
a) Calculemos z"/2 para un nivel de confianza del 90%:
Si el intervalo abarca un área de 0,9, fuera de él deberá haber un área de 0,1 ; el área de cada una de las
“colas” es 0,05.
Se trata de buscar el valor de k tal que p(Z$k)=0,05 , esto es, p(Z#k)=0,95
En las tablas encontramos:
p(Z#1,64)=0,9495
p(Z#1,65)=0,9505
El valor promedio entre 1,64 y 1,65 es 1,645. Por tanto z"/2 =1,645
0,04
0,04 

El intervalo de confianza será:  45 − 1,645.
, 45 + 1,645.
 = (44,993,45,007)

100 
100
El tiempo de reacción está entre 44,993 y 45,007 con una confianza del 90% o lo que es lo mismo, este
intervalo cubre el valor de la media con una probabilidad de 0,9.
b) Para calcular z"/2 para un nivel de confianza del 95% se procede de forma análoga obteniendo z"/2 =1,96
0,04
0,04 

El intervalo de confianza será  45 − 1,96 .
, 45 + 1,96.
 = (44,992, 45,008)

100
100 
c) Cuanto mayor es el nivel de confianza, mayor es la amplitud del intervalo, con lo que aumenta el margen
de error.
1.4 Tamaño de la muestra. Error de estimación.
Hasta ahora, conocido el tamaño de la muestra se calculaba el intervalo de confianza correspondiente.
Se podría plantear la pregunta a la inversa:¿cuál debe ser el tamaño de la muestra para tener una confianza
determinada.
El error máximo vendrá determinado por la amplitud del intervalo de confianza, es decir:
σ
E = ± zα / 2 •
n
Ejercicio 1
En un determinado barrio se seleccionó al azar una muestra de 100 personas cuya media de ingresos
mensuales era de 600 i, con una desviación típica de 120 i.
8
a) Si se toma un nivel de confianza del 95 %, ¿cuál es el intervalo de confianza para la media de los ingresos
mensuales de toda la población?.
b) Si se toma un nivel de confianza del 99 %, ¿cuál es el tamaño muestral necesario para estimar la media de
ingresos mensuales con un error menor a 18 i ?.
Solución
a) Se trata de una normal N(600, 120)
Sabemos ya que a un nivel de confianza del 95% le corresponde z"/2 =1,96.
120
120 

El intervalo de confianza será IC=  600 − 1,96 •
, 600 + 1,96 •
 = (576,48 , 623,52 )

100
100 
b) A un nivel de confianza de 99 % le corresponde z"/2 =2,575
120 . 2,575
σ
120
⇒ 18 = 2,575 •
⇒ n=
= 17,17 ⇒ n = ± 294,69
El error es E = ± zα / 2 •
18
n
n
Por tanto se necesita una muestra de 295 personas.
Ejercicio 2
Un fabricante de pilas alcalinas sabe que el tiempo de duración, en horas, de las pilas que fabrica sigue una
distribución normal de media desconocida y varianza 3600. Con una muestra de su proucción, elegida al azar,
y un nivel de confianza del 95% ha obtenido para la media el intervalo de confianza (372,6 392,2).
a) Calcula el valor que obtuvo para la media de la muestra y el tamaño muestral utilizado.
b) ¿Cuál será el error de su estimación, si hubiese utilizado una muestra de tamaño 225 y un nivel de
confianza del 86,9%?.
Solución
a) Un intervalo de confianza para la media tiene la forma ( x − zα / 2 .σ / n , x + zα / 2 .σ / n )
A un nivel de confianza del 95% le corresponde un z"/2 =1,96.
Igualando con el intervalo dado tenemos:
60

x − 1,96 •
= 372,6
n

 Sumando las ecuaciones obtenemos 2 x =764,8 , x =382,4
60
x + 1,96 •
= 392,2 

n
Sustituyendo el valor de x en, por ejemplo la primera ecuación: 382,4 − 1,96 •
60
= 372,6 ⇒ n = 144
n
El tamaño muestral utilizado es 144.
σ
b) E = ± zα / 2 •
n
Si el nivel de confianza es de un 86,9%, el intervalo abarca un área de
1- "=0,869; fuera de él deberá haber un área de 0,131 ; el área de cada
una de las “colas” es 0,0655.Se trata de buscar el valor de k tal que
p(Z$k)=0,0655 , esto es, p(Z#k)=0,9345En las tablas encontramos:
p(Z#1,64)=0,9345
60
= ± 6,04
Por tanto z"/2 =1,51 y el error E = ± 1,51 •
15
9
Ejercicio 3
Las alturas, expresadas en cm, de los estudiantes de segundo de bachiller se distribuyen normalmente con una
desviación típica de 20 cm. En un colectivo de 500 estudiante de segundo de bachiller se ha obtenido una
media de 160 cm.
a) Calcula, con una probabilidad del 98%, entre qué valores estará la media de la altura de la población total
de estudiantes de segundo de bachiller,
b) Interpreta el resultado del intervalo obtenido.
Solución:
a) Nos piden un intervalo de confianza para la media. Su forma es ( x − zα / 2 .σ / n , x + zα / 2 .σ / n )
A una probabilidad del 98% le corresponde un z"/2 =2,33.
El intervalo de confianza será
b) En el 98% de las posibles  160 − 2,33 • 20 ,160 + 2,33 • 20  = (157,16, 162,08 )
500
500 
muestral, la media de la altura 
de la población está entre
157,16 cm y 162,08 cm.
Inferencia estadística
1 Hipótesis estadística
Cuando en un estudio estadístico queremos determinar si una población cumple una determinada
característica, previamente debemos plantear un test estadístico que será el procedimiento que nos permitirá
evaluar, a partir de una muestra, si una determinada hipótesis formulada sobre una característica de la
población se verifica o no.
Una vez concluido el test podemos considerar la hipótesis que, en principio, admitimos como válida, y que
llamaremos hipótesis nula, H0 y una hipótesis contraria a ésta, que denominaremos hipótesis alternativa, H1,
que es la que admitiremos como válida si nos vemos obligados a rechazar la hipótesis H0.
2 Contraste de hipótesis
Es un procedimiento del que depende la decisión de aceptar o rechazar la hipótesis nula y esta
aceptación o rechazo dependerá, a su vez, de cuál sea la discrepancia entre la hipótesis y la información
muestral que tengamos. Si la discrepancia es menor que un determinado valor que consideramos aceptable,
la hipótesis se dará por cierta; este valor se llama valor de significación y se representa por ".
Es evidente que una hipótesis estadística no se puede aceptar o rechazar con una certeza del 100%, sino que
se define un nivel crítico para ", que nos marcará los límites para aceptar o rechazar la hipótesis nula.
Así, por ejemplo, si el nivel de significación es "= 0,05, rechazaremos como improbables el 5% de los casos
extremos; por esta razón, en ocasiones, también se dice que estamos trabajando con un nivel de confianza
del 95%.
Nosotros trabajaremos con hipótesis nulas relativas a la media. Los valores de la media que nos lleven a
aceptar la hipótesis nula H0, forman la región de aceptación, y los que nos conducen a rechazarla, constituyen
la región de rechazo.
3 Fases del contraste de hipótesis
Para efectuar un contraste de hipótesis debemos seguir los pasos siguientes:
10
• Se debe enunciar la hipótesis nula y la alternativa.
• Se extrae una muestra de tamaño n y se calcula en ella el valor del parámetro estadístico que se desea
encontrar.
• Se elige el nivel de significación con el que se quieren tomar las decisiones; generalmente los niveles de
significación son "= 0,10; "= 0,05 y "= 0,01.
• A continuación se construye la zona de aceptación de la hipótesis, es decir, los intervalos característicos,
fuera de los cuales se encuentra el porcentaje de "A100% de casos que queremos rechazar.
• Si el valor del parámetro muestral se encuentra dentro de la zona de aceptación, se acepta la hipótesis con
un nivel de significación ". En caso contrario, se rechaza.
4 Contraste de hipótesis para la media
Se inicia el contraste definiendo la hipótesis nula y la alternativa.
En el momento de definir la hipótesis nula, ésta se puede plantear en términos de igualdad o de desigualdad:
H0: µ o bien H0: µ ≥ µ 0 o µ ≤ µ 0
En el primer caso es un contraste bilateral, o de dos colas, y los otros dos, contrastes unilaterales o de una
cola.
Contraste bilateral
Contrate unilateral
Contraste unilateral
4.1 Contraste bilateral


Ya hemos visto que las medias muestrales se distribuyen de la forma N  µ ,


aceptación para esta distribución será:  µ 0 − zα / 2 •
σ 
 . El intervalo de
n
σ
σ 
≤ µ ≤ µ 0 + zα / 2 •

n
n
Si el valor de la media x , se encuentra en ese intervalo, se aceptará la hipótesis nula; en caso contrario, se
rechazará.
Ejercicio 1
Se quiere estimar la media de la nómina mensual que reciben los directivos de las compañías multinacionales
que operan en Europa.
11
a) Si la varianza de la nómina en la población es de 1000 i, ¿cuál es la varianza de la media muestral cuando
el tamaño de la muestra es de 100?.
b) Si en las condiciones del apartado anterior, la media muestral es de 4008 i, ¿se rechazaría, con un nivel
de confianza del 95%, la hipótesis de que la nómina media es de 4000 i?.
Solución:
La varianza es F2= 1000. Por tanto la desviación típica de la población es σ = 1000 .
La desviación típica de la media muestral es
es
(
10
)
2
σ
1000
=
= 10 . Por tanto, la varianza de la media muestral
100
n
= 10
b) Se trata de una hipótesis bilateral para la media:
H0: := 4000
H1: : ≠ 4000
A un nivel de confianza del 95% corresponde un z"/2= 1,96
La zona de aceptación tiene la forma:
σ
σ 

, µ 0 + zα / 2 •
 µ 0 − zα / 2 •
 = 4000 − 1,96 • 10 , 4000 + 1,96 • 10 = (3993,8, 4006,2)

n
n
(
)
Se rechaza la hipótesis de que la nómina media es de 4000 i con un nivel de confianza de 0,95 ya que x =
4008ó (3996,8, 4006,2).
Ejercicio 2
El peso medio de una muestra aleatoria de 100 naranjas de una determinada variedad es de 272 g. Se sabe que
la desviación típica poblacional es de 20 g. A un nivel de significación de 0,05, ¿hay suficiente evidencia para
refutar la afirmación de que el peso medio poblacional es de 275 d?.
Solución:
Se trata de un test de hipótesis bilateral para la media:
H0: := 275
H1: : ≠ 275
La zona de aceptación de la hipótesis nula, H0,es:
σ
σ  
20
20 

, µ 0 + zα / 2 •  =  275 − 1,96 • , 275 + 1,96 •  = (271,08, 278,92)
 µ 0 − zα / 2 •

10
10 
n
n 
Como x = 272 0(271,08, 278,92), no hay suficiente evidencia para rechazar la hipótesis nula.
4.2 Contraste unilateral
Se plantea cuando la hipótesis nula es de la forma: H0: µ ≥ µ 0 o µ ≤ µ 0
El contraste unilateral ha de verificar que el área correspondiente a la región de aceptación esté toda hacia un
lado de la distribución, de modo que la región rechazable quede totalmente al otro lado.
Si la región de aceptación ha de ser 1- ", la región de rechazo vendrá determinada por el valor de z"/2.
12
µ ≥ µ0
µ ≤ µ0
σ 

En el primer caso el intervalo de aceptación será  − ∞ , µ 0 + zα •


n
σ


y en el segundo  µ 0 − zα •
,+ ∞ 


n
Ejercicio
En los últimos años el consumo familiar diaria de cierta ciudad en electricidad (en Kw) seguía una Normal
de media 6,3 y desviación típica 1,2. Sin embargo, desde hace unos meses las tarifas eléctricas han
experimentado varias reducciones, y se piensa que esto ha podido repercutir en un aumento del consumo.
Recientemente, para una muestra de 47 familias se ha obtenido un consumo medio diario de 6,8. Suponiendo
que el consumo sigue siendo aproximadamente Normal y que la desviación típica se ha mantenido:
a) Plantea en test para contrastar que el abaratamiento de las tarifas no ha influido en el consumo, frente a que
ha tenido la repercusión que se piensa, como parecen indicar los datos. Si se concluyera que la media de
consumo se ha mantenido y realmente subió, ¿cómo se llama al error cometido?.
b) ¿A qué conclusión se llega en el test planteado en el apartado anterior con un nivel de significación del
1%?.
Solución:
a) Se trata de plantear un test de hipótesis unilateral para la media:
H0: µ ≤ 6,3
H1: µ > 6,3
Si se concluye que la media del consumo se ha mantenido cuando realmente subió, se está aceptando que la
hipótesis nula es verdadera cuando realmente es falsa. Se comete un error de tipo II según la tabla:
H0 cierta
H0 falsa
Aceptamos H0
No hay error
Error de tipo II
Aceptamos H1
Error de tipo I
No hay error
b) A un nivel de significación "= 0,1 le corresponde un z"= 2,33
13
σ 

La zona de aceptación tiene la forma  − ∞ , µ 0 + zα •


n


En este caso la zona de aceptación es  − ∞ , 6,3 + 2,33 •
1,2 
 = ( − ∞ , 6,7)
47 
Como 6,8 ó (− ∞ , 6,7), se rechaza la hipótesis, es decir, el abaratamiento de las tarifas ha repercutido en
un aumento del consumo, con un nivel de significación del 1%.
14