Download H 0 : μ = k

Document related concepts

Intervalo de confianza wikipedia , lookup

Muestra estadística wikipedia , lookup

Estimación estadística wikipedia , lookup

Distribución t de Student wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
ESTIMACION DE PARAMETROS, PUNTUALES, POR INTERVALOS O POR
CONTRASTE DE HIPOTESIS
La Estadística inferencial o Inferencia estadística estudia cómo sacar
conclusiones generales para toda la población a partir del estudio de una
muestra, y el grado de fiabilidad o significación de los resultados obtenidos.
Muestreo probabilístico
Consiste en elegir una muestra de una población al azar. Podemos distinguir
varios tipos de muestreo:
Muestreo aleatorio simple
Para obtener una muestra, se numeran los elementos de la población y se
seleccionan al azar los n elementos que contiene la muestra.
Muestreo aleatorio sistemático
Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen
los demás hasta completar la muestra.
Por ejemplo si tenemos una población formada por 100 elementos y queremos
extraer una muestra de 25 elementos, en primer lugar debemos establecer el
intervalo de selección que será igual a 100/25 = 4. A continuación elegimos el
elemento de arranque, tomando aleatoriamente un número entre el 1 y el 4,
y a partir de él obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
Muestreo aleatorio estratificado
Se divide la población en clases o estratos y se escoge, aleatoriamente, un
número de individuos de cada estrato proporcional al número de
componentes de cada estrato.
En una fábrica que consta de 600 trabajadores queremos tomar una muestra
de 20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en
la C y 100 en la D.
Un muestreo puede hacerse con o sin reposición, y la población de partida
puede ser infinita o finita.
En todo nuestro estudio vamos a limitarnos a una población de partida
infinita o a muestreo con reposición.
Si consideremos todas las posibles muestras de tamaño n en una población,
para cada muestra podemos calcular un estadístico (media, desviación típica,
proporción, ...) que variará de una a otra.
Así obtenemos una distribución del estadístico que se llama distribución
muestral.
Teorema central del límite
Si una población tiene media μ y desviación típica σ, y tomamos muestras de
tamaño n (n>30, ó cualquier tamaño si la población es "normal"), las medias
de estas muestras siguen aproximadamente la distribución:
Estimación de parámetros
Es el procedimiento utilizado para conocer las características de un parámetro
poblacional, a partir del conocimiento de la muestra.
Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de
un valor de un parámetro de la población; pero también necesitamos precisar
un:
Intervalo de confianza
Se llama así a un intervalo en el que sabemos que está un parámetro, con un
nivel de confianza específico.
Nivel de confianza
Probabilidad de que el parámetro a estimar se encuentre en el intervalo de
confianza.
El nivel de confianza (p) se designa mediante 1 − α.
Error de estimación admisible
Que estará relacionado con el radio del intervalo de confianza.
Estimación de la media de una población
El intervalo de confianza, para la media de una población, con un nivel de
confianza de 1 − α, siendo x la media de una muestra de tamaño n y σ la
desviación típica de la población, es:
El error máximo de estimación es:
Cuanto mayor sea el tamaño de la muestra, n, menor es el error.
Cuanto mayor sea el nivel de confianza, 1-α, mayor es el error.
Tamaño de la muestra
Si aumentamos el nivel de confianza, aumenta el tamaño de la muestra.
Si disminuimos el error, tenemos que aumentar el tamaño de la muestra.
EJEMPLO No 1
El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes
sigue una ley normal con media desconocida y desviación típica 0,5 minutos.
Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2
minutos.
1. Calcula el intervalo de confianza al nivel del 95% para el tiempo medio
que se tarda en cobrar a los clientes.
2. Indica el tamaño muestral necesario para estimar dicho tiempo medio
con un el error de ± 0,5 minutos y un nivel de confianza del 95%.
n≥4
Estimación de una proporción
Si en una población, una determinada característica se presenta en una
proporción p, la proporción p' , de individuos con dicha característica en las
muestras de tamaño n, se distribuirán según:
Intervalo de confianza para una proporción
El error máximo de estimación es:
EJEMPLO No 2
En una fábrica de componentes electrónicos, la proporción de componentes
finales defectuosos era del 20%. Tras una serie de operaciones e inversiones
destinadas a mejorar el rendimiento se analizó una muestra aleatoria de 500
componentes, encontrándose que 90 de ellos eran defectuosos. ¿Qué nivel de
confianza debe adoptarse para aceptar que el rendimiento no ha sufrido
variaciones?
p = 0.2 q = 1 - p =0.8 p'= 90/ 500 = 0.18
E = 0.2 - 0.18 = 0.02
P (1 - zα/2<1.12) = 1 - 0.8686 = 0.1314
0.8686 - 0.1314 = 0.737
Nivel de confianza: 73.72%
Contraste de hipótesis
Hipótesis estadísticas
Un test estadístico es un procedimiento para, a partir de una muestra aleatoria
y significativa, extraer conclusiones que permitan aceptar o rechazar una
hipótesis previamente emitida sobre el valor de un parámetro desconocido de
una población.
La hipótesis emitida se designa por H0 y se llama hipótesis nula.
La hipótesis contraria se designa por H1 y se llama hipótesis alternativa.
Contrastes de hipótesis
1. Enunciar la hipótesis nula H0 y la alternativa H1.
Bilateral
H0=k
H1 ≠ k
H0≥ k
H1< k
H0 ≤k
H1> k
Unilateral
2. A partir de un nivel de confianza 1 − α o el de significación α.
Determinar:
El valor zα/2 (bilaterales), o bien zα (unilaterales)
La zona de aceptación del parámetro muestral (x o p').
3. Calcular: x o p', a partir de la muestra.
4. Si el valor del parámetro muestral está dentro de la zona de la aceptación,
se acepta la hipótesis con un nivel de significación α. Si no, se rechaza
Contraste bilateralSe presenta cuando la hipótesis nula es del tipo H0: μ = k (o
bien H0: p = k) y la hipótesis alternativa, por tanto, es del tipo H1: μ≠ k (o bien
H1: p≠ k).
El nivel de significación α se concentra en dos partes (o colas) simétricas
respecto de la media.
La región de aceptación en este caso no es más que el correspondiente
intervalo de probabilidad para x o p', es decir:
o bien:
EJEMPLO No 3
Se sabe que la desviación típica de las notas de cierto examen de Matemáticas
es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6.
¿Sirven estos datos para confirmar la hipótesis de que la nota media del
examen fue de 6, con un nivel de confianza del 95%?
1. Enunciamos las hipótesis nula y alternativa:
H0 : μ = 6 La nota media no ha variado.
H1 : μ ≠ 6 La nota media ha variado.
2. Zona de aceptación
Para α = 0.05, le corresponde un valor crítico: zα/2 = 1.96.
Determinamos el intervalo de confianza para la media:
(6-1,96 · 0,4 ; 6+1,96 · 0,4) = (5,22 ; 6,78)
3. Verificación.
Valor obtenido de la media de la muestra:5,6 .
4. Decisión
Aceptamos la hipótesis nula H0, con un nivel de significación del 5%.
Contraste unilateral
Caso 1
La hipótesis nula es del tipo H0: μ ≥ k (o bien H0: p ≥ k).
La hipótesis alternativa, por tanto, es del tipo H1: μ < k (o bien H1: p < k).
Valores críticos
1−α
α
zα
0.90
0.10
1.28
0.95
0.05
1.645
0.99
0.01
2.33
El nivel de significación α se concentra en una parte o cola.
La región de aceptación en este caso será:
o bien:
EJEMPLO No 4
Un sociólogo ha pronosticado, que en una determinada ciudad, el nivel de
abstención en las próximas elecciones será del 40% como mínimo. Se elige al
azar una muestra aleatoria de 200 individuos, con derecho a voto, 75 de los
cuales estarían dispuestos a votar. Determinar con un nivel de significación del
1%, si se puede admitir el pronóstico.
1. Enunciamos las hipótesis nula y alternativa:
H0 : μ ≥ 0.40 La abstención será como mínimo del 40%.
H1 : μ < 0.40 La abstención será como máximo del 40%;
2.Zona de aceptación
Para α = 0.01, le corresponde un valor crítico: zα = 2.33.
Determinamos el intervalo de confianza para la media:
3. Verificación.
4. Decisión
Aceptamos la hipótesis nula H0. Podemos afirmar, con un nivel de significación
del 1%, que la abstención será como mínimo del 40%.
Caso 2
La hipótesis nula es del tipo H0: μ ≤ k (o bien H0: p ≤ k).
La hipótesis alternativa, por tanto, es del tipo H1: μ > k (o bien H1: p > k).
El nivel de significación α se concentra en la otra parte o cola.
La región de aceptación en este caso será:
o bien:
Un informe indica que el precio medio del billete de avión entre Canarias y
Madrid es, como máximo, de 120 € con una desviación típica de 40 €. Se toma
una muestra de 100 viajeros y se obtiene que la media de los precios de sus
billetes es de 128 €.
¿Se puede aceptar, con un nivel de significación igual a 0,1, la afirmación de
partida?
1. Enunciamos las hipótesis nula y alternativa:
H0 : μ ≤ 120
H1 : μ > 120
2.Zona de aceptación
Para α = 0.1, le corresponde un valor crítico: zα = 1.28 .
Determinamos el intervalo de confianza:
3. Verificación.
Valor obtenido de la media de la muestra: 128 € .
4. Decisión
No aceptamos la hipótesis nula H0. Con un nivel de significación del 10%.
Errores de tipo I y tipo II
Error de tipo I. Se comete cuando la hipótesis nula es verdadera y, como
consecuencia del contraste, se rechaza.
Error de tipo II. Se comete cuando la hipótesis nula es falsa y, como
consecuencia del contraste se acepta.
H0
Verdadera
Decisión
Falsa
correcta Decisión incorrecta:
Aceptar
Probabilidad = 1 − α
ERROR DE TIPO II
ERROR DE TIPO I
Rechazar
Decisión correcta
Probabilidad = α
La probabilidad de cometer Error de tipo I es el nivel de significaciónα.
La probabilidad de cometer Error de tipo II depende del verdadero valor del
parámetro. Se hace tanto menor cuanto mayor sea n.
Ejercicios
Ejercicio 1
En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de
actividades de ocio que gustan más a sus habitantes. Para ello van a ser
encuestados 100 individuos elegidos al azar.
1. Explicar qué procedimiento de selección sería más adecuado utilizar:
muestreo con o sin reposición. ¿Por qué?
2. Como los gustos cambian con la edad y se sabe que en el barrio viven
2.500 niños, 7.000 adultos y 500 ancianos, posteriormente se decide
elegir la muestra anterior utilizando un muestreo estratificado.
Determinar el tamaño muestral correspondiente a cada estrato.
Ejercicio 2
Sea la población de elementos: {22,24, 26}.
1. Escriba todas las muestras posibles de tamaño dos, escogidas mediante
muestreo aleatorio simple.
2. Calcule la varianza de la población.
3. Calcule la varianza de las medias muestrales.
Ejercicio 3
La variable altura de las alumnas que estudian en una escuela de idiomas sigue
una distribución normal de media 1,62 m y la desviación típica 0,12 m. ¿Cuál
es la probabilidad de que la media de una muestra aleatoria de 100 alumnas
sea mayor que 1.60 m?
Ejercicio 4
Se ha tomado una muestra de los precios de un mismo producto alimenticio
en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han
encontrado los siguientes precios:
95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen según una ley
normal de varianza 25 y media desconocida:
1. ¿Cuál es la distribución de la media muestral?
2. Determine el intervalo de confianza, al 95%, para la media poblacional.
Ejercicio 5
La media de las estaturas de una muestra aleatoria de 400 personas de una
ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una
variable aleatoria que sigue una distribución normal con varianza σ2 = 0,16 m2.
1. Construye un intervalo, de un 95% de confianza, para la media de las
estaturas de la población.
2. ¿Cuál sería el mínimo tamaño muestral necesario para que pueda
decirse que la verdadera media de las estaturas está a menos de 2 cm
de la media muestral, con un nivel de confianza del 90%?
Ejercicio 6
Las ventas mensuales de una tienda de electrodomésticos se distribuyen según
una ley normal, con desviación típica 900 €. En un estudio estadístico de las
ventas realizadas en los últimos nueve meses, se ha encontrado un intervalo
de confianza para la media mensual de las ventas, cuyos extremos son 4 663 €
y 5 839 €.
1. ¿Cuál ha sido la media de las ventas en estos nueve meses?
2. ¿Cuál es el nivel de confianza para este intervalo?
Ejercicio 7
Se desea estimar la proporción, p, de individuos daltónicos de una población a
través del porcentaje observado en una muestra aleatoria de individuos, de
tamaño n.
1. Si el porcentaje de individuos daltónicos en la muestra es igual al 30%,
calcula el valor de n para que, con un nivel de confianza de 0,95, el error
cometido en la estimación sea inferior al 3,1%.
2. Si el tamaño de la muestra es de 64 individuos, y el porcentaje de
individuos daltónicos en la muestra es del 35%, determina, usando un
nivel de significación del 1%, el correspondiente intervalo de confianza
para la proporción de daltónicos de la población.
Ejercicio 8
En una población una variable aleatoria sigue una ley normal de media
desconocida y desviación típica 2.
1. Observada una muestra de tamaño 400, tomada al azar, se ha obtenido
una media muestra al igual a 50. ¿Calcule un intervalo, con el 97 % de
confianza, para la media de la población.
2. Con el mismo nivel de confianza, ¿qué tamaño mínimo debe tener la
muestra para qué la amplitud del intervalo que se obtenga sea, como
máximo, 1?
Ejercicio 9
Una marca de nueces afirma que, como máximo, el 6% de las nueces están
vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías.
1. Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de
la marca?
2. Si se mantiene el porcentaje muestral de nueces que están vacías y 1-α
= 0.95, ¿qué tamaño muestral se necesitaría para estimar la proporción
de nueces con un error menor del 1% por ciento?
Ejercicio 10
La duración de las bombillas de 100 W que fabrica una empresa sigue una
distribución normal con una desviación típica de 120 horas de duración. Su
vida media está garantizada durante un mínimo de 800 horas. Se escoge al azar
una muestra de 50 bombillas de un lote y, después de comprobarlas, se
obtiene una vida media de 750 horas. Con un nivel de significación de 0,01,
¿habría que rechazar el lote por no cumplir la garantía?
Ejercicio 11
En cierta cadena de centros comerciales trabajan 150 personas en el
departamento de personal, 450 en el departamento de ventas, 200 en el
departamento de contabilidad y 100 en el departamento de atención al
cliente. Con objeto de realizar una encuesta laboral, se quiere seleccionar una
muestra de 180 trabajadores.
1. ¿Qué tipo de muestreo deberíamos utilizar para la selección de la
muestra si queremos que incluya a trabajadores de los cuatro
departamentos mencionados?
2. ¿Qué número de trabajadores tendríamos que seleccionar en cada
departamento atendiendo a un criterio de proporcionalidad?
Ejercicio 12
La cantidad de hemoglobina en sangre del hombre sigue una ley normal con
una desviación típica de 2g/dl.
Calcule el nivel de confianza de una muestra de 12 extracciones de sangre que
indique que la media poblacional de hemoglobina en sangre está entre 13 y 15
g/dl.
Ejercicio 13
Un fabricante de lámparas eléctricas está ensayando un nuevo método de
producción que se considerará aceptable si las lámparas obtenidas por este
método dan lugar a una población normal de duración media 2400 horas, con
una desviación típica igual a 300. Se toma una muestra de 100 lámparas
producidas por este método y esta muestra tendrá una duración media de
2320 horas. ¿Se puede aceptarr la hipótesis de validez del nuevo proceso de
fabricación con un riesgo igual o menor al 5%?
Ejercicio 14
El control de calidad una fábrica de pilas y baterías sospecha que hubo
defectos en la producción de un modelo de batería para teléfonos móviles,
bajando su tiempo de duración. Hasta ahora el tiempo de duración en
conversación seguía una distribución normal con media 300 minutos y
desviación típica 30 minutos. Sin embargo, en la inspección del último lote
producido, antes de enviarlo al mercado, se obtuvo que de una muestra de 60
baterías el tiempo medio de duración en conversación fue de 290 minutos.
Suponiendo que ese tiempo sigue siendo Normal con la misma desviación
típica:
¿Se puede concluir que las sospechas del control de calidad son ciertas a un
nivel de significación del 1%?
Ejercicio 15
Se cree que el nivel medio de protombina en una población normal es de 20
mg/100 ml de plasma con una desviación típica de 4 miligramos/100 ml. Para
comprobarlo, se toma una muestra de 40 individuos en los que la media es de
18.5 mg/100 ml. ¿Se puede aceptar la hipótesis, con un nivel de significación
del 5%?