Download V.1. Concepto de inferencia estadística. V.2. Estadística paramétrica

Document related concepts

Poder estadístico wikipedia , lookup

Prueba t de Student wikipedia , lookup

Contraste de hipótesis wikipedia , lookup

Tamaño de la muestra wikipedia , lookup

Prueba de Levene wikipedia , lookup

Transcript
V.
I NFERENCIA ESTADÍSTICA .
V.1. Concepto de inferencia estadística.
Es el procedimiento por medio del cual se llega a conclusiones acerca de una población con base en
la información que se obtiene a partir de una muestra seleccionada de esa población.
V.2. Estadística paramétrica y no-paramétrica.
a) Estadística paramétrica es la que requiere que los elementos que integran las muestras
contengan parámetros medibles.
La estadística paramétrica clásica plantea tres tipos de problemas:
1. Estimación puntual en la que pretendemos dar un valor al parámetro a estimar.
2. Estimación por intervalos (buscamos un intervalo de confianza)
3. Contrastes de hipótesis donde buscamos contrastar información acerca del parámetro.
b) La Estadística no paramétrica es una rama de la Estadística que estudia las pruebas y modelos
estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su
distribución no puede ser definida a priori, pues son los datos observados los que la determinan.
La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos
se ajusten a una distribución normal o cuando el nivel de medida empleado no sea, como
mínimo, de intervalo
V.3. Estadística univariada y multivariada. Estimación de parámetros por intervalos de
confianza.
a) Concepto de Estadística univariada
Cuando el análisis presenta característica por característica, aisladamente, estaremos en presencia
de un análisis estadístico univariado. Ejemplo, cuando decimos que una persona pesa 95 kg.
independientemente de cualquier otra característica estaremos en presencia de análisis univariado.
El análisis univariado es el análisis básico. Los estadísticos básicos que conocemos, como la media, la
mediana, la moda, la varianza, los porcentajes, entre otros, miden una variable. Es decir, fueron
hechos univariados.
Este tipo de análisis ha sido muy criticado ya que en la realidad se presentan interconectados. Por
ejemplo existe una relación entre el peso y la talla de las personas o entre el interés y el rendimiento
escolar, etc.
b) Concepto de Estadística multivariada
Este análisis consiste en determinar las relaciones existentes entre dos o más variables.
En general se les clasifica en dos grandes grupos
1. Métodos explicativos como la regresión lineal, análisis discriminante, entre otros.
2. Métodos descriptivos como análisis de conglomerados, análisis factorial, etc.
Este tipo de análisis ha avanzado mucho y hoy ocupa el corazón del análisis estadístico avanzado.
1
c) Estimación de parámetros por intervalos de confianza.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la
media poblacional, la proporción observada en la muestra es un estimador de la proporción en la
población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Sin embargo es más
útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará el
parámetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al
parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parámetro. Se indica por 1-α y habitualmente se da en porcentaje (1-α) %. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza
contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso
con muchas muestras podríamos afirmar que el (1-α) % de los intervalos así construidos contendría
al verdadero valor del parámetro.
Los factores que determinan el ancho del intervalo de confianza son:
1. El tamaño de la muestra (n)
2. La varianza
3. El nivel deseado de confianza
Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros.
Para las muestras, estas mismas medidas descriptivas se llaman estadísticas.
Es costumbre simbolizar las estadísticas con letras romanas y los parámetros con letras griegas.
Estadística
Media aritmética
Varianza
Desvío estándar
Coeficiente de correlación
S²
S
R
2
Parámetro
µ
σ2
σ
ρ
C.1. Intervalo de confianza para la media
Valor de Z
Nivel de confianza
1.15
75%
1.28
80%
1.44
85%
1.65
90%
1.96
95%
2
95.5%
2.58
99%
Ejemplo 1.
Supongamos que se estudia en nivel de glucosa en sangre en la población cuyos valores aparecen en
el recuadro (N=20). Seleccionamos de forma aleatoria 5 muestras tamaño n=5 elaboramos, en cada
caso, el intervalo de confianza para el nivel medio de glucemia (nivel de confianza el 95 %)
Observemos los resultados.
108
112
118
120
121
136
125
115
118
129
117
110
109
113
120
Media
Muestra 1
123
125
118
Intervalo muestra 1 = 125.38 – 116.22
3
125
113
127
125
123
124
133
117
Muestra 2
124
110
115
133
112
Intervalo muestra 2 = 127.19 – 110.40
Muestra 3
125
Comando
en Excel
Promedio
Var
Desvest
Intervalo.
Confianza
113
117
123
124
Max
124.937645
Min
115.862355
110
136
125
110
Max
134.909818
Min
110.690182
Parámetro
Media
Varianza
Desviación
estándar
Intervalo
de
confianza
120.4
26.8
5.17687164
4.53764468
Muestra 4
133
Comando
en Excel
Promedio
Var
Desvest
Intervalo.
Confianza
Parámetro
Media
Varianza
Desviación
estándar
Intervalo
de
confianza
122.8
152.7
12.3571841
12.1098179
4
Ejemplo 2.
Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de 167 cm. Por
estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm.
Construye un intervalo de confianza para la estatura media de la población al 95%
La media de la estatura de la población está entre 168.74 y 165.26 cm
Ejemplo 3.
Para conocer el peso promedio de un grupo de personas se tomo una muestra de 38 personas. La
media muestral resultó ser de 74,3 kg.
Construya un intervalo de confianza del 98% para la media de la población, si la desviación estándar
es 14 kg.
El valor de tablas que encierra el 98% de la distribución Z es 2,33
5
V.4. Tamaño de muestra para estimar medias
Un problema típico es determinar el tamaño muestral mínimo para que el intervalo de confianza
para la proporción con un nivel de confianza dado tenga un error (amplitud) menor o igual a una
cantidad conocida para encontrar el tamaño de la muestra
Donde:
E.- es el error admisible
Z.- es el valor normal estándar correspondiente al nivel de confianza deseado
s.- Es la desviación estándar de la muestra
Valor de Z
Nivel de confianza
1.15
75%
1.28
80%
1.44
85%
1.65
90%
1.96
95%
2
95.5%
2.58
99%
Un estudiante de Administración desea determinar la cantidad media que ganan al mes lo miembros
de los consejos ciudadanos de las grandes ciudades. El error a calcular la media debe ser inferior a
$100, con un nivel de confianza del 95%. El estudiante encontró un informe del departamento de
trabajo en el que la desviación estándar es de $1000 ¿Cuál es el tamaño de la muestra que se
requiere?
n= ¿?
E= $100
Z= Confianza 95% = 1.96
s = Desviación estándar = $1000
Un grupo consumidor desea estimar la media del cargo de electricidad por familia en Julio con un
error de $5 usando un nivel de confianza de 99%. La desviación estándar es estimada de estudios
similares la cual es de $20. ¿Qué tan grande debe ser la muestra?
6
V.5. Concepto de hipótesis estadística.
Una prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se
sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se examine
la población entera. Esto por su puesto sería impráctico en la mayoría de las situaciones. En su lugar,
se toma una muestra aleatoria de la población de interés y se utilizan los datos que contiene tal
muestra para proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que
es un constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la
evidencia que apoya la hipótesis conduce a su aceptación.
Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de decisiones.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta
prueba estadística mide el acercamiento del valor de la muestra (como un promedio) a la hipótesis
nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) o se puede
desarrollar una distribución para la prueba estadística particular.
La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y
una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la
hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la
distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede
rechazar). A hora bien el valor crítico depende del tamaño de la región de rechazo.
IDENTIFICACIÓN
DE HIPÓTESIS
Hipótesis nula H0

La que contrastamos

Los datos pueden refutarla

No debería ser rechazada sin una
buena razón
Hipótesis alternativa H1



Niega H0 (y creemos que es ”mejor”)
Los datos pueden mostrar evidencia
a favor
No debería ser aceptada sin una gran
evidencia a favor
H0: p =, ≤, ≥
H1: p , <, >
Ejemplo 1.Problema ¿La osteoporosis está relacionada con el sexo?
Solución:
Traducir a lenguaje estadístico p=50%
Establecer su opuesto: p
50%
Seleccionar la hipótesis nula: H0= p=50%
7
Ejemplo 2.Problema ¿El colesterol medio para la dieta mediterránea es de 6mmol/l?
Solución:
Traducir a lenguaje estadístico µ=6
Establecer su opuesto: µ
6
Seleccionar la hipótesis nula: H0= µ=6
V.6. Tipos de error.
Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido
un error de tipo I. Por otra parte si aceptamos una hipótesis que debiera ser rechazada, diremos que
se ha cometido un error de tipo II. En ambos casos se ha producido un juicio erróneo.
Para que las reglas de decisión sean buenas, deben diseñarse de modo que minimicen los
errores de decisión, y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un
intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la
práctica un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que
disminuya el error más grave, la única forma de disminuir ambos a la vez es aumentar el tamaño de
la muestra, que no siempre es posible.
Hipótesis
H0
verdadera
H0
falsa
Aceptar
H0
Decisión correcta
Decisión incorrecta
Error tipo II
Probabilidad β
Rechazar
H0
Decisión incorrecta
Error de tipo I
Probabilidad α
Decisión correcta
Decisión
8
Riesgos al tomar decisiones
Ejemplo 1: se juzga a un individuo por la presunta comisión de un delito.
H0: Hipótesis nula: Es inocente


“Todos son inocentes hasta que se demuestre lo contrario.”
Rechazarla por error tiene graves consecuencias
H1: Hipótesis alternativa: Es culpable


No debería ser aceptada sin una gran evidencia a favor
Rechazarla por error tiene consecuencias consideradas menos graves que la anterior
Realidad
Inocente
Culpable
Inocente
Ok
Error
Menos grave
Culpable
Error
Muy grave
Ok
Veredicto
Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados.
H0: Hipótesis nula: No especulativa


El nuevo tratamiento no tiene efecto
Rechazarla por error tiene graves consecuencias
H1: Hipótesis alternativa: Especulativa


El nuevo tratamiento es útil.
Rechazarla por error tiene consecuencias consideradas menos graves que la anterior
Realidad
H0 Cierta
Acepto H0
Correcto
El tratamiento no tiene efecto
y así se decide
Rechazo H0
Error de tipo I
El tratamiento no tiene efecto
pero se decide que si
Probabilidad α
9
H0 Falsa
Error de tipo II
El tratamiento si tiene efecto
pero no lo percibimos
Probabilidad β
Correcto
El tratamiento tiene efecto y el
experimento lo confirma
NIVEL DE SIGNIFICANCIA
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a
correr el riesgo de cometer un error de tipo I se llama nivel de significancia. Esta probabilidad se
denota por α, se suele especificar antes de la muestra, de manera que los resultados no influyan en
nuestra elección.
En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan otros
valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar una regla de
decisión entonces hay unas cinco oportunidades entre cien de rechazar la hipótesis cuando debiera
haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisión
correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel de significancia 0.05 lo cual
quiere decir que la hipótesis tiene una probabilidad del 5% de ser falsa.
V.7. Metodología.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Expresar la hipótesis nula
Expresar la hipótesis alternativa
Especificar el nivel de significancia
Determinar el tamaño de la muestra
Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Determinar la prueba estadística.
Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
Determinar la decisión estadística.
Expresar la decisión estadística en términos del problema.
10
V.8. Algunas pruebas de hipótesis.
a) Para una media poblacional.
Mientras el tamaño de muestra (n) sea mayor que 30, se estima la desviación estándar poblacional
(σ) por medio de la desviación estándar muestral (s) y se usa los valores de Z
Valor de Z
Nivel de confianza
1.15
75%
1.28
80%
1.44
85%
1.65
90%
so
= media poblacional
1.96
95%
2
95.5%
2.58
99%
= Desviación estándar
n= tamaño de la muestra
Ejemplo 1.
La duración promedio de las llantas producidas por una fábrica de llantas, según
experiencias registradas es de 46.050 Km. Se desea probar si el promedio poblacional ha cambiado;
para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duración promedio de
45.050 Km. con una desviación estándar de 3.070 Km, usando un 95% de confianza.
Ho=
n= 60
= 46.050
H1=
46.050
=
1-α= 0.95= 1.96
s= 3.070
Si z es mayor a 1.96 o menor a -1,96 se rechaza H0
Por lo tanto si z= a -2.52 se rechaza H0. Por consiguiente, con una confiabilidad del 95 por ciento se
acepta que la duración promedio de las llantas ha cambiado.
11
Ejemplo 2. Ciertos investigadores pretenden saber si es posible concluir que la media del IMC
para la población de la que se extrajo la muestra n es 35
Individuo
1
2
3
4
5
6
7
IMC
23
25
21
37
39
21
23
Media
Varianza
Desviación
30.5
113.192308
10.6391874
8
9
10
11
12
13
14
24
32
57
23
26
31
45
1. Expresar la hipótesis nula
H0: µ = 35
2. Expresar la hipótesis alternativa
H1: µ ≠ 35
3. Especificar el nivel de significancia
α= 0.05
4. Determinar el tamaño de la muestra
n=14
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Dado que la muestra es menor de 30 se usan los valores de “t” en lugar de “z”
Grados de libertad (gl)= n-1 por lo tanto 14-1=13
Dado que se tiene una prueba bilateral se pone α/2= 0.5/2= 0.025. Estos valores aparecen
en la tabla de “t” (ane o). Buscaremos el valor que se encuentre entre gl=13 y t= 1-α = 10.025 = 0.975 . Lo que corresponde a 2.1604 y -2.1604
6. Determinar la prueba estadística.
12
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
A partir de los datos de la muestra se calcula una media igual a 30.5 y una desviación
estándar de 10.6392. Al sustituir estos datos en la ecuación se obtiene
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
-1.58 cae en la región de no rechazo
9. Determinar la decisión estadística.
No se rechaza H0 ya que -1.58 cae en la región de no rechazo
10. Expresar la decisión estadística en términos del problema.
Con base en estos datos se puede decir que la media de la población de la cual se extrajo la
muestra puede ser 35.
13
Ejemplo 3. Los siguientes datos son la circunferencia craneal (CC)(en centímetros) de 15 niños
recién nacidos
Individuo
1
2
3
4
5
CC
33.38
34.34
33.46
32.15
33.95
6
7
8
9
10
11
34.13
33.99
33.85
34.45
34.1
34.23
12
13
14
15
34.19
33.97
32.73
34.05
Media
33.798
Varianza
0.39727429
Desviación
0.63029698
1. Expresar la hipótesis nula
H0: µ = 34.5
2. Expresar la hipótesis alternativa
H1: µ ≠ 34.5
3. Especificar el nivel de significancia
α= 0.05
4. Determinar el tamaño de la muestra
n=15
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Dado que la muestra es menor de 30 se usan los valores de “t” en lugar de “z”
Grados de libertad (gl)= n-1 por lo tanto 15-1=14
Dado que se tiene una prueba bilateral se pone α/2= 0.5/2= 0.025. Estos valores aparecen
en la tabla de “t” (ane o). Buscaremos el valor que se encuentre entre gl=14 y t= 1-α = 10.025 = 0.975. Lo que corresponde a 2.1448 y -2.1448
6. Determinar la prueba estadística.
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
A partir de los datos de la muestra se calcula una media igual a 30.5 y una desviación
estándar de 10.6392. Al sustituir estos datos en la ecuación se obtiene
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
-4.31 cae en la región de rechazo
9. Determinar la decisión estadística.
Se rechaza H0 ya que -4.31 cae en la región de rechazo
10. Expresar la decisión estadística en términos del problema. Con base en estos datos se puede
decir que la media de la población de la cual se extrajo la muestra no puede ser 34.5.
14
Ejemplo 4.
Ciertos investigadores condujeron un estudio para examinar los datos
correspondientes a la farmacocinética de la gentamicina en tres poblaciones mayores de 18 años:
pacientes con leucemia aguda, pacientes con otros padecimientos malignos no leucémicos y
pacientes sin enfermedad maligna oculta. Entre las estadísticas reportadas por los investigadores
estaba el valor 59.1 como media inicial calculada, con una desviación estándar de 25.6 para una
muestra de 211 pacientes. Se pretende saber si es posible concluir que la media para la población de
individuos que presenta el mismo cuadro patológico es menor que 60. Sea α=0.10
1. Expresar la hipótesis nula
H0: µ < 60
2. Expresar la hipótesis alternativa
H1: µ > 60
3. Especificar el nivel de significancia
α= 0.10
4. Determinar el tamaño de la muestra
n=211
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Dado que la muestra es mayor de 30 se usan los valores de “z”. Lo que corresponde a 1.65 y -1.65
6. Determinar la prueba estadística.
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
A partir de los datos de la muestra se calcula una media igual a 59.1 y una desviación estándar de 25.6. Al
sustituir estos datos en la ecuación se obtiene
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
-0.510 cae en la región de no rechazo
9. Determinar la decisión estadística.
No se rechaza H0 ya que -0.510 no cae en la región de rechazo
10. Expresar la decisión estadística en términos del problema.
Con base en estos datos se puede decir que la media de la población de la cual se extrajo la muestra puede
ser menor de 60.
15
ANTES DE CONTINUAR.
 Se podrán encontrar pruebas de 1 o 2 colas.

Sabremos que es de 1 cola cuando la hipótesis alterna (H1) establece una dirección, como;
H1: EL ingreso medio de las mujeres ( m) es menor al
ingreso medio de los hombres ( h) H1: m < h
H1: El ingreso medio de las mujeres es mayor que el
de los hombres. H1: m > h
Si H1 tiene el signo (menor que) <, la prueba de significancia es de cola izquierda.
Si H1 tiene el signo (mayor que) >, la prueba de significancia es de cola derecha.

Una prueba es de 2 colas cuando no se establece una dirección especifica de la hipótesis alterna (H1) como;
H0: el ingreso medio de las mujeres es igual al ingreso
medio de los hombres H0: m = h
H1: El ingreso medio de las mujeres no es igual al
ingreso medio de los hombres H0: m ≠ h
Si H1 es planteada de manera que incluya ambos extremos de la distribución muestral, la prueba de significancia es
de dos colas.
Nivel de confianza
Valor de Z
(Bilateral)
75%
80%
85%
90%
95%
95.5%
99%
1.15
1.28
1.44
1.65
1.96
2
2.58
Nivel de confianza
Valor de Z
(Unilateral)
 Cuando usemos valores menores a n=30
90%
95%
99%
99.5%
1.28
1.645
2.33
2.58
o no conozcamos las varianzas de la población el valor de
confianza será el de t y no el de z.
El valor de t se calcula Grados de libertad (gl) = n-1 y confianza = 1- α
16
b) Para la diferencia de dos medias poblacionales.
La prueba de hipótesis que involucra la diferencia entre las medias de dos poblaciones que se utiliza con más
frecuencia para determinar si es razonable o no concluir que las dos son distintas entre sí, se usa la siguiente
formula.
Ejemplo 1.
Un equipo de investigadores desea saber si los datos que han recolectado proporcionan la evidencia
suficiente para indicar una diferencia entre las concentraciones medias de acido úrico en el suero de individuos
normales e individuos con síndrome de Down. Los datos en la lecturas de acido úrico en el suero de 12 individuos
con síndrome de Down y 15 individuos sanos. Las medias son
= 4.5 mg/100ml y
= 3.4 mg/ml. Con varianza
igual a 1 para la población con síndrome de Down y de 1.5 para la población sana.
1. Expresar la hipótesis nula
H0: µ1 - µ2 = 0
2. Expresar la hipótesis alternativa
H1: µ1 - µ2 ≠ 0
3. Especificar el nivel de significancia
α= 0.05
4. Determinar el tamaño de la muestra
n1=12
n2= 15
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo. Lo que corresponde a
± 1.96 (Bilateral)
6. Determinar la prueba estadística.
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
2.57 cae en la región de rechazo
9. Determinar la decisión estadística.
Se rechaza H0 ya que 2.57 cae en la región de rechazo al ser mayor que 1.96
10. Expresar la decisión estadística en términos del problema.
Con base en estos datos hay indicios de que las medias de las poblaciones son diferentes.
17
Ejemplo 2. Un estudio tiene como objetivo examinar las características de destrucción pulmonar en personas
que fuman cigarros antes de desarrollar un marcado enfisema pulmonar. En la tabla se muestran las calificaciones
producidas, para nueve personas que no fuman y 16 fumadores. Se pretende saber si es posible concluir, con base
en los datos, que las personas que sí fuman, en general, tienen los pulmones más dañados que las persona no
fumadoras, como lo indican las mediciones.
No fumadores 18.1
6
10.8 11
7.7 17.9 8.5
13 18.9
16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6
Fumadores
12 24.1 16.5 21.8 16.3 23.4 18.8
Varianza
Media
No fumadores
12.4333333
23.515
Fumadores
17.5375
20.0278333
1. Expresar la hipótesis nula H0: µ1 = µ2
2. Expresar la hipótesis alternativa
H1: µ1 ≠ µ2
3. Especificar el nivel de significancia α= 0.05
4. Determinar el tamaño de la muestra n1=9 n2= 16
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Cuando son dos poblaciones se usa n1+n2 -2 = grados de libertad y α/2=precisión=±2.0687 (bilateral)
6. Determinar la prueba estadística. t
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
2.602 cae en la región de rechazo
9. Determinar la decisión estadística.
Se rechaza H0 ya que 2.602 cae en la región de rechazo al ser mayor que 2.0687
10. Expresar la decisión estadística en términos del problema.
Con base en estos datos se puede concluir que las dos medias son diferentes, es decir, se concluye que, las
personas que si fuman tienen los pulmones más dañados que las que no lo hacen.
18
Ejemplo 3.
Un artículo publicado en una revista describe el desarrollo de una herramienta para medir las
barreras para promover la salud entre personas discapacitadas. Los autores afirman que los problemas de barreras
sobresalen especialmente de personas discapacitadas que las experimentan en situaciones como: empleo,
transporte, educación entre otros. Para medir esto, los investigadores desarrollaron la escala de barreras en las
actividades de promoción de la salud en personas discapacitadas. Se obtuvieron los siguientes resultados al aplicar la
escala a una muestra de 132 discapacitados (D) y a 137 personas no discapacitadas (ND)
Muestra
D
ND
Calificación media
31.83
25.07
Desviación estándar
7.93
4.80
1. Expresar la hipótesis nula
H0: µ1 - µ2 ≤ 0
2. Expresar la hipótesis alternativa
H1: µ1 - µ2 > 0
3. Especificar el nivel de significancia
α= 0.01
4. Determinar el tamaño de la muestra
n1=132
n2= 137
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Sea α= 0.01 El valor de z será 2.33 (Unilateral)
6. Determinar la prueba estadística.
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
8.42 cae en la región de rechazo
9. Determinar la decisión estadística.
Se rechaza H0 ya que 8.42 cae en la región de rechazo al ser mayor que 2.58.
10. Expresar la decisión estadística en términos del problema.
Estos datos indican que en promedio las personas con discapacidad califican más alto en la escala de barreras que
las personas sin discapacidad.
19
Para una proporción poblacional.
El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos.
q= 1 – p
P0= proporción de éxitos de la hipótesis nula.
n= tamaño de la muestra
x= numero de éxitos en la muestra
Ejemplo 1.
En una investigación de consumidores de drogas intravenosas en una ciudad grande, se encontraron
a 18 de 423 individuos con VIH positivo. Se pretende saber si es posible concluir que al menos de 5% de los
consumidores de drogas intravenosas en la población muestreada tienen VIH positivo. Utilizando 95% de
confianza. (Uni)
H0: p ≥ 0.05
H1: p < 0.05
q= 1 – p = 1- 0.05 = 0.95
No se rechaza H0 porque -0.70 Mayor que -1.645
Se concluye que la proporción de la población que tiene VIH positivo posiblemente sea 0.05 o más.
Ejemplo 2.
En un artículo publicado se describen los resultados de una encuesta de salud aplicada a 119
convictos varones de 50 años de edad y mayores residentes de las instalaciones de un centro de readaptación
social del estado. Se encontró que 21.6% de los encuestados dijeron tener antecedentes de enfermedades
venéreas. Con base en estos hallazgos ¿Es posible concluir que en la población muestreada más de 15% tiene
antecedentes de enfermedades venéreas? Sea α = 0.05
H0: p ≥ 0.15
H1: p ≤ 0.15
q= 1 – p = 1- 0.15 = 0.85
No se rechaza H0 porque -0.88 es mayor que -1.96
Se concluye que en la población la proporción de personas posiblemente sea 0.15 o más tiene antecedentes
venéreas.
20
Ejemplo 3.
Se encontró que el 66% de los niños en una muestra de 670 completaron toda serie de vacunas
contra la hepatitis B ¿Es posible concluir que, con base en estos datos, en la población muestreada, más de 60%
tienen la serie completa de vacunas contra la hepatitis B? Sea α= 0.05 (Uni)
H0: p > 0.60
H1: p < 0.60
q= 1 – p = 1- 0.66 = 0.34
Se rechaza H0 porque 3.06 es mayor que 1.645
Se concluye que la población de niños de donde fue tomada la muestra menos del 60% tiene la serie completa de
vacunas contra la Hepatitis B.
21
c) Para la diferencia de dos proporciones poblacionales.
Ejemplo 1.
En un estudio de cuidados nutricionales en asilos para ancianos se encontraron que entre 55
pacientes con hipertensión, 24 tenían una dieta con restricción de sodio. De 149 pacientes sin hipertensión, 36
tenían una dieta sin sodio. ¿Es posible concluir que, en las poblaciones muestreadas, la proporción de pacientes con
dieta restringida en sodio es mayor entre pacientes con hipertensión que entre pacientes sin hipertensión? Sea α =
0.05. El valor crítico de z es 1.645. (Prueba Unilateral)

Se supone que los pacientes estudiados forman una muestral aleatoria independientemente extraída de
poblaciones con y sin hipertensión. (Uni)
H0: pH ≤ p
H1: pH > p
pH es la proporción de la población de pacientes hipertensos con dietas bajas en sal y p es la proporción de la
población de pacientes sin hipertensión con dietas bajas en sal.
Se rechaza H0 porque 2.7 > 1.645
La proporción de pacientes con dieta restringida en sodio es mayor entre los pacientes hipertensos que entre los
pacientes sin hipertensión.
22
Ejemplo 2.
La mayoría de las personas que dejan de fumar, se quejan de que al hacerlo suben de peso, se diseño
una nueva técnica para prevenir que la gente suba de peso, la cual compararon contra otras dos condiciones que
incluían una condición control de tratamiento estándar ideada para representar la atención estándar del sobrepeso
inducido por dejar de fumar. Una de las hipótesis de los investigadores era que las tasas de abstinencia de tabaco
serían mayores con la nueva técnica que las registradas en las otras dos condiciones. De 53 individuos asignados a la
nueva condición, 11 dejaron de fumar al final de 52 semanas. 19 de los 54 asignados a la condición de control se
abstuvieron hasta el final del mismo periodo. ¿ofrecen estos datos suficiente evidencia para apoyar, con un nivel de
significancia de 0.05, la hipótesis de los investigadores?

El valor crítico de z es 1.645. (Prueba Unilateral)
H0: p1 > p2 las tasas de abstinencia de tabaco serían mayores con la nueva técnica que las registradas en las otras
dos condiciones
H1: p1 > p2
p1 es la proporción de la población de pacientes asignados a la nueva condición y p2 es la proporción de la población
de pacientes control.
Se acepta H0 dado que -1.666 es menor que 1.645
Los datos presentados presentan suficiente evidencia para apoyar a los investigadores.
Ejemplo 3.
Ciertas investigaciones sugieren que entre pacientes con depresión unipolar primaria se registra una
tasa alta de alcoholismo. Una investigación realizada profundiza en esta posible relación. Entre 210 familias de
mujeres con depresión unipolar primaria grave, los investigadores encontraron que el alcoholismo estaba presente
en 89. Entre 299 familias catalogadas como familias de control en la investigación, el alcoholismo estuvo presente en
94. ¿Ofrecen estos datos suficiente evidencia para concluir que el alcoholismo es más probable de encontrar en
familias con integrantes que tienen depresión unipolar? Sea α= 0.05. (Uni)
No se rechaza H0 porque 2.65 es mayor (>) a 1.645
23
d) Para poblaciones pareadas.
En el análisis referente a la diferencia entre las medias de dos poblaciones, se supone que las muestras son
independientes. Un método que se utiliza con frecuencia para averiguar la eficacia de un tratamiento o
procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de muestras no
independientes. Una prueba de hipótesis que se basa en este tipo de datos se conoce como prueba de
comparaciones por parejas o de poblaciones pareadas.
Con frecuencia sucede que las diferencias reales no existen entre dos poblaciones con respecto al a variable de
interés, pero la presencia de fuentes extrañas de variación pueden causar rechazo de la hipótesis nula.
Por ejemplo, supongamos que se pretende comparar dos protectores solares para la piel. . Existen al menos dos
maneras de llevar a cabo el experimento. Un método sería seleccionar una muestra aleatoria simple e independiente
que recibiera el protector solar A y una segunda que muestra aleatoria simple e independiente que recibiera el
protector solar B. Se pide a todos los individuos que salgan a broncearse a la luz del sol durante un tiempo
específico, y después se mide el daño causado por el sol. Suponga que se aplica este método, pero inadvertidamente
la mayoría de los individuos que recibieron el protector solar A tienen piel oscura y por naturaleza son menos
sensibles a los rayos solares. Digamos que al terminar el experimento, se encuentra que los individuos que
recibieron el protector solar A tienen menos daño provocado por la luz del sol. So sería posible saber si tuvieron
menos daño porque el protector solar A fue más eficaz que el protector solar B o porque la naturaleza de su piel
oscura es menos sensible al sol.
Una mejor manera de diseñar el experimento sería seleccionar sólo una muestra aleatoria simple de individuos y que
cada uno de ellos se les aplicaran ambos protectores solares. Por ejemplo, se asignarían aleatoriamente los
protectores solares al lado derecho o izquierdo de la espalda de cada individuo de manera que recibieran ambos
productos. Después de un tiempo especifico se exposición se medirían los daños provocados por la luz del sol, en
cada mitad de la espalda. Si la mitad de la espalda que recibió protector solar A tiende estar menos dañado, puede
atribuirse con más confianza el resultado al protector solar, porque en cada caso ambos protectores fueron
aplicados en una misma piel.
El objetivo en pruebas de comparación por parejas es eliminar un máximo número de fuentes de variación extraña
haciendo parejas similares con respecto a tantas variables como sea posible.
d= diferencia de media muestral
µ= diferencia de la media muestral propuesta
24
Ejemplo 1.
Nancy Stearns condujo un estudio para determinar la pérdida de peso, la composición corporal, la
distribución de grasa corporal, la tasa metabólica en reposo en individuos obesos antes y después de 12 semanas de
tratamiento con dieta muy baja en calorías, y comparar la hidrodensitometria con el análisis de impedancia
bioeléctrica. Los 17 individuos (nueve mujeres y ocho hombres) que participaron en el estudio eran pacientes
externos de un programa de tratamiento con base hospitalaria para la obesidad. Los pesos de las mujeres antes y
después del tratamiento se muestra en la tabla. se pretende saber si estos datos ofrecen suficiente evidencia que
permita concluir q el tratamiento es eficaz para reducir el pero en mujeres obesas.
A
D
Pesos (Kg.) de mujeres obesas antes (A) y después (D) del tratamiento de 12 semanas
117.3
111.4
98.6
104.3
105.4
100.4
81.7
89.5
83.3
85.9
75.8
82.9
82.3
77.7
62.7
69.0
1. Expresar la hipótesis nula
H0: µd ≥ 0
(A – D) H0: µd ≤ 0
78.2
63.9
3. Especificar el nivel de significancia
α= 0.05
4. Determinar el tamaño de la muestra
n1=9
2. Expresar la hipótesis alternativa
H1: µd < 0
(A – D) H1: µd < 0
5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
Sea α= 0.05. El valor crítico de t es -1.8595 (uni) -1.8595
6. Determinar la prueba estadística
7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.Lo primero es obtener
las diferencias entre los pesos antes y después. Las diferencias se pueden obtener de dos maneras: Primero, se
resta el peso de antes de después (D - A): segundo se resta el peso de después al peso de antes (A – D).
A
D
D-A
2
(D - A)
117.3
83.3
-34
1156
Pesos (Kg.) de mujeres obesas antes (A) y después (D) del tratamiento
111.4
98.6
104.3
105.4
100.4
81.7
85.9
75.8
82.9
82.3
77.7
62.7
-25.5
-22.8
-21.4
-23.1
-22.7
-19
650.25
519.84
457.96
533.61
515.29
361
Totales
89.5
69
-20.5
420.25
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
-12.7395 cae en la región de rechazo, por lo tanto se rechaza H0
9. Determinar la decisión estadística.
Se rechaza H0
10. Expresar la decisión estadística en términos del problema.
Se puede concluir que el programa de dieta es eficaz
25
78.2
63.9
-14.3
204.49
-203.3
4818.69
Ejemplo 2.
Un artículo publicado por Kashima et al. (A-12) describe una investigación relacionada con los padres
de niños con retraso mental, en la cual se presenta información sobre la enseñanza de autocuidados en un programa
apoyado en diferentes medios de comunicación, principalmente a través de videotapes y manuales de instrucción.
Como parte del estudio, participaron 17 familias en el programa de capacitación impartido por personal con amplia
experiencia en proyectos de capacitación paterna. Antes y después del programa de capacitaci6n, se aplico una
prueba de comportamiento y descripción a cada jefe de familia o padre principal. EI examen evalúa el conocimiento
de los principios de modificación del comportamiento. Una calificación alta indica mayor conocimiento. Las
siguientes calificaciones corresponden a las pruebas de los jefes de familia, antes y después del programa de
capacitación:
¿Es posible concluir, con base en estos datos, que el programa de capacitación aumenta el conocimiento respecto a
los principios de modificación del comportamiento? Sea α=0.01
H0: Ca < Cd
H1: Ca > Cd
Calificaciones antes y después de la capacitación
Total
Antes
7
6
10
16
8
13
8
14
16
11
12
13
9
10
17
8
5
Después
11
14
16
17
9
15
9
17
20
12
14
15
14
15
18
15
9
D-A
4
8
6
1
1
2
1
3
4
1
2
2
5
5
1
7
4
57
16
64
36
1
1
4
1
9
16
1
4
4
25
25
1
49
16
273
(D - A)
2
t= gl (n-1) =16; α=0.01 (uni)
Se rechaza H0 porque 6.111 > 2.583
26
Ejemplo 3.
EI propósito de una de las investigaciones realizadas es evaluar la influencia del bloqueo extradural
para la operación cesárea en diversas variables hemodinámicas maternas y fetales, simultáneamente, y determinar
si el bloqueo modifica la función del miocardio fetal. Los individuos estudiados eran ocho parturientas sanas con 38 a
42 semanas de embarazo de un solo feto, sin complicaciones, que serian sometidas a operación cesárea con
anestesia para bloqueo extradural. Los siguientes datos corresponden a los valores inferiores de esta variable en las
dos etapas:
¿Ofrecen suficiente evidencia estos datos, con un nivel de significación de 0.05, para indicar que, bajo condiciones
similares y generales, la media de la presión arterial diastólica en las madres es diferente en las dos etapas?
H0 = E1 = E2
H1 = E1 ≠ E2 (Bilateral)
Medidas de la presión arterial diastólica
Total
E1
70
87
72
70
73
66
63
57
E2
79
87
73
77
80
64
64
60
9
0
1
7
7
-2
1
3
26
81
0
1
49
49
4
1
9
194
E2 - E1
(E2 - E1)
2
T= gl=8-1=7; α=0.05/2 =0.025 1-0.025= 0.975
No se rechaza H0 porque 2.324 < 2.3646
27