Download Pruebas de decisión estadística

Document related concepts
no text concepts found
Transcript
SEMINARIO DE POSGRADO
METODOLOGÍA DE INVESTIGACIÓN
Titular: Agustín Salvia
MÓDULO 4: TEOREMA DEL LÍMITE CENTRAL,
DISTRIBUCIONES Y TEST DE HIPÓTESIS
DISTRIBUCIÓN MUESTRAL
Las muestras se usan para poder inferir las
características que tiene una o más variables en la
población. Pero para poder inferir debemos conocer el
comportamiento que presentan diferentes muestras con
respecto a los parámetros de la población. El modelo
que surge de estas muestras se denomina distribución
muestral.
TEOREMA DEL LÍMITE CENTRAL
Dado un muestreo aleatorio de una población con
media μ y varianza σ2, la media de la variable aleatoria
cuando n (tamaño de la muestra) es suficientemente
grande es aproximadamente normal con media μ y
varianza σ2/n.
DISTRIBUCIÓN MUESTRAL
1) Si el tamaño de la muestra n es suficientemente grande
(n > 30) la distribución normal de las medias será
aproximadamente normal. No importa si la población es
normal, sesgada u uniforme.
2. La media de la población y la media de todas las posibles
muestras son iguales. Si la población es grande y un gran
número de muestras son seleccionadas de esa población
entonces la media de las medias muestrales se aproximará
a la media poblacional.
3. En la medida que aumente el n muestral (aumente el
número de muestras) la variabilidad disminurá.
DISTRIBUCIONES MUESTRALES
OTRAS DISTRIBUCIONES
MUESTRALES
T DE STUDENT
BINOMIAL
CHI CUADRADO
DISTRIBUCIÓN T DE STUDENT
- La distribución t surge, en la mayoría de los estudios
estadísticos prácticos, cuando la desviación típica de una
población se desconoce y debe ser estimada a partir de los
datos de la muestra.
- Es simétrica y unimodal, con media en 0
- Es una familia de curvas, en función de los llamados
“grados de libertad” (n-1). Es decir, hay una distribución t
de Student con 1 gl, una distribución t de Student con 2 gl,
etc., según tamaño de la muestra.
-A medida que aumentan los grados de libertad, la
distribución tiende más y más a una distribución normal
estandarizada.
(Empleo: pruebas de contraste de 2 medias, entre otros)
DISTRIBUCIONES T DE STUDENT
DISTRIBUCIÓN BINOMIAL
Supongamos que un experimento aleatorio tiene las siguientes
características:
-En cada prueba del experimento sólo son posibles dos
resultados: el suceso A (éxito) y su contrario`A (fracaso).
-El resultado obtenido en cada prueba es independiente de los
resultados obtenidos anteriormente.
-La probabilidad del suceso A es constante, la representamos
por p, y no varía de una prueba a otra. La probabilidad de
`A es 1- p y la representamos por q .
-El experimento consta de un número n de pruebas. Todo
experimento que tenga estas características diremos que sigue
el modelo de la distribución Binomial.
La variable binomial es una variable aleatoria discreta, sólo puede tomar los
valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas.
DISTRIBUCIÓN BINOMIAL
DISTRIBUCIÓN CHI-CUADRADO
-Nunca adopta valores menores de 0

2
-Es asimétrica positiva
-Es una familia de curvas, en función de los llamados
“grados de libertad”. Es decir, hay una distribución chicuadrado con 1 gl, una distribución chi-cuadrado con
2 gl, etc.
- A medida que aumentan los grados de libertad, la
distribución se hace más y más simétrica.
Empleo: En pruebas de bondad de ajuste (para comparar las
puntuaciones predichas con las observadas), entre otras.
DISTRIBUCIONES CHI CUADRADO
TEORIA DE LA DECISIÓN
TEST DE HIPÓTESIS
EJEMPLOS
Teoría de la decisión o prueba de hipótesis
Un contraste o test de hipótesis es una técnica de Inferencia
Estadística que permite comprobar si la información que
proporciona una muestra observada concuerda (o no) con la
hipótesis estadística formulada y, por tanto, se puede
aceptar (o no) la hipótesis formulada.
Una hipótesis estadística es cualquier conjetura sobre una o varias
características de interés de un modelo de probabilidad. Una hipótesis
estadística puede ser:
Paramétrica: es una afirmación sobre los valores de los parámetros
poblacionales desconocidos para una distribución aproximadamente
normal.
No Paramétrica: es una afirmación sobre alguna característica
estadística de la población en estudio cuando las variables no son
métricas o su distribución no es normal o no es conocida.
Teoría de la decisión o prueba de hipótesis
La hipótesis que se contrasta se denomina hipótesis nula y se
denota por H0. Si se rechaza la hipótesis nula es porque se asume
como correcta una hipótesis complementaria, la cual se denomina
hipótesis alternativa y se denota por H1. Al realizar cualquier
contraste de hipótesis estadístico se deben seguir las siguientes
etapas:
- Plantear el contraste de hipótesis definiendo la hipótesis nula (H0,
hipótesis que se desea contrastar), y la hipótesis alternativa (H1,
cualquier forma de negación de la hipótesis nula ).
- Seleccionar un estadístico de prueba o contraste a partir de la
información que proporciona la muestra y la hipótesis H0.
- Determinar el nivel de significancia (probabilidad de error siendo
H0 cierta o falsa), tipo de error y tamaño de la muestra que tendrá la
prueba.
- Definir la zona de rechazo y establecer la decisión.
Contraste o test de hipótesis
Se denomina nivel de significación de un contraste a la
probabilidad de cometer un error en la decisión según
sea H0 cierta (error tipo I) o falsa (error de tipo II).
El nivel de significación lo elige el experimentador y tiene por ello la ventaja de
tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o 0'001).
1) Error de tipo I: se rechaza la hipótesis nula cuando es cierta
2) Error de tipo II: se acepta la hipótesis nula cuando es falsa
DECISIÓN
MANTENER
VIEJO MÉTODO
MANTENER
NUEVO MÉTODO
REALIDAD
MEJOR VIEJO
MEJOR NUEVO
ACIERTO
ERROR TIPO II
ERROR TIPO I
ACIERTO
Pruebas de decisión estadística
Estandarización del procedimiento de decisión estadística
1- Formulación de hipótesis estadística
H1: hipótesis de trabajo o alternativa
H0: hipótesis nula
2- Elección de la prueba estadística adecuada para contrastar H0
3 –Especificar un nivel de significación o zona de rechazo de H0
4 –Decisión estadística de rechazo o no de H0
Pruebas de decisión estadística
• Se utilizan para definir si cierta propiedad supuesta en la
población se confirma en la muestra.
• El caso típico consiste en extraer una muestra aleatoria y
someter a prueba la hipótesis de que dicha muestra se ha
extraído de una población que presenta una distribución
específica.
Ejemplo: A fin de mejorar el rendimiento en matemáticas
de los alumnos de una escuela de 400 alumnos se brinda
un curso de apoyo en contraturno. Al finalizar el curso se
conoce el rendimiento alcanzado sólo por 300 de los
alumnos. Se desea conocer si esa muestra es
representativa de la población escolar o está sesgada por
algún factor.
Pruebas de decisión estadística
Sospecha1: la muestra de 300 alumnos no es representativa de la
población porque los alumnos más pequeños son los que no han
realizado la evaluación
Sospecha2: la muestra de 300 alumnos no es representativa de
la población porque son los alumnos pobres los que no han
realizado la evaluación
Sospecha3: la muestra de 300 alumnos no es representativa de la
población porque los alumnos del primer ciclo no han realizado la
evaluación
Pruebas de decisión estadística
• Las pruebas de hipótesis permiten poner a prueba esas
sospechas y responder a los siguientes interrogantes
¿Existe una diferencia significativa entre la media de
edad de los alumnos de toda la escuela y la de los 300
que resolvieron la evaluación?
¿Existe una diferencia significativa de posición
(tendencia central) entre la muestra y la población?
Es necesario conocer la media de la población en la variable edad
Pruebas de decisión estadística
Formulación de hipótesis estadística
Sospecha1: la muestra de 300 alumnos
no es representativa de la población
porque los alumnos más pequeños son
los que no han realizado la evaluación
H1:la media de edad de la
muestra difiere de la media de
edad de la población (una cola)
Media de edad de la
población : 9 años
H0: no hay diferencias estadísticamente
significativas entre la media de edad de
la muestra difiere de la media de edad de
la población
Prueba T Student
Pruebas de decisión estadística
¿Existe una diferencia significativa entre la proporción de
alumnos pobres que componen el total de la población y la
de aquellos que realizaron la evaluación?
¿Existe una diferencia significativa entre las
proporciones observadas en la muestra y las
que cabría esperar según la distribución de la
población?
Es necesario conocer la proporción de al menos una de las dos
categorías (pobre / no pobre) en la población
Pruebas de decisión estadística
Formulación de hipótesis estadística
Sospecha 2: la muestra de 300
alumnos no es representativa de la
población porque son los alumnos
pobres los que no han realizado la
evaluación
Proporción de niños pobres en la
población: 0,3
H1:la proporción de niños pobres en la
muestra es menor a la del total de la
población
H0: no hay diferencias estadísticamente
significativas entre la proporción de niños
pobres en la muestra y la proporción de
niños pobres en la población
Distribución
Binomial
Pruebas de decisión estadística
¿Existe una diferencia significativa entre la cantidad de
alumnos del primer segundo y tercer ciclo que participan
de la muestra asumiendo que en la población estas partes
son iguales?
¿Existe una diferencia significativa entre las
frecuencias esperadas bajo algún principio o
modelo y las observadas en la muestra?
Es necesario definir el principio o modelo de comparación. El
principio más usado en estadística es el de la distribución
democrática
Pruebas de decisión estadística
Formulación de hipótesis estadística
Sospecha3: la muestra de 300 alumnos
no es representativa de la población
porque la cantidad de alumnos del
primer ciclo que ha realizado la
evaluación es menor que la cantidad de
alumnos del 2° y 3° que la han realizado
H1:el número de niños de 1°, 2° y 3°
ciclo que participan de la muestra difiere
del de la población donde son iguales
(1/3 cada ciclo)
1° ciclo
1/3
100
H0: no hay diferencias
2° ciclo
1/3
100
estadísticamente significativas
entre el número de alumnos
de la muestra y el de la
2° ciclo
1/3
100
Frecuencias
esperadas
bajo
hipótesis
nula
población según ciclo.
Prueba X2
Pruebas de decisión estadística
Especificar un nivel de significación o zona de rechazo de H0
Nivel de significatividad a : probabilidad de
equivocarse cuando la H0 es cierta (error tipo I)
Para definir si las diferencias
entre los resultados
encontrados y los esperados
bajo la hipótesis nula son
pequeños
equivalentes
Deben fijarse niveles de
probabilidad tal que sucesos
con probabilidad menor a dicho
Muy grandes
nivel induzcan a rechazar H0
Cuando esa probabilidad es muy baja puedo rechazar la
H0 al nivel de significación a. Por lo general 0,01 o 0,05