Download Inferencia Estadística
Document related concepts
no text concepts found
Transcript
EVALUACIÓN EN
APRENDIZAJE
Jesús González y Eduardo Morales
Significancia
Estadística
27/08/2013 03:04:51 p. m.
En estadística, se dice que un resultado es
estadísticamente significante, cuando no es posible
que se presente por mera casualidad
No se refiere a que se trata de algo “importante”
La cantidad de evidencia requerida para aceptar
que un evento no ocurrió por mera casualidad se
conoce como “nivel de significancia” o “p-value”
2
Hipótesis Nula
Una hipótesis que se puede “falsificar” utilizando
una prueba con datos observados
Significancia
Estadística
Se establece una hipótesis nula
Recolectamos datos
Calculamos una medida de qué tan probables son los
datos asumiendo que la hipótesis nula es verdadera
Si los datos son muy improbables
Generalmente datos que se observan menos del 5%
de las veces que se hace el experimento
Se concluye que la hipótesis nula es falsa
27/08/2013 03:04:51 p. m.
3
Ejemplo
Significancia
Estadística
27/08/2013 03:04:51 p. m.
Si creemos que cierta medicina reduce la
posibilidad de tener un ataque cardiaco
Hipótesis nula
Esta medicina no reduce la posibilidad de tener un
ataque cardiaco
4
Prueba estadística de hipótesis de Fisher (enfoque
tradicional)
Significancia
Estadística
p-value
Es la probabilidad condicional sobre la hipótesis
nula de los datos observados (o los datos más
extremos)
Si p-value es pequeño
La hipótesis nula es falsa ó pudo ocurrir un evento no
común
27/08/2013 03:04:51 p. m.
5
Prueba estadística de hipótesis de Neyman Pearson
(enfoque frecuentista)
Significancia
Estadística
Requiere definir una hipótesis nula y otra
alternativa
Estudia las propiedades de muestreo repetido del
proceso
La probabilidad de decidir rechazar la hipótesis nula
cuando en realidad es verdadera y no debería ser
rechazada
Falso Positivo ó Error Tipo I
La probabilidad de decidir aceptar la hipótesis nula
cuando en realidad es falsa
Falso Negativo ó Error Tipo II
27/08/2013 03:04:51 p. m.
6
Significancia
Estadística
27/08/2013 03:04:51 p. m.
El nivel de significancia de una prueba lo definimos
como
La probabilidad de erróneamente rechazar la
hipótesis nula no sea mayor que la probabilidad
establecida
7
Es un estimado de un intervalo para un parámetro
de población
Intervalos de
Confianza
En lugar de estimar el parámetro con un solo valor
Se estima un intervalo que incluya al parámetro
Los intervalos de confianza se utilizan para indicar
la certeza que podemos tener de un estimado
El qué tan posible es que el intervalo contenga al
parámetro que se determina por el nivel de
confianza o coeficiente de confianza
Al incrementar el nivel de confianza deseado se
amplía el intervalo de confianza
27/08/2013 03:04:51 p. m.
8
Evaluación de hipótesis
¿Podemos usar la hipótesis?
Motivación
La evaluación de hipótesis es parte del aprendizaje
en varios métodos
Post-pruning en árboles de decisión para evitar el
sobre-ajuste
27/08/2013 03:04:51 p. m.
9
¿Cómo determinar qué hipótesis (método) usar con
un problema en particular?
Motivación
Diagnóstico médico
Evaluar diferentes métodos
Comparar métodos
La evaluación no es tan fácil
27/08/2013 03:04:51 p. m.
10
Evaluación sencilla con datos suficientes
Evaluación difícil con pocos datos
Sesgo en la estimación
Motivación
Sobreajuste
Optimista para nuevos casos
Probar con casos independientes al conjunto de
entrenamiento
Varianza en la estimación
Aún si la evaluación se hace con un conjunto de
prueba no sesgado
Precisión medida varía de la precisión real
Depende del conjunto particular de ejemplos
Mientras más pequeño es el conjunto de ejemplos de
prueba
Más grande la varianza
27/08/2013 03:04:51 p. m.
11
Estimando la
Precisión de
una
Hipótesis
27/08/2013 03:04:51 p. m.
Queremos estimar la precisión para clasificar
nuevas instancias
También el error asociado a la estimación
12
Espacio de posibles instancias X
Problema de
aprendizaje
(1)
27/08/2013 03:04:51 p. m.
Se definen funciones objetivo sobre X
Diferentes instancias tienen dif. frecuencias
Modelo
Distribución de probabilidad desconocida D de
encontrar cada instancia en X
D no dice nada acerca de si x es positivo o negativo
13
Tarea de aprendizaje
Problema de
aprendizaje
(2)
27/08/2013 03:04:51 p. m.
Aprender el concepto objetivo o función objetivo
considerando un espacio de hipótesis H.
Conjunto de entrenamiento
Obtener instancias independientemente, de acuerdo
a la distribución D, junto con su valor objetivo
correcto f(x)
14
Ejemplo
Problema de
aprendizaje
(3)
Función objetivo: Personas proponsas a ser
hospitalizadas para una cirugía de apéndice (Gente
que llega a la sala de urgencias en un hospital)
Espacio de instancias X: toda la gente, descrita por
un conjunto de atributos
Distribución de probabilidad D
Para cada persona x, D dice la probabilidad de que x
llegue a la sala de urgencias
Función objetivo: f : X {0, 1}
Clasifica a cada persona, entra a cirugía de apéndice
o no
27/08/2013 03:04:51 p. m.
15
Preguntas
1.
Problema de
aprendizaje
(4)
27/08/2013 03:04:51 p. m.
Dada la hipótesis h y una muestra de datos con n
ejemplos tomados aleatoriamente de acuerdo a
D
1.
2.
¿Cuál es el mejor estimado de la precisión de h sobre
futuras instancias tomadas bajo la misma
distribución?
¿Cuál es el error probable en este estimado de
precisión?
16
Error de
muestra y
error
verdadero (1)
Error de muestra
1
errors (h) º å d ( f (x), h(x))
n xÎS
Error verdadero
errorD (h) º Pr [ f (x) ¹ h(x)]
xÎD
27/08/2013 03:04:51 p. m.
17
Error de
muestra y
error
verdadero (2)
27/08/2013 03:04:51 p. m.
Queremos conocer errorD(h) pero solo podemos
obtener errorS(h)
Pregunta
¿Qué tan buen estimador de errorD(h) es errorS(h)?
18
Intervalos de
confianza
para
hipótesis con
valores
discretos (1)
27/08/2013 03:04:51 p. m.
Estimar el error verdadero de una hipótesis con
valores discretos h, con base al error observado
sobre la muestra S
S contiene n ejemplos tomados
independientemente uno de otro e independientes
de h de acuerdo a D
n ≥ 30
Hipótesis h comete r errores sobre estos n ejemplos
i.e., errorS(h) = r / n
19
Intervalos de
confianza
para
hipótesis con
valores
discretos (2)
Bajo estas condiciones, y basados en teoría de la
estadística
1.
2.
Dado que no se cuenta con más inf., el valor más
probable para errorD(h) es errorS(h)
Con aprox. 95% de probabilidad, el error
verdadero errorD(h) cae en el intervalo
errorS(h) ±1.96
27/08/2013 03:04:51 p. m.
errorS(h)(1- errorS(h))
n
20
Intervalos de
confianza
para
hipótesis con
valores
discretos (3)
27/08/2013 03:04:51 p. m.
Ejemplo
n = 40, r = 12, errorS(h) = 12 / 40 = 0.3
Pero errorS(h) no es un estimador perfecto de
errorD(h)
Dif. resultados en dif. experimentos
Aprox. para 95% de los experimentos, el intervalo
calculado contiene al error verdadero
Intervalo de confianza del 95%
0.30 ± (1.96 * 0.07) = 0.30 ± 0.14
21
Para otros niveles de confianza
Intervalos de
confianza
para
hipótesis con
valores
discretos (4)
errorS(h) ± zN
errorS(h)(1- errorS(h))
n
Valores de ZN para intervalos de confianza de dos
lados N%
Nivel de
Confianza N%
50%
68% 80% 90% 95% 98% 99%
ReglaZde
aplica1.00
la fórmula,
≥ 30: 1.96
Constante
0.67
1.28 n1.64
N: cuándo
2.33
2.58
n´ errorS(h)(1- errorS(h)) ³ 5
27/08/2013 03:04:51 p. m.
22
Hipótesis h1, S1, n1 ejemplos tomados
aleatoriamente bajo D
Diferencia de
error de dos
hipótesis (1)
Hipótesis h2, S2 (indep. de S1), n2 ejemplos tomados
aleatoriamente bajo D
Estimar diferencia entre errores verdaderos entre
h1y h2
d º errorD (h1 ) - errorD (h2 )
Estimador:
d̂ º errorS1 (h1 ) - errorS2 (h2 )
27/08/2013 03:04:51 p. m.
23
Para n1 y n2 ≥ 30, errorS(h1) y errorS(h2) siguen
distribuciones aprox. normal
Diferencia de
error de dos
hipótesis (2)
La dif. de 2 dist. normales también es una dist.
normal d̂ también sigue una distribución aprox.
normal con media d
La varianza de la distribución es la suma de las
varianzas de errorS(h1) y errorS(h2)
errorS1 (h1 )(1- errorS1 (h1 )) errorS2 (h2 )(1- errorS2 (h2 ))
s »
+
n1
n2
2
d̂
27/08/2013 03:04:51 p. m.
24
Diferencia de
error de dos
hipótesis (3)
Utilizando la varianza aproximada, un estimado del
N% intervalo de confianza para d es:
d̂ ± ZN
errorS1 (h1 )(1- errorS1 (h1 )) errorS2 (h2 )(1- errorS2 (h2 ))
+
n1
n2
Si se trabaja con la misma muestra S:
d̂ º errorS(h1 )- errorS(h2 )
27/08/2013 03:04:51 p. m.
25
Comparación
de
Algoritmos
de
Aprendizaje
(1)
27/08/2013 03:04:51 p. m.
Comparar los algoritmos LA y LB en lugar de 2
hipótesis específicas
¿Qué prueba hacemos?
¿Cómo sabemos que la diferencia es
estadísticamente significativa?
26
Comparación
de
Algoritmos
de
Aprendizaje
(2)
¿Cuál de los 2 métodos es mejor en promedio para
una función objetivo en particular?
Sobre los conjuntos de entrenamiento de tamaño n
tomados bajo D
Valor esperado de la diferencia de los errores entre
los algoritmos LA y LB
E [errorD (LA (S)) - errorD (LB (S))]
SÌD
27/08/2013 03:04:51 p. m.
27
En realidad solo se cuenta con un conjunto limitado
de ejemplos D0
Comparación
de
Algoritmos
de
Aprendizaje
(3)
Dividir D0 en un conjunto de entrenamiento S0 y un
conjunto de prueba T0
Entonces medimos:
errorT0 (LA (S0 )) - errorT0 (LB (S0 ))
Podemos mejorar esta medida creando particiones
disjuntas (k-fold CV) y estimar:
E [errorD (LA (S)) - errorD (LB (S))]
SÌD0
S es una muestra de D0 de tamaño
k -1
| D0 |
k
27/08/2013 03:04:51 p. m.
28
Procedimiento
Comparación
de
Algoritmos
de
Aprendizaje
(4)
1.
Particionar los datos D0 en k subconjuntos
disjuntos T1, T2, …, Tk del mismo tamaño, tamaño
al menos de 30
Para i de 1 a k
2.
1.
3.
Usar Ti como conjunto de prueba y el resto para el
conjunto de entrenamiento Si
1.
Si {D0 - Ti}
2.
hA LA(Si)
3.
hB LB(Si)
4.
δi errorTi(hA) – errorTi(hB)
Regresar el valor d , donde
1 k
d º ådi
k i=1
27/08/2013 03:04:51 p. m.
29
Comparación
de
Algoritmos
de
Aprendizaje
(5)
El intervalo de confianza del N% aprox. para
estimar
E [errorD LA (S)) - errorD (LB (S))]
SÌD0
Usando d está dado por (prueba t-test)
d ± t N,k-1Sd
k
1
2
Sd º
(
d
d
)
å
i
k(k -1) i=1
27/08/2013 03:04:51 p. m.
30
Comparación
de
Algoritmos
de
Aprendizaje
(6)
27/08/2013 03:04:51 p. m.
Constante tN,k-1 tiene 2 parámetros
N, nivel de confianza
k-1, número de grados de libertad
Número de eventos aleatorios v, independientes
para producir el valor de d
Grados de libertad es k-1
Si k ∞, tN,k-1 se acerca a zN
31
Comparación
de
Algoritmos
de
Aprendizaje
(7)
27/08/2013 03:04:51 p. m.
La comparación se hace con conjuntos de prueba
idénticos
Al comparar hipótesis no es necesario
Se denominan pruebas apareadas (paired tests)
Producen intervalos de confianza más ajustados
Diferencias entre errores en prueba apareada se
deben a diferencias entre hipótesis
Al usar conjuntos de prueba separados, diferencias
en los errores de muestra parcialmente se atribuyen
a diferencias en la elección de las dos muestras
32
Comparación
de
Algoritmos
de
Aprendizaje
(8)
27/08/2013 03:04:51 p. m.
33
t-test
Prueba t-test
(1)
27/08/2013 03:04:51 p. m.
¿Las medias de 2 grupos son estadísticamente
diferentes una de la otra?
¿La diferencia se debe a errores de muestreo o
casualidad?
Para comparar las medias de 2 grupos
34
Factores para determinar si una dif. entre 2 grupos
se debe a verdadera dif. o a un error debido a la
casualidad
Prueba t-test
(2)
27/08/2013 03:04:51 p. m.
Mientras más grande sea la muestra, es menos
posible que la dif. se deba a errores de muestreo o
casualidad
A más grande sea la dif. entre las 2 medidas, menos
posible que la dif. se deba a errores de muestreo
Mientras más pequeña sea la varianza entre los
participantes, es menos posible que la dif. haya sido
creada por errores de muestreo
35
A. Hipótesis nula
H0 : μ1=μ2
B. Hipótesis alternativa
HA : μ1≠μ2
Prueba t-test
(3)
C. Las medias son iguales
que en el caso B. Pareciera
que:
27/08/2013 03:04:51 p. m.
HA : μ1≠μ2
Pero sería un error
H0 : μ1=μ2 es lo correcto
¿Cuantas veces de 100
estaríamos de acuerdo
en equivocarnos?
36
Prueba t-test
(4)
http://www.socialresearchmethods.net/kb/stat_t.php
27/08/2013 03:04:51 p. m.
37
Nivel Alfa (α)
Prueba t-test
(5)
27/08/2013 03:04:51 p. m.
Representa el número de veces de 100 que
aceptamos rechazar la hipotesís nula aún cuando es
correcta.
Si α es 0.05, 5 veces de 100 rechazaremos la
hipótesis nula de manera incorrecta
Esas 5 veces, ambas medias vendrán de la misma
población (Caso III)
Pero 95 veces de 100, tendremos resultados
correctos porque es más probable que vengan de
poblaciones diferentes (Caso II)
38
t-critical value, se encuentra en la tabla
t-statistic value, el valor final
Si t-statistic > t-critical, se rechaza la hipótesis
nula, se acepta la hipótesis alterna
Prueba t-test
(6)
27/08/2013 03:04:51 p. m.
Si t-statistic < t-critical, se retiene la hipótesis
nula
39
p-vales
Prueba t-test
(7)
27/08/2013 03:04:51 p. m.
En lugar de comparar los valores t-critical y tstatistical para determinar la diferencia significativa
Se pueden comparar nivel αy p-values
En la figura, el nivel αes el área bajo la curva a la
derecha del punto t-critical positivo y a la izquierda
del punto t-critical negativo (todo lo gris y azul
claro). Esto junto es el nivel alfa, 0.05
El p-value es el área bajo la curva a la derecha del tstatistic púrpura más el área a la izquierda del tstatistic púrpura (solo el azul claro).
40
Prueba t-test
(8)
27/08/2013 03:04:51 p. m.
Si p-value < α, se acepta la hipótesis alterna
Si p-value >α , se retiene la hipótesis nula
41
Evaluación de significancia
Obtener el t-value
Calcular los grados de libertad
DF = N – 1
Prueba t-test
(9)
Checar en la tabla
Nivel de significancia (0.05, 0.01, 0.001)
Valor crítico de t
Si valor observado > valor crítico rechazar H0
Si valor observado < valor crítico no rechazar H0
Si la tabla no tiene el número de grados de libertad
Usar el siguiente número menor al real (para 32 usar
30)
27/08/2013 03:04:51 p. m.
42
Prueba t-test
(10)
27/08/2013 03:04:51 p. m.
Cálculo en algunas herramientas
Weka
http://depts.alverno.edu/nsmt/stats.htm
43
Analysis Of Variance (ANOVA)
Conocida también como f-test
ANOVA (1)
Relacionada con la t-test
t-test mide la diferencia entre las medias de 2
grupos
ANOVA prueba la dif. entre las medias de 2 o mas
grupos
27/08/2013 03:04:51 p. m.
44
ANOVA de 1-lado o de factor simple
Prueba dif. entre grupos que se clasifican solo sobre
una variable independiente
También hay una prueba ANOVA para múltiples
variables independientes
Ventaja de ANOVA sobre t-test
ANOVA (2)
Reduce probabilidad de un error tipo-I
Muchas comparaciones entre 2 grupos
Desventaja de ANOVA
Se pierde especificidad
f dice que hay dif. significante entre grupos, no dice
cuáles grupos son significativamente diferentes
entre sí
27/08/2013 03:04:51 p. m.
45
Hipótesis Nula
ANOVA (3)
Asunción de que no hay real diferencia entre grupos
y cualquier diferencia (estadística) se debe a errores
de muestreo. Un investigador trata de probar que
esto no es cierto
Error tipo I
Cuando el investigador rechaza la hipótesis nula aún
cuando era cierta
27/08/2013 03:04:51 p. m.
46
ANOVA (4)
27/08/2013 03:04:51 p. m.
Material de Referencia
http://org.elon.edu/econ/sac/anova.htm
47