Download ESTADÍSTICA BAYESIANA (31 horas)

Document related concepts
no text concepts found
Transcript
ESTADISTICAS NO PARAMETRICA Y FUERTE
MEDIANA, VENTAJAS Y DESVENTAJAS DE SU USO
Supongamos que en una compañía se desea un estimado de los sueldos de los empleados
con el propósito de discutir un aumento de sueldo, los directivos podrían decir que el
promedio (media aritmética) de los sueldos es de 200 dólares mensuales, los
representantes del sindicato dirían que esta cifra está inflada por los ingresos de unos pocos
ejecutivos, que está bien para ser empleada por el departamento de contabilidad pues
multiplicada por el número de empleados nos señala el gasto total de la compañía en
sueldos, pero que no se presenta el ingreso real de los empleados, que además es muy
inestable pues bastaría que el dueño de la empresa (que por azar se encuentra en la
muestra) se suba el sueldo en 1000 dólares para que el promedio automáticamente suba
300 dólares (si la muestra es de 10 empleados), sin que el resto de empleados haya
recibido ninguna mejora en su salario, que la media aritmética es adecuado utilizarla cuando
tenemos distribuciones normales de población pero que en este caso no es así, ya que hay
mas personas que ganan sueldos bajos que altos, por último indicaría que un salario
representativo de lo que ganan los empleados es 100 dólares, pues este es el que mas se
repite entre los empleados (la moda), que este valor no resulta afectado por las variaciones
extremas de sueldos individuales, y que si preguntamos al azar a un
empleado de la
compañía cuanto gana, lo mas probable es que nos responda 100 dólares, el directivo
contraatacará diciendo que 100 dólares es el salario más bajo que paga la compañía que
nadie gana menos de eso, por último intervendrá el jefe de personal señalando una solución
de compromiso ubicará el centro de la distribución usando el valor medio ordinal (la
mediana), que en compañía es de 130 dólares, la misma que tiene sus ventajas y
desventajas, a saber.
Ventajas:


No depende de la distribución de la

No es exacta para calcular totales
población

Puede no tomar en cuenta algunos
No es afectada por los valores
extremos superiores o inferiores.

Desventajas:
Los cálculos basados en la mediana
son sencillos.
valores importantes.
En todo caso, antes de tomar una decisión acerca del tipo de medida de tendencia central
que utilizaremos en un análisis estadístico debemos estudiar el propósito de ese análisis y
ponderar las ventajas y desventajas para tomar la decisión adecuada, en este caso, como
en muchos otros la decisión correcta es la mediana, base de la estadística no paramétrica
(tipo de estadística que no hace suposiciones de normalidad o no normalidad de la
muestra).
Estudie el contenido de este tema en la página 584.
PRUEBA DEL SIGNO
Supongamos que los valores muestrales tomados son los siguientes: 100, 100,100, 100,
130, 130, 130, 140, 170 y 900, cual es la probabilidad de que la mediana de la población v
sea mayor a la mediana de la muestra (vamos a llamarla M).
Como el número de elementos de la muestra es par, el valor intermedio es el promedio de
los dos valores centrales M = (130+130)/2=130, aplicaremos la prueba del signo, vemos que
hay 7 valores inferiores o iguales a130 y 3 superiores, la probabilidad binomial de que esto
ocurra la buscamos en la tabla III(c)de las páginas 747 y 748 con n = 10, s =7 (o más) y =
0.5 y hallamos que p=0.117 (11.7%), también puede utilizar
la fórmula de Excel =
DISTR.BINOM(3,10,0.5,VERDADERO), en este caso se debe poner el número máximo de
éxitos que es 3.
La prueba del signo también se puede aplicar a pares de muestras, por ejemplo
supongamos que se desea saber la probabilidad de que haya habido un aumento de sueldo
de al menos 30 dólares entre los sueldos del año pasado y los actuales, a partir de la
siguiente tabla:
Sueldo actual
Sueldo año pasado
Aumento
D = Aumento-30
100
80
20
-10
100
80
20
-10
100
80
20
-10
100
80
20
-10
130
100
30
0
130
110
20
-10
130
110
20
-10
140
120
20
-10
17
140
30
0
900
800
100
70
Si analizamos en las tablas el valor para n=8, (no tomamos en cuenta los valores 0), s=7 (un
valor positivo), tenemos p=0.035 (3.5%).
Estudie el contenido de este tema en las páginas 584 a 587, luego resuelva los problemas
16-2, 16-3 y 16-4 (el problema 16-1 se resuelve en las actividades recomendadas).
INTERVALO DE CONFIANZA PARA LAS MEDIANAS (6 horas)
Para construir un intervalo de confianza de los valores de  se suele tomar dos valores por
arriba y por debajo de la mediana, y se calcula las probabilidades binomiales para estos
valores, si tomamos los sueldos que nos sirven de ejemplo estos valores serían 100 y 130.
(100130) cuyas probabilidades son: respectivamente 0.001 (n=10, s=0) y 0.172 (n=10,
s=7), resultando 1-0.172-0.001=0.827 (82.7% de confianza).
Si acaso quisiéramos un intervalo de confianza mayor al 95%, buscamos para n=10 que
valor de s hace p<0.025 y vemos que eso se cumple para s=10 (p=0.01), por lo que para
tener un intervalo de confianza del 98% debemos decir 100900, otra alternativa es usar
el programa Excel con el comando: = BINOM.CRIT(n,,p) que en nuestro caso sería: =
BINOM.CRIT(10,0.5,0.025) cuyo resultado es dos, eso significa que debemos excluir dos
valores de cada extremo, por lo que más exactamente para un intervalo del 95% podemos
decir que 100170.
Estudie el contenido de este tema en las páginas 589 a 591, luego resuelva los problemas
16-5, 16-6, 16-7, 16-8, 16-9, 16-10, 16-11 y 16-12.
PRUEBA DE RANGO DE WILCOXON (4 horas)
La prueba de rango de Wilcoxon es también muy sencilla, consiste en asignar números de
orden (rangos) a dos muestras independientes y suma los de la muestra más pequeña, con
este valor se va a la tabla VIII de la página 754 del texto básico, donde buscamos el tamaño
de la muestra más pequeña, n1, el tamaño de la muestra más grande n2 y la suma hallada
W.
Supongamos que los alumnos del colegio “X” han obtenido como notas: 12, 15, 13, 16 y 18
en el exámen de ingreso a la universidad, en tanto que los del colegio “Y” han obtenido 13,
16, 15, 19, 10, 20 y 13. Ordenemos esto en una tabla (los datos se empiezan a ordenar por
donde la muestra más pequeña está concentrada).
Colegio “X”
Colegio “Y”
Rango “X”
10
12
13
Rango “Y”
1
2
13
4
13
4
4
15
15
6.5
6.5
16
16
8.5
8.5
10
11
18
19
20
12
Buscamos en la tabla n1=5, n2=7 y W =31 y encontramos que la hipótesis nula (de que los
colegios no influyen en el resultado de la prueba) tiene una probabilidad p de 0.438 (43.8%).
Estudie en contenido de este tema en las páginas 592 ya594, luego resuelva los problemas
16-13,16-14, 16-15, y 16-16.
OTRAS PRUEBAS DE RANGO (5 horas)
En general si una distribución tiene problemas de no normalidad, se puede clasificar los
datos en rangos y efectuar la prueba conocida (como t o F) sobre los rangos.
Estudie el contenido de este tema en las páginas 595 a 597, luego resuelva los problemas
16-17, 16-18, 16-19, 16-20, 16-21, 16-22 y 16-23.
INDEPENDENCIA: PRUEBA DE CORRIDAS (1 hora)
Se denomina pruebas de corrida a una sucesión interrumpida de valores por arriba o por
debajo de la mediana, el número de corridas en una muestra normal de n datos es:
E(R)  n/2+1
El error esperado es:
EE 
n 1
2
Para los datos del colegio “Y” ()sin ordenar 13, 16, 15, 19, 10, 20 y 13, la mediana es 15,
vamos a escribir una A si el valor es superior a la mediana y B si es inferior: tenemos
(quitando el valor 15) entonces: B/AA/B/A/B son 5 corridas (R=5), E(R)=6/2+1=4 y EE=1.12
Hallamos la puntuación tipificada
Z=(R-E(R))/EE
Z=(5-4)/1.12
Z=0.893
Hallamos la probabilidad normal acumulada en el extremo derecho en la tabla VI de la
página 749 del texto básico (Probabilidad de la hipótesis alterna) es de 0.187 la probabilidad
de la hipótesis nula (no existe diferencia entre los valores, es decir son independientes) es
de 0.813 (81.3%).
Estudie el contenido de este tema en las páginas 600ª 602, luego resuelva los problemas
16-24, y 16-25.
ESTADÍSTICA FUERTE: RECORTES Y PONDERACIONES (6
horas)
Las estadísticas no paramétricas tienen la ventaja de acomodarse a cualquier tipo de
distribución, las estadísticas fuertes tienen, además, como principal característica no variar
estimaciones relativamente mas estables, por consiguiente sus intervalos de confianza
estrechos y precisos.
La media recortada elimina un determinado porcentaje de observaciones en cada extremo y
con las restantes, saca promedio.
En la media biponderada se asigna a cada medida un peso según la fórmula W = (1-Z2)2 si
el valor absoluto de Z es menor que 1 y W= 0 en caso contrario. Z tiene la fórmula:
Z
X M
3(1QR )
Donde IQR es el rango intercuartil (entre el cuartil 1 y el 3). Así la media biponderada será:
Xb 
WX
W
Se puede inclusive reemplazar la mediana por la media obtenida, repitiendo este proceso
hasta que el valor obtenido así no cambia, este valor se denomina media iterada
biponderada, un proceso simi9lar sirve para hacer una regresión por mínimos cuadrados
biponderados.
Por último anotaremos que una medida de dispersión en estadística fuerte es el rango
intercuartil.
Estudie el contenido de este tema en las páginas 603 a 611, luego resuelva los problemas
16-26, 16-27, 16-28, 16-29,16-30 y 16-31.
RESUMEN (6 horas)
Lea el resumen de la página 613 y 614, realice las actividades recomendadas y resuelva los
problemas: 16-33, 16-34, 16-35, 16-36, 16-37, 16-38, 16-39 y 16-40, hágase la
autoevaluación 5 y refuerce los temas en los que tenga una dificultad.
PRUEBAS X2 (12 horas)
PRUEBAS X2 MULTIDIMENCIONALES (4 horas)
En esencia las pruebas X2
comparan las frecuencias observadas con las frecuencias
esperadas si la hipótesis nula fuera cierta para un determinado fenómeno, luego se suman
los cuadrados ponderados de las desviaciones y se compara el valor de esta sumatoria con
la tabla 7 de la página 753 del texto, tomando en cuenta el número de grados de libertad
que es igual al número de clases comparadas menos 1, este valor de X2 nos da la
probabilidad de que H0 sea verdadera.
Si queremos hacer un intervalo de confianza para los valores de probabilidad de la hipótesis
usamos la fórmula:
  P  t
p.q
n
Si dividimos valor e intervalo de  para 0 tenemos un índice de cuan aceptable es la
hipótesis nula.
Estudie el contenido de este tema en las páginas 620 a 624, luego resuelva los problemas
17-2, 17-3, 17-4, 17-5 y 17-6 (el problema 17-1 se resuelve dentro de las actividades
recomendadas).
PRUEBAS X2 PARA LA INDEPENDENCIA (4 horas)
También SE puede utilizar X2 para comprobar la probabilidad de que dos fenómenos sean
independientes, en este caso la hipótesis es: ij = ij, para ello construimos una tabla de
doble entrada tanto con las frecuencias observadas como con las frecuencias esperadas,
utilizando para esta última las probabilidades marginales, en este caso los grados de
libertad son el número de columnas disminuido en 1 por el número de filas disminuido en la
misma cantidad.
Estudie el contenido de este tema en las páginas 626 a 630, luego resuelva los problemas
17-7, 17-8, 17-9, 17-10, 17-11 y 17-12.
RESUMEN (3 horas)
Lea el resumen de la página 632, realice las actividades recomendadas y resuelva los
problemas: 17-13, 17-14, 17-15 y 17-16, hágase la autoevaluación 6 y refuerce los temas en
los que tenga una dificultad.
ESTIMACIÓN DE MÁXIMA PROBABILIDAD (11 horas)
MLE EN ALGUNOS CASOS FAMILIARES (2 horas)
Hasta ahora hemos utilizado el método de estimación por momentos, que por analogía con
distribuciones de masa nos señalaba que la mejor estimación de la media de una población
era la media de la muestra, así mismo la mejor estimación de la varianza de la población era
la varianza de la muestra, etc., ahora veremos un nuevo método de estimación denominado
Estimación de Máxima Probabilidad (MLE por sus siglas en Inglés Maximum Likeliood
Estimation), creado por Sir Ronald Fisher que nos dice que la mejor estimación es el valor
de la población que hace más probable la muestra observada, cuando la MLE es diferente
de la MME (método de estimación por momentos), la MLE, suele ser mejor, asimismo
cuando el número de observaciones muestrales es grande, la MLE es insesgada, eficiente
y normalmente distribuida en su muestra.
Se puede demostrar (de hecho en el apéndice 18-2 del texto, en las páginas 736 a 738 se lo
hace) que la estimación de máxima probabilidad de la probabilidad  es P, de  es X (si la
distribución de la población es normal, de Y= +X, es Y=a+bX es decir en ciertos casos la
MLE confirma los métodos de estimación por momentos).
Estudie el contenido de este tema en las páginas 636 a 643, luego resuelva los problemas
18-2 y 18-3 (el problema 18-1 se resuelve dentro de las actividades recomendadas).
MLE PARA DISTRIBUCINES UNIFORMES (3 horas)
En ciertos casos como en los de un distribución uniforme, la estimación por momentos falla
(que en realidad no se debería usar por no tratarse de una distribución normal) y en cambio
la distribución de máxima probabilidad nos da el valor acertado, por ejemplo si muestreamos
aleatoriamente la velocidad con la que los automóviles pasan por la calle, y queremos saber
la velocidad del auto más rápido que ha pasado, e método de estimación por momentos nos
pediría sacar el promedio y duplicar ese valor, el método de estimación de máxima
probabilidad en cambio nos dice que podríamos estimar como máxima velocidad de la
población máxima velocidad de la muestra.
Estudie el contenido de este tema en las páginas 644 a 646, luego resuelva los problemas
18-4, 18-5 y 18-6.
MLE EN GENERAL (3 horas)
Si una muestra es aleatoria, los eventos que la conforman son independientes, entonces la
probabilidad de que se dé dicha muestra es el producto de las probabilidades
independientes de cada suceso a ocurrir, por tanto, si llamamos a L ()
P, como P = p1p2p3...pn
Log L()  log pi
La MLE es el valor de  que maximiza Log L(), para ello entonces debemos hallar el
logaritmo de la función de distribución de la probabilidad y evaluarlo para hallar su máximo
dentro del intervalo de valores posibles del parámetro.
Estudie el contenido de este tema en las páginas 647 a 650, luego resuelva los problemas
18-7, 18-8 y 18-9.
RESUMEN (3 horas)
Lea el resumen de la página 651, realice las actividades recomendadas y resuelva los
problemas: 18-10, 17-11 y 18-12, hágase la autoevaluación 7 y refuerce los temas en los
que tenga una dificultad.
ESTADÍSTICA BAYESIANA (31 horas)
DISTRIBUCIONES POSTERIORES (4 horas)
En este apartado es importante que usted primero repase el capítulo 3 del texto que trata
sobre la probabilidad, y luego revise el ejercicio 8 de las actividades recomendadas, para
que tenga una idea clara del tema y de algunas precisiones que hay que hacer en el texto.
El cálculo de distribuciones posteriores puede hacerse de dos formas: mediante un
diagrama o utilizando probabilidades, por ejemplo María está en su casa el 60% de las
veces que la llaman por teléfono, su hermana Luisa, que siempre contesta el teléfono, tiene
una voz muy parecida la niega el 30% de las veces cuando si está y se hace pasar por ella
el 10% de las veces cuando no está (por ende dice que si está cuando no es así). Si
llamamos y nos dicen que María no está ¿Cuál es la probabilidad de que esto sea cierto?
Hagamos un diagrama:
María está 0.6
María no está 0.4
La probabilidad de que, no estando María nos digan que no está es de:
p= 0.36/(0.36+0.18)=0.67
También es posible utilizar la fórmula:
Posibilidad posterior = posibilidad previa x razón de posibilidad
Que en este caso significa:
Posibilidad de que María no esté en casa y nos digan que no está = Posibilidad previa de
que María no esté en casa X (probabilidad de que no esté en casa y nos digan que no está/
probabilidad de que no esté en casa y nos digan que está)
Pr= (0.4/0.6)(0.9/0.3)
Pr = 2
S e puede transformar esta probabilidad en posibilidad.
p= Pr/(Pr+1)
p=2/3
p=0.67
Vemos que en los dos casos el resultado es igual
Estudie el contenido de este tema en las páginas 656 a 660, luego resuelva los problemas
19-2 y 19-3 (El problema 19-1 se resuelve dentro de las actividades recomendadas).
,  Y  EN LA ESTADÍSTICA BAYESIANA (10 horas)
En este apartado se estudia la forma como se calculan ,  y  conforme a los principios de
la inferencia bayesiana, en todos los casos se trata de considerar la información previa
como una cuasi muestra de n0 elementos cuyo valor se calcula por diferentes métodos, en el
caso de  se calcula un nuevo número de éxitos S*=S+a+1 y fracasos F*=F+b+1, donde S y
F son el número de éxitos y fracasos de la muestra y a y b el número de éxitos y fracasos
de la cuasi muestra, en el caso de  y  el número de la cuasi muestra se calcula con la
fórmula n0=202.
Estudie el contenido de este tema en las páginas 662 a 682, luego resuelva los problemas
19-4,19-5, 19-6, 19-7, 19-8, 19-9, 19-10, 19-11 y 19-12
ESTIMACIONES BAYESIANAS DE ENCOGIMIENTO (4 horas)
Inclusive cuando no se tiene conocimiento acerca de la distribución previa es posible
suponer una distribución neutra y aprovechar las características de la estimación bayesiana
de encogimiento, que tomo ese nombre porque sus resultados se acercan a la hipótesis
nula, en este tipo de estimación se da un peso de 1/F a la hipótesis nula, en 1-1/F la
hipótesis alterna.
Estudie el contenido de este tema en las páginas 683 a 689, luego resuelva los problemas
19-13, 19-14,19-15, 19-16 y 19-17.
COMPARACIÓN
DE
LAS
ESTIMACIONES
CLÁSICA
Y
BAYESIANA (1 hora)
La estimación bayesiana se diferencia de la clásica en que considera la información previa,
o inclusive la ausencia de ella, sin embargo a grandes muestras la información previa se
diluye y la estadística bayesiana es prácticamente igual a la estadística clásica.
Estudie el contenido de este tema en las páginas 691.
MAXIMIZACIÓN
DE
GANANCIAS
(MINIMIZACIÓN
DE
PÉRDIDAS) (3 horas)
La estadística bayesiana nos permite minimizar las pérdidas en diferentes situaciones
donde se calculan probabilidades posteriores en base a posibilidades previas, para ello se
necesita establecer los datos de la muestra, la información previa y descubrir la función de
pérdidas.
Estudie el contenido de este tema en las páginas 698 a 702, luego resuelva los problemas
20-1, 20-2, 20-3 y 20-4.
LA ESTIMACIÓN PUNTUAL COMO DECISIÓN (3 horas)
La estimación puntual bayesiana nos permite la toma de decisiones específicas, cuando la
función de pérdidas es simétrica, es decir que penaliza igual una desviación por encima o
por debajo, la función de pérdida conduce a la media, la mediana o moda, si la< función de
pérdidas es asimétrica la estimación puntual nos lleva lejos de esos valores.
Estudie el contenido de este tema en las páginas 705 a 708, luego resuelva los problemas
20-5, 20-6, 20-7 y 20-8.
COMPARACIÓN
DE
LAS
ESTADÍSTICAS
CLÁSICA
Y
BAYESIANA (1 hora)
Veremos aquí que la estimación bayesiana hace valer el conocimiento subjetivo del ser
humano que toma las decisiones, en vez de simplemente ignorarlo más bien lo hace
susceptible de análisis.
Estudie el contenido de este tema en las páginas 711 a713, luego resuelva el problema 2010.
Related documents