Download Repaso Probabilidades y Estadística IN3401 - U

Document related concepts

Estimación estadística wikipedia , lookup

Mínimos cuadrados ordinarios wikipedia , lookup

Distribución normal wikipedia , lookup

Regresión robusta wikipedia , lookup

Estadístico muestral wikipedia , lookup

Transcript
Repaso Probabilidades y
Estadística
IN3401
Clase 2
17 de Agosto de 2010
Semestre Primavera 2010
Desarrollado por Manuel Reyes J.
[email protected]
Programa del curso
Probabilidades y Estadística
1.1 Introducción
1.2 Repaso probabilidades
1.3 Repaso estadística
1.4 Técnicas de Muestreo
Exploración
2.1 Intro al AED
2.2 Visualización de datos
2.3 Identificación/correción
errores en bases de datos
2.4 Análisis uni/bivariante
2.5 ANOVA
Segmentación
3.1 Análisis Cluster
3.2 Lógica difusa
Clasificación
4.1 Regresión Logística
4.2 Análisis Discriminante
4.3 Lineal
4.4 K‐vecinos más cercanos
4.5 Validación y Predicción
[email protected]
¿Qué temas no vemos?
Series de tiempo (econometría)
Modelos de ecuaciones estructurales
Procesos estocásticos
Redes Neuronales
Conjoint
Resumen de conceptos
Temas de Probabilidades
1.
Conteo (combinatorias)
2.
Teoría base: σ-álgebra, bayes, etc.
3.
Variables aleatorias
4.
Caracterizaciones:
1.
2.
3.
5.
6.
8.
1.
2.
Ejemplos de distribuciones
Momentos
1.
2.
7.
Densidad / Fun. de proba
Fun. de Proba Acumulada
Otros
Temas de Estadística
Esperanza
Varianza
3.
Tchebychev
Ley grandes números: Promedioμ
TCL: Promedio Normal
1.
T-student
2.
Chi-cuadrado
3.
F-Fisher
Estimación
1.
Puntual: EMV, MM, MCO, bayes
2.
Propiedades estimadores
3.
Por intervalo
Inferencia
1.
2.
3.
4.
Distribución de función de v.a. (teorema
del cambio de variables).
Teoremas de convergencia
1.
2.
3.
Distribuciones adicionales
5.
4.
Hipótesis
Error Tipo I, II
Test UMP
Casos: test sobre una media, diferencia de
medias, varianzas.
Anova
Regresiones lineales
1.
2.
3.
[email protected]
Modelo y ajuste por MCO
Evaluación robustez: R^2, test F, Tests t
Lineal multivariado: visión matricial
Estadísticos comunes
Posición:
Media
Mediana
Moda
Máximo, Mínimo
Quintil
Percentil
.
Dispersión
Varianza
Desviación estándar
Coficiente de variación
Rango
De dependencia
Covarianza
Correlación
Test chi2
[email protected]
Distribuciones especiales
Chi-2
.
T-student
F-Fisher
[email protected]
Estimación Puntual
Idea: una variable aleatoria sigue cierta
distribución, que depende de parámetros
desconocidos. Se tienen datos (realizaciones) y
se usan para estimar tales parámetros.
Método 1: Momentos. Suponer que los
momentos orden 1 a k son iguales a los
momentos muestrales orden 1 a k (para una
distribución de k parámetros).
Método 2: EVM (Estimación Máxima
Verosímil). Suponer que los parámetros hacen
muy probable (verosímil) a la muestra. Lo usual,
v.a. iid, lo cual implica una verosimilitud escrita
como pitatoria. Se maximiza sobre los
parámetros y se despeja. Ejemplos: media y
varianza de una normal.
Ejemplo: cual es la probabilidad de exceder el
caudal medio de un afluente.
Solución.
1) Se toman varias medidas.
2) Se supone alguna distribución.
3) Se plantea la verosimilitud y se maximiza.
4) Se utilizan los valores para calcular la
probabilidad con la distribución original y
para el suceso “exceder el caudal medio”.
Método 3: Bayesiano.
[email protected]
Estimación Por Intervalo
Idea: se intuye que la estimación puntual puede
contener un error debido a la cantidad de datos
usados para estimar y variabilidad de ellos.
Se plantea que los parámetros siguen cierta
distribución y por tanto, se puede calcular la
probabilidad que varíen dentro de cierto rango.
Se propone como intervalo a uno que sea
bastante probable (95%) que contenta al valor.
Metodología: plantear el suceso “intervalo”,
imponer que es altamente probable
IP(a<=mu<=b)=95%
Luego realizar operaciones algebraicas a fin que
se construya el estadístico pivote.
Ejemplo: cual es el intervalo de confianza de la
media de una normal.
Solución.
1) X1,…,Xn iid mas N(mu,sigma).
2) Pivote X=promediod(Xi).
3) Se plantea IP(a<=mu<=b)=95%
4) Luego del álgebra se obtiene
(mu-Z*sigma/raiz(n),mu+Z*sigma/raiz(n)
5) Nota: Z es el punto donde la N(0,1) acumula
97,5% (¿Por qué no 95%?).
6) Problema: no se conoce sigma. Solución,
incluir su estimador, cambiar la distribución
y repetir operación.
Luego despejar a y b, que en casos de simetría
pueden transformarse en una sola incógnita.
[email protected]
Inferencia
Test de Hipótesis
.
H0: Hipótesis de base a estudiar
HA: Hipótesis alternativa
Decisión de aceptar o rechazar H0 en función de los
datos, calculando un pivote y comparando con cierto
umbral.
Pivote: el mismo del intervalo de confianza.
Umbral: número que traduce la confianza en una regla
de aceptación o rechazo sencilla (región de rechazo).
Error tipo I: rechazo incorrecto H0
Error tipo II: aceptación incorrecta H
Para ambos se puede calcular su probabilidad.
Posibles métodos:
Minimizar IP(error tipo I)+IP(error tipo II)
Minimizar IP(error tipo II) s.a. IP(error tipo I)<=alpha
[email protected]
Test de diferencia de medias
Sean X1,…,Xn iid N(mu1,sigma12) e Y1,…,Ym iid
.
N(mu2,sigma22):
H0: mu1=mu2
HA: son distintas
Pivote:
Ejemplo con SPSS
[email protected]
Regresión
Idea: Una serie de puntos en un gráfico X-Y, se
alinean aproximadamente en una recta. Para
estimarla se tienen los siguientes métodos:
.
1) Mínimos cuadrados (MCO): método
puramente geométrico, se plantea un error
vertical cuadrático y se maximiza sobre los
parámetros de la regresión:
Modelo Yi=b0+b1Xi+ei
error=sumai (Yi-(b0+b1Xi))2
2)
Máxima verosimilitud: se suponen los
errores ei siguiendo una distribución que
depende de los parámetros del modelo.
Luego se estiman estos con el método de
EMV, obteniéndose lo mismo que con MCO.
[email protected]