Download 1.5. Función de distribución

Document related concepts
no text concepts found
Transcript
11
1.5. FUNCIÓN DE DISTRIBUCIÓN
∩An 6= φ.
(Bn ), con Bn ∈ B(X Jn ). Sin pérdida de generalidad, podemos
Supongamos que An = πJ−1
n
suponer que {Jn } es una sucesión de conjuntos creciente en S. Por otra parte, por regularidad
y tensión de las medidas PJ , con J ⊂ S finito, existen compactos Kn tales que Kn ⊂ Bn y
P (An − Dn ) ≤ ǫ/2n+1 ,
donde Dn = π −1 (Kn ). Ahora definimos Cn = ∩ni=1 Di . Luego, {Cn } es una sucesión decreciente
de conjuntos. Además,
P (An − Cn ) ≤
n
X
i=1
P (An − Di ) ≤
n
X
i=1
P (Ai − Di ) ≤ ǫ/2.
Por lo tanto, P (Cn ) ≥ ǫ/2 y concluimos que cada Cn es no-vacı́o. Para cada n elegimos un
wn ∈ Cn . Por el hecho que πJ1 C1 es compacto, sabemos que wn tiene una subsucesión tal que
(1)
sus coordenandas {wn (j) : j ∈ J1 } en J1 convergen. Llamemos wn a tal subsucesión. Por el
(2)
(1)
mismo argumento podemos extraer una subsucesión de wn de wn , cuyas coordenadas en J2
(j)
(n)
convergen. Recursivamente podemos definir wn . Claramente, la sucesión {wn : n ≥ 1} tiene
la propiedad que para cada Ji , sus coordenadas en tal conjunto convergen. Es obvio que el
lı́mite definido de esta manera está en ∩Cn y por lo tanto en ∩An .
Es posible demostrar versiones del teorema de extensión de Kolmogorov a espacios que
se pueden expresar como un producto no-numerable de factores. Sin embargo, la medida de
probabilidad que se construye está definida en una σ-algebra que no coincide con los borelianos
inducidos por la topologı́a producto.
1.5.
Función de distribución
En esta sección nos concentraremos en medidas de probabilidad definidas en los reales con
los borelianos introduciendo el concepto de función de distribución.
Definición 1.25. (Función de distribución). Una función de distribución es una función
real F : R → R tal que
(i) F es monótona creciente,
(ii) F es continua por la derecha,
(iii) lı́mx→∞ F (x) = 1 y lı́mx→−∞ F (x) = 0.
Dada una función de distribución F , si existe una función real f tal que
Z x
f (u)du,
F (x) =
−∞
llamamos a f la función de densidad de F .
Notemos que toda función densidad es necesariamente positiva y satisface
R
f dx = 1.
12
CAPÍTULO 1. FUNDAMENTOS
Lema 1.26. Sea P una medida de probabilidad en (R, B(R)). Luego
F (x) = P ((−∞, x])
es una función de distribución. Además F es continua en x si y sólo si P (x) = 0.
Demostración. Notemos que
P ((−∞, b]) = F (b).
Luego, como (−∞, b] = ∩n (−∞, b + 1/n], tenemos que P ((−∞, b]) = lı́mn→∞ P ((−∞, b + 1/n])
y luego F (b) = lı́mn→∞ F (b + 1/n) y por lo tanto F es continua por la derecha. Por otra parte,
P {b} = lı́m P (b − 1/n, b] = F (b) − lı́m F (b − 1/n).
n→∞
n→∞
Esto demuestra que F es continua en b si y sólo si la masa de {b} es 0. Finalmente, como φ =
∩(−∞, n], tenemos que lı́mn→∞ F (n) = 0. La monotonı́a de F implica que lı́mx→∞ F (x) = 0.
Similarmente podemos ver que lı́mx→∞ F (x) = 1.
Podemos ahora considerar la contraparte del lema anterior.
Lema 1.27. Sea F una función de distribución. Luego existe una medida de probabilidad única
P en (R, B(R)) tal que para todo par de reales a ≤ b se tiene
P (a, b] = F (b) − F (a).
Demostración. Primero probaremos que si (a, b] ⊂ ∪∞
i=1 (ai , bi ], entonces
F (b) − F (a) ≤
∞
X
i=1
F (bi ) − F (ai ).
(1.2)
Consideraremos el caso en el que (a, b] es un intervalo acotado. Sea ǫ > 0. Elegimos δ > 0
de modo que F (a + δ) < F (a) + ǫ y δi de modo que F (bi + δi ) < F (bi ) + ǫ2−i . Notemos que
la colección de intervalos abiertos (ai , bi + δi ), 1 ≤ i < ∞, forma un cubrimiento abierto del
intervalo cerrado [a + δ, b]. Por lo tanto, existe una cantidad finita de tales intervalos que lo
cubre. Claramente tenemos
F (b) − F (a + δ) ≤
n
X
j=1
F (bij + δij ) − F (aij ) ≤ ǫ +
∞
X
i=1
F (bi ) − F (ai ).
Tomando el lı́mite cuando ǫ → 0 concluı́mos que la desigualdad (1.2) se satisface. El caso en el
que (a, b] no es acotado se deja al lector. Ahora, por la proposición 1.17, vemos que la función P
definida en la semi-álgebra de intervalos de la forma (a, b] o (a, ∞) por P (a, b] = b − a tiene una
extensión única al álgebra formada por las uniones finitas de intervalos de la forma anterior.
Por el teorema de extensión de Carathéodory, esta medida de probabilidad tiene una extensión
al algebra de conjuntos medibles que necesariamente contiene a los borelianos. Además, su
restricción a los borelianos y por lo tanto a los medibles, es única.
Por el lema anterior podemos concluı́r que una función de distribución F tiene una densidad
si y sólo si la medida de probabilidad P que induce en los reales es absolutamente continua
respecto a la medida de Lebesgue. En ese caso diremos que F es absolutamente continua.
13
1.6. VARIABLES ALEATORIAS
Definición 1.28. Integral de Lebesgue-Stieltjes. Sea F una función de distribución. Para
cada función no-negativa φ Borel medible definimos la integral de Lebesgue-Stieltjes de φ
respecto a F por
Z
Z
φdF := φdP,
donde P es la medida de probabilidad inducida por F en los reales.
1.6.
Variables aleatorias
Aquı́ introduciremos la noción de variable aleatoria y mostraremos como ellas inducen una
medida de probabilidad en los reales.
Definición 1.29. (Variable aleatoria). Sea (Ω, M, P ) un espacio de probabilidad. Una variable aleatoria X es una función medible desde (Ω, M) hasta (R, B(R)). La función
FX (x) = P (X ≤ x),
se llama la función de distribución de X, o simplemente la distribución o ley de X.
Una función medible X desde (Ω, M, P ) hasta (Rd , B(Rd )) se llama una variable aleatoria
generalizada o un vector aleatorio. Si X es una variable aleatoria generalizada con valores
en Rd , definimos su función de distribución generalizada como la función
FX (x1 , . . . , xd ) = P (X1 ≤ x1 , . . . , Xd ≤ xd ),
donde X1 , . . . , Xd son las coordenadas de X, que son variables aleatorias. A veces denotaremos
a esta distribución generalizada, la distribucion conjunta, o simplemente la distribución
o ley, de las variables aleatorias X1 , . . . , Xd , denotándola por FX1 ,...,Xd . Si existe una función
Borel-medible fX tal que para todo boreliano B ∈ B(Rd ) se tiene que
Z
fX dm,
P (X ∈ B) =
B
donde m es la medida de Lebesgue, decimos que la variable aleatoria X y su función de distribución, tienen densidad f .
Ejemplo. Sea λ > 0 y consideremos un espacio de probabilidad (Ω, M, P ) y una variable
aleatoria X definida en él tal que
P (X = n) = e−λ λn /n!.
Tal variable aleatoria de denomina una variable aleatoria de Poisson de parámetro λ e
induce una función de distribución llamada una función de distribución de Poisson de
parámetro λ.
Este ejemplo nos motiva a efectuar la siguiente definición.
Definición 1.30. (Variable aleatoria discreta). Sea S un subconjunto numerable de los
reales. Una variable aleatoria discreta, es una variable aleatoria X tal que
X
P (X = x) = 1.
x∈S
Si la cardinalidad de S es 1, decimos que X es degenerada.
14
CAPÍTULO 1. FUNDAMENTOS
Observación. Existen variables aleatorias discretas que toman valores en un subconjunto
denso de los reales.
Ejemplo. Sea X una variable aleatoria con una función de distribución con densidad f
1
2
e−(x−a) /2σ ,
f (x) = √
2πσ
se denomina una variable aleatoria normal o gaussiana centrada en a de varianza σ.
Aprovechamos el ejemplo anterior para introducir el concepto de vector Gaussiano.
Definición 1.31. (Vector Gaussiano). Un vector normal o gaussiano es un vector aleatorio X = (X1 , . . . , Xd ) tal que toda combinación lineal de sus componentes es una variable
aleatoria gaussiana.
Notemos que si X e Y son distribuciones normales, no es necesariamente cierto que (X, Y )
sea un vector normal. En efecto, elijamos X normal y definamos Y = X si |X| > 1, mientras
que Y = −X si |X| ≤ 1. Claramente Y es normal. Sin embargo X + Y no lo es. Finalmente
introducimos el concepto de σ-álgebra generada por una variable aleatoria.
Definición 1.32. (σ-álgebra generada por un vector o una variable aleatoria). Sea
(Ω, M, P ) un espacio de probabilidad.
(i) Si X es una variable aleatoria en tal espacio, llamamos σ(X) a la σ-álgebra de conjuntos
de la forma
{w ∈ Ω : X(w) ∈ B},
donde B es un boreliano, denotándola por σ-álgebra generada por X.
(ii) Si X1 , . . . , Xd son variables aleatorias, definimos σ(X1 , . . . , Xd ), la σ-álgebra de conjuntos generada por X1 , . . . , Xd . Si X es un vector aleatorio, definimos la σ-álgebra
generada por X denotándola por σ(X), como σ(X1 , . . . , Xd ), donde X1 , . . . , Xd son las
componentes de X.
(iii) Si X1 , X2 , . . . es una sucesión de variables aleatorias, definimos la σ-álgebra generada
por la sucesión como
σ(X1 , X2 , . . .) = σ(∪ni=1 σ(X1 , . . . , Xn )).
Es fácil probar que σ(X) es una σ-álgebra. Por otra parte, en general si X1 , X2 , . . . es una
sucesión de variables aleatorias, σ(X1 , X2 , . . .) no es una σ-álgebra, aunque si es un álgebra.
Ejemplo. Consideremos [0, 1] con los borelianos. Definimos X = 1 si x > 1/2 y X = 0 si
x ≤ 1/2. Luego σ(X) = {[0, 1], [0, 1/2], (1/2, 1], φ}.
Supongamos que tenemos una sucesión {Xn } de variables aleatorias y una variable aleatoria
X definidas en un espacio de probabilidad (Ω, M, P ). En lo que sigue en estas notas ocuparemos
la notación estandard Xn → X c.s. (casi seguramente) cuando P (lı́mn→∞ Xn = X) = 1.
Además, diremos que la sucesión Xn converge a X en probabilidad si para todo ǫ > 0, se tiene
que
lı́m P (|Xn − X| ≥ ǫ) = 0.
n→∞
15
1.7. ESPERANZA
1.7.
Esperanza
En el próximo capı́tulo veremos en la ley de los números grandes como un gran desorden, en
términos de aleatoriedad, produce orden en ciertas cantidades: el concepto de esperanza cobra
importancia, representando el valor promedio de una serie de observaciones independientes.
Definición 1.33. (Esperanza). Sea X una variable aleatoria definida en un espacio de probabilidad (Ω, M, P ). Si X es positiva, definimos su esperanza E(X) por
Z
Z
xdFX .
X(w)dP =
E(X) =
Ω
R
En general, si máx{E(X+ ), E(X− )} < ∞, donde X+ es la parte positiva y X− la parte negativa
de X, definimos la esperanza E(X) de X como
E(X) = E(X+ ) − E(X− ).
Para cada k ≥ 1, si la esperanza de X k existe, definimos el momento de orden k de X como
E(X k ).
Si X es una variable aletoria con momento de orden 2, definimos su varianza como
V (X) = E(X 2 ) − E(X)2 .
Si para algún λ real la esperanza de la variable aleatoria eλX existe,
E(eλX ) < ∞,
decimos que X tiene un momento exponencial de orden λ finito.
Definición 1.34. Sea X una variable aleatoria de Poison de parámetro λ. Luego
−λ
E(X) = e
∞
X
nλn /n! = λ.
n=0
Muchos de los cálculos que efectuaremos para estimar probabilidades, involucran el uso de
desigualdades que con esperanzas y momentos de distintas variables aleatorias.
Teorema 1.35. (Desigualdad de Jensen). Sea P una medida positiva en (X, M) tal que
P (X) = 1. Sea X una variable aleatoria con esperanza finita y tal que a < X < b. Luego, para
toda toda función convexa ϕ en (a, b) es cierto que
ϕ (E(X)) ≤ E(ϕ(X)).
Demostración. Definimos c = E(X). Claramente a < c < b. Además, una función ϕ es
convexa en (a, b) si y sólo si para todo real s, t, u tales que a < s < t < u < b se tiene que
ϕ(u) − ϕ(t)
ϕ(t) − ϕ(s)
≤
.
t−s
u−t
Luego, si definimos β ∈ R como el supremos sobre s del miembro izquierdo de esta desigualdad,
vemos que para todo a < s ≤ c ≤ u < b se satisface
ϕ(u) − ϕ(c)
ϕ(c) − ϕ(s)
≤β≤
.
c−s
u−c
16
CAPÍTULO 1. FUNDAMENTOS
Por lo tanto para a < s < b
ϕ(s) ≥ ϕ(c) + β(s − c),
(1.3)
y
ϕ(X) − ϕ(c) − β(X − c) ≥ 0,
para todo x ∈ X. Como ϕ es continua, sabemos que ϕ(X) es medible, y podemos integrar esta
desigualdad para concluı́r la prueba.
Teorema 1.36. (Desigualdad de Techebychev). Sea X una variable aleatoria en un espacio
de probabilidad (Ω, M, P ). Luego, para todo a > 0 y f ≥ 0 creciente se tiene que
P (X > a) ≤
E(f (X))
.
f (a)
Demostración. Notemos que
P (X > a) =
1.8.
Z
x>a
dFX ≤
Z
x>a
E(f (x))
f (x)
dFX ≤
.
f (a)
f (a)
Independencia
En esta sección discutiremos la noción de independencia entre eventos o variables aleatorias.
Queremos definir un concepto que describa que la ocurrencia o no ocurrencia de un evento no
cambia la probabilidad de que ocurra o no otro evento.
Supongamos que al calcular la probabilidad de que ocurra un evento A en un espacio de
probabilidad (Ω, M, P ), sabemos a priori que un evento B ocurrió. Intuitivamente, esto reduce
el espacio de experimentos a B y el conjunto de eventos a MB , la σ-álgebra formada por
conjuntos de la forma B ∩ A con A ∈ M. Luego, la probabilidad de que A ocurra, sabiendo
que B ocurrió, serı́a P (A ∩ B)/P (B).
Definición 1.37. (Probabilidad condicional elemental). Sea (Ω, M, P ) un espacio de
probabilidad y B un evento tal que P (B) > 0. Para todo evento A, definimos la probabilidad
condicional de A dado B por
P (A|B) = P (A ∩ B)/P (B).
Notemos que si la ocurrencia de B no afecta la probabilidad de que A ocurra, tendrı́amos
que tener que P (A) = P (A|B). Es decir, A y B tienen que ser independientes
P (A ∩ B) = P (A)P (B).
Definición 1.38. (Independencia de eventos). Sea (Ω, M, P ) un espacio de probabilidad.
(i) Decimos que los eventos A1 , . . . , An ∈ M son independientes si
P (A1 , . . . , An ) = P (A1 ) . . . P (An ).