Download 1 Aplicaciones Medibles. Variables Aleatorias.

Document related concepts
no text concepts found
Transcript
1
Aplicaciones Medibles. Variables Aleatorias.
La comparación y la aproximación constituyen parte de la esencia de las Matemáticas. En
consecuencia el estudio matemático de cualquier modelo adquiere una mayor relevancia
sobre la recta real o, más generalmente sobre el espacio Euclideo <n , por la riqueza
adicional que aportan las diferentes estructuras que en él conviven. Como consecuencia es
natural el estudio especı́fico, ya iniciado, de las peculiaridades de la probabilidad sobre < o
<n , y el consiguiente que permita el estudio de caracterı́sticas que se miden numéricamente
sobre sucesos aleatorios.
La asociación a cada suceso elemental en un espacio probabilı́stico de una caracterı́stica
numérica constituye una variable aleatoria (real).
Debe señalarse que a menudo no conocemos o no estamos interesados en conocer el
experimento aleatorio en si, por lo que podrı́a establecerse que una variable aleatoria es un
experimento aleatorio con valores numéricos. Desde este punto de vista el estudio de las
variables aleatorias no aportarı́a nada al ya realizado acerca de las probabilidades sobre
< o <n . El principal interés del estudio de las variables aleatorias radica en que podremos
manejar varias variables conjuntamente, definidas en un mismo espacio muestral, y “hacer
matemáticas” con ellas. Recordando los comentarios iniciales al hablar de espacio muestral
y nuestra laxitud sobre su naturaleza, diriamos que es en el estudio de las variables
aleatorias donde esta laxitud se hace aún más patente. Nuestro interés reside en asegurar
que las variables en estudio puedan convivir en un espacio suficientemente grande, por lo
que los análisis que realicemos (y esto es caracterı́stico de la Teorı́a de la Probabilidad)
no podrán depender de la naturaleza del espacio, sino tan sólo del grado de relación o
dependencia probabilı́stica entre ellas.
1.1
Aplicaciones Medibles
Partiendo del caso discreto, debe recordarse que la “descripción probabilı́stica” de una
variable aleatoria con valores x1 , x2 , ...xn , ... consistı́a en la asociación a cada valor, xk , de
la probabilidad correspondiente, entendiendo como tal la de los sucesos elementales del
espacio muestral que dan lugar a tal imagen, que escribiremos indistintamente como:
PX (xk ) := P (X = xk ) = P ({ω ∈ Ω : X(ω) = xk }) = P (X −1 ({xk })).
En consecuencia el único aspecto cualitativo que debemos cuidar al definir con precisión
matemática la idea de aplicación aleatoria es asegurar que podamos hablar de estas probabilidades.
Teniendo en cuenta la posibilidad de que Ω sea no numerable deberemos, por tanto,
exigir que X −1 ({xk }) esté en la clase de los sucesos de interés de Ω que es donde hemos
definido la probabilidad, es decir, que sea medible.
El cálculo de probabilidades en espacios discretos justifica inmediatamente que asociemos a cualquier B ⊂ < la probabilidad
PX (B) =
X
xk ∈B∩X(Ω)
1
PX (xk ).
Sin embargo podemos actuar también intentando utilizar el mismo argumento natural de
asociar a B la probabilidad de los sucesos elementales que dan lugar a tal imagen por X:
PX (B) = P ({ω ∈ Ω : X(ω) ∈ B}) = P (X −1 (B)).
Ambas definiciones coinciden evidentemente al observar que X define una partición en Ω,
{Ak }k∈N , haciendo Ak = X −1 ({xk }), y que
{ω ∈ Ω : X(ω) ∈ B} = X −1 (B) =
[
X −1 ({xk }) =
xk ∈B
[
Ak
xk ∈B
que es una unión finita o numerable de sucesos (y por tanto medible si estos lo son).
En general esta partición no será numerable por lo que nuestra exigencia deberá ser
mayor. Los conjuntos de interés de < (o, en general, de otro espacio Ω0 ) deberán tener
contraimagen medible para que puedan ser probabilizados. Esto nos lleva a la siguiente
definición de aplicación medible entre los espacios medibles (Ω, σ) y (Ω0 , σ 0 ).
Definición 1.1 Una aplicación f : Ω → Ω0 es σ|σ 0 -medible si la contraimagen por f de
cada conjunto de σ 0 es un conjunto de σ:
f −1 (A0 ) ∈ σ para cada A0 ∈ σ 0 .
Si el espacio (Ω0 , σ 0 ) es (<, β) (resp. (<n , β n )) las aplicaciones medibles se denominan
variables aleatorias reales (resp. vectores aleatorios n-dimensionales).
Las funciones medibles entre espacios Euclı́deos (f : <m → <n ) se denominan funciones de Borel.
La caracterización siguiente permitirá simplificar notablemente la comprobación de la
medibilidad de una aplicación.
Teorema 1.2 Sea C 0 una clase de conjuntos que genera la σ-álgebra σ’, σ’=σ(C 0 ), y sea
f : Ω → Ω0 una aplicación entre los espacios medibles (Ω, σ) y (Ω0 , σ 0 ). Entonces f es
σ|σ 0 -medible si y sólo si
f −1 (C 0 ) ∈ σ para cada C 0 ∈ C 0 .
Demostración: La clase Γ0 := {A0 ∈ σ 0 : f −1 (A0 ) ∈ σ} es trivialmente una σ-álgebra
(recuérdense las propiedades de la aplicación inversa: f −1 (∪i∈I A0i ) = ∪i∈I f −1 (A0i ), f −1 ((A0 )c )
= (f −1 (A0 ))c , f −1 (Ω0 ) = Ω). Como por hipótesis C 0 ⊂ Γ0 , también se tendrá σ 0 = σ(C 0 ) ⊂
Γ0 . 2
Nótese que las múltiples caracterizaciones que hemos obtenido de las σ-álgebras de
Borel en < y <n pueden utilizarse ahora convenientemente para asegurar la medibilidad
de las variables o los vectores aleatorios. Por ejemplo, bastará probar que {f ≤ x} ∈ σ
para cada x ∈ < (resp. {f ∈ Πni=1 (−∞, xi ]} ∈ σ para cada (x1 , x2 , ...xn ) ∈ <n )para
asegurar que f es una variable aleatoria σ|β-medible (resp.σ|β n -medible).
El argumento utilizado en la demostración anterior puede modificarse ligeramente para
probar la siguiente proposición.
2
Proposición 1.3 Sea f : Ω → Ω0 una aplicación y C 0 una clase de conjuntos de Ω0 .
Entonces se tiene
σ({f −1 (C 0 ), C 0 ∈ C 0 }) = {f −1 (A0 ), A0 ∈ σ(C 0 )}.
Una consecuencia inmediata e importante del Teorema 1.2 es la de asegurar la medibilidad de las funciones continuas. Más precisamente se tiene:
0
0
Proposición 1.4 Sean Ω, Ω dos espacios topológicos y sean σ, σ sus σ-álgebras de Borel
0
(las mı́nimas que contienen a todos los abiertos de los respectivos espacios). Si f : Ω → Ω
0
es una aplicación continua, entonces es σ|σ -medible. En particular toda función continua
f : <m → <n es una función de Borel.
Demostración: Sean τ, τ 0 las familias de abiertos en las topologias respectivas de Ω y Ω0 .
Como σ 0 = σ(τ 0 ), por el Teorema 1.2, será suficiente probar que f −1 (B 0 ) ∈ σ para todo
B 0 ∈ τ 0 , pero por la continuidad se tiene f −1 (B 0 ) ∈ τ ⊂ σ(τ ) = σ. 2
Obsérvese que si σ 0 es una σ-álgebra en Ω’, la clase {f −1 (A0 ), A0 ∈ σ 0 } es una σ-álgebra
sobre Ω y es la mı́nima que hace medible la aplicación. Tal σ-álgebra suele denotarse σ(f )
y se denomina la σ-álgebra engendrada por f . Nótese el hecho trivial de que la condición
de σ|σ 0 -medibilidad puede reescribirse de forma equivalente como σ(f ) ⊂ σ.
La continua aparición de composiciones de aplicaciones en cualquier rama de las
Matemáticas justifica obviamente la necesaria mención de proposiciones relativas a su
comportamiento como lo es la siguiente.
Proposición 1.5 Sean (Ω, σ), (Ω0 , σ 0 ) y (Ω00 , σ 00 ) tres espacios medibles y f : Ω → Ω0 ,
g : Ω0 → Ω00 aplicaciones respectivamente σ|σ 0 y σ 0 |σ 00 -medibles. La aplicación compuesta
h : Ω → Ω00 , h = g ◦ f es, entonces, σ|σ 00 -medible.
Demostración: Sea A00 ∈ σ 00 . Puesto que g es σ 0 |σ 00 -medible se tiene g −1 (A00 ) ∈ σ 0 , y al ser
f σ|σ 0 -medible, f −1 (g −1 (A00 )) ∈ σ, y por tanto (g ◦ f )−1 (A00 ) = f −1 (g −1 (A00 )) ∈ σ. 2
Como consecuencia de las dos últimas proposiciones, podremos asegurar que (cuando
tengan sentido) las operaciones habituales (sumas, productos,...) entre variables aleatorias serán también variables aleatorias. Previamente obtendremos el siguiente resultado,
simple pero fundamental.
~ : Ω → <n una aplicación cualquiera y sean X1 , X2 , ...Xn sus
Proposición 1.6 Sea X
~
~ es un vector
componentes (Xi : Ω → <, Xi (ω) = πi (X(ω)),
i = 1, ...n). Entonces X
n
aleatorio (σ|β -medible) si y sólo si sus componentes son variables aleatorias.
~ se tiene
Demostración: Como Xi = πi ◦ X,
~ ∈ (−∞, x1 ] × (−∞, x2 ] × ...(−∞, xn ]} = ∩n {Xi ∈ (−∞, xi ]},
{X
i=1
3
por lo que (téngase en cuenta el teorema 1.2 y que los conjuntos del tipo Πni=1 (−∞, xi ]
~ es un vector aleatorio cuando X1 , ...Xn
y (−∞, x] engendran respectivamente β n y β) X
(sus componentes) son variables aleatorias.
~
Además, observando que {X1 ≤ x1 } = ∪∞
k=1 {X ∈ (−∞, x1 ] × (−∞, k] × ...(−∞, k]},
también resulta obvia la implicación opuesta. 2
Proposición 1.7 Sean X e Y variables aleatorias reales definidas en el espacio medible
(Ω, σ). Las aplicaciones definidas por a.X, X + Y , X.Y , X/Y (si {Y = 0} = ∅) son
también variables aleatorias reales.
Demostración: Las aplicaciones definidas por f1 : x → f1 (x) = a.x, f2 : (x, y) →
f2 (x, y) = x + y, f3 : (x, y) → f3 (x, y) = x.y son funciones continuas; como además
~ := (X, Y ) es un vector aleatorio por la proposición anterior,
la aplicación definida por X
~ X.Y = f3 ◦ X,
~ y aplicar la proposición
basta observar que a.X = f1 ◦ X, X + Y = f2 ◦ X,
1.14 (utilı́cese el problema 4 para demostrar que X/Y también es variable aleatoria bajo
la hipótesis planteada). 2
1.2
Variables Aleatorias Reales
La especialización a las variables aleatorias con valores en < permite “construir” las variables a través de un proceso que será la base del estudio de sus caracterı́sticas numéricas
(como la Esperanza Matemática). Al no conocer como se construian los conjuntos de
una σ-álgebra debiamos recurrir a procedimientos indirectos para demostrar propiedades.
El proceso de construcción de las variables reales permitirá en cambio demostraciones
escalonadas, comenzando por las variables más sencillas y “subiendo” hasta llegar a las
más generales.
Comenzaremos por estudiar la medibilidad de las aplicaciones asociadas a lı́mites de
variables aleatorias reales, para lo cual es conveniente considerar la posibilidad de que
las variables tomen valores infinitos sin que ello provoque más problemas que los que
¯ = < ∪ {+∞} ∪ {−∞} (la recta real
intentamos resolver, o mejor evitar. Sea entonces <
¯
extendida) con la σ-álgebra β̄ = σ<¯ (β ∪ {+∞} ∪ {−∞}), definida como la mı́nima en <
que contiene a los conjuntos de β y a los conjuntos {+∞} y {−∞}. Es sencillo probar
¯ es σ|β̄-medible si y sólo si X −1 (C) ∈ σ para cada C ∈ C y
que una aplicación X : Ω → <
X −1 ({+∞}) ∈ σ, X −1 ({−∞}) ∈ σ, siendo C cualquier clase que genere la σ-álgebra de
Borel de <.
¯ σ|β̄-medible que no toma valores infinitos es
Por supuesto una variable X : Ω → <
automáticamente considerada también como una variable σ|β-medible, y una variable
X : Ω → < σ|β-medible lo es como una variable σ|β̄-medible sin apelar a equivalencias
triviales.
4
¯ respetaremos el “sentido
Respecto de la definición de las operaciones habituales en <,
común”, no dándoselo a cálculos como ∞ − ∞, ∞/∞, ó 0.∞..., y definiendo obviamente
x + ∞ = ∞ + x = +∞, x − ∞ = −∞ + x = −∞, x.∞ = ∞.x = sign(x).∞, x.(−∞) =
(−∞).x = −sign(x).∞, x/∞ = x/(−∞) = 0, ∞/x = sign(x).∞, −∞/x = −sign(x).∞
para todo x ∈ <, donde sign(x) = −1, 0 ó 1 según sea x < 0, x = 0 ó x > 0 respectivamente.
Para dos variables aleatorias reales X e Y σ|β-medibles es trivial ver que el conjunto
{X = Y } pertenece a σ, basta tener en cuenta que X − Y es por la proposición 1.7
una nueva variable σ|β-medible y que {X = Y } = (X − Y )−1 ({0}), siendo {0}) un
conjunto de Borel. Sin embargo la posibilidad de valores infinitos invalida parcialmente
este argumento y, en consecuencia estableceremos el siguiente lema.
Lema 1.8 Sean X e Y variables aleatorias σ|β̄-medibles definidas en el espacio medible
(Ω, σ). El conjunto {X = Y } pertenece a σ.
Demostración: Definamos las nuevas variables X 0 e Y 0 por X 0 = X si |X| < ∞ y X 0 =
0 si |X| = ∞, e Y 0 = Y si |Y | < ∞ y Y 0 = 1 si |Y | = ∞. Es trivial comprobar que X 0 e
Y 0 son variables σ|β-medibles, y que
{X = Y } = ({X = ∞} ∩ {Y = ∞}) ∪ ({X = −∞} ∩ {Y = −∞})
∪ ({X 0 = Y 0 } ∩ {|X| < ∞} ∩ {|Y | < ∞}) .
Ahora comprobar la medibilidad es trivial ya que cada conjunto involucrado está en σ;
téngase en cuenta el argumento empleado antes del lema para asegurar que {X 0 = Y 0 } ∈ σ,
y que {|X| < ∞} = ({X = ∞} ∪ {X = −∞})c . 2
¯ σ|β̄-medibles.
Proposición 1.9 Sea {Xn }n una sucesión de variables Xn : Ω → <
1. Las aplicaciones supn∈N Xn , inf n∈N Xn , lim sup Xn , lim inf Xn son entonces varin→∞
n→∞
ables σ|β̄-medibles.
2. Si existe lim Xn (ω) para cada ω ∈ Ω entonces la aplicación X definida como X(ω) =
n→∞
lim Xn (ω) es una variable σ|β̄-medible
n→∞
3. El conjunto {ω ∈ Ω : {Xn (ω)}n converge } es un conjunto medible (pertenece a σ).
4. El conjunto {ω ∈ Ω : n→∞
lim Xn (ω) = X(ω)} pertenece a σsi X es una variable σ|β̄medible.
Demostración: Teniendo en cuenta
las identidades {supn∈N Xn = −∞} = T∞
n=1 {Xn =
T∞ S ∞
−∞}, {supn∈N Xn = ∞} = M =1 n=1 {Xn > M } y {supn∈N Xn ≤ x} = ∞
n=1 {Xn ≤
x}, y el hecho de que las σ-álgebras son cerradas para las uniones e intersecciones numerables, y que la clase de conjuntos (−∞, x], x ∈ <, genera β, queda asegurada la medibilidad de supn∈N Xn . La de inf n∈N Xn se asegura análogamente argumentando con los
conjuntos del tipo [x, ∞).
T
5
Reescribiendo lim sup Xn como inf n∈N sup Xm y lim n→∞
inf Xn como supn∈N inf Xm , y
n→∞
m≥n
m≥n
teniendo en cuenta la medibilidad de superiores e inferiores ya demostrada, queda probada
la de estas nuevas variables y completada la parte 1).
La parte 2) es inmediata teniendo en cuenta que si existe lim Xn (ω) para cada ω ∈ Ω,
n→∞
entonces X coincide con lim sup Xn (y con lim inf Xn ), por lo que su medibilidad es
n→∞
n→∞
consecuencia de 1).
3) es consecuencia de que, por 1), lim sup Xn y lim inf Xn son σ|β̄-medibles y de que el
n→∞
n→∞
conjunto {ω ∈ Ω : {Xn (ω)}n converge } puede escribirse como {ω ∈ Ω : lim inf Xn (ω) =
n→∞
lim sup Xn (ω)}, y ahora podemos aplicar el lema anterior.
n→∞
4) se obtiene de la igualdad
{ω ∈ Ω : lim Xn (ω) = X(ω)} = {lim sup Xn = X} ∩ {lim inf Xn = X}
n→∞
n→∞
n→∞
y de 1) junto con el lema previo. 2
En la proposición anterior se ha demostrado que los lı́mites de variables aleatorias
(σ|β̄-medibles) son también variables aleatorias (σ|β̄-medibles). Ahora demostraremos
que, de hecho, las variables aleatorias reales pueden considerarse como lı́mites de variables
aleatorias más sencillas, que son fácilmente manejables. Comenzaremos con la siguiente
definición.
Definición 1.10 Sea A un subconjunto cualquiera de Ω, llamaremos indicador de A, y
lo representaremos por IA a la aplicación definida por IA (ω) = 1 si ω ∈ A, y 0 si ω ∈
/ A.
Cuando (Ω, σ) es un espacio medible y A ∈ σ, entonces el indicador de A es una variable
aleatoria real y recibe el nombre de variable indicadora.
Una combinación lineal de variables indicadoras se denomina variable aleatoria simple
y, por tanto, admite una expresión del tipo
n
P
i=1
xi IAi , siendo x1 , x2 , ...xn ∈ <, A1 , A2 , ...An ∈
σ, n ∈ N .
Como la contraimagen, por una aplicación X que sólo toma los valores 0 y 1, de
cualquier conjunto sólo puede ser el vacı́o, el conjunto total, el conjunto X −1 ({1}) y su
complementario (que es igual a X −1 ({0})), llamando A = X −1 ({1}) se tiene X = IA y
evidentemente una variable indicadora puede describirse como cualquier variable aleatoria
que sólo toma los valores 0 y 1. Análogamente, una variable aleatoria X que sólo toma
un número finito de valores z1 , z2 , ...zm ∈ < puede escribirse en “forma canónica” como
X =
m
P
j=1
xi I{X=zj } donde los conjuntos {X = zj }, j = 1, 2, ...m, pertenecen a σ por la
6
hipótesis de medibilidad de X y constituyen una partición (medible) del espacio.
Llegamos ası́ a la siguiente caracterización de las variables aleatorias reales.
¯ existe una
Proposición 1.11 Si X es una variable aleatoria σ|β̄-medible, X : Ω → <,
sucesión {Xn }n de variables aleatorias simples tal que X(ω) = lim Xn (ω) para todo
n→∞
ω ∈ Ω.
Cuando la variable X es positiva (resp. negativa), la sucesión puede tomarse creciente
(resp. decreciente) y de variables positivas (resp. negativas), 0 ≤ Xn (ω) ↑ X(ω) (resp.
0 ≥ Xn (ω) ↓ X(ω)) para cada ω ∈ Ω.
Si la variable X está acotada entonces la sucesión puede tomarse de modo que la
convergencia sea uniforme.
Demostración: La idea es muy sencilla y puede expresarse diciendo que, para cada n, nos
preocuparemos sólo de los valores x (que puede tomar la variable) que están comprendidos
en el intervalo [−n, n], al resto los “aproximaremos” genéricamente por −n y n según sean
negativos o positivos. Para los valores que están en [−n, n], estableceremos una partición
suficientemente fina, que fijaremos por comodidad de tamaño 1/2n , aproximándolos por
el extremo superior (resp. inferior) del intervalo de la partición en que se encuentra, si el
valor es negativo (resp. positivo). Con ello conseguimos que la mayor de las diferencias
entre la variable Xn , que construimos, y la original sea del orden de 1/2n para los valores
entre −n y n, mientras que para los restantes... ya les llegará su turno! con un n
suficientemente grande.
¯ + → <+ por
Definiendo Φn : <
Φn (x) :=
n
n2
X
k−1
I[(k−1)/2n ,k/2n ) (x) + nI[n,∞] (x)
n
k=1 2
¯ → < por Ψn (x) = Φn (x) si x ≥ 0 y = −Φn (−x) si x < 0, es elemental la
y Ψn : <
demostración de que Ψn es β̄|β-medible (cada conjunto de los considerados en su definición
es un intervalo y por tanto pertenece a β̄) y, por tanto que Xn := Ψn ◦ X es σ|β-medible
como compuesta de medibles.
Las propiedades enunciadas en la proposición son inmediatas a partir de la construcción
anterior. 2
El siguiente teorema constituye uno de los más importantes resultados sobre el papel
de las σ-álgebras en la Teorı́a de la Probabilidad, al ligar la σ-álgebra engendrada por
una variable con las funciones de ella. Obsérvese que su demostración es sencilla como
consecuencia de la proposición anterior.
Teorema 1.12 Sea Ω un espacio muestral y X : Ω → Ω0 una aplicación cualquiera.
Sea σ = σ(X) la σ-álgebra engendrada por X (cuando consideramos sobre Ω0 alguna
¯ es una variable aleatoria σ|β̄-medible, entonces existe una
σ-álgebra σ’. Si Y : Ω → <
0
0
¯ σ |β̄-medible, tal que Y = f (X).
función f : Ω → <,
7
Demostración: Supongamos primero que la variable Y es simple y que toma los valores y1 , y2 , ...yk . Entonces los conjuntos correspondientes a la “partición canónica” {Y =
yj }, j = 1, 2, ...k serán conjuntos de σ, pero como σ = σ(X) = {X −1 (H 0 ), H 0 ∈ σ 0 },
existirán k conjuntos H10 , H20 , ...Hk0 ∈ σ 0 tales que {Y = yj } = X −1 (Hj0 ), j = 1, 2, ...k.
Definiendo f : Ω0 → < como f =
k
P
j=1
yj IHj0 , es evidente que f es una variable aleatoria
σ 0 |β-medible y que Y = f (X).
En el caso general, sea {Yn }n una sucesión, que existe por la proposición anterior, de
variables simples que convergen a Y , y sean fn , n = 1, 2, ... las funciones σ 0 |β-medibles,
que acabamos de obtener, tales que Yn = fn (X), n = 1, 2, .... Definiendo f = lim sup fn
n→∞
(obsérvese que la existencia del lı́mite no está garantizada en todos los puntos de Ω0 y
de este modo conseguimos una función definida entodos los puntos, que sabemos que
es σ 0 |β̄-medible por la proposición 1.9, y que coincide con el lı́mite donde este existe),
obtenemos
Y = n→∞
lim Yn = n→∞
lim fn (X) = lim sup fn (X) = f (X)
n→∞
como queriamos. 2
Debemos destacar que al tratar el caso “abstracto” en que X toma valores en cualquier
espacio medible, quedan incluidas situaciones en las que X es un vector aleatorio o una
sucesión de variables aleatorias.
1.3
Ley de Probabilidad de una Variable Aleatoria
El lector deberı́a haberse dado cuenta a estas alturas del capı́tulo de que no hemos hecho
ninguna referencia a una probabilidad o a un espacio probabilı́stico desde la, pretendida al
menos, motivación al comienzo del capı́tulo. Entonces ¿por qué el calificativo “aleatoria”
asociado a las aplicaciones o variables?. En realidad deberı́a ser a partir de este momento
cuando comenzásemos a emplearlo, porque a partir de ahora supondremos que (Ω, σ, P )
es un espacio probabilı́stico donde están definidas las variables aleatorias en estudio.
Si X : Ω → Ω0 es una variable σ|σ 0 -medible, a partir de la probabilidad P definida
en (Ω, σ) podemos asociar, como hicimos en la introducción, una probabilidad a cada
conjunto B 0 ∈ σ 0 como PX (B 0 ) = P (X 0 ) := P (X −1 (B 0 )). Las propiedades de la aplicación
inversa y de la probabilidad permiten demostrar sin ningún problema que PX es una
probabilidad sobre el espacio medible (Ω0 , σ 0 ), y el modo en que se ha definido justifica la
siguiente definición.
Definición 1.13 Con la notación e hipótesis previamente introducidas, llamaremos a la
probabilidad PX , definida sobre (Ω0 , σ 0 ) ley de probabilidad o distribución de probabilidad
de la variable X. Para representarla también utilizaremos la notación P ◦X −1 , justificada
formalmente por el hecho de poder escribir, para cada B 0 ∈ σ 0 , PX (B 0 ) = P (X −1 (B 0 )) =
P ◦ X −1 (B).
8
Precisamente la forma P ◦ X −1 de escribir esta probabilidad es muy iluminadora a la
hora de plantearnos la ley de probabilidad asociada a una variable que es función de otra:
Proposición 1.14 Sea X : Ω → Ω0 una variable σ|σ 0 -medible y f : Ω0 → Ω00 una función
σ 0 |σ 00 -medible. Entonces la ley de probabilidad asociada a la variable Y = f (X) definida
en el espacio probabilı́stico (Ω, σ, P ) coincide con la asociada a la variable aleatoria f
definida en el espacio probabilı́stico (Ω0 , σ 0 , PX ).
Demostración: Sea B 00 ∈ σ 00 , entonces, por las propiedades de la composición de aplicaciones:
Pf (X) (B 00 ) = P ◦ (f (X))−1 (B 00 ) = P ◦ X −1 ◦ f −1 (B 00 ) = PX ◦ f −1 (B 00 ) = (PX )f (B 00 ).
2
Recordemos que en el capı́tulo anterior habiamos visto que si dos probabilidades
en (<, β) tenı́an la misma función de distribución entonces debı́an coincidir. También
anunciamos que cualquier función F : < → < creciente, continua por la derecha y que
tuviese los lı́mites limx→−∞ F (x) = 0, limx→∞ F (x) = 1, es decir, cualquier función de distribución, determinaba una probabilidad P en (<, β) que verificase F (x) = P ((−∞, x])
para cada x ∈ <. Conociendo la existencia de la medida de Lebesgue, λ, en ((0, 1), β(0,1) )
podemos dar una demostración muy simple de este hecho basada en la “transformación
cuantil” asociada a F . El interés de esta transformación tanto en la Teorı́a de la Probabilidad como en la Estadı́stica justifica una definición formal.
Definición 1.15 Sea F una función de distribución en <. La función cuantil asociada
a F , que denotaremos habitualmente (con un evidente abuso de notación) por F −1 es la
función definida en (0, 1) por
F −1 (y) = inf{x : y ≤ F (x)}.
Como F es creciente y limx→−∞ F (x) = 0, limx→∞ F (x) = 1, el conjunto {x : y ≤ F (x)}
es no vacı́o y acotado inferiormente para cada y ∈ (0, 1), por lo que F −1 (y) está bien
definida. Además de la continuidad por la derecha de F se tiene que si x0 = inf{x : y ≤
F (x)} entonces también y ≤ F (x0 ), y se tiene la propiedad caracterı́stica de la función
cuantil:
F −1 (y) ≤ x ⇔ y ≤ F (x), y ∈ (0, 1), x ∈ <,
(1)
y, por el crecimiento de F ,
F (F −1 (y)−) ≤ y ≤ F (F −1 (y)), y ∈ (0, 1).
(2)
otras propiedades de interés de F −1 que son fácilmente comprobables son el ser creciente
y su continuidad por la izquierda.
Desde nuestro punto de vista actual, la propiedad de crecimiento es suficiente para
asegurar que F −1 es una variable aleatoria β(0,1) |β-medible (véase el problema 5), que,
teniendo en cuenta que λ es una probabilidad sobre ((0, 1), β(0,1) ), determina una ley de
9
probabilidad P sobre (<, β). Sea G la función de distribución de esta ley de probabilidad.
G verifica entonces
G(x) = P ((−∞, x]) := λ({y ∈ (0, 1) : F −1 (y) ∈ (−∞, x]}) = λ((0, F (x)]) = F (x)
por la propiedad (1).
Es decir, La función de distribución de P (la ley de probabilidad asociada a F −1 ) es
precisamente F , con lo que queda demostrada la existencia de probabilidades asociadas
a cualquier función de distribución en <.
En la siguiente definición comenzamos a formalizar la idea de que lo importante de
una variable no es cómo o donde esté definida sino su ley de probabilidad.
Definición 1.16 Sean X1 y X2 dos variables aleatorias definidas en sendos espacios
probabilı́sticos (Ω1 , σ 1 , P1 ), (Ω2 , σ 2 , P2 ) (posiblemente, pero no necesariamente, el mismo),
con valores en el espacio medible (Ω0 , σ 0 ). Diremos que X1 y X2 son igualmente distribuidas si sus leyes de probabilidad (definidas en (Ω0 , σ 0 )) son iguales, esto es, si P1 ◦
X1−1 = P2 ◦ X2−1 .
A partir de la definición, teniendo en cuenta la proposición 1.14 es trivial obtener el
siguiente resultado.
Proposición 1.17 Si X1 y X2 son dos variables aleatorias, con valores en el espacio
medible (Ω0 , σ 0 ), igualmente distribuidas y f : Ω0 → Ω00 es una aplicación σ 0 |σ 00 -medible,
entonces f (X1 ) =d f (X2 ) (f (X1 ) y f (X2 ) son igualmente distribuidas).
Debemos destacar que esta proposición puede considerarse como un resultado fundamental de la Teorı́a de la Probabilidad, o si se quiere, como la justificación teórica del
“principio de representación” al que tantas veces hemos aludido: Los resultados de interés probabilı́stico sólo dependerán de la distribución de probabilidades asociada a la(s)
variables que intervienen en el problema y no a donde o cómo estén definidas.
Obsérvese también que la formulación de la proposición en términos abstractos permite
considerar como variables a vectores o incluso sucesiones de variables aleatorias reales , ya
que si {Xn }n es una sucesión de variables aleatorias reales definida en algún espacio probabilı́stico (Ω, σ, P ) (σ|β-medibles), podemos definir X : Ω → <∞ por X(ω) = {Xn (ω)}n ,
que será σ|β ∞ -medible (véase el problema 3). Además, por el teorema 1.12 y la proposición
1.9 resulta que las variables involucradas en procesos lı́mite también serán consideradas
como funciones de la sucesión; téngase en cuenta que en la proposición 1.9 la σ-álgebra
σ puede ser la mı́nima que hace medibles a todas las variables de la sucesión es decir
σ(X1 , X2 , ...Xn , ...). La proposición recien enunciada asegura entonces, por ejemplo, que
si {Xn }n =d {Yn }n , entonces lim inf Xn =d lim inf Yn .
En las notas anteriores debe observarse que hemos hablado de la distribución de una
variable con valores en un espacio abstracto y como ejemplo hemos considerado la de toda
una sucesión. Es conveniente distinguir adecuadamente esta distribución de otras en las
que sólo están involucradas una parte de las variables. Para no complicar innecesariamente
la notación y la terminologı́a estableceremos las pertinentes definiciones sólo para variables
aleatorias reales.
10
Definición 1.18 Sean X1 , X2 , ...Xn variables aleatorias reales definidas en un mismo espacio probabilı́stico (Ω, σ, P ). Se denomina ley o distribución de probabilidad conjunta
de X1 , X2 , ...Xn a la ley de probabilidad del vector X := (X1 , X2 , ...Xn ). Las leyes de
probabilidad de cada una de las variables X1 , X2 , ...Xn , respectivamente representadas por
PX1 , PX2 , ...PXn , se denominan leyes o distribuciones de probabilidad marginales. Más generalmente, dado cualquier subconjunto {i1 , ...ik } ⊂ {1, 2, ...n}, la distribución (conjunta)
del subvector (Xi1 , ...Xik ) recibe el nombre de distribución marginal de (X1 , X2 , ...Xn ).
La definición se extiende a sucesiones de variables aleatorias X1 , X2 , ...Xn , ..., considerando la variable X(ω) = {Xn (ω)}n , con valores en el espacio medible (<∞ , β ∞ ) y la
ley de probabilidad conjunta de X1 , X2 , ...Xn , ... como la (definida en (<∞ , β ∞ )) de X.
Los comentarios anteriores a esta definición se referı́an por tanto a la distribución conjunta de X1 , X2 , ...Xn , ..., que determina las marginales (aplı́quese la proposición 1.17 a la
aplicación proyección πi1 ,i2 ,...ik definida por πi1 ,i2 ,...ik (x1 , x2 , ...xn , ...) = (xi1 , xi2 , ...xik ) para
notar que la “conjunta” determina cualquier “marginal”). Por otra parte la distribución
conjunta de X1 , X2 , ...Xn , ... queda determinada por las de los vectores (X1 , X2 , ...Xn ), n ∈
N (véase el problema 32).
El conocimiento de las distribuciones marginales de cada una de las variables X1 , X2 , ...
Xn , no es, sin embargo, suficiente para determinar la ley de probabilidad conjunta. Como
ejemplo simple sea Ω = {c, x}, donde supondremos la probabilidad definida por P ({c}) =
P ({x}) = 1/2, y podemos mostrar dos variables X e Y definidas por X(c) = 1, X(x) = 0, e
Y (c) = 0, Y (x) = 1. Ahora es inmediato ver que X =d Y , mientras que (X, X) 6=d (X, Y )
porque, por ejemplo P ((X, X) = (0, 0)) = 1/2, mientras que P ((X, Y ) = (0, 0)) = 0.
A las formas “económicas” de definir o determinar probabilidades en < o <n , cuando
se aplican a variables o vectores aleatorios se les añade el calificativo correspondiente, ası́,
si X es un vector o una variable aleatoria con distribución de probabilidad PX , y esta ley
de probabilidad tiene función de distribución F y (posiblemente) función de densidad f ,
diremos que F (resp. f ) es la función de distribución (resp. densidad) de X.
La función de distribución de la variable X (resp. “conjunta” del vector (X1 , X2 , ...Xn ))
vendrá entonces definida por F (x) = P (X ≤ x) (resp. F (x1 , x2 , ...xn ) = P (X1 ≤ x1 , X2 ≤
x2 , ...Xn ≤ xn )). La forma de obtener las funciones de distribución marginales consiste, sin
más, en tomar lı́mites en el infinito en aquellas variables que no intervienen. Por ejemplo
la función de distribución marginal del subvector (X1 , X2 , ...Xk ) de (X1 , X2 , ...Xn ) será
F1,...,k (x1 , ...xk ) =
lim
xk+1 →∞,...xn →∞
F (x1 , x2 , ...xn )
como puede comprobarse observando que, por la continuidad monótona secuencial de la
probabilidad se tiene:
F1,...,k (x1 , ...xk ) = P ((X1 , X2 , ...Xk ) ∈ (−∞, x1 ] × (−∞, x2 ] × ...(−∞, xk ]) =
P ((X1 , X2 , ...Xn ) ∈ (−∞, x1 ] × (−∞, x2 ] × ...(−∞, xk ] × < × ... × <) =
lim
xk+1 ↑∞,...xn ↑∞
P ((X1 , X2 , ...Xn ) ∈ (−∞, x1 ]×...×(−∞, xk ]×(−∞, xk+1 ]×...×(−∞, xn ]) =
lim
xk+1 →∞,...xn →∞
F (x1 , x2 , ...xn ).
11
Consideraciones análogas nos llevan a obtener la función de densidad marginal, f1,...,k ,
correspondiente a (X1 , X2 , ...Xk ), partiendo de la densidad conjunta de (X1 , X2 , ...Xn ). Si
f (x1 , x2 , ...xn ) es la función de densidad conjunta, entonces
f1,...,k (x1 , x2 , ...xk ) =
Z
<
...
Z
<
f (x1 , x2 , ...xn )dxk+1 ...dxn .
Para probarlo sólo necesitamos recurrir a la definición de función de densidad de una
probabilidad y comprobar que la función definida por el segundo miembro de la igualdad
anterior cumple tal definición, que conseguiremos aplicando el teorema de Fubini:
Z Z
<
B
...
Z
<
Z
B×<×...×<
f (x1 , x2 , ...xn )dxk+1 ...dxn dx1 ...dxk =
f (x1 , x2 , ...xn )dx1 ...dxk dxk+1 ...dxn =
P ((X1 , X2 , ...Xn ) ∈ B × < × ... × <) = P ((X1 , X2 , ...Xk ) ∈ B) para todo B ∈ β k .
Uno de los problemas tı́picos del Cálculo de Probabilidades consiste en la obtención
de la distribución de una variable o vector aleatorio que es una función de otro cuya distribución es conocida. Las técnicas que se utilizan para este fin son de varios tipos e irán
ilustrándose a través de la resolución de problemas, estando basadas en mayor o menor
medida en propiedades de monotonı́a, para las que la función de distribución es un instrumento inmejorable, o de cambio de variable cuando existe función de densidad conjunta.
Aunque las variaciones que pueden establecerse son muy diversas, nos contentaremos con
observar el siguiente argumento básico:
Sea X = (X1 , ...Xn ) un vector aleatorio con función de densidad f (x1 , ...xn ), y sea Y =
(Y1 , ...Yn ) = T (X) = (T1 (X1 , ...Xn ), ...Tn (X1 , ...Xn )) el vector aleatorio n-dimensional
obtenido por la transformación T , de componentes T1 , ...Tn . Llamaremos S a la transformación inversa, de componentes S1 , ...Sn . Si la transformación T es un difeomorfismo
y J(y1 , ...yn ) es el “Jacobiano”, Det (
∂Si (y1 ,y2 ,...yn )
),
∂yj
i,j
la función de densidad g(y1 , ...yn )
de Y vendrá dada por:
g(y1 , ...yn ) = f (S1 (y1 , ...yn ), ...Sn (y1 , ...yn ))|J(y1 , ...yn )|.
(3)
Sólo habrá que probar que g, definida de este modo, es la función de densidad de Y ,
sea entonces B un abierto de <n . Aplicando la fórmula del cambio de variable para la
integral tendremos:
P (Y ∈ B) = P (T (X) ∈ B) = P (X ∈ T
Z
B
−1
B) =
Z
T −1 (B)
f (S1 (y1 , ...yn ), ...Sn (y1 , ...yn ))|J(y1 , ...yn )|dy1 ...dyn =
12
f (x1 , ...xn )dx1 ...dxn =
Z
B
g(y1 , ...yn )dy1 ...dyn
que demuestra que P (Y ∈ B) = B g(y1 , ...yn )dy1 ...dyn para
los conjuntos abiertos. Si
R
definimos, para cualquier conjunto C de β n , Q(C) = C g(y1 , ...yn )dy1 ...dyn , por las
propiedades de f y la definición de g, Q será una probabilidad sobre (<n , β n ) que tiene a
g como función de densidad y que coincide con PY en una clase (la de los abiertos) que
es cerrada para intersecciones finitas y que genera la σ-álgebra de Borel β n . Por tanto Q
y PY coinciden y g será función de densidad de PY , es decir, del vector aleatorio Y .
R
2
Problemas propuestos
1. Sea X : Ω → Ω0 una aplicación y C 0 una clase de conjuntos de Ω0 . Probar que se
tiene
σ({X −1 (C 0 ), C 0 ∈ C 0 }) = {X −1 (A0 ), A0 ∈ σ(C 0 )}.
2. Sea (Ω, σ) un espacio medible y B ∈ σ. Probar que si C es una clase que genera
σ, entonces la “σ-álgebra de subespacio” σ B := {H ⊂ B : H ∈ σ} coincide con la
mı́nima σ-álgebra sobre B que contiene a la clase CB = {B ∩ C : C ∈ C}.
3. Se define en <∞ (el espacio de las sucesiones de números reales) la σ-álgebra β ∞
como la mı́nima que hace medibles las proyecciones
πi : <∞ → <, πi (x1 , x2 , ...xn , ...) = xi , i = 1, 2, ...n, ...
Probar que β ∞ es también la σ-álgebra engendrada por las clases
C = {< × < × ...< × Bn × < × ...., Bn ∈ β, n ∈ N } y
D = {B1 × B2 × ... × Bn × < × ...., Bi ∈ β, i = 1, ...n, n ∈ N }
y que D es cerrada para intersecciones finitas.
Probar que X : Ω → <∞ , X = (X1 , X2 , ...Xn , ...) es σ|β ∞ -medible si y sólo si todas
sus componentes Xn , n ∈ N son variables aleatorias σ|β-medibles.
~ : Ω → <m un vector aleatorio m-dimensional tal que X(Ω)
~
4. Sea X
⊂ B ∈ β m . Probar
~ es un vector aleatorio.
que si f : B → <n es continua, entonces f (X)
5. Sea B un conjunto de Borel de < y f : B → < una función creciente. Probar que es
(βB |β−)medible.
6. Sea C una clase que genera la σ-álgebra σ, σ = σ(C). Probar que si X es una variable
aleatoria real σ|β-medible entonces existe una subclase numerable CX ⊂ C tal que X
es σ(CX )|β-medible. Extender el resultado a vectores aleatorios.
7. Probar que una variable aleatoria simple es una aplicación medible que sólo toma un
número finito de valores.
8. Probar que si X e Y son variables aleatorias reales definidas en el espacio medible
(Ω, σ), entonces el conjunto {X > Y } es σ-medible. (Considerar la posibilidad de
que las variables tomen valores infinitos).
13
9. Extender el teorema 1.12 a vectores aleatorios.
10. Sea X una variable aleatoria real con función de distribución F y correspondiente
función cuantil F −1 .
(a) Probar que si F es continua y estrictamente continua entonces F (X) tiene una
distribución uniforme en (0, 1).
(b) Probar que siempre se tiene F (F −1 (x)−) ≤ x ≤ F (F −1 (x)) para cada x ∈ (0, 1).
(c) Deducir que F (X) tiene una distribución uniforme si F es continua (por lo que la
condición de crecimiento estricto en a) es innecesaria). La transformación F (X)
tiene gran interés en Estadı́stica y recibe el nombre de transformación integral.
11. Sea X una variable aleatoria con valores positivos y “pérdida de memoria”:
P (X > x + y/X > y) = P (X > x) si x, y ∈ <+ .
Probar que entonces X tiene una distribución exponencial:
Existe α > 0 tal que P (X > x) = e−αx , x > 0 (= 0 si x ≤ 0).
12. Sean (X, Y ) las coordenadas de un punto obtenido al azar del cuadrado unidad
(0, 1) × (0, 1). Obtener P (X + Y ≤ 21 ) y P (X + Y ≤ 34 ). Si ahora (X, Y, Z) son
las coordenadas de un punto elegido al azar del cubo unidad (0, 1) × (0, 1) × (0, 1),
obtener P (X + Y + Z ≤ 1).
13. Sea X una variable aleatoria con distribución uniforme en el intervalo (−1, 1). Obtener la distribución de las variables |X|, X 2 , y (X + 1)/2.
14. Sea X una variable aleatoria con densidad f (x) =
1
.
π(1+x2 )
Obtener la distribución
de la variable Y = X 2 .
15. Obtener la función de densidad de la variable
de distribución F (x) = (1 − e−x )I[0,∞) (x).
√
X, si X es una variable con función
16. Obtener la función de distribución de la variable Y = X 2 , si X tiene como función
de distribución a
F (x) =


 0 si x < 0
x2 si 0 ≤ x ≤ 1 ·

 1 si x ≥ 1
17. Sean (X, Y ) las coordenadas de un punto obtenido al azar del cuadrado unidad
(0, 1) × (0, 1). Obtener la función de densidad conjunta del vector (U, V ), siendo
U = X + Y, V = X − Y . Obtener la función de densidad marginal de las variables
U y V.
14
18. Probar que la función f (x) =
1 x−µ 2
√ 1 e− 2 { σ }
2π σ
es una función de densidad si µ ∈
< y σ > 0. Una variable aleatoria X con esta función de densidad se denomina
“normal µ, σ” (y suele escribirse L(X) = N (µ, σ), o también X =d N (µ, σ)). Obtener
la función de densidad del cuadrado de una variable N (0, 1).
1
2
2
1 − 2 {x +y }
e
19. Sea (X, Y ) un vector aleatorio con densidad conjunta f (x, y) = 2π
. Obtener las distribuciones marginales y la de la distancia de (X, Y ) al origen.
20. (Aguja de Buffon). Sobre un plano se trazan rectas paralelas equidistantes, separadas
una distancia d. ¿Cuál es la probabilidad de que al lanzar sobre el plano una aguja
de longitud l, l < d, corte alguna recta?
21. (Paradoja de Bertrand). Se elige una cuerda al azar de una circunferencia dada .
¿Cuál es la probabilidad de que sea más larga que el lado del triángulo inscrito en la
circunferencia?
22. (Método de Box-Müller de generación de leyes normales). Sean X e Y las coordenadas de un punto elegido√al azar en el cuadrado unidad
√ (0, 1) × (0, 1). Definimos
las nuevas variables U = −2 log X cos(2πY ) y V = −2 log Xsen(2πY ). Obtener
su densidad conjunta y las densidades marginales.
23. A lo largo de una carretera de 10 Km se han situado al azar 100 personas. ¿Cuál es
la probabilidad de que ninguna pareja de personas diste más de l metros?
24. Un dispositivo electrónico cuenta con n componentes y funciona mientras que una
de estas componentes lo hace. Sabiendo que la función de distribución conjunta de
los tiempos de fallo de las componentes es
F ∗ (x1 , x2 , ...xn ) = Πni=1 F (xi ),
siendo F la función de distribución (común) del tiempo de fallo de cada componente,
obtener la función de distribución del tiempo de fallo del dispositivo.
25. Se eligen tres puntos A, B, C al azar sobre una circunferencia , sea X el valor del
ángulo (interior) ABC. Calcular la distribución de X.
26. Sean X e Y variables aleatorias con función de densidad conjunta h(x, y) = f (x)f (y),
donde f es una función medible y positiva. Obtener las funciones de densidad
marginales y la conjunta del par (T, U ), siendo T y U las variables definidas por
T = X + Y y U = XY .
27. Un vector aleatorio (X, Y ) tiene una distribución uniforme sobre la superficie encerrada por una elipse de semiejes a, b y centro el origen. Calcular las funciones de
densidad conjunta y marginales.
28. Probar que la función
F (x, y) =
0 si x < 0 ó y < 0
·
1 − e−x−y si x ≥ 0 y y ≥ 0
15
no es una función de distribución de un vector aleatorio.
29. Sea (X, Y ) un vector aleatorio con densidad uniforme sobre el cı́rculo x2 + y 2 ≤ 4.
Determinar:
(a) P (Y > kX).
(b) la función de densidad de X.
(c) P (X 2 + Y 2 > 1).
(d) La función de distribución de X 2 + Y 2 .
√
(e) La función de distribución de X 2 + Y 2 .
30. Probar que si F y G son dos funciones de distribución en <, entonces las funciones
H1 (x, y) = F (x)G(y) y H2 (x, y) = min{F (x), G(y)} son funciones de distribución en
<2 . Probar que si f y g son funciones de densidad en <, h(x, y) = f (x)g(y) es una
función de densidad en <2 .
31. Sea (X, Y ) un vector aleatorio con densidad conjunta definida por
f (x, y) = e−x−y si x > 0, y > 0 (y 0 en el resto).
Obtener:
(a) Las distribuciones marginales.
(b) La función de distribución conjunta.
(c) P (X = Y ).
(d) P (X + Y ≤ 4).
(e) La función de distribución de Z = X + Y .
32. Sea X1 , X2 , ...Xn , ... una sucesión de variables aleatorias reales definidas en un espacio
probabilı́stico (Ω, σ, P ). La distribución de la sucesión es la ley de probabilidad
que ésta engendra en (<∞ , β ∞ ). Probar que dos sucesiones de variables aleatorias
reales, X1 , X2 , ...Xn , ..., y Y1 , Y2 , ...Yn , ... son igualmente distribuidas si y sólo si los
vectores aleatorios (X1 , X2 , ...Xn ) y (Y1 , Y2 , ...Yn ) son igualmente distribuidos para
todo n ∈ N .
16