Download Semana 5 La función de distribución 5-1. Introducción 5

Document related concepts
no text concepts found
Transcript
Semana 5
La función de distribución
5-1. Introducción
5-2. Densidades de probabilidad
5-3. La función de distribución
5-4. Resumen
5-1.
Introducción
Hasta ahora nos hemos concentrado prácticamente en las variables discretas.
En el caso discreto hemos visto que la distribución de la variable se puede describir
usando la función de probabilidad puntual.
En este capítulo veremos otros tipos de variables. La forma en la que abordaremos el tema será de carácter general, por lo que todo lo que veamos de ahora en
más también aplicará al caso discreto. Sin embargo, con el correr de los ejemplos
veremos que ciertas características de las variables aleatorias discretas requieren
una definición diferente en el caso general.
De las variables que no son discretas, las más importantes para nosotros serán
aquellas cuya distribución se puede describir mediante densidades de probabilidad.
Estas variables se llaman absolutamente continuas. De todos modos existen variables que no son ni discretas, ni absolutamente continuas. Para poder describir la
distribución de este tipo de variables, no disponemos ni de la función de probabilidad puntual, ni de las densidades, sino que debemos recurrir a lo que se conoce
como función de distribución.
5-2.
Densidades de probabilidad
El concepto de densidad de probabilidad es similar al concepto de densidad
de masa, o de densidad de carga en caso de cargas positivas, que conocemos de los
cursos de física. Por ejemplo, en física y química, la densidad de masa es la cantidad
de masa por unidad de volumen de una sustancia.
La densidad media de un volumen V es por definión
%masa =
m
Masa del cuerpo
=
.
V
Volumen que ocupa
5-1
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-2
En general, un cuerpo está formado por una enormidad de partículas (del orden de
1024 ), y cada una de ellas tiene una masa muy pequeña. Si no deseamos estudiar las
propiedades moleculares de la materia, muchas veces usamos modelos en los cuales
suponemos que las partículas “se aglutina” para formar un continuo. De este modo,
cada punto x del sólido tiene masa cero, pero la masa de un volumen finito, por
más chico que sea, es positiva.
En general nos interesan cuerpos en los cuales la densidad de masa no es uniforme. Esto es, un cuerpo en el cual la densidad alrededor de un punto puede diferir
de la densidad media; en algunos lugares la densidad es mayor que en otros.
Si Vk son pequeños volúmenes decrecientes centrados alrededor de un punto
x, la densidad en el punto es
%masa (x) = lı́m
k!1
mk
dm
=
(x).
Vk
dV
La masa total del cuerpo viene entonces dada por la integral
Z
Masa(Cuerpo) =
%(x)dV (x),
V
en donde V es la región de R que ocupa el cuerpo.
Una densidad de probabilidad juega el mismo papel que la densidad de masa, si
cambiamos la masa por la probabilidad. Como nos centraremos primero en variables
aleatorias a valores reales, las densidades de probabilidad por el momento serán
densidades en un espacio de dimensión uno. Esto equivale a densidades lineales de
masa en física. La única diferencia entre las densidades de masa y las densidades
de probabilidad, es que estas últimas deben integrar siempre 1 pues la probabilidad
total del espacio es siempre 1.
Antes de comenzar con los ejemplos probabilísticos, es importante notar que las
unidades de la densidad de masa no son las unidades de masa. De hecho, la densidad
tiene unidades de masa por unidad de volumen (Kg/m3 ). Del mismo modo, las
densidades de probabilidad no tendrán unidades de probabilidad (las unidades de
probabilidad se pueden pensar como porcentajes), sino que tendrán unidades de,
por ejemplo, probabilidad por unidad de longitud ( %/m). Por tanto, las densidades
de probabilidad no son probabilidades, pero están relacionadas a estas de la misma
forma que la densidad de masa está relacionada a la masa.
3
La distribución de Cauchy
Imaginemos un gas en un contenedor que tiene un pequeño agujero como se
muestra en la figura de abajo. Las moléculas del gas chocan contra las paredes
del contenedor, pero algunas logran escapar por el agujero. La zona inmediata a
las paredes del contenedor se mantiene al vacío, de modo que las moléculas que
salen por el agujero viajan en linea recta hasta que chocan contra una pantalla que
funciona como detector. La pantalla está a distancia L de las paredes del contenedor.
Nos gustaría conocer la probabilidad de que una molécula, que sale del contenedor por el agujero, choque a la pantalla a una distancia x del centro de la figura. Por
supuesto, la probabilidad de que la molécula alcance a la pantalla a una distancia
exactamente igual a x es cero, así que debemos discretizar el modelo y dividir el
rango de valores posibles en intervalos.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-3
Gas
L
pantalla
x=0
x
Llamemos X a la variable aleatoria que indica la distancia al centro (con signo
negativo del lado izquierdo) a la cual choca una molécula del gas con la pantalla.
No vamos a suponer que existen límites superior e inferior para los valores de X,
de modo que el recorrido de la variable coincide con la recta real R.
Dividimos la recta en intervalos, todos de longitud x, con extremos en los
puntos 0, ± x, ±2 , . . .. Llamemos a estos intervalos
Ik = [k x, (k + 1) x] ,
con k entero. Denotamos además por Pk ( x) = P {X 2 Ik } la probabilidad de que
una molécula choque a la pantalla en el intervalo Ik . Nuestro primer objetivo es
calcular Pk ( x).
Para esto, vamos a suponer que las direcciones con las cuales salen las moléculas
por el agujero son todas igualmente probables. Es decir, suponemos que las moléculas no salen con una dirección preferida, sino que la distribución de los ángulos
de salida de las moléculas es uniforme en un intervalo de longitud ⇡.
Debemos calcular entonces el ángulo que sustenta el intervalo Ik visto desde el
centro del agujero. Llamemos a este ángulo ✓k (ver la figura).
✓k
L
Ik
Un poco de trigonometría permite concluir que
✓k ⇡
L2
L x
,
+ (k x)2
siendo la aproximación cada vez mejor a medida que x se hace más pequeño.
Entonces
✓k
L x
Pk ( x) =
⇡
.
⇡
⇡ (L2 + (k x)2 )
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-4
Notar que al achicar x, la probabilidad de que X caiga en Ik se achica también.
De hecho, tenemos que
x
Pk ( x) 
! 0,
⇡L
cuando x tiende a cero. Esto no es sorprendente pues sabemos que la probabilidad
de que X valga un determinado valor puntual es cero.
Que estas probabilidades sean pequñas dificulta su visualización gráfica. Sin embargo, el siguiente truco nos permite evadir la dificultad. En lugar de graficar directamente los valores de Pk ( x), podemos hacer un gráfico de barras en el cual estas
probabilidades vengan dadas por las áreas de las barras. Esto equivale a graficar
barras rectangulares, cuyas bases sean los intervalos Ik , que son todos de longitud
x, y sus alturas sean
%k =
Pk ( x)
L
⇡
.
x
⇡ (L2 + (k x)2 )
Por tanto, las probabilidades se leerán del gráfico midiendo áreas en lugar de alturas.
En la figura de abajo se muestra la aproximación de Pk ( x) con x = 0,1 para
el valor de L = 1. Más adelante veremos como el parámetro L influye sobre la forma
de la distribución.
%k
3
2
1
0
1
2
3
x
En este gráfico las áreas de las barras representan las probabilidades Pk ( x).
Notar que el máximo se da en k = 0 y vale 1/⇡. Las alturas de las barras representan
%k la densidad de probabilidad media de cada intervalo Ik .
Veamos a qué converge este gráfico cuando x tiende a cero. Fijemos x un real
cualquiera y tomemos k un entero tal que x pertenezca al intervalo Ik . No es difícil
ver que para este valor de k, se tiene que k x ⇡ x. Esta aproximación es cada vez
mejor a medida que decrece x. Entonces
%k =
Pk ( x)
L
!
,
2
x
⇡ (L + x2 )
cuando x tiende a cero. Llamando a este límite %(x), concluimos que el gráfico de
barras converge a medida que x tiende a cero al gráfico de la función %(x).
Para resumir, si en lugar de graficar directamente las probabilidades Pk ( x),
graficamos las densidades medias de probabilidad %k , entonces el gráfico converge
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-5
al gráfico de la densidad de probabilidad % que está definida por
Pk ( x)
L
=
.
2
x!0
x
⇡ (L + x2 )
%(x) = lı́m
Esta densidad se conoce con el nombre de densidad de Cauchy.
Una manera informal de interpretar la densidad %(x) es la siguiente: al tomar
límite cuando x tiende a cero, podemos reemplazar x por el infinitésimo dx,
de modo que %(x)dx representa la probabilidad de que la variable X caiga en un
intervalo infinitesimal centrado en el punto x de longitud dx.
Gráfico de la densidad límite
%
3
2
1
0
1
2
3
x
Consideremos un intervalo I = [a, b] en R, y calculemos la probabilidad de que X
caiga en I. Para un cierto valor fijo de x, tomemos k1 x el extremo más cercano
a a y k2 x el más cercano a b. Entonces
P {X 2 I} ⇡
k2
X
k=k1
P {X 2 Ik } =
k2
X
Pk ( x) =
k=k1
k2
X
k=k1
⇡
(L2
L
x.
+ (k x)2 )
Estas son sumas de Riemann de la función %(x), por lo que al hacer
cero obtenemos
Z b
P {X 2 I} =
%(x)dx.
x tender a
a
Dicho en palabras, la probabilidad de que X caiga en un intervalo I es igual al área
de la región comprendida entre I y el gráfico de la función %.
%k
P k2
k=k1
k1
Pk ( x)
k2
x
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-6
%
Rb
a
a
%(x)dx
b
x
En particular, tomando el intervalo I igual a toda la recta, vemos que
Z +1
%(x)dx = P {X 2 R} = 1.
1
Esto simplemente refleja el hecho que las moléculas tocarán la pantalla en algún
lugar de la recta. Esta propiedad es general: el área debajo la curva de una densidad
de probabilidad es siempre igual a 1.
Podemos verificar directamente que la integral es uno en este
%
caso. Notar primero que la primitiva de % es
Z
b
a

⇣x⌘
L
1
dx =
arctan
⇡ (L2 + x2 )
⇡
L
Luego, al tomar límites cuando
a ! 1 y b ! +1 obtenemos
Z +1
L
dx = 1.
2
2
1 ⇡ (L + x )
b
.
a
L = 1/4
Podemos intuir la influencia de
L en la forma de la distribución
de X, pensando físicamente en casos extremos para los cuales L es
L=2
pequeño o respectivamente grande. Si la pantalla está muy cerca
del agujero, la mayoría de las mox
3
2
1
0
1
2
3
léculas chocaran cerca del centro,
por lo que la distribución de X se
concentra más sobre x = 0. Recíprocamente, cuando la pantalla está muy lejos del agujero, una pequeña diferencia
de ángulos hace que las moléculas toquen la pantalla en lugares muy distantes. Esto
da como resultado una distribución de X mucho más esparcida, en donde el ancho
de la campana es mayor. Esto lo podemos ver fácilmente en la figura de abajo.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-7
De hecho, L es un indicador de cuán lejos caen las moléculas sobre la pantalla.
Por ejemplo
Z kL
L
arctan(k) arctan( k)
P {|X|  kL} =
dx =
.
2
2
⇡
kL ⇡ (L + x )
Para k = 1 el resultado es P |X|  L = 1/2, por lo que esperamos ver que la mitad
de las moléculas caen a una distancia menor que L del origen. Para k = 2 vemos
que P {|X|  2L} ⇡ 0,70 y para k = 3 es aproximadamente 0,80.
Definición de densidad de probabilidad
Una densidad de probabilidad es una función % : R ! R integrable que cumple
las dos condiciones siguientes:
1. Es positiva: %(x)
0 para todo x 2 R;
2. Integra uno:
Z
+1
%(x)dx = 1.
1
Es importante hacer notar dos cosas. La primera es que una densidad de probabilidad no tiene porque ser menor o igual a uno. Por ejemplo, la densidad de Cauchy
alcanza el máximo en x = 0 y este vale 1/⇡L, que es mayor que 1 si L < 1/⇡.
La segunda es que una densidad de probabilidad no tiene porque ser continua.
Consideremos el siguiente ejemplo: supongamos que el experimento consiste en elegir
un punto X con distribución uniforme en un intervalo I. Sabemos que para todo
intervalo J, contenido o no en I, la probabilidad de que X caiga en J viene dada
por
Long(J \ I)
P {X 2 J} =
.
Long(I)
Esto lo podemos escribir de la siguiente manera
P {X 2 J} =
Z
%(x)dx, en donde %(x) =
J
(
1
Long(I)
0
%
1
Long(I)
x
I
Densidad de la distribución uniforme
si x 2 I;
si x 2
/ I.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-8
Claramente % no es continua en los extremos de los intervalos, pues tiene un salto
de cero a una constante positiva en dichos puntos.
Ahora que disponemos de la noción de densidad de probabilidad, podemos definir
las variables aleatorias absolutamente continuas.
Definición. Una variable aleatoria X es absolutamente continua si existe una densidad de probabilidad %X tal que
Z
P {X 2 I} = %X (x)dx,
I
para todo intervalo I de R.
La distribución normal o gaussiana
La distribución normal es una de las distribuciones más importantes en probabilidad y estadística. Si bien la historia de su descubrimiento y desarrollo es muy
rica en anécdotas, nos centraremos en la forma original con la cual Gauss derivó
una fórmula para la densidad de probabilidad de esta distribución.
La fórmula de Gauss
Gauss estaba interesado en el problema de estimar el valor real de una cierta
cantidad medible a partir de observaciones empíricas. Específicamente, imaginemos que el valor real, y desconocido, de una cierta cantidad medible es µ, y que
disponemos de las observaciones
M1 , M2 , . . . , Mn .
El objetivo es estimar µ a partir de estas observaciones. La idea es la siguiente:
supongamos que nuestras mediciones empíricas son de la forma
Mi = µ + E i ,
en donde Ei es el error, que supondremos aleatorio, que cometemos en la i-ésima
medición. Gauss se propuso derivar una fórmula para la densidad de la dsitribución
de los errores, un problema conocido en la época como el problema de la curva de
error. Sus criterios para realizar esto se basaron en supuestos sobre las propiedades
generales de los errores:
1. Los errores pequeños son más comunes que los errores grandes.
2. Es igual de probable cometer un error positivo que uno negativo de igual
magnitud.
3. Los errores cometidos en mediciones distintas son independientes.
Si llamamos de '(✏) a la densidad de probabilidad del error, estos supuestos se
traducen en:
1. Si 0 < ✏1 < ✏2 , entonces '(✏1 )
'(✏2 ).
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-9
2. Para todo ✏, se tiene '(✏) = '( ✏).
3. Las variables E1 , . . . , En son independientes.
Existen muchas curvas de error ' posibles que cumplan estos supuestos. Sin embargo, Gauss supuso un cuarto ingrediente fundamental:
En presencia de varias mediciones de la misma magnitud, el valor más
probable de la cantidad que se mide es su promedio.
Con este último ingrediente Gauss fue capaz de derivar una fórmula para '.
Gauss asumió que la densidad era derivable, cosa que por supuesto también
haremos nosotros. Consideremos la cantidad
f (✏) =
'0 (✏)
,
'(✏)
en donde '0 es la derivada de '. Si derivamos la igualdad '(✏) = '( ✏) dada en el
supuesto 2, obtenemos '0 (✏) = '0 ( ✏), de donde
f (✏) =
'0 (✏)
'0 ( ✏)
=
=
'(✏)
'( ✏)
f ( ✏).
En otras palabras, f ( ✏) = f (✏).
El supuesto 3 sobre la independencia de los errores en las distintas mediciones,
implica que la probabilidad de observar
el error E1 en un intervalo pequeño I1 de tamaño
✏1 centrado en ✏1 ,
el error E2 en un intervalo pequeño I2 de tamaño
✏2 centrado en ✏2 ,
el error En en un intervalo pequeño In de tamaño
✏n centrado en ✏n ,
..
.
esta dada por
P {E1 2 I1 , . . . , En 2 In } =
n
Y
i=1
P {Ei 2 Ii } ⇡
n
Y
'(✏i ) ✏i .
i=1
Fijemos de ahora en más la longitud de los intervalos I1 , . . . , In como siendo todas
iguales a ✏, suficientemente pequeña para que la aproximación en la expresión
anterior sea válida. Lo importante aquí es simplemente fijar este valor para que
no intervenga en los argumento que haremosQa continuación. De este modo, la
probabilidad será máxima cuando el producto ni=1 '(✏i ) sea máximo.
Observar que podemos escribir los errores en función de las mediciones y del
valor desconocido µ, como Ei = Mi µ. El cuarto y último supuesto de Gauss, se
traduce entonces en que el valor más probable para µ, esto es el que maximiza el
producto
n
Y
F (µ) =
'(Mi µ),
i=1
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-10
es el promedio
M 1 + · · · + Mn
n
de las n mediciones. Esta condición implica que si derivamos F y la evaluamos en
µ = M el resultado debe ser cero.
Calcular la derivada de F no es difícil pero sí un poco largo, así que lo dejamos
como ejercicio. Al derivar, obtenemos
⇣
⌘
dF
(µ) = f (M1 µ) + · · · + f (Mn µ) F (µ).
dµ
M=
Entonces, si sustituimos µ = M e igualamos a cero, obtenemos la ecuación
f M1
M + · · · + f Mn
M = 0.
Esta ecuación debe ser satisfecha cualesquiera sean las mediciones, y estas pueden
ser cualquier valor real. En particular, si
M1 = ↵, y M2 = · · · = Mn = ,
entonces la condición anterior implica
✓
✓
◆◆
✓
◆
↵
↵+
f (n 1)
= (n 1)f
=
n
n
(n
1)f
✓
↵
n
◆
.
Si llamamos x = (↵
)/n, que puede ser cualquier real eligiendo adecuadamente ↵
y ; y llamamos m = n 1 que puede ser cualquier entero, llegamos a la conclusión
de que la función f debe cumplir la ecuación
f (mx) = mf (x),
para todo real x y todo entero positivo m. Se puede ver que las únicas funciones
que cumplen con esta condición son las lineales: es decir f (x) = kx.
Observemos a lo que hemos llegado: hemos probado que existe una constante
k > 0 tal que
'0 (✏)
= k✏.
'(✏)
Si integramos en ambos lados de esta igualdad, luego de algunos cálculos, concluímos
que
2
'(✏) = Ce k✏ ,
en donde C es una constante de integración. Esta es la fórmula mágica a la cual
Gauss llegó y que conocemos hoy como densidad de la distribución normal.
Definición de la distribución normal
La constante k en la fórmula de Gauss no se puede determinar a priori y es un
parámetro de la distribución, al igual que lo era la constante L en la distribución
de Cauchy. De hecho juega el mismo papel que L. Una vez elegida esta constante k,
podemos calcular la constante C, pues
p sabemos que las densidades de probabilidad
deben integrar uno. De hecho C = k/⇡, pero esto lo haremos más adelante. En
la actualidad, cuando k = 1/2 la densidad ' se llama normal estándar.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-11
Definición. La densidad normal estándar es la función
1
'(x) = p e
2⇡
x2
2
definida para todo x real. Una variable aleatoria X tiene distribución normal estándar si es absolutamente continua y su densidad es '.
El gráfico de la función ' es conocido como la campana de Gauss. Es similar al
gráfico de la densidad de Cauchy, salvo que tiende a cero exponencialmente cuando
|x| tiende a infinito.
Gráfico de la densidad normal estándar
'
3
2
1
0
1
2
3
x
Para verificar que ' es una densidad de probabilidad, debemos probar que integra uno. La forma natural de integrar una función es calcular una primitiva, pero
¿Cuál es la primitiva de '(x)? Un teorema de Risch afirma que ' no tiene una primitiva elemental. Esto quiere decir que la primitiva de ' no tiene una fórmula que
se pueda escribir, mediante el uso de composiciones, sumas, restas, multiplicaciones
y divisiones, a partir de un número finito de exponenciales, logaritmos, funciones
trigonométricas y raíces n-ésimas.
Sin embargo, un truco astuto nos permite calcular la integral de '. El método se
debe a los matemáticos Euler y Poisson, por lo que esta integral lleva sus nombres.
Proposición (La integral de Euler-Poisson). La integral de ' en toda la recta real
vale 1:
Z +1
x2
1
p
e 2 dx = 1
2⇡ 1
Demostración. El truco consiste en calcular una integral similar en dos dimensiones
y pasar a coordenadas polares. En coordenadas polares de R2 , para integrar una
función f : R2 ! R hay que usar la fórmula
Z
Z
f (x, y) dx dy =
f (r, ✓)r dr d✓.
A
A
Consideremos la función f (x, y) = e
ZZ
Z 2⇡ Z
(x2 +y 2 )
2
e
dx dy =
R2
0
(x2 +y 2 )
1
0
e
. Entonces
r2
2
r dr d✓ = 2⇡
Z
1
0
re
r2
2
dr = 2⇡
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
Por otro lado
ZZ
De acá resulta
e
x2 +y 2
2
dx dy =
R2
Z
+1
e
u2
✓Z
du =
+1
u2
2
e
5-12
du
1
p
◆2
.
2⇡,
1
que es lo que queríamos demostrar.
Si X tiene distribución normal estándar, para calcular la probabilidad de que
X pertenezca a un cierto intervalo I debemos calcular la integral
Z
P {X 2 I} = '(x)dx.
I
Como no conocemos la primitiva de ', no podemos calcular esta integral. Para
resolver este problema, se han hecho tablas que contienen aproximaciones para
la integral de '. En la actualidad también podemos usar las computadoras para
calcular estas aproximaciones.
Notar que si I = [a, b], la integral anterior se puede escribir como la diferencia
Z
Z b
Z a
'(x)dx =
'(x)dx
'(x)dx = (b)
(a),
1
I
1
en donde hemos puesto
(y) =
Z
y
'(x)dx.
1
Interpretación gráfica de
(x)
'
(x)
3
2
1
0
x
1
2
3
La función se conoce con el nombre de función de distribución acumulada de
la densidad normal estándar. Más adelante explicaremos en detalle la relación entre
la función de distribución acumulada y la densidad de una variable, por el momento
solo decimos que (x) representa el área debajo el gráfico de ' desde 1 hasta x.
En términos probabilísticos (x) representa la probabilidad de que X sea menor i
igual a x:
(x) = P {X  x} .
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-13
Figura 5.1: Tabla de la distribución Normal.
En conclusión, para calcular probabilidades que involucran una variable con
distribución normal estándar, es suficiente conocer los valores de (x) para todo x
real. Esto es lo que encontramos en las tablas de la distribución normal.
Simetría de la densidad normal estándar
'
( x)
3
1
2
x
1
0
1
x
2
(x)
3
La lectura directa de la tabla consiste en, dado x, hallar (x). Así, por ejemplo
(2,31) = 0,9896. Notar que la tabla no provee los valores (x) para valores negativos de x. Sin embargo, podemos usar la simetría de la densidad normal (igualdad
de áreas de abajo en la figura) para deducir que
( x) = 1
(x).
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
Así, por ejemplo
( 0,67) = 1
(0,67) = 1
La densidad normal de parámetros µ y
5-14
0,7486 = 0,2514.
2
La densidad normal puede estar centrada en otro lugar y tener un “ancho” de
campana distinto al de la normal estándar. La definición general de la distribución
normal es la siguiente.
Definición. Una variable aleatoria X tiene distribución normal de parámetros µ 2
R y > 0 si es absolutamente continua y su densidad es igual a
1
'µ, 2 (x) = p e
2⇡
Esto lo escribimos X ⇠ N (µ,
2
(x µ)2
2 2
.
).
El parámetro µ se llama la media o promedio de X y el desvío estándar. Más
adelante justificaremos esta terminología. Recordamos que la definición anterior
quiere decir que para todo a < b vale
Z b
P {a  X  b} =
'µ, 2 (x)dx.
a
En las figuras que siguen vemos como cambia el gráfico de 'µ, 2 al variar los parámetros µ y .
La interpretación de µ y
es la siguiente. El parámetro µ es el valor “más
probable”, es el centro de simetría de la gráfica de 'µ, 2 , y los valores de X se
concentran entorno a µ. El parámetro representa el ancho de la campana, y por
lo tanto, cuán lejos de µ están los valores X. Por ejemplo, la probabilidad
P {|X
µ|  k }
está representada en la tercer gráfica de abajo, para k = 1, 2, 3.
Variando µ
'µ,1
µ=
3
1/2
µ = 1/2
2
1
0
1
2
3
x
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-15
Variando
'0,
= 1/4
=
3
2
1
0
1
2
p
2
3
x
Normalizando
¿Cómo se calcula una probabilidad para una normal? El método consiste en dos
pasos:
Estandarización: reducción al caso N (0, 1).
Uso de una tabla de la normal estándar.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-16
Si X tiene distribución normal de parámetros µ y , esto es X ⇠ N (µ,
a < b, entonces
⇢
a µ
X µ
b µ
P {a  X  b} = P
<

,
2
y como
X µ
), y
tiene distribución normal estándar, vemos que
✓
◆
✓
◆
b µ
a µ
P {a  X  b} =
Veamos un ejemplo de cálculo. Supongamos que X ⇠ N (1,5, 4), por lo que
µ = 1,5, y
2
= 4.
Notar que
= 2. Que queremos calcular P {0,16 < X < 6,12}. Como vimos
✓
◆
✓
◆
6,12 1,5
0,16 1,5
P {0,16 < X < 6,12} =
2
2
= (2,31)
( 0,67) = 0,9896 0,2514 = 0,7382.
Por lo tanto P {0,16 < X < 6,12} = 0,7382.
Leyendo la tabla “al revés”
Por último, observamos que la tabla de la normal estándar se puede leer “al revés”.
La lectura inversa de la tabla consiste en, dado un valor p 2 (0, 1) para una probabilidad, queremos hallar el valor xp tal que (xp ) = p. Para valores que no aparecen
en la tabla se usa interpolación lineal.
Por ejemplo, si p = 0,95, como (1,64) = 0,945, (1,65) = 0,955, y
0,95 = (0,945 + 0,955)/2
entonces x0,95 ⇡ (1,64 + 1,65)/2 = 1,645.
La Distribución Exponencial
Como veremos un poco más adelante la distribución exponencial se obtiene como
límite de variables aleatorias geómetricas y como tal se interpreta como la versión
“continua” de dicha distribución. En general se puede pensar a X como el tiempo
que hay que esperar hasta que un cierto fenómeno ocurra.
Decimos que una variable aleatoria tiene distribución exponencial de parámetro
> 0 y lo notamos X ⇠ Exp( ) si X es absolutamente continua y tiene densidad
(
e x si x 0,
fX (x) =
0
si x < 0.
En la figura 5.2 se muestra esta densidad para distintos valores de .
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-17
Figura 5.2: Densidad de una variable aleatoria con distribución Exponencial de
parámetro .
Proposición. Sea > 0 un parámetro fijo. Para cada n 2 N se consideran las
variables aleatorias Xn ⇠ Geom(pn ), con pn = n . Entonces, para todo t 2 R+ vale
⇢
Z +1
1
lı́m P
Xn > t =
e s ds = e t
n!+1
n
t
Demostración. Recordemos que para todo k
P {Xn = k} = (1
pn )
Entonces, para T > t fijo, tenemos
⇢
1
P t < Xn  T =
n
Observar que
✓
1
n
◆k
1
=
✓
1
k 1
1
pn =
X
k
k2N:t< n
T
n
◆n
✓
1
✓
n
1
◆k
n
1
n
◆k
(k 1)
n
⇠e
.
1
n
.
(k 1)
n
T
t
Dividimos en segmentos de longitud 1/n
Si se divide el intervalo [t, T ] en segmentos de longitud  1/n, y se considera
✓
◆
k 1 k
1
k 1
sk = longitud
,
= y sk =
,
n n
n
n
resulta que:
⇢
1
P t < Xn  T
n
=
X
k
k2N:t< n
T
e
sk
sk !
n!1
Z
T
e
t
s
ds.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
Haciendo T ! +1:
lı́m P
n!+1
⇢
1
Xn > t
n
que es lo que queríamos demostrar.
=
Z
5-18
+1
e
s
ds,
t
Interpretación del parámetro
Se divide la recta positiva R+ en intervalos de longitud 1/n y se tira una moneda
cargada con probabilidad de que salga cara igual a pn = /n. La primera vez que
obtenemos cara, decimos que en ese intervalo Xn ocurrió el fenómeno de interés.
Obtenemos entonces que n1 Xn es el tiempo total y vimos que esto tiene distribución
exponencial cuando n es grande. Notar entonces que cuánto más grande menos
hay que esperar. Además se cumple que
P {T  t}
= FT0 (0).
t!0
t
= lı́m
En la próxima sección probaremos que al igual que la distribución Geométrica,
la distribución exponencial cumple una propiedad de pérdida de memoria. Ejemplos
de esta distribución son el tiempo de vida útil de aparatos electrónicos, el tiempo
entre llamadas de una central telefónica o el intervalo de tiempo entre terremotos
(o goles de un mundial).
5-3.
La función de distribución
Hasta ahora hemos visto ejemplos de variables aleatorias discretas o absolutamente continuas (aquellas que tienen densidad), sin embargo existen variables
aleatorias que no pertenecen a ninguna de esta categorías. Para este tipo de variables aleatorias, su distribución queda determinada por la función de distribución.
Veamos un ejemplo de una variable aleatoria X que no es discreta ni absolutamente continua. Se lanza una moneda tal que la probabilidad de que salga cara es
p con 0 < p < 1:
si sale cara: X toma el valor 0,
si sale número: X toma un valor elegido al azar en el intervalo [0, 1].
La variable X así definida toma valores en el intervalo [0, 1], por lo tanto es claro
que X no es discreta. Por otro lado
P {X = 0} = P {X = 0|Cara} P {Cara} + P {X = 0|Cruz} P {Cruz} =
= 1 ⇥ p + 0 ⇥ (1 p) = p > 0.
Esto implica que X no puede ser absolutamente continua ya que en ese caso
P {X = 0} debería ser nula.
¿Cómo podemos entonces representar la distribución de X? La respuesta es mediante las probabilidades acumuladas o lo que es lo mismo la función de distribución.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-19
Definición. Sean ⌦ un espacio muestral, P una probabilidad en ⌦, y X : ⌦ ! R
una variable aleatoria. La función
FX : R ! R
definida por FX (t) = P {X  t} con t 2 R,
se llama función de distribución (acumulada) de la variable X.
Figura 5.3: La función de distribución está bien definida.
La primer observación respecto de la definción es que los conjuntos de la forma
{X  t} son sucesos de ⌦ y podemos por tanto calcular su probabilidad (ver Figura
5.3). Veremos que la función de distribución es una manera de condensar toda
la información sobre las probabilidades de los diversos resultados de una variable
aleatoria. La información queda representada de forma compacta y visualizable.
Una variable que no es ni discreta ni absolutamente continua
Calculemos entonces la función de distribución de la variable aleatoria X definida
antes. Por como está definida la variable, tenemos que:
FX (t) = P {X  t} = pP {X  t|Cara} + (1
p)P {X  t|Cruz}
Más aún, es claro que FX (t) = 0 8 t < 0 (pues X 0) y que FX (t) = 1 8 t 1
(pues X  1). Consideremos entonces 0  t < 1. Sabemos que la distribución de
elegir un número al azar en el intervalo [0, 1] es uniforme en dicho intervalo, es decir:
P {X  t|Cruz} =
Long([0, t])
= t.
Long([0, 1])
Además P {X  t|Cara} = 1. Resulta entonces
8
>
<0
FX (t) = p + (1 p)t
>
:
1
que:
si t < 0,
si 0  t  1,
si t > 1.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-20
FX (t)
1
p
0
t
1
Observar que la función de distribución tiene una discontinuidad en el punto t = 0. La discontinuidad es de tipo salto y la altura del salto coincide con
P {X = 0} = p. Para el resto de los puntos (0 < t  1) la función de distribución
es continua en t y se cumple que P {X = t} = 0. Veremos más adelante que éstas
dos propiedades se cumplen en general para cualquier función de distribución.
A pesar de que este ejemplo pueda parecer artificioso, lo cierto es que este tipo de
distribuciones aparecen también en experimentos reales. Por ejemplo, se considera
el experimento de elegir una persona al azar entre los habitantes de Montevideo
y se define la variable aleatoria X como su ingreso promedio anual. Considerando
que existe una proporción p de habitantes que no trabajan tendremos como en el
ejemplo anterior que P {X = 0} = p mientras que es razonable suponer que para
los valores positivos existe una densidad (claramente no uniforme pero densidad al
fin). Otro ejemplo similar sería el de elegir una lamparita al azar de un contenedor
proveniente de China, y definir la variable aleatoria X como el tiempo de vida
de dicha lamparita. En este caso P {X = 0} = p corresponde a la proporción de
lamparitas defectuososas del lote, mientras que para aquellas lamparitas sanas (X >
0) es razonable suponer que el tiempo de vida se distribuye de acuerdo a una
distribución exponencial.
La función de distribución determina la distribución de una v.a.
Conocer FX la función de distribución de X nos permite calcular la probabilidad
de que X pertenezca a cualquier intervalo de la forma (a, b] ya que se cumple que:
P {a < X  b} = FX (b)
FX (a)
Para probar la igualdad anterior basta observar que
{X  b} = {X  b} [ {a < X  b},
y que la unión es disjunta. Luego
P {X  b} = P {X  a} + P {a < X  b} .
En nuestro ejemplo, tendríamos por ejemplo que:
⇢
1
P 0<X
= FX (1/2) FX (0) = p + (1
2
p)
1
2
1
p = (1
2
p).
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-21
Observar que dada la discontinuidad en el origen de la función de distribución, se
tiene que
⇢
⇢
1
1
1
1
P 0X
=P 0<X
+ P {X = 0} = (1 p) + p = (1 + p).
2
2
2
2
Propiedades de la función de distribución.
Sean ⌦ un espacio muestral, P una probabilidad en ⌦, y X : ⌦ ! R una variable
aleatoria con función de distribución FX . La función de distribución FX cumple las
siguientes propiedades:
1. La función FX es no decreciente: si a < b ) FX (a)  FX (b).
Esto es porque FX (b)
FX (a) = P {a < X  b}
2. Se cumple que 0  FX (t)
lı́m FX (t) = 1.
0.
1 8 t 2 R. Además lı́m FX (t) = 0 y
t! 1
t!+1
La primer desigualdad es trivial pues FX (t) es una probabiliad y las probabilidades toman valores entre 0 y 1.
Por otro lado como FX es monótona, ambos límites existen. Para cada n 2 N
consideremos los eventos:
An = {X 
n} y Bn = {X  n}.
Observar que {An } es decreciente,
T y además, como X no puede ser menor que
n para todo n, tenemos que n An = ;.
Por el Teorema de Continuidad:
lı́m FX ( n) = lı́m P {(X 
n!+1
n!+1
n)} = lı́m P {An } = P
n!+1
S
(
\
n
An
)
=0
Notar que {Bn } es creciente y que n Bn = ⌦ ya que X algún valor debe
tomar. Por el Teorema de Continuidad:
(
)
[
lı́m FX (n) = lı́m P {(X  n)} = lı́m P {(Bn )} = P
Bn = 1.
n!+1
n!+1
n!+1
n
3. La función de distribución FX es continua por la derecha.
Sea t 2 R arbitrario. Como FX es monótona, el límite
Queremos ver que vale FX (t).
lı́m FX (s) existe.
s!t,s>t
Para cada n 2 N, sea An = t < X  t + n1 . Otra vez, por el Teorema de
Continuidad:
✓
◆
1
lı́m FX t +
FX (t) = lı́m P {An } = 0.
n!+1
n!+1
n
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
4. FX tiene límite a izquierda:
5-22
lı́m FX (s) = P {(X < t)}.
s!t, s<t
Se deduce del Teorema de Continuidad aplicado a la sucesión:
⇢
1
An = X  t
,
n
S
ya que es creciente y n An = {X < t}.
5. La función FX es continua en t0 2 R si, y solo si, P {X = t0 } = 0.
Se deduce del Teorema de Continuidad y la siguiente desigualdad:
0  P {X = t0 }  P {t0
h < X  t0 } = FX (t0 )
FX (t0
h)
6. Si FX tiene una discontinuidad en t0 2 R, el salto es P {(X = t0 )}.
El salto es la diferencia de los límites a derecha e izquierda:
lı́m
s!t0 ,s>t0
FX (s)
lı́m
s!t0 ,s<t0
FX (s) = P {X  t0 }
P {X < t0 } = P {X = t0 } .
Propiedades que caracterizan a una función de distribución.
Las propiedades 1 a 4 caracterizan a una función de distribución, es decir que si
una función F : R ! R cumple las propiedades 1 a 4, entonces existe una variable
aleatoria X definida en un espacio muestral ⌦, y una probabilidad P en ⌦, tales
que FX = F . Esto es la función de distribución de X coincide con la función F
dada. La prueba de esta afirmación escapa a los objetivos de estas notas, pero las
dificultades que aparecen en su prueba son similares a las que ya fueron comentadas
al definir una distribución uniforme en un intervalo.
Función de distribución de variables aleatorias discretas.
Si bien la función de distribución aparece ante la necesidad de tratar con variables aleatorias que no son ni discretas ni absolutamente continuas, es claro que dicha
función está definida también para cualquier tipo de variable aleatoria. Comencemos
con las variables aleatorias discretas.
El ejemplo más sencillo de variable aleatoria discreta es la indicatriz de un
evento: sean ⌦ un espacio muestral, P una probabilidad en ⌦, y A ⇢ ⌦ un evento.
La indicatriz de A es la variable aleatoria siguiente:
(
1 si ! 2 A.
1A (!) =
0 si ! 2
/ A.
Es fácil ver que la variable aleatoria X := 1A tiene distribución Bernoulli de parámetro p = P {A}.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
La función de distribución de X resulta
8
>
<0
FX (t) = 1 p
>
:
1
5-23
entonces:
si t < 0,
si 0  t < 1,
si t 1.
En este caso la función de distribución tiene dos discontinuidades de tipo salto
en los valores x = 0 y x = 1. La altura de los saltos corresponde a las probabilidades
puntuales de dichos valores esto es 1 p = P {X = 0} y p = P {X = 1}, t5al como
podemos ver en la Figura 5.4
F(t)
P(A)
1-P(A)
0
1
t
Figura 5.4: Función de distribución de una variable aleatoria Bernoulli de parámetro
p = P {A}.
Notar que la suma de las alturas de todos los saltos es 1.
Función de distribución de la suma de dos dados.
Considemos la variable aleatoria discreta X definida como la suma del lanzamiento de dos dados. Las probabilidades puntuales están dadas por:
P {X = 2} = P {X = 12} =
1
,
36
P {X = 3} = P {X = 11} =
2
,
36
P {X = 4} = P {X = 10} =
3
,
36
P {X = 5} = P {X = 9} =
4
,
36
P {X = 6} = P {X = 8} =
5
,
36
P {X = 7} =
6
.
36
En la Fig. 5.5 se muestra la función de distribución de X. Las probabilidades puntuales se van acumulando y por lo tanto la función de distribución resulta ser una
“escalera” con escalones en los valores xi del recorrido de la variable (en este caso los
naturales entre 2 y 12) y tal que la altura del escalón (del salto) es la probabilidad
pi = P {X = i} de que la variable tome el valor xi .
Tal como puede verse en la figura, los saltos son simétricos y el salto más grande
se da en el valor 7. Este es en general el aspecto de una variable aleatoria discreta
con recorrido finito (en un número finito de saltos la función de distribución llega
al valor 1).
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-24
Figura 5.5: Función de distribución de la suma de dos dados.
Variable aleatoria discreta con recorrido numerable.
Otro ejemplo está dado por la variable aleatoria X cuyo recorrido es un conjunto
discreto numerable S tal que:
S = {1, 1/2, . . . , 1/n, . . .} [ {0} y
pi = P {X = si } =
1
2·2i
para todo i
1 y p0 = 1/2 (observar que
P
pi = 1).
i 1
En la figura 5.6 puede verse el gráfico de la función de distribución de X:
Figura 5.6: Función de distribución de X.
En general la función de distribución de una variable aleatoria X discreta con
recorrido RX , es:
X
FX (t) =
P {X = x} ,
x2RX ,xt
y su gráfica tiene forma de “escalera” con escalones en los valores x 2 RX y altura
del escalón en P
x igual a P {X = x}. Observar que la suma de la altura de los saltos
coincide con
P {X = x} = 1.
x2RX
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-25
Función de distribución de variables aleatorias absolutamente
continuas.
Sea X una variable aleatoria absolutamente continua con densidad fX . Entonces
FX la función de distribución de X está dada por:
FX (t) = P {X  t} = P {X 2 ( 1, t]} =
Zt
fX (x)dx
1
Por lo tanto la función de distribución en este caso puede verse como el área
bajo la densidad en el intervalo ( 1, t].
Distribución Uniforme
Sea X ⇠ U[a, b] una v.a con distribución Uniforme en el intervalo [a, b]. Sabemos
entonces que:
(
1
si x 2 [a, b]
fX (x) = b a
0
en otro caso.
Obervar que P {X  a} = 0 lo que implica que FX (t) = 0 8 t < a. Además
P {X  b} = 1, y por tanto FX (t) = 1 8 t > b. Sea ahora t 2 [a, b]:
FX (t) =
Zt
1
fX (x)dx =
Por lo tanto la función de distribución
8
>
<0
FX (t) = bt aa
>
:
1
Zt
1
b
a
dx =
t
b
a
.
a
a
resulta ser (ver Figura 5.7):
si t < a,
si a  t  b,
si t > b.
F(t)
1
a
b
t
Figura 5.7: Función de distribución de una v.a. Uniforme en el intervalo [a, b].
Observar que si derivamos la función de distribución se obtiene la densidad.
Distribución Exponencial
Sea X ⇠ Exp( ) una v.a con distribución Exponencial de parámetro
Sabemos entonces que:
> 0.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
fX (x) =
(
5-26
FX (t)
si x < 0
si x 0.
0
e
x
1
=5
Obervar que P {X  0} = 0 lo que implica que FX (t) = 0 8 t < 0. Sea ahora
t 0:
FX (t) =
=
Zt
1
e
fX (x)dx =
= 1/4
Zt
e
x
dx
t=1
0
x t
|0
=1
e
=1
t
t
.
Por lo tanto la función de distribución resulta ser
(
0
FX (t) =
1 e
t
si t < 0,
si t 0.
Observar que nuevamente si derivamos la función de distribución se obtiene la densidad.
Propiedad de pérdida de memoria
Tal como mencionamos antes la disribución exponencial verifica la siguiente propiedad de pérdida de memoria: dados s, t > 0,
P {X > s + t|X > s} = P {X > t}
Por definición de probabilidad condicional, tenemos que:
P {X > s + t, X > s}
P {X > s + t}
1 FX (t + s)
=
=
P {X > s}
P {X > s}
1 FX (s)
(t+s)
e
=
= e t = P {X > t}
e s
P {X > s + t|X > s} =
Se puede probar además que si X es una variable aleatoria absolutamente continua
que verifica la propiedad de pérdida de memoria, entonces existe > 0 tal que X
tiene distribución Exponencial con parámetro .
Relación entre la función de distribución y la densidad.
Sea X una variable aleatoria con densidad fX y tal que su función de distribución
FX es derivable en todo punto t 2 R. Se cumple entonces que:
FX (t + h)
h!0
h
FX0 (t) = lı́m
FX (t)
P {t < X  t + h}
= fX (t).
h!0
h
= lı́m
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-27
Distribución Cauchy
Sea Z ⇠ C(0, 1) una v.a con distribución Cauchy de parámetros 0 y 1. Sabemos
entonces que:
fZ (x) =
1
⇡(1 + x2 )
8 x 2 R.
Por lo tanto, 8 t 2 R resulta que:
FZ (t) =
Zt
1
fZ (x)dx =
Zt
1
⌘ 1 1
1
1 ⇣⇡
dx
=
+
arctan(t)
= + arctan(t).
⇡(1 + x2 )
⇡ 2
2 ⇡
Por otro lado, tenemos que X ⇠ C(M, b2 ) con b > 0 si y solo si X = M Z + b,
por lo que tenemos que:
⇢
✓
◆
t b
t b
FX (t) = P {X  t} = P {M Z + b  t} = P Z 
= FZ
M
M
✓
◆
1 1
t b
=
+ arctan
.
2 ⇡
M
Derivando, obtenemos la densidad de X:
fX (t) = FX0 (t) =
1
1
⇡ M (1 + ( tMb )2 )
8 t 2 R.
En la figura 5.8 se muesta la función de distribución de una v.a. Cauchy y su
comparación con una v.a. Normal con los mismos parámetros. Observar que no existe fórmula explícita para la función de distribución Normal y que está se obtiene a
través de las tablas disponibles para la Normal éstandar (ver la figura “Interperetación gráfica de (x) de la sección anterior).
Observar que en este último caso hemos obtenido la función de distribución de
X = g(Z) con g(x) = M x + b, a partir de la función de distribución de Z. En lo
que sigue veremos en forma más general como calcular la función de distribución
de la variable aleatoria g(X) a partir de FX .
Funciones de variables aleatorias
Dada una variable aleatoria X con distribución FX y una función g : R ! R
queremos hallar la función de distribución de la variable aleatoria g(X).
Consideremos en primer lugar el caso de que X sea discreta con recorrido RX .
Por lo tanto la variable g(X) es también una variable aleatoria discreta que toma
valores en el conjunto Rg(X) = {g(x) : x 2 RX }. Además se tiene que:
P {g(X) = y} =
X
x2RX ,g(x)=y
P {X = x} .
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-28
Figura 5.8: Función de distribución de una v.a. Cauchy y su comparación con una
v.a. Normal.
Notar que si la función g es biyectiva en RX entonces P {g(X) = g(x)} = P {X = x}.
En este caso, la gráfica de la función de distribución de g(X) resulta una escalera
con los escalones en los valores g(x) con x 2 RX mientras que la altura de los saltos
coinciden con las alturas de los saltos de la variable X.
Ejemplos con v.a. discretas
1. Sea X ⇠ Ber(p) una v.a. Bernoulli de parámetro p y la función g(x) = x2 .
Queremos hallar la distribución de g(X) = X 2 .
Observar RX 2 = {0, 1}. Además tenemos que P {X 2 = 0} = P {X = 0} =
1 p y P {X 2 = 1} = P {X = 1} = p. Por lo tanto X 2 ⇠ Ber(p). En este
caso, la distribución de X y X 2 coinciden.
2. Consideremos un ejemplo levemente diferente, es decir X una variable aleatoria discreta tal que RX = { 1, 0, 1} con P {X = x} = 13 8 x 2 RX y la
misma función g(x) = x2 .
En este caso, es fácil ver que la variable g(X) = X 2 toma valores en el conjunto
RX 2 = {0, 1} con probabilidades dadas por:
P {X 2 = 0} = P {X = 0} = 13 ,
P {X 2 = 1} = P {X = 1} + P {X =
1} = 23 .
Es decir X 2 ⇠ Ber(2/3). En las figuras de abajo se muestran los gráficos de
las funciones de distribución de X y X 2 respectivamente.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-29
Función de distribución de X
FX (t)
1
2/3
1/3
1
0
1
t
Función de distribución de X 2
FX 2 (t)
1
2/3
0
1
t
Ejemplos con v.a. absolutamente continuas
En lo anterior hemos visto varios ejemplos de familia de distribuciones que son
invariantes por cambios de posición y escala, es decir variables aleatorias X tales
que la distribución de g(X) = aX +b pertenece a la misma familia de distribuciones
que X. Algunos ejemplos destacados son:
Si X ⇠ U[0, 1] entonces aX + b ⇠ U[a, b],
Si X ⇠ N (0, 1) entonces X + µ ⇠ N (µ,
2
),
Si X ⇠ C(0, 1) entonces bX + M ⇠ C(M, b2 ),
Podemos preguntarnos si esta propiedad también se cumple para la familia de
distribuciones exponencial. Esto es, si X ⇠ Exp( ), ¿cuál es la distribución de
Y = aX + b? Supongamos que a > 0,
(
⇢
0
si t < b
t b
FY (t) = P {Y  t} = P {aX + b  t} = P X 
=
t b
a
1 e a
si t b
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-30
Por lo tanto Y no tiene distribución exponencial.
Consideremos un último ejemplo: sea X ⇠ N (0, 1) y definimos Y = X 2 . ¿Cuál
es la función de distribución de X? Observar primero que Y = X 2 solo puede tomar
valores positivos, por lo tanto FY (t) = 0 8 t  0. Sea ahora t > 0:
n p
po
FY (t) = P {Y  t} = P X 2  t = P
tX t
p
p
p
p
p
=
( t)
(
t) = ( t) (1
( t)) = 2 ( t) 1
Resumiendo:
FY (t) =
(
0
p
2 ( t)
1
si t  0
si t > 0.
Verificar que esta función cumple las 4 propiedades que caracterizan a una función
de distribución. En la figura de abajo se muestra el gráfico de la densidad %Y de Y .
Notar que tiende a +1 cuando y tiende a cero. ¿Contradice esto la propiedad de
que la integral de %Y debe ser igual a 1?
Densidad de Y = X 2
%Y (y)
0
1,25
y
Caso general.
En el caso más general, se cumple que:
FX (t) = P {g(X)  t} = P {X 2 St } donde St = {w : g(X(w))  t}.
Y ésta última probabilidad puede ser calculada a partir de la función de distribución
de X. La forma del conjunto St depende de los valores que tome la variable X y la
función g.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-4.
5-31
Resumen
En este capítulo se definieron las variables aleatorias absolutamente continuas,
como aquellas para las cuáles está definida un densidad de probabilidad.
1. Una densidad de probabilidad en R es un función f : R ! R tal que:
f (x) 0 8 x,
R
f (x)dx = 1.
R
2. Decimos que X es absolutamente continua si existe una densidad fX tal que
Z
P {X 2 I} = fX (x)dx.
I
3. Algunos ejemplos destacados de variables absolutamente continuas son:
Uniforme: X ⇠ U[a, b] tal que,
(
fX (x) =
si x 2 [a, b]
en otro caso.
1
b a
0
Normal o Gaussiana: X ⇠ N (µ,
1
fX (x) = p e
2⇡
2
) tal que,
(x µ)2
2 2
,8x 2 R
Cauchy: X ⇠ C(M, b2 ) tal que:
fX (t)
1
1
⇡ M (1 + ( tMb )2 )
Exponencial: X ⇠ Exp( ) tal que:
(
0
fX (x) =
e
x
8 t 2 R.
si x < 0
si x 0.
4. Definimos FX la función de distribución de X como una manera compacta de
caracterizar la distribución de una variable aleatoria general que puede no ser
ni discreta ni absolutamente continua:
FX (t) = P {X  t} con t 2 R,
Algunas propiedades fundamentales de la función de distribución:
FX es no decreciente: si a < b ) FX (a)  FX (b)
Se cumple que 0  FX (t)
lı́m FX (t) = 1.
1 8 t 2 R. Además lı́m FX (t) = 0 y
t! 1
t!+1
FX es continua por la derecha y tiene límite a izquierda. Se cumple
además que lı́m FX (s) = P {(X < t)}.
s!t, s<t
FX es continua en t0 2 R si, y solo si, P {X = t0 } = 0 y si tiene una
discontinuidad en t0 2 R, el salto es P {(X = t0 )}.
CAPÍTULO 5. LA FUNCIÓN DE DISTRIBUCIÓN
5-32
Lecturas recomendadas
Recomendamos la siguientes lecturas de la página de Wikipedia. Como siempre,
a aquellos que se sientan cómodos con el inglés les sugerimos revisen también la
versión en inglés de las mismas.
1. Distribución Normal
https://es.wikipedia.org/wiki/Distribución_normal
2. Distribución Cauchy
https://es.wikipedia.org/wiki/Distribución_de_Cauchy
3. Distribución de Exponencial
https://es.wikipedia.org/wiki/Distribución_exponencial
4. Función de distribución
https://es.wikipedia.org/wiki/Función_de_distribución