Download estadística descriptiva

Document related concepts

Distribución de probabilidad wikipedia , lookup

Variable aleatoria wikipedia , lookup

Proceso estocástico wikipedia , lookup

Distribución de Poisson wikipedia , lookup

Análisis de frecuencia acumulada wikipedia , lookup

Transcript
Unidad 1
ESTADÍSTICA DESCRIPTIVA
1.1 Estadística como ciencia Inductiva
Introducción
Este capítulo inicia con la definición de algunos conceptos elementales y básicos.
Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de
datos numéricos: distinguir y clasificar las características en estudio, enseñarle a
organizar y tabular las medidas obtenidas mediante la construcción de tablas de
frecuencia y por último los métodos para elaborar una imagen que sea capaz de mostrar
gráficamente unos resultados.
Cada vez es más habitual el uso de gráficos o imágenes para representar la información
obtenida. Sin embargo, debemos ser prudente al confeccionar o interpretar gráficos,
puesto que una misma información se puede representar de formas muy diversas, y no
todas ellas son pertinentes, correctas o válidas. Nuestro objetivo, en este capítulo,
consiste en establecer los criterios y normas mínimas que deben verificarse para
construir y presentar adecuadamente los gráficos en el ámbito de la estadística
descriptiva.
¿Qué es la estadística?
Cuando se habla de estadística, se suele pensar en una relación de datos numéricos
presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto
popular que existe sobre el término y que cada vez está más extendido debido a la
influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier medio de
difusión, periódico, radio, televisión, etc, no nos aborde diariamente con cualquier tipo
de información estadística sobre accidentes de tráfico, índices de crecimiento de
población, turismo, tendencias políticas, etc.
Sólo cuando nos adentramos en un mundo más específico como es el campo de la
investigación de las Ciencias Sociales: Medicina, Biología, Psicología, ... empezamos a
percibir que la Estadística no sólo es algo más, sino que se convierte en la única
herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto
beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su
variabilidad intrínseca, no puedan ser abordadas desde la perspectiva de las leyes
determinísticas. Podríamos, desde un punto de vista más amplio, definir la estadística
como la ciencia que estudia cómo debe emplearse la información y cómo dar una guía
de acción en situaciones prácticas que entrañan incertidumbre.
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar,
resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a
partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular
predicciones.
1.2 Poblaciones y Muestras
Establecemos a continuación algunas definiciones de conceptos básicos y
fundamentales como son: elemento, población, muestra, variables, etc., a las cuales
haremos referencia continuamente a lo largo del texto.
Población: conjunto de elementos que cumplen ciertas propiedades comunes.
Muestra: subconjunto representativo de una población.
Elementos: personas u objetos pertenecientes a una población y que contienen la
información que se desea estudiar.
Parámetro: función definida sobre los valores numéricos de características medibles
de una población.
Estadístico o Estimador: función definida sobre los valores numéricos de una
muestra.
En relación al tamaño de la población, ésta puede ser:


Finita, como es el caso del número de personas que llegan al servicio de
urgencia de un hospital en un día; (existe un límite, por tanto se puede contar)
Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la
secuencia de caras y sellos obtenida en el lanzamiento repetido de una moneda
al aire (la secuencia no tiene límite y no sabe cuando parar).
Ejemplo
Consideremos la población formada por todos los estudiantes de la ESPOL (finita). La
altura media de todos los estudiantes es el parámetro . El conjunto formado por los
alumnos del Básico es una muestra de dicha población y la altura media de los
estudiantes que conforman esta muestra es el estadístico o estimador .
1.3
La Estadística Descriptiva como instrumento de la
Estadística Inferencial
Como se dijo en el tema 1.1 la Estadística se ocupa de los métodos y procedimientos
para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así
como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones; por tanto, se puede clasificar la
Estadística en:
descriptiva, cuando los resultados del análisis no procuran ir más allá del conjunto de
datos,
inferencial, cuando el objetivo del estudio es derivar las conclusiones obtenidas a un
conjunto de datos más amplio.
Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando
métodos numéricos y gráficos que resumen y presentan la información contenida en
ellos.
Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos
muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos.
La Estadística Descriptiva como instrumento de la Estadística Inferencial
La Estadística Descriptiva al analizar los datos recogidos y describirlos, ayuda a ver el
comportamiento estadístico de la variable de estudio (cual es el valor que mas se repite,
que tan dispersos están los datos, etc.), y al conocer este proceder se pueden hacer
inferencias acerca de cómo puede comportarse dicha variable en el futuro, es por esto
que se dice que la Estadística Descriptiva sirve como instrumento de la Estadística
Inferencial.
Variables estadísticas
Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos
dominio de la variable o rango. En función del tipo del dominio de la variable se las
clasifica de la siguiente manera:
Variables cualitativas,
cuando las modalidades posibles son de tipo nominal (que no se puede contar).
Por ejemplo, una variable de color
Variables cuasi cuantitativas
son las variables que, aunque sus modalidades son de tipo nominal, es posible
establecer un orden entre ellas.
Ejemplos:
1. Si estudiamos la llegada a la meta de autos en una competencia de 20
participantes, su clasificación C es tal que
2. El grado de dolencia, D, que sufre un paciente ante un tratamiento médico:
Variables cuantitativas
son las que tienen por modalidades cantidades numéricas con las que podemos
hacer operaciones aritméticas. Dentro de este tipo de variables podemos
distinguir dos grupos:
o Discretas,
cuando no admiten siempre una modalidad intermedia entre dos cualesquiera
de sus modalidades.
Ejemplo: el número X, obtenido en el lanzamiento repetido de un dado. Es
obvio que cada valor de la variable es un número natural
o Continuas,
cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades.
Ejemplo: la estatura X de un niño al nacer. En este caso los valores de las
variables son números reales, es decir
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece
como discreta. Este es el caso en que hay limitaciones en lo que concierne a la
precisión del aparato de medida de esa variable, es decir, si medimos la altura en
metros de personas con una regla que ofrece dos decimales de precisión,
podemos obtener
En realidad lo que ocurre es que con cada una de esas mediciones expresamos
que el verdadero valor de la misma se encuentra en un intervalo de radio
. Por tanto cada una de las observaciones de X representa más bien un
intervalo que un valor concreto.
Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones
posibles que puede presentar la variable. A veces éstas son muy numerosas (ejemplo:
cuando una variable es continua) y conviene reducir su número, agrupándolas en una
cantidad inferior de clases. Estas clases deben ser construidas, tal como se estudiará más
adelante, de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe
pertenecer a una y sólo una de las clases.
Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando
métodos numéricos y gráficos que resumen y presentan la información contenida en
ellos.
Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos
muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos.
Variables Discretas: cuando no admiten siempre una modalidad intermedia entre dos
cualesquiera de sus modalidades. Sus modalidades son valores enteros.
Variables Continuas: cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades. Sus modalidades son valores reales.
Variable cualitativa:
Aquella cuyas modalidades son de tipo nominal.
Variable cuasi cuantitativa:
Modalidad del tipo nominal y que tienen orden.
1.4 Diagrama de Paretto y Distribución de Frecuencias
Los diagramas y los gráficos son formas visuales de describir el comportamiento de una
variable, para poder realizarlos se debe conocer primeramente la manera de trabajar con
los datos obtenidos.
Diagrama de Paretto
Un diagrama de Paretto se asemeja a un Histograma, excepto que es una gráfica de
barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en
clases. Las barras pueden representar frecuencias o porcentajes, se organizan en orden
descendente de izquierda a derecha.
Los diagramas de Paretto se utilizan en el control de procesos para tabular las causas
asociadas con variaciones de causas atribuibles en la calidad del producto del proceso.
Ejemplo: Se encontró que en una planta de ensamblado de refrigeradores no fueron
aprobados en inspección final, con forme muestra el siguiente cuadro:
Defecto
Conteo
Porcentaje
% acumulado
Ensamble
98
49.0
49.0
Laca
60
30.0
79.0
Distribución de Frecuencias
Construcción de Tablas estadísticas
Eléctrico
20
10.0
89.0
Abolladuras
12
6.0
95.0
Otros
10
5.0
100.0
Consideremos una población estadística de n individuos, descrita según un carácter o
variable C cuyas modalidades han sido agrupadas en un número k de clases, que
denotamos mediante
. Para cada una de las clases ci,
introducimos las siguientes magnitudes:
,
Frecuencia absoluta
de la clase ci es el número ni, de observaciones que presentan una modalidad
perteneciente a esa clase.
Frecuencia relativa
de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el
número total de observaciones, es decir
Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci.
Multiplicado por
esa clase.
representa el porcentaje de la población que comprende
Frecuencia absoluta acumulada
Ni, se calcula sobre variables cuantitativas o cuasi cuantitativas, y es el número
de elementos de la población cuya modalidad es inferior o equivalente a la
modalidad ci:
Frecuencia relativa acumulada
Fi, se calcula sobre variables cuantitativas o cuasi cuantitativas, siendo el tanto
por uno de los elementos de la población que están en alguna de las clases y que
presentan una modalidad inferior o igual a la ci, es decir,
Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que
ó,
Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias
correspondientes a cada una de ellas. Una tabla estadística sirve para presentar de
forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:
Modalidad Frec. Abs. Frec. Rel. Frec. Abs. Acum.
C
ni
c1
n1
...
...
cj
nj
...
...
ck
nk
n
fi
Frec. Rel. Acum.
Ni
Fi
N1 = n1
...
...
...
...
...
...
Nk = n
Fk = 1
1
Ejemplo
Calcular los datos que faltan en la siguiente tabla:
li-1 -- li
ni fi
Ni
0 -- 10
60 f1
60
10 -- 20
n2 0,4 N2
20 -- 30
30 f3
30 -- 100
n4 0,1 N4
100 -- 200 n5 f5
170
200
n
Solución:
Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n
= 200.
Como
N3=170 y n3=30
=>
N2= N3-n3=170-30=140.
Además
n1=60,
=>
n2= N2-n1=140-60=80.
Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia
relativa correspondiente:
Así:
N4 =n4 +N3=20+170 =190.
Este último cálculo nos permite obtener:
n5 =N5 -N4=200-190=10.
Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas:
Escribimos entonces la tabla completa:
li-1 -- li
ni
fi
Ni
0 -- 10
60
0,3
60
10 -- 20
80
0,4
140
20 -- 30
30
0,15 170
30 -- 100
20
0,1
100 -- 200 10
190
0,05 200
200
Elección de las clases
En cuanto a la elección de las clases, deben seguirse los siguientes criterios en función
del tipo de variable que estudiemos:


Cuando se trate de variables cualitativas o cuasi cuantitativas, las clases ci serán
de tipo nominal;
En el caso de variables cuantitativas, existen dos posibilidades:
o
o
Si la variable es discreta, las clases serán valores numéricos
;
Si la variable es continua las clases vendrán definidas mediante lo que
denominamos intervalos. En este caso, las modalidades que contiene
una clase son todos los valores numéricos posibles contenidos en el
intervalo, el cual viene normalmente definido de la forma
ó
En estos casos llamaremos amplitud del intervalo a las cantidades
ai = li - li-1
y marca de clase ci, a un punto representativo del intervalo. Si éste es
acotado, tomamos como marca de clase al punto más representativo, es
decir al punto medio del intervalo,
La marca de clase no es más que una forma abreviada de representar un
intervalo mediante uno de sus puntos. Por ello hemos tomado como
representante, el punto medio del mismo. Esto está plenamente
justificado si recordamos que cuando se mide una variable continua
como el peso, la cantidad con cierto número de decimales que expresa
esta medición, no es el valor exacto de la variable, sino una medida que
contiene cierto margen de error, y por tanto representa a todo un
intervalo del cual ella es el centro.
En el caso de variables continuas, la forma de la tabla estadística es la siguiente:
Interv. M. clase Frec. Abs. Frec. Rel. Frec. Abs. Acum. Frec. Rel. Acum.
C
ni
l0 -- l1
C1
n1
...
...
...
lj-1 -- lj
cj
nj
...
...
...
lk-1 -- lk
ck
nk
n
fi
Ni
Fi
N1 = n1
F1 = f1
...
...
Nj = Nj-1+ nj
Fj = Fj-1 + fj
...
...
Nk=n
Fk =1
...
...
1
Elección de intervalos para variables continuas
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios
problemas como son el número de intervalos a elegir y sus tamaños respectivos. La
notación más común que usaremos para un intervalo sea
El primer intervalo, l0 -- l1, podemos cerrarlo en el extremo inferior para no excluir la
observación más pequeña, l0
Este arreglo usaremos en las páginas siguientes. El considerar los intervalos por el lado
izquierdo y abrirlos por el derecho no cambia de modo significativo nada de lo que
expondremos.
El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto
tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los
datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:
Por ejemplo si el número de observaciones que tenemos es n =100, un buen criterio es
agrupar las observaciones en
intervalos. Sin embargo si tenemos n
=1.000.000, será mas razonable elegir
intervalos, que
.
La amplitud de cada intervalo: ai = li - li-1 suele tomarse constante, considerando la
observación más pequeña y más grande de la población (respectivamente
y
) para calcular la amplitud total, A, de la población A = lk - l0 de forma que
la amplitud de cada intervalo sea:
Así la división en intervalos podría hacerse tomando:
Observación
Podría ocurrir que la cantidad a fuese un número muy desagradable a la hora de escribir
los intervalos (Ej. a =10,325467). En este caso, es recomendable variar simétricamente
los extremos,
simple (Ej. a =10).
, de forma que se tenga que a es un número más
Ejemplo
Sobre un grupo de n =21 personas se realizan las siguientes observaciones de sus pesos,
medidos en kilogramos:
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
Agrupar los datos en una tabla estadística.
Solución:
En primer lugar hay que observar que si denominamos X a la variable “peso de cada
persona” esta es una variable de tipo cuantitativa y continua. Por tanto a la hora de ser
ordenados los resultados en una tabla estadística, esto se ha de hacer agrupándolos en
intervalos de longitud conveniente. Esto nos lleva a perder cierto grado de precisión.
Para que la perdida de información no sea muy relevante seguimos el criterio de utilizar
intervalos (no son demasiadas las observaciones). En este punto podemos
tomar bien k =4 o bien k =5. Arbitrariamente se elige una de estas dos posibilidades. Por
ejemplo, vamos a tomar k =5.
Lo siguiente es determinar la longitud de cada intervalo, ai
. Lo más cómodo
es tomar la misma longitud en todos los intervalos, ai =a (aunque esto no tiene por qué
ser necesariamente así), donde
Entonces tomaremos k =5 intervalos de longitud a =6,6comenzando por l0 =xmin =39 y
terminando en l5=33:
Intervalos
M. clase f.a. f.r.
f.a.a. f.r.a.
li-1 -- li
ci
ni
fi
Ni
42,3
3
0,1428 3
0,1428
i=2 45,6 -- 52,2 48,9
2
0,0952 5
0,2381
i=3 52,2 -- 58,8 55,5
6
0,2857 11
0,5238
i=4 58,8 -- 65,4 62,1
3
0,1428 14
0,6667
i=5 65,4 -- 72
7
0,3333 21
i=1 39 -- 45,6
68,7
21
Fi
Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con
cantidades más simples a la hora de construir los intervalos, es la siguiente. Como la
regla para elegir l0 y l5 no es muy estricta podemos hacer la siguiente elección:
ya que así la tabla estadística no contiene decimales en la expresión de los intervalos, y
el exceso d, cometido al ampliar el rango de las observaciones desde A hasta A', se
reparte del mismo modo a los lados de las observaciones menores y mayores:
Intervalos M. clase f.a. f.r.
f.a.a. f.r.a.
li-1 -- li
Ni
ci
ni
fi
Fi
i=1 38 -- 45
41,5
3
0,1428 3
0,1428
i=2 45 -- 52
48,5
2
0,0952 5
0,2381
i=3 52 -- 59
55,5
7
0,3333 12
0,5714
i=4 59 -- 66
62,5
3
0,1428 15
0,7143
i=5 66 -- 73
69,5
6
0,2857 21
21
Gráficos para variables cuantitativas
Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que
para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias
acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En
ellos se representa el número o porcentaje de elementos que presenta una
modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el número de elementos que presentan
una modalidad inferior o igual a una dada. Se realizan a partir de las
frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que
este tipo de gráficos no tiene sentido para variables cualitativas.
Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuación las diferentes representaciones gráficas que pueden realizarse
para cada una de ellas así como los nombres específicos que reciben.
Gráficos para variables discretas
Cuando representamos una variable discreta, usamos el diagrama de barras cuando
pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para
representar el que los valores que toma la variable son discretos. El diagrama integral o
acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de
diagrama de barras así como su diagrama integral correspondiente están representados a
continuación:
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X,
obteniéndose los siguientes resultados:
Representar gráficamente el resultado.
Solución: En primer lugar observamos que la variable X es cuantitativa discreta,
presentando las modalidades:
Ordenamos a continuación los datos en una tabla estadística, y se representa así
Diagrama diferencial (Graf. barras izq.) e integral para una variable discreta (Graf.
Der.). Obsérvese que el diagrama integral (creciente) contabiliza el número de
observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.
xi ni
fi
Ni Fi
0 1
1/8 1 1/8
1 3
3/8 4 4/8
2 3
3/8 7 7/8
3 1
1/8 8 8/8
n =8 1
Ejemplo
Clasificadas 12 familias por su número de hijos se obtuvo:
Número de hijos (xi) 1 2 3 4
Frecuencias (ni)
1 3 5 3
Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el
diagrama acumulativo creciente.
Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:
Variable F. Absolutas F. Relativas F. Acumuladas
xi
ni
fi
Ni
1
1
0,083
1
2
3
0,250
4
3
5
0,416
9
4
3
0,250
12
12
1
Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias
absolutas, lo que se muestra en la siguiente figura:
Figura: Diagramas de frecuencias para una variable discreta
Como puede verse es idéntico (salvo un cambio de escala en el eje de ordenadas) al
diagrama de barras para frecuencias relativas y que ha sido calculado usando las
columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la
información procedente de las columnas xi y Ni.
Gráficos para variables continuas
Cuando las variables son continuas, utilizamos como diagramas diferenciales los
histogramas y los polígonos de frecuencias.
Un histograma se construye a partir de la tabla estadística, representando sobre cada
intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la
altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el área de los mismos.
El polígono de frecuencias se construye fácilmente si tenemos representado
previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del
histograma que corresponden a las marcas de clase.
Para representar el polígono de frecuencias en el primer y último intervalo, suponemos
que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula,
y se unen por una línea recta los puntos del histograma que corresponden a sus marcas
de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el
histograma el que las áreas de la gráficas sobre un intervalo son idénticas.
El diagrama integral para una variable continua se denomina también polígono de
frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de
los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en
ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de
otro modo, el polígono de frecuencias absolutas es una primitiva del histograma.
Se representa a modo de ilustración los diagramas correspondientes a la variable
cuantitativa continua expresada en la tabla siguiente:
Intervalos ci ni Ni
0 -- 2
1 2
2
2 -- 4
3 1
3
4 -- 6
5 4
7
6 -- 8
7 3
10
8 - 10
9 2
12
12
Figura: Diagramas diferenciales e integrales para una variable continua.
Ejemplo
La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500
tubos:
Duración en horas Número de tubos
300 -- 500
50
500 -- 700
150
700 -- 1.100
275
más de 1.100
25
Total 500



Representar el histograma de frecuencias relativas y el polígono de frecuencias.
Trazar la curva de frecuencias relativas acumuladas.
Determinar el número mínimo de tubos que tienen una duración inferior a 900
horas.
Solución: En primer lugar observamos que la variable en estudio es discreta (horas
completas), pero al tener un muy amplio rango de valores resulta más conveniente
agruparla en intervalos, como si se tratase de una variable continua. La consecuencia
es una ligera perdida de precisión.
El último intervalo está abierto por el límite superior. Dado que en él hay 25
observaciones puede ser conveniente cerrarlo con una amplitud “razonable”. Todos los
intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar
el último intervalo en 1.300 horas.
Antes de realizar el histograma conviene hacer una observación importante. El
histograma representa las frecuencias de los intervalos mediante áreas y no mediante
alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo
en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario
diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene
una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de
base doble (lo que reduce su altura a la mitad).
Así será conveniente añadir a la habitual tabla de frecuencias una columna que
represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas
rectificadas, fi', para representar la altura del histograma. Los gráficos requeridos se
representan a continuación.
Intervalos
ai
ni
300 -- 500
200 50
0,10 0,10
0,10
500 -- 700
200 150
0,30 0,30
0,40
700 -- 1.100
400 275
0,55 0,275 0,95
1.100 -- 1.300 200 25
fi
fi '
0,05 0,05
Fi
1,00
n =500
Histograma. Obsérvese que la altura del histograma en cada
intervalo es fi' que coincide en todos con fi salvo en el intervalo
700 -- 1.100 en el que
intervalo es doble a la de los demás.
ya que la amplitud de ese
se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay
0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor
900 en el siguiente diagrama de frecuencias acumuladas.
Diagrama acumulativo de frecuencias relativas
Como en total son 500 tubos, el número de tubos con una duración igual o menor que
900 horas es
, redondeando, 338 tubos.
Diagrama de Paretto: se asemeja a un Histograma, excepto que es una gráfica de
barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en
clases. Las barras pueden representar frecuencias o porcentajes, se organizan en orden
descendente de izquierda a derecha.
Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas
o relativas. En ellos se representa el número o porcentaje de elementos que presenta una
modalidad dada.
Diagramas integrales: Son aquellos en los que se representan el número de elementos
que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las
frecuencias acumuladas, lo que da lugar a gráficos crecientes, este tipo de gráficos no
tiene sentido para variables cualitativas.
Número de elementos que presentan la clase xi.
Frecuencia absoluta (ni):
Frecuencia relativa:
.
Frecuencia absoluta acumulada:
Frecuencia relativa acumulada:
Recorrido:
Amplitud:
ai = li - li-1
.
Marca de clase:
Frecuencias rectificadas:
;
Tabla: Principales diagramas según el tipo de variable.
Tipo de variable
Diagrama
V. Cualitativa
Barras, sectores, pictogramas
V. Discreta
Diferencial (barras)
Integral (en escalera)
V. Continua
Diferencial (histograma, polígono de frecuencias)
Integral (diagramas acumulados)
1.5 Percentiles, Cuartiles y Deciles, de una distribución de
Frecuencias
Para una variable discreta, se define el percentil de orden k, como la observación, Pk,
que deja - por debajo de sí - el
de la población. Esta definición nos recuerda a la
mediana, pues como consecuencia de la definición es evidente que Med = P50
En el caso de una variable continua, el intervalo donde se encuentra
calcula buscando el que deja - por debajo de sí - al
él, Pk se obtiene según la relación:
, se
de las observaciones. Dentro de
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la
distribución, por lo que no puede considerársele como una medida de tendencia central.
Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como:
De forma análoga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamaño. Más precisamente, definimos D1,D2,
..., D9 como:
Los percentiles (que incluyen a la mediana, cuartiles y deciles) también son
denominados estadísticos de posición.
Ejemplo
Dada la siguiente distribución en el número de hijos de cien familias, calcular sus
cuartiles.
xi
ni
Ni
0
14
14
1
10
24
2
15
39
3
26
65
4
20
85
5
15
100
n =100
Solución: Aplicando las fórmulas antes enunciadas para los cuartiles tenemos lo
siguiente:
1. Primer cuartil:
2. Segundo cuartil:
3. Tercer cuartil:
Ejemplo
Calcular los cuartiles en la siguiente distribución de una variable continua:
li-1 - li
ni
Ni
0-1
10
10
1-2
12
22
2-3
12
34
3-4
10
44
4-5
7
51
n =51
Solución:
1. Primer cuartil
2. Segundo cuartil:
3. Tercer cuartil
Ejemplo
Han sido ordenados los pesos de 21 personas en la siguiente tabla:
Intervalos f.a.
li-1 -- li
ni
38 -- 45
3
45 -- 52
2
52 -- 59
7
59 -- 66
3
66 -- 73
6
21
Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo número de
observaciones.
Solución: Las cantidades que buscamos son los tres cuartiles:
,
y
. Para
calcularlos, le añadimos a la tabla las columnas con las frecuencias acumuladas, para
localizar qué intervalos son los que contienen a los cuartiles buscados:
li-1 -- li
ni Ni
38 -- 45 3
3
45 -- 52 2
5
52 -- 59 7
12
59 -- 66 3
15
66 -- 73 6
21
21
y
se encuentran en el intervalo 52--59, ya que N3=12 es la
primera f.a.a. que supera a
y
.
está en 66--73, pues N5=21 es el primer Ni mayor que
.
Así se tiene que:
Obsérvese que
. Esto es lógico, ya que la mediana divide a la distribución en
dos partes con el mismo número de observaciones, y
, hace lo mismo, pues es deja a
dos cuartos de los datos por arriba y otros dos cuartos por abajo.
Ejemplo
La distribución de una variable tiene su polígono acumulativo de frecuencias como se
presenta en la siguiente figura:
Diagrama acumulado de frecuencias relativas.
Si el número total de observaciones es 50:
1. Elaborar una tabla estadística con los siguientes elementos: intervalos, marcas de
clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y
frecuencias relativa acumulada.
2. Cuántas observaciones tuvieron un valor inferior a 10, cuántas inferior a 8 y cuántas
fueron superior a 11.
3. Calcule las modas.
4. Determine los cuartiles.
Solución:
1. En la siguiente tabla se proporciona la información pedida y algunos cálculos
auxiliares que nos permitirán responder a otras cuestiones.
Intervalos ni Ni fi
Fi
xi
ai
0-5
10 10 0,2 0,3 2,5
5 2
5-7
25 35 0,5 0,7 6
2 12,5
7 - 12
5
5 1
12 - 15
10 50 0,2 1
40 0,1 0,8 9,5
13,5 7 3,33
2. Calculemos el número de observaciones pedido:
10 + 25+3 = 38 observaciones tomaron un valor inferior a 10
10 + 25+1 = 36 observaciones tomaron un valor inferior a 8
50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11
3. Hay dos modas. Calculemos la más representativa:
4. Cuartiles:
Percentil Pl, Para una variable discreta, se define el percentil de orden k, como la
observación, Pk, que deja - por debajo de sí - el k % de la población. Esta definición nos
recuerda a la mediana, pues como consecuencia de la definición es evidente que Med =
P50 . En el caso de una variable continua, el intervalo donde se encuentra
, se calcula buscando el que deja - por debajo de sí - al k % de las observaciones.
Cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como: Q1 =
P25, Q2 = P50 = Med, Q3 = P75
Deciles, Dl, de forma análoga se definen como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamaño.
Unidad 2
PROBABILIDAD Y VARIABLE ALEATORIA
2.1 Eventos y Espacios Muestrales asociados a experimentos
Experimentos y Eventos (sucesos) aleatorios
Diremos que un experimento es aleatorio si se verifican las siguientes condiciones:
1. Se puede repetir indefinidamente, siempre en las mismas condiciones;
2. Antes de realizarlo, no se puede predecir el resultado que se va a obtener;
3. El resultado que se obtenga, e, pertenece a un conjunto conocido previamente
de resultados posibles. A este conjunto, de resultados posibles, lo
denominaremos espacio muestral y lo denotaremos normalmente mediante la
letra E. Los elementos del espacio muestral se denominan eventos elementales
o sucesos elementales.
Cualquier subconjunto de E será denominado suceso aleatorio, y se denotará
normalmente con las letras A, B,...
Obsérvese que “los sucesos elementales son sucesos aleatorios compuestos por un
sólo elemento”. Por supuesto los sucesos aleatorios son más generales que los
elementales, ya que son conjuntos que pueden contener no a uno sólo, sino a una
infinidad de sucesos elementales - y también no contener alguno - Sucesos aleatorios
que aparecen con gran frecuencia en el cálculo de probabilidades son los siguientes:
Suceso seguro: Es aquel que siempre se verifica después del experimento aleatorio, es
decir, el mismo E
Suceso imposible: Es aquel que nunca se verifica como resultado del experimento
aleatorio. Como debe ser un subconjunto de E, la única posibilidad es que el suceso
imposible sea el conjunto vacío
Suceso contrario a un suceso A: También se denomina complementario de A y es el
suceso que se verifica si, como resultado del experimento aleatorio, no se verifica A. Se
acostumbra a denotar con el símbolo
ó Ac.
Representación gráfica de un suceso aleatorio
, y de su suceso contrario
Ejemplo
Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:
Operaciones básicas con sucesos aleatorios
Al ser los sucesos aleatorios nada más que subconjuntos de un conjunto E - espacio
muestral -, podemos aplicarles las conocidas operaciones con conjuntos, como son la
unión, intersección y diferencia:
Unión:
Dados dos sucesos aleatorios
, se denomina suceso unión de A y B al
conjunto formado por todos los sucesos elementales que pertenecen a A o bien que
pertenecen a B (incluyendo los que están en ambos simultáneamente), es decir
Como ejemplo, tenemos que la unión de un suceso cualquiera con su complementario es
el suceso seguro:
Volviendo al ejemplo del lanzamiento de un dado, si
suceso unión de A y B es:
Intersección:
y
, el
Dados dos sucesos aleatorios
, se denomina suceso intersección de A y B al
conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez, es
decir,
A veces por comodidad se omite el símbolo para denotar la intersección de conjuntos,
sobre todo cuando el número de conjuntos que intervienen en la expresión es grande. En
particular podremos usar la siguiente notación como equivalente a la intersección:
Un ejemplo de intersección es la de un suceso aleatorio cualquiera,
complementario,
, con su
, que es el suceso imposible:
Volviendo al ejemplo del dado,
Diferencia:
Dados dos sucesos aleatorios
, se llama suceso diferencia de A y B, y se
representa mediante
, o bien A-B, al suceso aleatorio formado por todos los
sucesos elementales que pertenecen a A, pero no a B:
Obsérvese que el suceso contrario de un suceso A, puede escribirse como la diferencia
del suceso seguro menos éste, o sea,
Diferencia simétrica:
Si
, se denomina suceso diferencia simétrica de A y B, y se representa
mediante
, al suceso aleatorio formado por todos los sucesos elementales que
pertenecen a A y no a B, y los que están en B y no en A:
Así:
En la siguiente figura se puede ver en resumen las diferentes diferencias existentes
Dados dos sucesos aleatorios
; en (b)
; en (c) A-B; en (d)
se representa: en (a)
.
Hay ciertas propiedades que relacionan la unión, intersección y suceso contrario, que
son conocidas bajo el nombre de Leyes de Morgan:
Espacio Muestral: El resultado que se obtenga de un experimento, e, pertenece a un
conjunto conocido previamente de resultados posibles. A este conjunto lo
denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E.
Eventos elementales o sucesos elementales: se denominan a los elementos del espacio
muestral.
Suceso seguro: Es aquel que siempre se verifica después del experimento aleatorio, es
decir, el mismo E
Suceso imposible: Es aquel que nunca se verifica como resultado del experimento
aleatorio. Como debe ser un subconjunto de E, la única posibilidad es que el suceso
imposible sea el conjunto vacío
Suceso contrario a un suceso A o complementario de A: es el suceso que se verifica
si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar
con el símbolo
2.2 La función de probabilidad definida sobre la clase de los
subconjuntos de un espacio muestral
Un experimento consta en lanzar un dado y verificar si el número que se obtiene de este
lanzamiento es par o impar.
De este experimento obtenemos el espacio muestral Ω y el conjunto Potencia .
Ω = {Par (P), Impar (I)}
= { Φ, {P}, {I}, Ω}
donde Φ es el número que se obtiene si no es par ni impar, es decir, el evento imposible.
Definición
Sea Ω un espacio muestral cuyo conjunto potencia es , la función P:
función de probabilidad sí y solamente si
1)
P(Ω) = 1
→ [0, 1] es una
2)
3)
P(E) , E
P(E1 U E2) = P(E1) + P(E2), si E1,E2
Ω, y E1 y E2 son mutuamente excluyentes
Proposición
P(Φ) = 0
Demostración
Proposición
E
, P(E) = 1 - P(Ec)
Demostración
Proposición
Demostración
espacio muestral Ω, es el conjunto de todos los eventos posibles.
conjunto Potencia , es el conjunto formado por todos los eventos posibles además el
evento seguro y el evento imposible.
función de probabilidad la función P: → [0, 1] es una función de probabilidad sí y
solamente si
1)
2)
3)
P(Ω) = 1
P(E) , E
P(E1 U E2) = P(E1) + P(E2), si E1,E2
Ω, y E1 y E2 son mutuamente excluyentes.
2.3 Probabilidad condicional e independencia de eventos
Sea
un suceso o evento aleatorio de probabilidad no nula,
cualquier otro suceso
. Para
, llamamos probabilidad condicionada de A a B a la
cantidad que representamos mediante
o bien
y que se calcula como:
Ejemplo
Se lanza un dado al aire ¿Cuál es la probabilidad de que salga el número 4? Si sabemos
que el resultado ha sido un número par, ¿se ha modificado esta probabilidad?
Solución:
El
espacio
muestral
que
corresponde
a
este
experimento
es
y se ha de calcular la probabilidad del suceso
. Si el dado no está trucado,
todos los números tienen la misma probabilidad de salir, y siguiendo la definición de
probabilidad de Laplace,
Obsérvese que para calcular la probabilidad de A según la definición de Laplace hemos
tenido que suponer previamente que todos los elementos del espacio muestral tienen la
misma probabilidad de salir, es decir:
Por otro lado, si ha salido un número par, de nuevo por la definición de probabilidad de
Laplace tendríamos
Esta misma probabilidad se podría haber calculado siguiendo la definición de la
probabilidad condicionada, ya que si escribimos
y entonces
que por supuesto coincide con el mismo valor que calculamos usando la definición de
probabilidad de Laplace.
Observación:
Obsérvese que según la definición de probabilidad condicionada, se puede escribir la
probabilidad de la intersección de dos sucesos de probabilidad no nula como
O sea, “la probabilidad de la intersección de dos sucesos, es la probabilidad de uno
cualquiera de ellos, multiplicada por la probabilidad del segundo sabiendo que ha
ocurrido el primero”.
Si entre dos sucesos no existe ninguna relación cabe esperar que la expresión “sabiendo
que” no aporte ninguna información. De este modo introducimos el concepto de
independencia de dos sucesos A y B como:
Esta relación puede ser escrita de modo equivalente, cuando dos sucesos son de
probabilidad no nula como
Probabilidad de Laplace
Si un experimento cualquiera puede dar lugar a un número finito de resultados posibles,
y no existe ninguna razón que privilegie unos resultados en contra de otros, se calcula la
probabilidad de un suceso aleatorio A, según la regla de Laplace como el cociente entre
el número de casos favorables a A, y el de todos los posibles resultados del
experimento:
Ejemplo
Calcular la probabilidad de que al lanzar un dado se obtenga un número impar.
Solución: El espacio muestral es
. Vamos a llamar A, al suceso
consistente en que el resultado es impar,
. Como no suponemos que
ninguna de las caras ofrece una probabilidad de ocurrencia diferente a las demás,
podemos aplicar la regla de Laplace para obtener que
Probabilidad condicionada: de A a B a la cantidad que representamos mediante
o bien
y que se calcula como:
Independencia de dos sucesos: A y B se da si entre dos sucesos no existe ninguna
relación es decir se espera que la expresión “sabiendo que” no aporte ninguna
información y se define
Probabilidad de Laplace: Si un experimento cualquiera puede dar lugar a un número
finito de resultados posibles, y no existe ninguna razón que privilegie unos resultados en
contra de otros, se calcula la probabilidad de un suceso aleatorio A, según la regla de
Laplace como el cociente entre el número de casos favorables a A, y el de todos los
posibles resultados del experimento.
2.4 Teorema de Bayes
Antes de entrar de forma explícita al Teorema de Bayes, revisaremos primeramente
ciertos teoremas fundamentales del cálculo de probabilidades.
Hay algunos resultados importantes del cálculo de probabilidades que son conocidos
bajo los nombres de teorema de la probabilidad compuesta, teorema de la
probabilidad total y finalmente el teorema de Bayes. Veamos cuales son estos
teoremas, pero previamente vamos a enunciar a modo de recopilación, una serie de
resultados elementales cuya demostración se deja como ejercicio para el lector (algunos
ya han sido demostrados anteriormente):
Proposición
Sean
propiedades:
no necesariamente disjuntos. Se verifican entonces las siguientes
1. Probabilidad de la unión de sucesos:
2. Probabilidad de la intersección de sucesos:
3. Probabilidad del suceso contrario:
4. Probabilidad condicionada del suceso contrario:
Ejemplo
En una universidad el 50% de los alumnos habla inglés, el 20% francés y el 5% los dos
idiomas ¿Cuál es la probabilidad de encontrar alumnos que hablen alguna lengua
extranjera?
Solución:
Sea A el suceso hablar inglés:
.
Sea B el suceso hablar francés:
El suceso hablar francés e inglés es
Así:
.
:
.
Ejemplo
En una estación de esquí, para navidad, la experiencia indica que hay un tiempo soleado
sólo el
de los días. Por otro lado, se ha calculado que cuando un día es soleado,
hay una probabilidad del 20% de que el día posterior también lo sea. Calcular la
probabilidad de que, en navidad, un fin de semana completo sea soleado.
Solución: Llamemos S al suceso sábado soleado y D al suceso domingo soleado. La
única manera en que un fin de semana completo sea soleado es que lo sea en primer
lugar el sábado, y que el domingo posterior también. Es decir:
Luego sólo el
de los fines de semana son soleados.
El primero de los teoremas que vamos a enunciar es una generalización de la
probabilidad de la intersección de dos sucesos, a la de un número cualquiera pero finito
de ellos:
Teorema (Probabilidad compuesta)
Sea
una colección de sucesos aleatorios. Entonces:
Demostración
Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando
tenemos que el suceso seguro está descompuesto en una serie de sucesos incompatibles
de los que conocemos su probabilidad. Para ello necesitamos introducir un nuevo
concepto: Se dice que la colección
excluyente de sucesos si se verifican las relaciones:
es un sistema exhaustivo y
A1,A2,A3,A4 forman un sistema
exhaustivo y excluyente se sucesos.
1.2.-
Teorema (Probabilidad total)
Sea
un sistema exhaustivo y excluyente de sucesos. Entonces
Demostración
Basados en lo que se observa de la figura realizamos las siguientes operaciones:
Si A1,A2,A3,A4 forma un sistema exhaustivo y
excluyente se sucesos, podemos calcular la
probabilidad de B a partir de las cantidades
,
o
lo
que
es
lo
mismo,
Ejemplo
Se tienen dos urnas, y cada una de ellas contiene un número diferente de bolas blancas y
rojas:
 Primera urna, U1: 3 bolas blancas y 2 rojas;
 Segunda urna, U2: 4 bolas blancas y 2 rojas.
Se realiza el siguiente experimento aleatorio:
Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si
sale sello de la segunda.
¿Cuál es la probabilidad de que salga una bola blanca?
Solución: La situación que tenemos puede ser esquematizada como
U1
U2
Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola
resultado debe provenir de una de esas dos urnas y de una sólo de ellas), el teorema de
la probabilidad total nos permite afirmar entonces que
Teorema (Bayes)
Sea
un sistema exhaustivo y excluyente de sucesos. Sea
un suceso del que conocemos todas las cantidades
denominamos verosimilitudes. entonces se verifica:
,
, a las que
Demostración
Es una consecuencia de la definición de probabilidad condicionada en términos de la
intersección, y del teorema de la probabilidad total:
Ejemplo
Se tienen tres urnas. Cada una de ellas contiene un número diferente de bolas blancas y
rojas:
 Primera urna, U1: 3 bolas blancas y 2 rojas;
 Segunda urna, U2: 4 bolas blancas y 2 rojas;
 Tercera urna, U3: 3 bolas rojas.
Se realiza el siguiente experimento aleatorio:
Alguien elige al azar y con la misma probabilidad una de las tres urnas, y saca
una bola.
Si el resultado del experimento es que ha salido una bola blanca,
¿cuál es la probabilidad de que provenga de la primera urna? Calcular lo mismo para las
otras dos urnas.
Solución: Vamos a representar en un esquema los datos de que disponemos:
U1
U2
U3
En este caso U1, U2 y U3 forman un sistema incompatible y excluyente de sucesos (la
bola resultado debe provenir de una de esas tres urnas y de una sólo de ellas), por tanto
es posible aplicar el teorema de Bayes:
Con respecto a las demás urnas hacemos lo mismo:
Observación
Obsérvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de
extraer una bola para ver su resultado, teníamos que la probabilidad de elegir una urna i
cualquiera es
. Estas probabilidades se denominan probabilidades a priori. Sin
embargo, después de realizar el experimento, y observar que el resultado del mismo ha
sido la extracción de una bola blanca, las probabilidades de cada urna han cambiado a
. Estas cantidades se denominan probabilidades a posteriori. Vamos a
representar en una tabla la diferencia entre ambas:
a priori
a posteriori
1
1
Las probabilidades a priori
cambian de tal modo de las a
posteriori
que
una
vez
observado el resultado del
experimento aleatorio, se puede
afirmar con certeza que no fue
elegida la tercera urna.
Esta fenómeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos
teorías científicas diferentes, T1 y T2, que pretenden explicar cierto fenómeno, y a las
que asociamos unas probabilidades a priori de ser ciertas,
podemos llevar a cabo la experimentación que se considere más conveniente, para una
vez obtenido el cuerpo de evidencia, B, calcular como se modifican las probabilidades
de verosimilitud de cada teoría mediante el teorema de Bayes:
Así la experimentación puede hacer que una teoría sea descartada si
o
reforzada si
. Una aplicación básica de esta técnica la tenemos en
Medicina para decidir si un paciente padece cierta enfermedad o no, en función de los
resultados de un test diagnóstico.
Teorema (Probabilidad compuesta): Sea
sucesos aleatorios. Entonces:
una colección de
Sistema
exhaustivo
y
,
excluyente
si
y
de
sucesos:
se
Se
verifican
dice
a
la
las
colección
relaciones:
, respectivamente.
Teorema (Probabilidad total): Sea
excluyente de sucesos. Entonces:
Teorema (Bayes): Sea
sucesos. Sea
un sistema exhaustivo y
un sistema exhaustivo y excluyente de
un suceso del que conocemos todas las cantidades
,
, a las que denominamos verosimilitudes. entonces se verifica:
2.5 La función Variable aleatoria
Sea Ω un espacio muestral, una variable aleatoria X es una función que a cada
elemento de ω Ω, le asigna un número real.
X: Ω → R
X(ω) R, ω
Ω
Dada una v.a. discreta
, su función de probabilidad f, se define de
modo que f(xi) es la probabilidad de que X tome ese valor:
Si xi no es uno de los valores que puede tomar X, entonces f(xi)=0. La representación
gráfica de la función de probabilidad se realiza mediante un diagrama de barras análogo
al de distribución de frecuencias relativas para variables discretas (figura 5.3). Por
ejemplo, si retomamos el caso del lanzamiento de 3 monedas de forma que cada una de
ellas tenga probabilidad 1/2 de dar como resultado cara (C) o sello(R), se tiene que:
Figura: Equivalencia entre las probabilidades calculadas directamente sobre el espacio muestral E de
resultados del experimento aleatorio, y las calculadas sobre el subconjunto
mediante la v.a. X.
Observación
Obsérvese que X está definido sobre el espacio muestral de sucesos E, mientras que f lo
está sobre el espacio de números reales
.
Las propiedades de la función de probabilidad de v.a. se deducen de forma inmediata de
los axiomas de probabilidad:
Es evidente que si tenemos tres constantes a < b < c, los sucesos
son mutuamente excluyentes, es decir,
. Por ello, si se define
y
, luego
, se tiene que
variable aleatoria X es una función que a cada elemento de ω
Ω, le asigna un
número real.
función de probabilidad f:, se define de modo que f(xi) es la probabilidad de que X
tome ese valor.
2.6 Distribución de una Variable Aleatoria y de Variables
Aleatorias Conjuntas
Otro concepto importante es el de función de distribución de una variable aleatoria
discreta, F, que se define de modo que si
que X tome un valor inferior o igual a xi:
, F(xi) es igual a la probabilidad de
Esta función se representa gráficamente del mismo modo que la distribución de
frecuencias relativas acumuladas (ver figura de abajo). Volviendo al ejemplo de las tres
monedas, se tiene que
Hay que observar que a valores no admisibles por la variable les pueden corresponder
valores de F no nulos. Por ejemplo,
Figura: Función de probabilidad a la izquierda, y función de distribución a la
derecha de una v.a. discreta
Es sencillo comprobar que las siguientes propiedades de la función de distribución son
ciertas:
Proposición (Distribuciones discretas)
1. La función de distribución F, es una función no decreciente, es decir,
2. es continua a la derecha:
3. Además,
Variables aleatorias continuas
Si una variable discreta toma los valores x1, ..., xk, las probabilidad de que al hacer un
experimento, X tome uno de esos valores es 1, de modo que cada posible valor xi
contribuye con una cantidad f(xi) al total:
Aun cuando la variable tomase un número infinito de valores, x1, x2, ..., no hay ningún
problema en comprobar que cada xi contribuye con una cantidad f(xi) al total de modo
que
Cuando la variable es continua, no tiene sentido hacer una suma de las probabilidades
de cada uno de los términos en el sentido anterior, ya que el conjunto de valores que
puede tomar la variable es no numerable. En este caso, lo que generaliza de modo
natural el concepto de suma (Σ) es el de integral ( ). Por otro lado, para variables
continuas no tiene interés hablar de la probabilidad de que
, ya que esta
debe de valer siempre 0, para que la suma infinita no numerable de las probabilidades
de todos los valores de la variable no sea infinita.
De este modo es necesario introducir el concepto de función de densidad de una v.a.
continua, que se define como una función
propiedades siguientes:
y que además verifica que dado a < b, se tiene que
integrable, que verifica las dos
Figura: Función de densidad f. La probabilidad de un intervalo, es el área que
existe entre la función y el eje de abscisas.
Observación
Por ser f una función integrable, la probabilidad de un punto es nula:
y por ello al calcular la probabilidad de un intervalo no afectara nada el que este sea
abierto o cerrado por cualquiera de sus extremos, pues estos son puntos y por tanto de
probabilidad nula:
La función de distribución de la v.a. continua, F, se define de modo que dado
, F(x) es la probabilidad de que X sea menor o igual que x, es decir
Figura: Función de distribución F, calculada a partir de la función de densidad f.
Observación
Dado un intervalo de la forma (a, b], tenemos que
Es decir, la cantidad F(b) - F(a) representa la masa de probabilidad extendida a lo largo
de dicho intervalo. Si dividimos esta cantidad por la longitud del intervalo,
tenemos la masa media de probabilidad por unidad de longitud en (a, b], es decir, su
densidad media de probabilidad. Si hacemos tender a hacia b,
, la cantidad
es la densidad de probabilidad del punto b (que como hemos mencionado no se ha de
confundir con la probabilidad de b).
Proposición
Distribuciones continuas La función de distribución F, es no decreciente
Además, es una función absolutamente continua que verifica:
Demostración
Los sucesos
y
son mutuamente excluyentes, siendo su unión el suceso
. Por tanto
El resto es evidente pues por la relación
y por otro lado
Variables Aleatorias Conjuntas
Sabemos que si X es una v.a. con ella se asocia una función de Distribución si X es
discreta ó de Densidad de Probabilidad si X es continua.
Se puede hablar de dos o más v.a. consideradas simultáneamente o de manera conjunta.
Consideremos el caso en que ambas v.a. son discretas, se lanzan dos dados
sucesivamente, entonces
y\x
-5
-4
-3
-2
-1
0
1
2
3
4
5
P(X=x)
2
0
0
0
0
0
1/36
0
0
0
0
0
1/36
3
0
0
0
0
1/36
0
1/36
0
0
0
0
2/36
4
0
0
0
1/36
0
1/36
0
1/36
0
0
0
3/36
5
0
0
1/36
0
1/36
0
1/36
0
1/36
0
0
4/36
6
0
1/36
0
1/36
0
1/36
0
1/36
0
1/36
0
5/36
7
1/36
0
1/36
0
1/36
0
1/36
0
1/36
0
1/36
6/36
8
0
1/36
0
1/36
0
1/36
0
1/36
0
1/36
0
5/36
9
0
0
1/36
0
1/36
0
1/36
0
1/36
0
0
4/36
10
0
0
0
1/36
0
1/36
0
1/36
0
0
0
3/36
11
0
0
0
0
1/36
0
1/36
0
0
0
0
2/36
12
0
0
0
0
0
1/36
0
0
0
0
0
1/36
P(Y=y)
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
1
Ω ={(1, 1); (1, 2); ...; (6, 6)}
Se define
x = la suma de las dos ocurrencias
y = la diferencia del primer o con el segundo término
Donde la fila de valores P(X = x) representa la probabilidad marginal de X, y la
columna de valores P(Y = y) representa la probabilidad marginal de Y.
Derfinición: X y Y son dos v.a. discretas consideradas de manera conjunta. Con ellos
se asocia una función f: R2 → R, llamada su distribución de probabilidades tal que
f(x, y) = P(X = x, Y = y)
Sea
¿cual es el valor de k que hace que esta función sea una función de distribución de
probabilidades?
y\x
1
2
3
4
P(X = x)
1
2/32
3/32
4/32
5/32
14/32
2
3/32
4/32
5/32
6/32
18/32
o P(x > y)
=
=
P(x =2, y =1)
3/32
o P(x + y = 3)
=
=
=
P(x =1,y =2) + P(x =2,y =1)
3/32 + 3/32
6/32
P(Y = y)
5/32
7/32
9/32
11/32
1
Marginal de x
de forma análoga se realiza para obtener la marginal de y
Para las v.a. continuas se realiza el mismo proceso que las discretas con la diferencia
que ya no se utilizará el símbolo Σ sino el de integración
valores que pueden tomar.
debido a la diferencia de
función de distribución: F de una v.a. se define de modo que si
, F(xi) es igual a
la probabilidad de que X tome un valor inferior o igual a xi:
función de densidad de una v.a. continua, que se define como una función
integrable, que verifica las dos propiedades siguientes:
función de distribución de la v.a. continua, F, se define de modo que dado
F(x) es la probabilidad de que X sea menor o igual que x
,
2.7 Momentos de una v.a.
Se denomina momento de orden r (
),
, a:
Asimismo se denomina momento central de orden r, mr, a:
De este modo, es claro que la esperanza matemática es el momento de primer orden
y que la varianza es el momento central de segundo orden
el momento central de tercer orden es denominado sesgo y denota si los datos están
agrupados de igual manera de un lado y de otro (insesgado) de la esperanza E[X] o
están agrupados de un lado más que de otro (sesgado).
Sea X una variable cuantitativa y
. Llamamos momento de orden p a:
Se denomina momento central de orden p a la cantidad
Si los datos están agrupados en una tabla, mp admite otra expresión equivalente:
Ejemplo
El momento de orden 2 es la varianza muestral:
Es sencillo comprobar que los momentos de orden p impar, son siempre nulos en el
caso de variables simétricas, ya que para cada i que esté a un lado de la media, con
, le corresponde una observación j del otro lado de la media tal que
. Elevando cada una de esas cantidades a p impar, y sumando se
tiene que
Si la distribución fuese asimétrica positiva, las cantidades
, con
impar
positivas estarían muy aumentadas al elevarse a p. Esta propiedad nos indica que un
índice de asimetría posible consiste en tomar p =3 y definir
que para datos organizados en una tabla sería
Apoyándonos en este índice, diremos que hay asimetría positiva si a3>0, y que la
asimetría es negativa si a3<0.
El momento de cuarto orden es denominado Estadísticos de apuntamiento (picudez),
Se define el coeficiente de aplastamiento de Fisher como:
donde m4 es el momento empírico de cuarto orden. Es éste un coeficiente adimensional,
invariante ante cambios de escala y de origen. Sirve para medir si una distribución de
frecuencias es muy puntiaguda o no. Para decir si la distribución es larga y estrecha, hay
que tener un patrón de referencia. El patrón de referencia es la distribución normal o
gaussiana para la que se tiene
De este modo, atendiendo a
, se clasifican las distribuciones de frecuencias en:
Leptocúrtica:
Cuando
normal;
Mesocúrtica:
, o sea, si la distribución de frecuencias es más puntiaguda que la
Cuando
la normal;
Platicúrtica:
, es decir, cuando la distribución de frecuencias es tan puntiaguda como
Cuando
normal;
, o sea, si la distribución de frecuencias es menos puntiaguda que la
Figura: Picudez de distribuciones de frecuencias
2.8 Medidas de tendencia central, dispersión y correlación de
Variables Aleatorias
Medidas de tendencia central
Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de
puntuaciones.
Las tres medidas más usuales de tendencia central son: la media, la mediana y la moda.
En ciertas ocasiones estos tres estadísticos suelen coincidir, aunque generalmente no es
así. Cada uno de ellos presenta ventajas e inconvenientes.
La media
La media aritmética de una variable estadística es la suma de todos sus posibles
valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de
una variable X es
X ni fi
x1 n1 f1
... ... ...
xk nk fk
la media es el valor que podemos escribir de las siguientes formas equivalentes:
Si los datos no están ordenados en una tabla, entonces
Observación
Hemos supuesto implícitamente en la definición de media que tratábamos con una
variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi
por las marcas de clase correspondientes. En general, la media aritmética obtenida a
partir de las marcas de clase ci, diferirá de la media obtenida con los valores reales, xi.
Es decir, habrá una perdida de precisión que será tanto mayor cuanto mayor sea la
diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las
longitudes ai, de los intervalos.
Proposición
La suma de las diferencias de la variable con respecto a la media es nula, es decir,
Demostración
Basta desarrollar la sumatoria para obtener
Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la
variable, por ejemplo x1, mediante el valor central , es compensado por los demás
errores:
Si los errores se consideran con signo positivo, en este caso no pueden compensarse.
Esto ocurre si tomamos como medida de error alguna de las siguientes:
que son cantidades estrictamente positivas si algún
.
Ejemplo
Obtener las desviaciones con respecto a la media en la siguiente distribución y
comprobar que su suma es cero.
li-1 - li
ni
0 - 10
1
10 - 20 2
20 - 30 4
30 - 40 3
Solución:
li-1 - li
ni
xi
xi ni
0 - 10
1
5
5
-19
-19
10 - 20
2
15
30
-9
-18
20 - 30
4
25
100
+1
+4
30 - 40
3
35
105
+11
+33
n =10
La media aritmética es:
Como se puede comprobar sumando los elementos de la última columna,
Proposición (König)
Para cualquier posible valor k que consideremos como candidato a medida central,
mejora en el sentido de los mínimos cuadrados, es decir
Demostración
Sea
. Veamos que el error cuadrático cometido por k-es mayor que el de
.
lo
Proposición (Linealidad de la media)
Proposición
Dados r grupos con n1, n2, ..., nr observaciones y siendo
,
, ...,
las respectivas
medias de cada uno de ellos. Entonces la media de las
es
Demostración
Vamos a llamar xij a la j-ésima observación del grupo i; Entonces tenemos
Así, agrupando convenientemente las observaciones se llega a que
Observación
observaciones
A pesar de las buenas propiedades que ofrece la media, ésta posee algunos
inconvenientes:
Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas
las observaciones intervienen en el cálculo de la media, la aparición de una observación
extrema, hará que la media se desplace en esa dirección. En consecuencia, no es
recomendable usar la media como medida central en las distribuciones muy asimétricas;
Depende de la división en intervalos en el caso de variables continuas.
Si consideramos una variable discreta, por ejemplo, el número de hijos en las familias
de Guayaquil el valor de la media puede no pertenecer al conjunto de valores de la
variable;
Por ejemplo
hijos.
Cálculo abreviado
Se puede utilizar la linealidad de la media para simplificar las operaciones necesarias
para su cálculo mediante un cambio de origen y de unidad de medida. El método
consiste en lo siguiente:
1. Tomamos a un número que exprese aproximadamente el tipo de unidad con la que se
trabaja. Por ejemplo, si las unidades que usamos son millones, tomamos a =1.000.000.
2. Seleccionamos un punto cualquiera de la zona central de la tabla, x0. Este punto
jugará el papel de origen de referencia.
3. Cambiamos a la variable
4. Construimos de este modo la tabla de la variable Z, para la que es más fácil calcular
directamente, y después se calcula
Medias generalizadas
En función del tipo de problema varias generalizaciones de la media pueden ser
consideradas. He aquí algunas de ellas aplicadas a unas observaciones x1, ..., xn:
La media geométrica
, es la media de los logaritmos de los valores de la variable:
Luego
Si los datos están agrupados en una tabla, entonces se tiene:
La media armónica
, se define como el recíproco de la media aritmética de los recíprocos, es decir,
Por tanto,
La media cuadrática
, es la raíz cuadrada de la media aritmética de los cuadrados:
La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han
sido ordenadas de menor a mayor. Llamaremos mediana, Med al primer valor de la
variable que deja por debajo de sí al
de las observaciones. Por tanto, si n es el
número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde
representamos por
la parte entera de un número.
Figura: Cálculo geométrico de la mediana
En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la
fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el
intervalo donde hemos encontrado que por debajo están el
de las observaciones.
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
mediante interpolación lineal (teorema de Thales) como se ve en la figura anterior
Observación
La relación anterior corresponde a definir para cada posible observación,
,
su frecuencia relativa acumulada, F(x), por interpolación lineal entre los valores F(lj-1) =
Fj-1 y F(lj) = Fj de forma que
De este modo, Med es el punto donde
. Esto equivale a decir que la
mediana divide al histograma en dos partes de áreas iguales a
.
Observación
Entre las propiedades de la mediana, vamos a destacar las siguientes:




Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la variable,
sino del orden de las mismas. Por ello es adecuado su uso en distribuciones
asimétricas.
Es de cálculo rápido y de interpretación sencilla.
A diferencia de la media, la mediana de una variable discreta es siempre un
valor de la variable que estudiamos (Ej. La mediana de una variable número de
hijos toma siempre valores enteros).
Si una población está formada por 2 sub poblaciones de medianas Med1 y Med2,
sólo se puede afirmar que la mediana, Med, de la población está comprendida
entre Med1 y Med2
Defectos de la Mediana
 El mayor defecto de la mediana es que tiene unas propiedades matemáticas
complicadas, lo que hace que sea muy difícil de utilizar en inferencia
estadística.
 Es función de los intervalos escogidos.
 Puede ser calculada aunque el intervalo inferior o el superior no tenga límites.
 La suma de las diferencias de los valores absolutos de n puntuaciones respecto a
su mediana es menor o igual que cualquier otro valor. Este es el equivalente al
teorema de König con respecto a la media, pero donde se considera como
medida de dispersión a:
Ejemplo
Sea X una variable discreta que ha presentado sobre una muestra las modalidades
Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la
mediana, pero si a la media:
En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy
afectada por la observación extrema. Este no ha sido el caso para la mediana.
Ejemplo
Obtener la media aritmética y la mediana en la distribución adjunta. Determinar
gráficamente cuál de los dos promedios es más significativo.
li-1 - li
ni
0 - 10
60
10 - 20
80
20 - 30
30
30 - 100
20
100 - 500 10
Solución:
li-1 - li
ni
ai
xi
xi ni
Ni
0 - 10
60
10
5
300
60
10 - 20
80
10
15
1.200
140 80
20 - 30
30
10
25
750
170 30
30 - 100
20
70
65
1.300
190 2,9
100 - 500 10
400 300 3.000
60
200 0,25
n =200
La media aritmética es:
La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni =140. Por
ello el intervalo mediano es [10;20). Así:
Para ver la representatividad de ambos promedios, realizamos el histograma de la figura
siguiente, y observamos que dada la forma de la distribución, la mediana es más
representativa que la media.
Figura: Para esta distribución de frecuencias es más representativo usar como
estadístico de tendencia central la mediana que la media.
La moda
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es
decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su
posterior.
Figura: Cálculo geométrico de la moda
En el caso de variables continuas es más correcto hablar de intervalos modales. Una vez
que este intervalo, (li-1, li], se ha obtenido, se utiliza la siguiente fórmula para calcular la
moda, que está motivada en la figura anterior:
Observación
De la moda destacamos las siguientes propiedades:
 Es muy fácil de calcular.
 Puede no ser única.
 Es función de los intervalos elegidos a través de su amplitud, número y límites
de los mismos.
 Aunque el primero o el último de los intervalos no posean extremos inferior o
superior respectivamente, la moda puede ser calculada.
Relación entre media, mediana y moda
En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida
entre la media y la moda (incluso más cerca de la media).
En distribuciones que presentan cierta inclinación, es más aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propósitos estadísticos y de
inferencia suele ser más apta la media.
Veamos un ejemplo de cálculo de estas tres magnitudes.
Ejemplo
Consideramos una tabla estadística relativa a una variable continua, de la que nos dan
los intervalos, las marcas de clase ci, y las frecuencias absolutas, ni.
Intervalos ci ni
0 -- 2
1 2
2 -- 4
3 1
4 -- 6
5 4
6 -- 8
7 3
8 - 10
9 2
Para calcular la media podemos añadir una columna con las cantidades
de los términos de esa columna dividida por n =12 es la media:
Intervalos ci
ni Ni
0–2
1
2 2
2
2–4
3
1 3
3
4–6
5
4 7
20
6–8
7
3 10 21
8 – 10
9
2 12 18
12
64
. La suma
La mediana es el valor de la variable que deja por debajo de sí a la mitad de las n
observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas acumuladas,
Ni, y vemos que eso ocurre en la modalidad tercera, es decir,
Para el cálculo de la moda, lo primero es encontrar los intervalos modales, buscando los
máximos relativos en la columna de las frecuencias absolutas, ni. Vemos que hay dos
modas, correspondientes a las modalidades i =1, i =3. En el primer intervalo modal,
(l0,1]=(0,2], la moda se calcula como
El segundo intervalo modal es (l2,l3]=(4;6], siendo la moda el punto perteneciente al
mismo que se obtiene como:
En este caso, como se ve en la figura siguiente, la moda no toma un valor único, sino el
conjunto
Figura: Diagramas diferencial e integral con cálculo geométrico de la moda y de la mediana de la
variable.
La media aritmética: de una variable estadística es la suma de todos sus posibles
valores, ponderada por las frecuencias de los mismos.
Media geométrica:
, es la media de los logaritmos de los valores de la variable:
Luego
Media armónica:
recíprocos, es decir,
Media cuadrática:
, se define como el recíproco de la media aritmética de los
Por tanto,
, es la raíz cuadrada de la media aritmética de los cuadrados:
Mediana: Med es el primer valor de la variable que deja por debajo de sí al
de las
observaciones. Considerando una v.a. X cuyas observaciones han sido ordenadas de
menor a mayor.
Moda: Llamaremos a cualquier máximo relativo de la distribución de frecuencias, es
decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su
posterior.
Medidas de variabilidad o dispersión
Los de variabilidad o dispersión nos indican si las puntuaciones o valores (analizadas
en los estadísticos de tendencia central) están próximas entre sí o si por el contrario
están muy dispersas.
Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto. Es fácil
de calcular y sus unidades son las mismas que las de la variable, aunque posee varios
inconvenientes:



No utiliza todas las observaciones (sólo dos de ellas);
Se puede ver muy afectada por alguna observación extrema;
El rango aumenta con el número de observaciones, o bien se queda igual. En
cualquier caso nunca disminuye.
En el transcurso de esta sección, veremos medidas de dispersión mejores que la anterior.
Estas se determinan en función de la distancia entre las observaciones y algún
estadístico de tendencia central.
Desviación media, Dm
Se define la desviación media como la media de las diferencias en valor absoluto de los
valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,
x1, ..., xn, entonces
Si los datos están agrupados en una tabla estadística es más sencillo usar la relación
Como se observa, la desviación media guarda las mismas dimensiones que las
observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero
esta simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la distancia
que induce la desviación media en el espacio de observaciones no es la natural (no
permite definir ángulos entre dos conjuntos de observaciones). Esto hace que sea muy
engorroso trabajar con ella a la hora de hacer inferencia a la población.
Varianza y desviación típica
Como forma de medir la dispersión de los datos hemos descartado:


, pues sabemos que esa suma vale 0, ya que las desviaciones con
respecto a la media se compensan al haber términos en esa suma que son de
signos distintos.
Para tener el mismo signo al sumar las desviaciones con respecto a la media
podemos realizar la suma con valores absolutos. Esto nos lleva a la Dm, pero
como hemos mencionado, tiene poco interés por las dificultades que presenta.
Si las desviaciones con respecto a la media las consideramos al cuadrado,
, de
nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es
además la forma de medir la dispersión de los datos de forma que sus propiedades
matemáticas son más fáciles de utilizar. Vamos a definir entonces dos estadísticos que
serán fundamentales en el resto del curso: La varianza y la desviación típica.
La varianza,
, se define como la media de las diferencias cuadráticas de N
puntuaciones con respecto a su media aritmética, es decir
cuando N es el tamaño de la población.
,
Si n representa el total de elementos en la población se da lo siguiente:
.Para datos agrupados en tablas, usando las notaciones establecidas en los capítulos
anteriores, la varianza se puede escribir como
.
Una fórmula equivalente para el cálculo de la varianza está basada en lo siguiente:
Con lo cual se tiene
Si los datos están agrupados en tablas, es evidente que
La varianza no tiene la misma magnitud que las observaciones (Ej. si las observaciones
se miden en metros, la varianza lo hace en
). Si queremos que la medida de
dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su
raíz cuadrada. Por ello se define la desviación típica, , como
Ejemplo
Calcular la varianza muestral y desviación típica de las siguientes cantidades medidas
en metros: 3,3,4,4,5
Solución:
Para calcular dichas medidas de dispersión es necesario calcular previamente el valor
con respecto al cual vamos a medir las diferencias. Ésta es la media:
La varianza es:
siendo la desviación típica su raíz cuadrada:
Las siguientes propiedades de la varianza (respectivamente, desviación típica) son
importantes a la hora de hacer un cambio de origen y escala a una variable. En primer
lugar, la varianza (igual la Desviación típica) no se ve afectada si al conjunto de valores
de la variable se le añade una constante. Si además cada observación es multiplicada por
otra constante, en este caso la varianza cambia en relación al cuadrado de la constante
(La desviación típica cambia en relación al valor absoluto de la constante). Esto queda
precisado en la siguiente proposición:
Proposición
Si
entonces
Demostración
Para cada observación xi de X,
definición
, tenemos una observación de Y que es por
, se tiene que
. Por tanto, la varianza de Y es
Observación
Las consecuencias del anterior resultado eran de esperar: Si los resultados de una
medida son trasladados una cantidad b, la dispersión de los mismos no aumenta. Si
estos mismos datos se multiplican por una cantidad a <1, el resultado tenderá a
concentrarse alrededor de su media (menor varianza). Si por el contrario a>1 habrá
mayor dispersión.
Otra propiedad fundamental de la varianza es la siguiente:
Proposición
Dados r grupos, cada uno de ellos formado por ni observaciones de media
varianza
. Entonces la varianza,
observaciones vale
y de
, del conjunto de todas las
Demostración
Dicho de otro modo, pretendemos demostrar que la varianza total es igual a la media
de las varianzas más la varianza de las medias. Comenzamos denotando mediante xij la
observación j-ésima en el i-ésimo grupo, donde
y
. Entonces
Observación
Además de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre
la desviación típica), será conveniente tener siempre en mente otras que enunciamos a
continuación:



Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si
una puntuación cambia, cambia con ella la varianza. La razón es que si miramos
su definición, la varianza es función de cada una de las puntuaciones.
Si se calculan a través de los datos agrupados en una tabla, dependen de los
intervalos elegidos. Es decir, cometemos cierto error en el cálculo de la varianza
cuando los datos han sido resumidos en una tabla estadística mediante
intervalos, en lugar de haber sido calculados directamente como datos no
agrupados. Este error no será importante si la elección del número de intervalos,
amplitud y límites de los mismos ha sido adecuada.
La desviación típica tiene la propiedad de que en el intervalo
se encuentra, al menos, el 75% de las observaciones (ver el teorema de
Tshebishev). Incluso si tenemos muchos datos y estos provienen de una
distribución normal (se definirá este concepto más adelante), podremos llegar al
.

No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como
medida de tendencia central.
Método abreviado para el cálculo de la varianza
Si una variable X toma unos valores para los cuales las operaciones de cálculo de media
y varianza son tediosas, podemos realizar los cálculos sobre una variable Z definida
como
Una vez que han sido calculadas
y
, obtenemos
y
teniendo en cuenta que:
Grados de libertad
Los grados de libertad de un estadístico calculado sobre n datos se refieren al número
de cantidades independientes que se necesitan en su cálculo, menos el número de
restricciones que ligan a las observaciones y el estadístico. Es decir, normalmente n-1.
Ejemplo:
Consideramos una serie de valores de una variable,
tomados de forma independiente.
, que han sido
Su media es
y se ha calculado a partir de las n =5 observaciones independientes
xi, que están ligadas a la media por la relación:
Luego el número de grados de libertad de la media es n-1=4.
Si calculamos a continuación la varianza, se han de sumar n cantidades
Sin embargo esas cantidades no son totalmente independientes, pues están ligadas por
una restricción:
El número de grados de libertad del estadístico es el número de observaciones de la
variable menos el número de restricciones que verifican, así que en este caso, los grados
de libertad de la varianza sobre los n =5 datos son también n-1 = 4.
Un principio general de la teoría matemática nos dice que si pretendemos calcular de
modo aproximado la varianza de una población a partir de la varianza de una muestra
suya, se tiene que el error cometido es generalmente más pequeño, si en vez de
considerar como estimación de la varianza de la población, a la varianza muestral
denotada por
consideramos lo que se denomina cuasi varianza muestral,
que se calcula como la
anterior, pero cambiando el denominador por el número de grados de libertad, n-1:
Sobre este punto incidiremos más adelante, ya que es fundamental en estadística
inferencial.
Coeficiente de variación
Hemos visto que las medidas de centralización y dispersión nos dan información sobre
una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para
comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los
pesos de las poblaciones de elefantes de dos circos diferentes,
nos dará información
útil.
¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su
peso? Tanto la media como la desviación típica,
y
, se expresan en las mismas
unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad
de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con
respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de
masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa,
de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el
peso en toneladas de una población de 100 elefantes con el correspondiente en
miligramos de una población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por
ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los
elefantes (toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad,
lo lógico es que la dispersión de la variable peso de las hormigas sea prácticamente nula
(¡Aunque haya algunas que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la
dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las
medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar
estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la
proporción existente entre medias y desviación típica. Se define del siguiente modo:
Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las
siguientes consideraciones deben ser tenidas en cuenta:


Sólo se debe calcular para variables con todos los valores positivos. Todo índice
de variabilidad es esencialmente no negativo. Las observaciones pueden ser
positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo
debemos trabajar con variables positivas, para la que tenemos con seguridad que
.
No es invariante ante cambios de origen. Es decir, si a los resultados de una
medida le sumamos una cantidad positiva, b>0, para tener Y = X + b, entonces
, ya que la desviación típica no es sensible ante cambios de origen,
pero si la media. Lo contrario ocurre si restamos (b<0).

Es invariante a cambios de escala. Si multiplicamos X por una constante a, para
obtener
, entonces
Observación
Es importante destacar que los coeficientes de variación sirven para comparar las
variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si
deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar
los valores estandarizados.
Ejemplo
Dada la distribución de edades (medidas en años) en un colectivo de 100 personas,
obtener:
1. La variable estandarizada Z.
2. Valores de la media y varianza de Z.
3. Coeficiente de variación de Z.
Horas trabajadas Num. empleados
0 -- 4
47
4 -- 10
32
10 -- 20
17
20 -- 40
4
100
Solución:
Para calcular la variable estandarizada
partimos de los datos del
enunciado. Será necesario calcular en primer lugar la media y desviación típica de la
variable original (X = años). Como no se tiene la desviación típica de la población
,
se trabaja con el estimador de este parámetro, es decir
. Por la tanto la ecuación nos
queda:
li-1 -- li
xi
ni
xi ni xi2 ni
0 -- 4
2
47
94
4 -- 10
7
32
224 1.568
10 -- 20 15
17
255 3.825
20 -- 40 30
4
120 3.600
188
n =100 693 9.181
A partir de estos valores podremos calcular los valores estandarizados para las marcas
de clase de cada intervalo y construir su distribución de frecuencias:
zi ni
zi2 ni
zi
ni
-0,745
47
0,011
32
0,352
0,004
1,220
17
20,720
25,303
3,486
4
13,944
48,609
n =100
0,021
100,002
-35,015 26,086
A pesar de que no se debe calcular el coeficiente de variación sobre variables que
presenten valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el
porqué:
Es decir, el coeficiente de variación no debe usarse nunca con variables
estandarizadas.
Desviación media Dm: como la media de las diferencias en valor absoluto de los
valores de la variable a la media. Se define como
varianza,
, se define como la media de las diferencias cuadráticas de las N
puntuaciones con respecto a su media aritmética, es decir
tamaño de la población )
, (N
varianza muestral la varianza de una población es estimada a partir de la varianza de
una muestra suya, se denotada por
Grados de libertad: de un estadístico calculado sobre n datos se refieren al número de
cantidades independientes que se necesitan en su cálculo, menos el número de
restricciones que ligan a las observaciones y el estadístico.
Cuasi varianza muestral:
que se calcula como la varianza, pero cambiando el
denominador por el número de grados de libertad, n-1.
Estandarización: es el proceso de restar la media y dividir por su desviación típica (o
para el estimador de esta) a una variable X.
, donde S es la raíz cuadrada de
la varianza muestral.
Coeficiente de variación: elimina la dimensionalidad de las variables y tiene en cuenta
la proporción existente entre medias y desviación típica.
Variabilidad o dispersión: nos indican si las puntuaciones o valores (analizadas en los
estadísticos de tendencia central) están próximas entre sí o si por el contrario están o
muy dispersas
Covarianza y coeficiente de correlación
Cuando analizábamos las variables unidimensionales considerábamos, entre otras
medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas
también podemos considerarlas de forma individual para cada una de las componentes
de la variable bidimensional.
Si observamos con atención los términos
vemos que las cantidades
negativas.
y
van al cuadrado y por tanto no pueden ser
La covarianza
, es una manera de generalizar la varianza, esta mide el grado de
variación entre dos variables y se define como:
Como se ve, la fórmula es muy parecida a las de las varianzas. Es sencillo comprobar
que se verifica la siguiente expresión de
, más útil en la práctica:
Proposición
Si las observaciones no están ordenadas en una tabla de doble entrada, entonces se tiene
que
o lo que es lo mismo
Ejemplo
Se han clasificado 100 familias según el número de hijos varones (
en la tabla siguiente:
) o hembras (
0 1 2 3 4
0
4 6 9 4 1
1
5 10 7 4 2
2
7 8 5 3 1
3
5 5 3 2 1
4
2 3 2 1 0
1.
Hallar las medias, varianzas y desviaciones típicas marginales.
2.
¿Qué número medio de hijas hay en aquellas familias que tienen 2 hijos?
3.
¿Qué número medio de hijos varones hay en aquellas familias que no tienen
hijas?
4.
),
¿Qué número medio de hijos varones tienen aquellas familias que a lo sumo
tienen 2 hijas?
5.
Hallar la covarianza
Solución: En primer lugar, definimos las variables X = número de hijos varones, e Y =
número de hijas y construimos la tabla con las frecuencias marginales, y con otras
cantidades que nos son útiles en el cálculo de medias y varianzas:
y1 y2
y3
y4
y5
0
1
2
3
4
4
6
9
4
1
24
0
0
0
5 10
7
4
2
28
28
28
44
7
8
5
3
1
24
48
96
62
5
5
3
2
1
16
48
144
63
2
3
2
1
0
8
32
128
40
23 32 26
14
5 100
156
396
209
0 32 52
42 20 146
0 32 104 126 80 342
de este modo, las medias marginales son
cuando
y
.
Calculamos después las varianzas marginales
que nos dan directamente las desviaciones típicas marginales,
El número medio de hijas en las familias con 2 hijos varones se obtiene calculando la
distribución condicionada de
n3j n3j yj
7
0
8
8
5
10
3
9
1
4
24
31
Del mismo modo, el número medio de hijos varones de las familias sin hijas, se calcula
con la distribución condicionada
ni1 ni1 xi
4
0
5
5
7
14
5
15
2
8
23
42
El número medio de hijos varones en las familias que a lo sumo tienen dos hijas, se
calcula usando las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3
ni1 ni2 ni3 ni1+ ni2+ ni3 (ni1+ ni2+ ni3) xi
4
6
9
19
19
5 10 7
22
22
7
8
5
20
40
5
5
3
13
39
2
3
2
7
28
81
129
La covarianza es:
De forma más general, podemos realizar la siguiente proposición:
Proposición:
Demostración:
Nótese que
entonces
Amplitud o rango: que se obtiene restando el valor más bajo de un conjunto de
observaciones del valor más alto.
La covarianza
, es una manera de generalizar la varianza, esta mide el grado de
variación entre dos variables y se define como:
2.9 Desigualdad de Tshebishev
Si X es una variable aleatoria con esperanza
, y varianza
, se
puede demostrar que en general, una gran parte de la masa se encuentra en un intervalo
centrado en
y que tiene por amplitud varias veces
. Más precisamente, la
desigualdad de Tshebishev afirma que si consideramos un intervalo de centro
y radio
k veces , la probabilidad de realizar una observación de la variable y que esta no esté
en dicho intervalo es inferior o igual a 1/k2. Matemáticamente esto se formula como:
Teorema (Tshebishev)
Si X es v.a. con
y
, entonces
Este importante resultado, por si sólo, justifica el que
sea una medida de
centralización y
(o bien
) de dispersión de X y motiva la introducción del
concepto de estandarización de variables aleatorias. Dada una v.a. X, definimos su
v.a. estandarizada, Z, como:
que es una v.a. tal que
El teorema de Tshebishev afirma sobre Z que
Unidad 3
VARIABLES ALEATORIAS DISCRETAS
3.1 Variables Aleatorias Discretas
Distribución de Bernoulli
Consiste en realizar un experimento aleatorio una sola vez y observar si cierto suceso
ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q = 1-p el que no lo
sea (fracaso). Es decir que únicamente puede tomar dos modalidades, es por ello que el
hecho de llamar éxito o fracaso a los posibles resultados de las pruebas obedece más
una tradición literaria o histórica, en el estudio de las v.a., que a la situación real que
pueda derivarse del resultado. Podríamos por tanto definir este experimento mediante
una v.a. discreta X que toma los valores X =0 si el suceso no ocurre, y X =1 en caso
contrario, y que se denota
Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar una moneda al
aire y considerar la v.a.
Para una v.a. de Bernoulli, tenemos que su función de probabilidad es:
y su función de distribución:
Distribución binomial
Se dice que una v.a. X sigue una ley binomial de parámetros n y p,
la suma de n v.a. independientes de Bernoulli con el mismo parámetro, p:
, si es
Esta definición puede interpretarse en el siguiente sentido: Supongamos que realizamos
n pruebas de Bernoulli, Xi, donde en todas ellas, la probabilidad de éxito es la misma
(p), y queremos calcular el número de éxitos, X, obtenidos el total de las n pruebas. En
las siguientes Figuras se representa la función de probabilidad de una variable binomial.
(a) y (b) según el tamaño n.
Su ley de probabilidad es:
Figura: Función de probabilidad de una variable binomial (a) cuando n es pequeño, (b)
cuando n es grande.
Por tanto, su función de distribución es
Distribución geométrica ( o de fracasos)
Consideramos una sucesión de v.a. independientes de Bernoulli,
Una v.a. X sigue posee una distribución geométrica,
, si esta es la suma
del número de fracasos obtenidos hasta la aparición del primer éxito en la sucesión
. Por ejemplo
De este modo tenemos que la ley de probabilidad de X es
Observación
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesión
es una progresión
geométrica de razón q, a la que podemos aplicar su fórmula de sumatoria:
Observación
En la distribución geométrica el conjunto de posibles valores que puede tomar la
variable ( ) es infinito numerable, mientras que en la de Bernoulli y en la binomial,
estos eran en número finito.
Distribución binomial negativa
Sobre una sucesión de v.a. de Bernouilli independientes,
se define la v.a. X como el número de fracasos obtenidos hasta la aparición de r éxitos
en la sucesión
. En este caso se dice que X sigue una ley de distribución
binomial negativa de parámetros r y p y se denota del modo:
probabilidad es
De
nuevo,
el
conjunto
.
de
posibles
valores
de
. Su ley de
esta
v.a.
discreta
es
Observación
La distribución binomial negativa también se puede definir como el número de pruebas
hasta la aparición de r éxitos. Como el número de pruebas contabiliza tanto los éxitos
como los fracasos se tendría según ésta definición que
Distribución hipergeométrica
Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas
españolas (N = 40 naipes), de las cuales nos vamos a interesar en el palo de oros (D =10
naipes de un mismo tipo). Supongamos que de esa baraja extraemos n = 8 cartas de una
vez (sin reemplazamiento) y se nos plantea el problema de calcular la probabilidad de
que hayan k = 2 oros (exactamente) en esa extracción. La respuesta a este problema es
En lugar de usar como dato D es posible que tengamos la proporción existente, p, entre
el número total de oros y el número de cartas de la baraja
de modo que podemos decir que
Este ejemplo sirve para representar el tipo de fenómenos que siguen una ley de
distribución hipergeométrica. Diremos en general que una v.a. X sigue una distribución
hipergeométrica de parámetros, N, n y p, lo que representamos del modo
, si su función de probabilidad es
Observación
Cuando el tamaño de la población (N) es muy grande, la ley hipergeométrica tiende a
aproximarse a la binomial:
El valor esperado de la hipergeométrica es el mismo que el de la binomial,
sin embargo su varianza
no es exactamente la de la binomial, pues está corregida por un factor,
, que tiende
a 1 cuando
. A este factor se le denomina factor de corrección para población
finita.
Distribución de Poisson (o de los sucesos raros)
Una v.a. X posee una ley de distribución de probabilidades del tipo Poisson cuando
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir,
obteniéndose como la distribución límite de una sucesión de variable binomiales,
, donde
,y
(por tanto
).
La demostración de esto consiste en
En general utilizaremos la distribución de Poisson como aproximación de experimentos
binomiales donde el número de pruebas es muy alto, pero la probabilidad de éxito muy
baja. A veces se suele utilizar como criterio de aproximación:
La ley de Poisson la podemos encontrar tabulada en la tabla de probabilidades, para
ciertos valores usuales de .
Bernoulli: Consiste en realizar un experimento aleatorio una sola vez y observar si
cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q = 1-p
el que no lo sea (fracaso),
Binomial: Se dice que una v.a. X sigue una ley binomial de parámetros n y p,
, si es la suma de n v.a. independientes de Bernoulli con el mismo valor
del parámetro p,
Geométrica ( o de fracasos): Si X1, X2, ..., Xi, ... son una sucesión de v.a.
independientes de Bernoulli (p), entonces, una v.a. X posee una distribución
geométrica,
, si esta es la suma del número de fracasos obtenidos hasta la
aparición del primer éxito en la sucesión
. la ley de probabilidad de X es
Binomial negativa: Si X1, X2, ..., Xi, ... son una sucesión de v.a. independientes de
Bernoulli (p), entonces, se define la v.a. X como el número de fracasos obtenidos hasta
la aparición de r éxitos en la sucesión
. En este caso se dice que X sigue una ley
de distribución binomial negativa de parámetros r y p. Su ley de probabilidad es
Hipergeométrica: Diremos que una v.a. X sigue una distribución hipergeométrica de
parámetros, N, n y p, donde N es el total de la población, n el número de elementos en la
muestra, y p es la proporción de elementos en la población que tienen la característica
deseada. función de probabilidad es
Poisson (o de los sucesos raros): Este tipo de leyes se aplican a sucesos con
probabilidad muy baja de ocurrir, obteniéndose como la distribución límite de una
sucesión de variable binomiales, es decir, una v.a. X posee una ley de distribución de
probabilidades del tipo Poisson si
con λ = n p.
3.2 Deducción de las características relevantes de las variables
aleatorias discretas usando momentos y función generadora
de momentos.
Para realizar las deducciones de las fórmulas para obtener los parámetros de las v.a.,
utilizaremos la función característica de esta
, la cual no difiere mucho de la función
generadora de momentos presentando una ventaja sobre esta ya que es más general.
Distribución de Bernoulli
Los principales momentos de la X
directamente
con
, los podemos calcular
Distribución binomial
Los principales momentos de X cuando
partir de
, los calculamos más fácilmente a
la función característica de X que de su propia definición:
Distribución geométrica ( o de fracasos)
función característica se calcula teniendo en cuenta que de nuevo aparece la sumatoria
de los términos de una progresión geométrica, pero esta vez de razón eit q:
La media y varianza de esta variable aleatoria son:
Distribución binomial negativa
Su función característica es
y sus momentos más importantes los obtenemos derivando esta última:
Distribución de Poisson
La función característica de
es
de lo que se deduce que valor esperado y varianza coinciden
3.3 Uso de las Tablas
A continuación se presentan ejemplos de v.a. que cuentan con tablas de probabilidades
y ayudan a eliminar los cálculos:
Distribución binomial
Ejemplo
Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya
incidencia sobre una población de niños es del
. La sensibilidad del test es del
y la especificidad del
. ¿Cual es la probabilidad de que exactamente a cuatro
personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el
test le da positivo, ¿cuál es la probabilidad de que entre estas, exactamente dos estén
sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para
dos personas. Calcular la probabilidad de que el resultado sea correcto para más de 7
personas.
Solución:
Los datos de que disponemos son:
donde E, T +, y T -- tienen el sentido que es obvio. Si queremos saber a cuantas personas
el test le dará un resultado positivo, tendremos que calcular
, para lo que
podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una
colección exhaustiva y excluyente de sucesos):
Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro que llamando
, se tiene que X sigue una distribución binomial
Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es:
Si queremos calcular a cuantas personas les dará el test un resultado positivo aunque en
realidad estén sanas, hemos de calcular previamente
predictivo de falsos positivos:
, o sea, el índice
Es importante observar este resultado. Antes de hacer los cálculos no era previsible que
si a una persona el test le da positivo, en realidad tiene una probabilidad
aproximadamente del
de estar sana. Sea X2 la variable aleatoria que contabiliza al
número de personas al que el test le da positivo, pero que están sanas en realidad.
Entonces
y
Por último vamos a calcular la probabilidad p3 de que el test de un resultado erróneo,
que es:
La variable aleatoria que contabiliza el número de resultados erróneos del test es
Como la probabilidad de que el test sea correcto para más de siete personas, es la de que
sea incorrecto para menos de 3, se tiene
Distribución binomial negativa
Ejemplo
Para tratar a un paciente de una afección de pulmón han de ser operados en operaciones
independientes sus 5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien,
lo que ocurre con probabilidad de 7/11, el lóbulo queda definitivamente sano, pero si no
es así se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se
practicará la cirugía hasta que 4 de sus 5 lóbulos funcionen correctamente. ¿Cuál es el
valor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cuál es
la probabilidad de que se necesiten 10 intervenciones?
Solución:
Este es un ejemplo claro de experimento aleatorio regido por una ley binomial negativa,
ya que se realizan intervenciones hasta que se obtengan 4 lóbulos sanos, y éste es el
criterio que se utiliza para detener el proceso. Identificando los parámetros se tiene:
Lo que nos interesa es medir el número de intervenciones, Y, más que el número de
éxitos hasta el r-ésimo fracaso. La relación entre ambas v.a. es muy simple:
Y=X+r
Luego
Luego el número esperado de intervenciones que deberá sufrir el paciente es de 11. La
probabilidad de que el número de intervenciones sea Y =10, es la de que X =10 – 4 = 6.
Por tanto:
Distribución geométrica ( o de fracasos)
Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento
de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá
el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más.
Solución:
Este es un ejemplo de variable geométrica. Vamos a suponer que la probabilidad de
tener un hijo varón es la misma que la de tener una hija hembra. Sea X la v.a.
Es claro que
Sabemos que el número esperado de hijos varones es
número esperado en total entre hijos varones y la niña es 2.
, por tanto el
La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o
más hijos varones (la niña está del tercer lugar en adelante), es decir,
Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya
que sería más complicado hacerlo mediante la suma infinita
Observación
La distribución exponencial también puede ser definida como el número de pruebas
realizadas hasta la obtención del primer éxito (como hubiese sido más adecuado en el
ejemplo anterior). En este caso es un ejercicio sencillo comprobar que X sólo puede
tomar valores naturales mayores o iguales a 1, y que:
Distribución de Poisson (o de los sucesos raros)
Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000. Calcular
la probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas
con dicha enfermedad. Calcular el número esperado de habitantes que la padecen.
Solución:
Si consideramos la v.a. X que contabiliza el número de personas que padecen la
enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien
aproximado por un modelo de Poisson, de modo que
Así el número esperado de personas que padecen la enfermedad es
. Como
, existe una gran dispersión, y no sería extraño encontrar que en realidad
hay muchas más personas o menos que están enfermas. La probabilidad de que haya
más de tres personas enfermas es:
Unidad 4
VARIABLES ALEATORIAS CONTINUAS
4.1 Variables Aleatorias Continuas
En esta sección estudiaremos las distribuciones más importantes de v.a. continuas
unidimensionales. El soporte de una v.a. continua se define como aquella región de
donde su densidad es no nula,
podrá ser bien todo
,
. Para las distribuciones que enunciaremos,
o bien un segmento de la forma
.
Distribución uniforme o rectangular
Se dice que una v.a. X posee una distribución uniforme en el intervalo [a, b],
si su función de densidad es la siguiente:
Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio,
el valor de X este comprendido en cierto subintervalo de [a, b] depende únicamente de
la longitud del mismo, no de su posición. Cometiendo un pequeño abuso en el lenguaje,
podemos decir que en una distribución uniforme la probabilidad de todos los puntos del
soporte es la misma.
Teniendo en cuenta que si
,
la función de distribución de
es:
Figura: Función de densidad y de distribución de
Distribución normal
La distribución normal, recibe este nombre ya que una gran mayoría de las v.a
continuas de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una
distribución normal de parámetros
y
si su función de densidad es:
Observación
, lo que representamos del modo
Estos dos parámetros y
coinciden además con la media (esperanza) y la varianza
respectivamente de la distribución como se demostrará más adelante:
La forma de la función de densidad es la llamada campana de Gauss, de ahí que en
algunas ocasiones se la denomine Gaussiana.
Figura: Campana de Gauss o función de densidad de una v.a. de
distribución normal. El área contenida entre la gráfica y el eje de
abcisas vale 1.
Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo
(moda) en
,
que
es
simétrica
con
respecto
al
mismo,
y por
tanto
, con lo cual en coinciden la media, la mediana y la
moda, y por último, calcular sus puntos de inflexión.
El soporte de la distribución es todo
, de modo que la mayor parte de la masa de
probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra
concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente
a los ejes, de modo que cualquier valor “muy alejado” de la media es posible (aunque
poco probable).
La forma de la campana de Gauss depende de los parámetros
y
:
indica la posición de la campana (parámetro de centralización);
(o equivalentemente, ) será el parámetro de dispersión.
Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada
alrededor de la media (grafo de f muy apuntado cerca de
aplastado” será.
) y cuanto mayor sea “más
Figura: Distribuciones normales con diferentes medias e igual
dispersión.
Figura: Distribuciones normales con igual media pero varianza
diferente.
Estandarización
Se conoce por Estandarización al proceso de restar la media y dividir por su
desviación típica a una variable X. De este modo se obtiene una nueva variable
de media
estandarizada.
y desviación típica
, que denominamos variable
Esta nueva variable carece de unidades y permite hacer comparables dos medidas que
en un principio no lo son, por aludir a conceptos diferentes. Así por ejemplo nos
podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno
en relación a su población. También es aplicable al caso en que se quieran comparar
individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el
nivel académico de dos estudiantes de diferentes Universidades para la concesión de
una beca de estudios, en principio sería injusto concederla directamente al que posea
una nota media más elevada, ya que la dificultad para conseguir una buena calificación
puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de
uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las
calificaciones de ambos estudiantes, pero estandarizadas cada una de ellas por las
medias y desviaciones típicas respectivas de las notas de los alumnos de cada
Universidad.
Observación
Como se ha mencionado anteriormente, la ley de probabilidad normal la encontramos
en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de
lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones
asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo
para esta ley de probabilidad:
La función
no posee primitiva conocida.
Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide
el que podamos escribir de modo sencillo la función de distribución de la normal, y nos
tenemos que limitar a decir que:
sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no
impide que para un valor de x fijo, F(x) pueda ser calculado. De hecho puede ser
calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar
técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos
de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios
decimales de precisión) los valores F(x) para una serie limitada de valores xi dados.
Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y
varianza 1 que se denomina distribución normal estandarizada:
En el caso de que tengamos una distribución diferente
haciendo el siguiente cambio:
, se obtiene Z
Proposición (Cambio de origen y escala)
Sean
. Entonces
Este resultado puede ser utilizado del siguiente modo: Si
calcular
, y nos interesa
,
1.
Hacemos el cambio
y calculamos
;
2.
Usamos la tabla de probabilidades para la normal estándar, relativa a la distribución
para obtener (de modo aproximado)
;
3.
Como
tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada.
Vamos ahora a demostrar algunas de las propiedades de la ley normal que hemos
mencionado anteriormente.
Proposición
Sea
. Entonces
Demostración
Por ser la normal una ley de probabilidad se tiene que
es decir, esa integral es constante. Con lo cual, derivando la expresión anterior con
respecto a
se obtiene el valor 0:
luego
.
Para demostrar la igualdad entre la
pero esta vez derivando con respecto a
y
, basta con aplicar la misma técnica,
:
Luego
Aproximación a la normal de la ley binomial
Se puede demostrar (teorema central del límite) que una v.a. discreta con distribución
binomial,
se puede aproximar mediante una distribución normal si n es
suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y
la varianza de X son respectivamente
y
, la aproximación consiste en decir que
. El convenio que se suele utilizar para poder realizar esta
aproximación es:
aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un
valor muy grande o
.
Como ilustración obsérvense las siguientes figuras
Figura: Comparación entre la función de densidad de una v.a.
continua con distribución
y el diagrama de barras
de una v.a. discreta de distribución
para casos en que la
aproximación normal de la binomial es válida. Es peor esta
aproximación cuando p está próximo a los bordes del intervalo
[0,1].
Figura: La misma comparación que en la figura anterior, pero
realizada con parámetros con los que damos la aproximación
normal de la binomial es mejor.
Ejemplo
Durante cierta epidemia de gripe, enferma el
de la población. En un aula con 200
estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la
enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.
Solución:
La v.a. que contabiliza el número de alumnos que padece la gripe es
cuya media es
y su varianza es
. Realizar los cálculos
con la ley binomial es muy difícil, ya que intervienen números combinatorios de gran
tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X,
teniendo en cuenta que se verifican las condiciones necesarias para que el error sea
aceptable:
Así aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN
tenemos:
También es necesario calcular
como:
. Esta probabilidad se calcula exactamente
Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial
no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación
normal, XN. Pero hay que prestar atención al hecho de que XN es una v.a. continua, y por
tanto la probabilidad de cualquier punto es cero. En particular,
lo que ha de ser interpretado como un error de aproximación. Hay métodos más
aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar
por el valor de la función de densidad de XN en ese punto (es en el único
sentido en que se puede entender la función de densidad de la normal como una
aproximación de una probabilidad). Así:
Por último, otra posibilidad es considerar un intervalo de longitud 1 centrado en el valor
60 del que deseamos hallar su probabilidad y hacer:
Ejemplo
Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos
considerar que se distribuye según una ley de normalidad de valor esperado
y desviación típica
asegurado que el
. Dar un intervalo para el que tengamos
de los habitantes de la ciudad estén comprendidos en él.
Solución:
Tenemos que
. Si buscamos un intervalo donde estar
seguros de que el
de los habitantes tengan sus alturas comprendidas en él hay
varias estrategias posibles:
1.
Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de
la masa de probabilidad. Este valor, x0,5, se definiría como:
donde
El valor z0,5 lo podemos buscar en la tabla de la normal estándar (distribución
y se obtiene
)
Por tanto podemos decir que la mitad de la población tiene una altura inferior a
. Este resultado era de esperar, ya que en la distribución es simétrica y
habrá una mitad de individuos con un peso inferior a la media y otro con un peso
superior (como se ve en la figura).
Figura: Intervalo donde tenemos asegurado que el 50% de la
población tiene un peso comprendido en él. Como se observa, no es un
tamaño óptimo, en el sentido de que el intervalo es demasiado grande
(longitud infinita a la izquierda).
Esto puede escribirse como:
El
de la población tiene un peso comprendido en el intervalo
.
2.
Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos
pesos que lo superan. Por las mismas razones que en el problema anterior, podremos
decir:
El
de la población tiene un peso comprendido en el intervalo
.
3.
Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el
sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución
normal para tomar un intervalo cuyo centro sea . Vamos a utilizar entonces otra
técnica que nos permita calcular el intervalo centrado en la media, y que además será el
más pequeño posible que contenga al
de la población.
Para ello observamos que la mayor parte de probabilidad está concentrada siempre
alrededor de la media en las leyes normales. Entonces podemos tomar un intervalo que
contenga un
de probabilidad del lado izquierdo más próximo a la media, y un
del derecho.
Esto se puede describir como el intervalo
Figura: Intervalo donde tenemos asegurado que el 50% de la
población tiene un peso comprendido en él. En este caso el intervalo
es más pequeño que el anterior y está centrado en
donde x0,25 es el valor que deja por debajo de sí al
.
de la masa de probabilidad y
x0,75 el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al
de
las observaciones). Del mismo modo que antes estos valores pueden ser buscados en
una tabla de la distribución normal, tipificando en primera instancia para des
estandarizar después:
donde
En una tabla encontramos el valor z0,75, y se des estandarizada:
Análogamente se calcularía
donde
Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= z0,75. Luego
En conclusión:
El
de la población tiene un peso comprendido en el intervalo [168,25,181,75].
De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya
que es simétrico con respecto a la media, y es el más pequeño de todos los posibles
(más preciso). Este ejemplo es en realidad una introducción a unas técnicas de
inferencia estadística que trataremos posteriormente, conocidas con el nombre de
“cálculo de intervalos de confianza”.
Distribución Gamma
X es una v.a. Gamma con parámetros α y β, es decir
cuando
además sirve de ayuda el saber que
1.
si y solo si
2.
Si
, entonces
La media es
la varianza es
Dadas ciertas condiciones específicas de sus parámetros α y β, esta v.a. se convierte en
otro tipo de v.a. las cuales tienen mayor aplicación, y se las verá a continuación
Distribución exponencial
La distribución exponencial es el equivalente continuo de la distribución geométrica
discreta. Esta ley de distribución describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el
tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un
instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado
nada.
Ejemplos de este tipo de distribuciones son:
El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley
que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o
cualquier materia orgánica mediante la técnica del carbono 14, C14;
El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un
paciente;
En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de
tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos
sigue un modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre
que sufrimos dos veces una herida importante.
Si tenemos una v.a.
, cuando el parámetro β toma el valor de uno, es
decir β =1, X se convierte en la v.a. Exponencial, lo cual es fácil de deducir y se lo deja
como demostración para el estudiante.
, es tal que su función
Concretando, si una v.a. continua X distribuida a lo largo de
de densidad es
se dice que sigue una distribución exponencial de parámetro
Figura: Función de densidad, f, de una
,
.
Un cálculo inmediato nos dice que si x>0,
luego la función de distribución es:
Figura: Función de distribución, F, de
, calculada como el
.
área que deja por debajo de sí la función de densidad.
Ejemplo
En un experimento de laboratorio se utilizan 10 gramos de
. Sabiendo que la
duración media de un átomo de esta materia es de 140 días, ¿cuantos idas transcurrirán
hasta que haya desaparecido el
de este material?
Solución:
El tiempo T de desintegración de un átomo de
exponencial:
es una v.a. de distribución
Como el número de átomos de
existentes en una muestra de 10 gramos es
enorme, el histograma de frecuencias relativas formado por los tiempos de
desintegración de cada uno de estos átomos debe ser extremadamente aproximado a la
curva de densidad, f. Del mismo modo, el polígono de frecuencias relativas acumuladas
debe ser muy aproximado a la curva de su función de distribución F. Entonces el tiempo
que transcurre hasta que el
del material radiactivo se desintegra es el percentil 90,
t90, de la distribución exponencial, es decir
Figura: Como el número de átomos (observaciones) es
extremadamente alto en 10 gramos de materia, el histograma puede
ser aproximado de modo excelente por la función de densidad
exponencial, y el polígono de frecuencias acumuladas por la función
de distribución.
Pérdida de la memoria de la v.a. exponencial
Analicemos esta característica particular que posee la v.a. exponencial con un ejemplo
Ejemplo
Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una
distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una
persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes
de 20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente,
¿cuál es la probabilidad de que haya que cambiarlo antes de
años?
Solución:
Sea T la variable aleatoria que mide la duración de un marcapasos en una persona.
Tenemos que
Entonces
En segundo lugar
Luego como era de esperar, por ser propio a un mecanismo exponencial,
o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que
en la actualidad lleva funcionando. Es por ello que se dice que “la distribución
exponencial no tiene memoria”.
Distribución Ji – cuadrado:
Si tenemos una v.a.
, cuando β =2 y α = n/2, X se convierte en la v.a. Jicuadrado lo cual es fácil de deducir y se lo deja como demostración para el estudiante.
Otra manera de obtener la v.a. Ji-cuadrado es la siguiente
, la v.a. X = Z2 se distribuye según una ley de
Si consideramos una v.a.
probabilidad distribución
con un grado de libertad, lo que se representa como
Si tenemos n v.a. independientes
, la suma de sus cuadrados respectivos es
una distribución que denominaremos ley de distribución
.
La media y varianza de esta variable son respectivamente:
con n grados de libertad,
y su función de densidad es:
Los percentiles de esta distribución que aparecen con más frecuencia en la práctica los
podemos encontrar en una tabla de probabilidades para la v.a. Ji – cuadrado (
Figura: Función de densidad de
n.
Figura: Función de densidad de
para valores pequeños de
para valores grandes de n.
).
En consecuencia, si tenemos
, v.a. independientes, donde cada
, se tiene
Observación
La ley de distribución
muestra su importancia cuando queremos determinar la
variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central
siguiendo un mecanismo normal. Como ilustración tenemos el siguiente ejemplo:
Ejemplo
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados bastantes
aproximados con la realidad, aunque existe cierta cantidad de error que se distribuye
de modo normal con media 0 y desviación típica
.
Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo
de n =100 pacientes. Nos interesa medir la cantidad de error que se acumula en las
mediciones de todos los pacientes. Podemos plantear varias estrategias para medir los
errores acumulados. Entre ellas destacamos las siguientes:
1. Definimos el error acumulado en las mediciones de todos los pacientes como
¿Cuál es el valor esperado para E1?
2. Definimos el error acumulado como la suma de los cuadrados de todos los errores
(cantidades positivas):
¿Cuál es el valor esperado para E2?
A la vista de los resultados, cuál de las dos cantidades, E1 y E2, le parece más
conveniente utilizar en una estimación del error cometido por un instrumento.
Solución:
Suponiendo que todas las mediciones son independientes, se tiene que
De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a
compensarse entre unos pacientes y otros. Obsérvese que si
no fuese conocido a
priori, podríamos utilizar E1, para obtener una aproximación de
Sin embargo, el resultado E1 no nos indica en qué medida hay mayor o menor
dispersión en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:
En este caso los errores no se compensan entre sí, y si
“estimado” de modo aproximado mediante
no fuese conocido, podría ser
Sin embargo, no obtenemos ninguna información con respecto a
.
En conclusión, E1 podría ser utilizado para calcular de modo aproximado , y E2 para
calcular de modo aproximado
. Las dos cantidades tienen interés, y ninguna lo tiene
más que la otra, pues ambas formas de medir el error nos aportan información.
El siguiente resultado será de importancia más adelante. Nos afirma que la media de
distribuciones normales independientes es normal pero con menor varianza y relaciona
los grados de libertad de una v.a. con distribución
varianza:
, con los de un estadístico como la
Teorema (Cochran)
Sean
v.a. independientes. Entonces
Distribución Beta
Si X es una v.a., entonces
su media está dada por
y su varianza
si y solo si
Uniforme: Se dice que una v.a. X posee una distribución uniforme en el intervalo [a,
b],
, si su función de densidad es la siguiente:
.
Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio,
el valor de X este comprendido en cierto sub intervalo de [a, b] depende únicamente de
la longitud del mismo, no de su posición.
Normal: Se dice que una v.a. X sigue una distribución normal de parámetros
lo que representamos del modo
y
,
si su función de densidad es:
. La distribución normal, recibe este nombre
ya que una gran mayoría de las v.a continuas de la naturaleza siguen esta distribución.
Normal Estándar Z: normal de media 0 y varianza 1 se denomina distribución normal
estandarizada, su densidad es
.En el caso de que tengamos una
distribución diferente
, se obtiene Z haciendo el siguiente cambio:
Aproximación a la normal de la ley binomial: Se puede demostrar (teorema central
del límite) que una v.a. discreta con distribución binomial,
se puede
aproximar mediante una distribución normal si n es suficientemente grande y p no está
ni muy próximo a 0 ni a 1.
Distribución Gamma X es una v.a. Gamma con parámetros α y β, es decir
si y solo si
cuando
Exponencial: esta es el equivalente continuo de la distribución geométrica discreta.
Esta ley de distribución describe procesos en los que nos interesa saber el tiempo hasta
que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde
cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo
transcurrido anteriormente en el que no ha pasado nada.
Pérdida de la memoria de la v.a. exponencial: la duración que se espera que tenga
algún objeto en especial eléctrico, no influye en nada el tiempo que en la actualidad
lleva funcionando. Es por ello que se dice que “la distribución exponencial no tiene
memoria”.
Ji – cuadrado:
Si tenemos n v.a. independientes
, la suma de sus
cuadrados respectivos es una distribución que denominaremos ley de distribución
con n grados de libertad,
.
Distribución Beta: Si X es una v.a., entonces
si y solo si
4.2 Deducción de las características relevantes de las variables
aleatorias continuas usando momentos y función generadora
de momentos.
Para realizar las deducciones de las fórmulas para obtener los parámetros de las v.a.,
utilizaremos la función característica de esta
, la cual no difiere mucho de la función
generadora de momentos presentando una ventaja sobre esta ya que es más general. z
Distribución uniforme
La función característica es
Como esta distribución es muy simple, vamos a calcular sus momentos más usuales
directamente a partir de la definición, en lugar de usar la función característica:
Distribución normal
La función característica de la distribución normal, se comprueba más adelante que es
Como consecuencia, la distribución normal es reproductiva con respecto a los
parámetros
,y
, ya que
Para demostrar el resultado demostrado en el desarrollo del tema 1 en la unidad 4,
relativo a la función característica de la v.a. normal, consideramos en primer lugar la
v.a. estandarizada de X,
y calculamos
Como
, deducimos que
Distribución Gamma
La función generadora de momentos de la v.a. Gamma es
Derivando la función característica podemos encontrar fácilmente la media y la varianza
de la v.a. Gamma, lo que se deja de ejercicio para el estudiante.
Distribución exponencial
Para calcular el valor esperado y la varianza de la distribución exponencial, obtenemos
en primer lugar la función característica
para después, derivando por primera vez
y derivando por segunda vez,
Entonces la varianza vale
4.3 Uso de las Tablas
A continuación se presentan ejemplos de v.a. que cuentan con tablas de probabilidades
y ayudan a eliminar los cálculos:
Distribución Normal
Ejemplo
Supongamos que cierto fenómeno pueda ser representado mediante una v.a.
, y queremos calcular la probabilidad de que X tome un valor entre 39 y
48, es decir,
Comenzamos haciendo el cambio de variable
de modo que
los valores 0.33 y 0.67 lo obtenemos de la tabla de la v.a. normal estándar, la forma de
leer los valores es la siguiente:
Observar que en la primera columna se tiene el primer decimal y en la primera fila se
tienen el segundo decimal del valor que se desea investigar.
Figura: área bajo la curva normal de la media hasta
el valor de z (para valores negativos de z, la áreas
son por simetría)
Si buscamos en la tabla en el lado izquierdo encontraremos el valor 0.3 y revisando en
que columna está el segundo decimal 0.03 e interceptando la fila y la columna
encontraremos el valor de 0.1293, a este valor hay que sumarle 0.5 del área bajo la
curva desde μ a - ∞, lo que da como resultado el valor de 0.6293; de igual manera para
el valor 0.67, se busca a la izquierda 0.6 y en la columna 0.07 se intercepta y se
encuentra el valor de 0.2486, haciendo el mismo procedimiento que al valor anterior
tenemos 0.7486.
Una vez que se tienen los valores estandarizados se realiza el proceso contrario al de la
estandarización, es decir, se multiplica este valor por la desviación estándar y se le suma
el valor de la media, y así se obtendrá la probabilidad de la variable X con media 45 y
desviación estándar 81.