Download Distribución Estadistica

Document related concepts
no text concepts found
Transcript
Primera Parte: INTRODUCCIÓN A LAS DISTRIBUCIONES COMUNES (DE
LOS DATOS)
Este documento introduce un conjunto de distribuciones que asimismo son habituales en
el proceso de modelización actual. Así, por ejemplo, el conjunto de distribuciones
pertenecientes a la familia exponencial, es de uso habitual en metodologías de análisis
como en el marco del análisis de la supervivencia. Otras distribuciones son comunes y
habituales en el campo de actuación de disciplinas tales como la economía, la biología,
etc.
Internet permite, en estos momentos, disponer de una serie de recursos que hacen ya
innecesario el uso de libros de tablas de estadística o el uso de algún programa
informático situado en el disco duro de nuestro ordenador. El objetivo de este artículo es
dar información, en forma de enlaces, para que cada usuario busque y encuentre la
solución a su problema, cuando este problema consista en obtener una probabilidad
asociada a cualquiera de las distribuciones aquí mencionadas, sea discreta o continua.
A efectos de tener identificadas las distribuciones, discretas y continuas, utilizadas de
forma mas frecuente, se proporciona su función de probabilidad (caso discreto) o su
función de densidad de probabilidad (caso continuo), con el ánimo de dar un poco de
contenido a cada distribución. Por supuesto que si el usuario quiere tener más
información sobre alguna de estas distribuciones le recomendamos que acuda a algún
texto especializado.
OTRAS DISTRIBUCIONES UTILIZADAS EN ESTADISTICA
DISTRIBUCIONES DISCRETAS
Distribución Uniforme Discreta
Si se tienen n observaciones, la probabilidad de que la variable aleatoria tome el valor xi
viene dada por:
Así pues, en esta distribución cada observación tiene la misma probabilidad de
ocurrencia.
Un caso particular de esta distribución ocurre cuando los valores son enteros
consecutivos. Esta distribución asigna igual probabilidad a todos los valores enteros
entre el límite inferior y el límite superior que define el rango de la variable. Si la
variable puede tomar valores entre a y b, debe ocurrir que b sea mayor que a, y la
variable toma los valores enteros empezando por a, a+1, a+2, etc. hasta el valor máximo
b. En este caso se tiene que:
En el siguiente gráfico se muestra la función de probabilidad de la distribución
Uniforme Discreta con un rango de valores enteros entre 1 y 10.
Distribución Binomial Negativa
Permite calcular la probabilidad de tener k fracasos antes de que ocurra el r-ésimo éxito.
En el caso de que los sucesos ocurran a intervalos regulares de tiempo, esta variable
proporciona el tiempo total para que ocurran r éxitos.
Hay una forma equivalente de definir esta variable, como el número de ensayos que hay
que realizar para obtener el r-ésimo éxito (Palmer, 1995).
En el siguiente gráfico se muestra la función de probabilidad de la distribución
Binomial negativa con un número de éxitos igual a 10 y una probabilidad de éxito de
0.4. En abcisas se representan los distintos valores que puede tomar la variable X
(número de ensayos), y en ordenadas se representa la probabilidad asociada a cada valor
posible de X.
En la dirección http://home.clara.net/sisa/negbino2.htm se puede acceder a una página
con la calculadora que se muestra a continuación, en la que se han introducido los
parámetros utilizados en el gráfico anterior para el cálculo de probabilidades no
acumuladas basadas en la función de probabilidad de la distribución Binomial negativa.
S.I.S.A. Simple Interactive Statistical Analysis.
En el calculador anterior se observa cómo la probabilidad de obtener el 10º éxito
(probabilidad de éxito de 0.4) en el intento número 30 es de 0.038395. Esta probabilidad
obtenida se puede leer de forma aproximada en el gráfico anterior para X=30.
Distribución Geométrica
Permite calcular la probabilidad de que tengan que realizarse un número k de ensayos
para obtener un éxito en el último ensayo, siendo p la probabilidad de obtener un éxito.
Así pues, esta distribución es un caso particular de la distribución binomial negativa
para el caso en que r = 1.
Se utiliza en la distribución de los tiempos de espera, de manera que si los ensayos se
realizan a intervalos regulares de tiempo, esta variable aleatoria proporciona el tiempo
transcurrido hasta el primer éxito. Por ejemplo, encontrar la primera pieza defectuosa, la
primera ocurrencia de un suceso, la llegada de un cliente a un lugar de servicio, la rotura
de una cierta pieza, etc. (Aranda y Gómez, 1992).
Esta distribución presenta la propiedad denominada propiedad de Markov o de falta de
memoria, que implica que la probabilidad de tener que esperar un tiempo ti no depende
del tiempo que ya se haya esperado.
Hay autores (Aranda y Gómez, 1992).que dicen que a la distribución binomial negativa
se la conoce también con el nombre de distribución de Pascal, mientras que otros
(Castillo, 1978) definen la distribución de Pascal para el caso de r = 1, es decir para la
distribución geométrica.
En el siguiente gráfico se muestra la función de probabilidad de una distribución
Geométrica con una probabilidad de éxito de 0.3.
La probabilidad de que se presente un evento determinado (con una probabilidad de
éxito de 0.3) en el cuarto intento (X=4) es de 0.072030.
Distribución Hipergeométrica
Permite calcular la probabilidad de obtener k éxitos al realizar n ensayos de una
población finita de tamaño N.
Ejemplo: Se utiliza para obtener el número de éxitos en un muestreo sin
reemplazamiento de una población finita de tamaño N.
En el siguiente gráfico se muestra la función de probabilidad de una distribución
Hipergeométrica basada en una población finita de 100 elementos (N), en la que se
seleccionan 20 elementos (n) y se esperan 10 éxitos.
En la dirección http://home.clara.net/sisa/hypergeo.htm se puede acceder a una página
con la calculadora que se muestra a continuación, en la que se han introducido los
parámetros utilizados en el gráfico anterior para el cálculo de probabilidades no
acumuladas basadas en la función de probabilidad de la distribución Hipergeométrica.
S.I.S.A. Simple Interactive Statistical Analysis.
Se observa cómo la probabilidad de obtener 4 éxitos en una extracción de 20 elementos
sobre 100 es de 0.08410730, sabiendo que la proporción esperada de éxitos es de 10
sobre 100 (0.1). Esta probabilidad obtenida se puede leer de forma aproximada en el
gráfico anterior para X=4.
Distribución Multinomial
Generaliza la distribución binomial al caso en que la población se divida en k>2 grupos
mutuamente exclusivos y exhaustivos. Permite obtener la probabilidad de la ocurrencia
de una determinada repartición.
En este caso se cumple que n = x1 + x2 + ... + xk , donde cada xi tiene una probabilidad
pi de ocurrencia. Se cumple que ∑ pi=1.
DISTRIBUCIONES CONTINUAS
Distribución Uniforme
También conocida con el nombre de distribución rectangular, se simboliza por medio de
U(a,b) y viene determinada por el menor valor posible a que toma la variable y por el
mayor valor posible b, siendo b>a. En esta distribución todos los valores comprendidos
entre a y b tienen la misma probabilidad de ocurrencia.
Simulación de una variable aleatoria continua: Método de la transformación reciproca
Entre otras aplicaciones, la distribución Uniforme U(0,1) se utiliza para generar
observaciones que formen una variable aleatoria Y que tenga cualquier función de
distribución F(y) continua. Para ello, en primer lugar, se genera un número aleatorio x
de la distribución U(0,1). Se resuelve la ecuación F(y)=x, lo que proporciona como
solución un valor y* que será el valor de la variable aleatoria simulada. Se repite este
proceso tantas veces como se quiera.
En el siguiente gráfico se muestra la función de densidad de la distribución Uniforme en
el intervalo [10,15].
En la dirección http://www.stat.ucla.edu/calculators/cdf/uniform/uniformcalc.phtml
encontrará un calculador de la probabilidad acumulada en un valor X situado en una
distribución Uniforme (a,b). UCLA Statistics.
Especificando 3 de los valores proporciona el cuarto, en el que debe escribirse un signo
de interrogación. Como ejemplo, si se pretende calcular la probabilidad acumulada en el
valor X=12 de una distribución Uniforme (10,15) se obtendría el valor ?=0.4, es decir,
Pr(X≤ 12)=0.4.
Distribución Triangular
Se denomina así por el hecho de que la función de densidad tiene una forma triangular,
que viene definida de la siguiente manera:
Se denomina triangular cuando viene definida por dos parámetros, que representan el
valor mínimo y el valor máximo de la variable. En este caso el triángulo es equilátero.
Se denomina triangularG (triangular general), cuando viene dada por tres parámetros,
que representan el valor mínimo y el valor máximo de la variable, y el valor del punto
en el que el triángulo toma su altura máxima. En este caso el triángulo no es
necesariamente equilátero.
La función de densidad de la distribución triangularG viene dada por:
Cuando el valor de c sea la media de los dos valores extremos a y b, tendremos la
distribución triangular. En el siguiente gráfico se puede ver una distribución triangular
(triángulo equilátero de color negro) y una triangularG (triángulo no equilátero de color
rojo).
Distribución Log-Normal
Se dice que una variable X se distribuye de forma log-normal si su logaritmo natural
LnX se distribuye normalmente. Se simboliza mediante L(µ , σ ) ya que los parámetros
de esta distribución son los mismos de los de la distribución normal, µ y σ . Sin
embargo, debe quedar claro que µ y σ no son la media y desviación de la distribución
log-normal (Ver el apartado de esperanza y variancia de las distribuciones continuas).
Esta distribución es usada para modelizar datos que presentan asimetría positiva.
A continuación se proporciona el gráfico que el programa STATLETS realiza al
especificar los parámetros 3 y 0.9 para la distribución Lognormal. Creemos que este
programa utiliza esta distribución de forma incorrecta ya que usa los parámetros µ y σ
como la media y desviación estándar de la distribución, que como hemos dicho
anteriormente es incorrecto.
Nuestra creencia en que los cálculos bajo esta distribución no son correctos, viene
apoyada en que sus resultados difieren de los obtenidos con otros programas tipo
MINITAB o SPSS.
Distribución Gamma
Esta distribución depende de dos parámetros λ y k denominados parámetros de escala y
de forma respectivamente. Es decir, al variar k varía la forma de la distribución,
mientras que al variar λ sólo varía la escala de la distribución.
Donde la función gamma de p>0, Γ (p), viene dada por:
Si p=1/2 entonces se tiene que Γ (1/2)=√ π
Si p>1 entonces se tiene que Γ (p)=(p-1) Γ (p-1)
Si p es entero, entonces se cumple que Γ (p)=(p-1)!
Si definimos el valor del parámetro λ en función del parámetro k y del parámetro µ
según la expresión λ =k/µ , se tiene que la función de densidad se escribe:
En esta expresión, el parámetro µ determina la localización de la distribución (µ es la
media de la distribución gamma), y el cociente µ 2/k determina la forma de la
distribución (µ 2/k es la variancia de la distribución gamma).
Esta distribución es usada para modelizar datos que presentan asimetría positiva.
Casos particulares:
Si k=1 se tiene la distribución exponencial
Si k=1 y µ =1 se tiene la distribución exponencial estándar
Si k=n/2 y µ =n se tiene la distribución ji-cuadrado con n grados de
libertad
Esta distribución se ha aplicado a los tiempos de vida de sistemas eléctricos y
mecánicos, a la abundancia de especies animales, a períodos de incubación de
enfermedades infecciosas, etc.
En el siguiente gráfico se muestran dos funciones de densidad Gamma, una con
parámetros de escala (Scale) y de forma (Shape) igual a 30 y otra con parámetro de
escala 10 y parámetro de forma 5.
En la dirección http://www.stat.ucla.edu/calculators/cdf/gamma/gammacalc.phtml
accederá a un calculador de probabilidades acumuladas basadas la distribución Gamma.
En dicha aplicación, especificando 3 de los siguientes valores proporciona el cuarto (en
el que debe introducirse un signo de interrogación): valor de X, probabilidad
acumulada, parámetro de escala y parámetro de forma. UCLA Statistics.
Como ejemplo, se ha calculado la probabilidad acumulada en el punto X=1 con
parámetros de escala y de forma igual a 30, de forma que Pr(X≤ 1)=0.524283.
Distribución Erlang
Esta distribución corresponde a la distribución Gamma cuando k (parámetro de forma)
es un valor entero.
Por lo tanto, si tomamos como ejemplo la distribución Erlang con parámetro de forma
15 y parámetro de escala 5 obtendríamos que Pr(X≤ 3)= 0.534346, valor equivalente en
una distribución Gamma con los mismos parámetros. No existirá esa igualdad cuando el
parámetro de forma no sea un valor entero.
Distribución Exponencial
Esta distribución depende de un parámetro positivo, λ > 0, llamado parámetro de tasa.
Si la función de densidad se escribe en términos de la media µ de la distribución se tiene
que:
Se denomina distribución exponencial de dos parámetros cuando se introduce un valor
G, por debajo del cual la función de densidad es cero.
Permite estudiar el tiempo transcurrido entre un instante inicial y el momento en que
ocurre un determinado suceso. Por ejemplo, la duración de una llamada telefónica, el
tiempo transcurrido entre la llegada sucesiva de dos sujetos a un determinado servicio,
etc.
El siguiente gráfico permite visualizar dos distribuciones exponenciales de un parámetro
con valores λ =3 y λ =5. Se puede ver que el valor de la distribución siempre es
positivo. Por otra parte el punto de intersección de la distribución con el eje de
ordenadas se produce en el punto 1/λ .
Para el cálculo de probabilidades acumuladas basadas en la función de distribución
Exponencial se puede acceder a un calculador ubicado en la siguiente dirección de
Internet:
http://www.stat.ucla.edu/calculators/cdf/exponential/exponentialcalc.phtml.UCLA
Statistics.
Especificando 2 de los valores proporciona el tercero, en el que debe escribirse un signo
de interrogación. Como ejemplo, se pretende calcular la probabilidad acumulada en el
valor X=5 de una distribución Exponencial con parámetro λ =3. Se obtendría que Pr(X≤
5)=0.811124. Igualmente, se podría calcular el valor X por debajo del cual existe una
determinada probabilidad acumulada, simplemente introduciendo dicha probabilidad en
el campo correspondiente y un signo de interrogación en el campo X value, para
posteriormente pulsar el botón Complete Me!.
Distribución Weibull
Esta distribución generaliza la distribución exponencial y depende de dos parámetros α
y β . El valor de β determina la forma de la distribución mientras que el valor de α
determina su escala.
Esta distribución se generaliza a una que depende de tres parámetros, denominada W(α
,β ,µ ) siendo α >0, β >0 y µ ≥ 0. El parámetro µ es el valor más pequeño que puede
tomar la variable.
La distribución Weibull es una de las pocas distribuciones que puede ser usada para
modelizar datos que presentan asimetría negativa.
En el siguiente gráfico se muestran dos funciones de densidad pertenecientes la
distribución Weibull, una con parámetros de forma (Shape) y de escala (Scale) igual a
10 y otra con parámetro de forma 5 y parámetro de escala 2.
En la dirección http://www.stat.ucla.edu/calculators/cdf/weibull/weibullcalc.phtml
encontrará un calculador de probabilidades basadas en la función de distribución
Weibull. Especificando 3 de los siguientes valores proporciona el cuarto (en el que debe
introducirse un signo de interrogación): valor de X, probabilidad acumulada, parámetro
de forma (A Parameter) y parámetro de escala (B Parameter). UCLA Statistics.
Como ejemplo, se ha obtenido que la probabilidad acumulada en el valor X=2 situado
en una distribución Weibull con parámetro de forma 5 y parámetro de escala 2 es igual a
0.632121, es decir, Pr(X≤ 2)=0.632121.
Distribución Gumbel, de valor extremo o de Gompertz
Está definida para todo valor de x, siendo µ un parámetro de localización (moda) y σ >0
un parámetro de escala. Los valores de la variable aleatoria son no negativos, mientras
que el dominio de la distribución se mueve en todo el eje real.
En la siguiente figura se muestran dos funciones de densidad Gumbel, una de ellas con
parámetro moda 3 y parámetro escala 5, y la otra con parámetros 5 y 10
respectivamente.
Distribución Beta
Esta distribución depende de dos parámetros, p (forma) y q (escala), ambos positivos.
Se denomina B(p,q).
Donde la función beta B(p,q) viene dada, para p y q positivos, por:
La función beta tiene la siguiente propiedad:
La distribución B(1,1) equivale a la distribución Uniforme U(0,1).
En la siguiente figura se presentan tres funciones de densidad Beta, cada una de ellas
con parámetros p (Shape 1) y q (Shape 2) distintos.
En la dirección http://www.stat.ucla.edu/calculators/cdf/beta/betacalc.phtml tendrá
acceso a un calculador de probabilidades acumuladas basadas en dicha distribución.
Especificando 3 de los siguientes valores proporciona el cuarto (en el que debe
introducirse un signo de interrogación): valor de X, probabilidad acumulada, parámetro
p (A Parameter) y parámetro q (B Parameter). UCLA Statistics.
Con los datos de ejemplo introducidos en el calculador se obtendría que ?=0.5, es decir,
Pr(X≤ 0.5)=0.5. Esta probabilidad acumulada en el punto X=0.5 para los parámetros
dados se puede corroborar en el gráfico anterior, puesto que existe un 50% de área
(0.5*100) perteneciente a la distribución Beta (3,3) que queda por debajo de dicho valor
X, hecho perfectament visible si se traza una línea imaginaria perpendicular al eje de
abcisas desde el punto X=0.5 al punto de corte con la función de densidad en cuestión.
Distribución de Cauchy
Esta distribución depende de dos parámetros, µ y θ . Se denota mediante C(µ ,θ ).
Donde µ > 0.
La distribución es simétrica respecto del valor θ . El valor de x=θ representa la mediana
y la moda de la distribución.
Se denomina distribución de Cauchy estándar si a una variable X que sigue la
distribución de Cauchy le hacemos el cambio de variable Y=(X-θ )/µ , se obtiene la
función de densidad de la distribución C(1,0):
En el siguiente gráfico se muestra la función de densidad de una distribución de Cauchy
con parámetro µ =25 (Mode) y parámetro θ =3 (Scale).
Para calcular probabilidades acumuladas en una distribución de Cauchy puede utilizar el
siguiente enlace: http://www.stat.ucla.edu/calculators/cdf/cauchy/cauchycalc.phtml ,
que accede a una página con la calculadora que se muestra a continuación, en la que se
han introducido los parámetros utilizados en el gráfico. UCLA Statistics.
Especificando 3 de los valores proporciona el cuarto, en el que debe escribirse un signo
de interrogación. Con los parámetros del gráfico anterior se obtiene que Pr(X≤
20)=0.172021.
Distribución Logística
Esta distribución depende de dos parámetros, la media α de la distribución y la
desviación estándar β de la distribución. Los valores de la variable aleatoria son no
negativos, mientras que el dominio de la distribución se mueve en todo el eje real.
Si se hace el cambio de variable Y=(X-α )/β se obtiene la distribución logística estándar
con función de densidad dada por:
A continuación se proporciona un gráfico en el que se representan dos distribuciones
logísticas con distintos parámetros.
Creemos que, al calcular el valor de la función de densidad por medio del programa
STATLETS, este proporciona el valor con un pequeño error, por lo que es aconsejable,
en este caso, utilizar otro programa. Entre los programas comerciales se pueden utilizar
el MINITAB, el SPSS o el STATISTICA.
En la dirección http://www.stat.ucla.edu/calculators/cdf/logistic/logisticcalc.phtml
encontrará un calculador basado en la función de distribución Logística. Especificando
3 de los siguientes valores proporciona el cuarto (en el que debe introducirse un signo
de interrogación): valor de X, probabilidad acumulada, parámetro α (Location
Parameter) y parámetro β (Scale Parameter). UCLA Statistics.
Se ha calculado como ejemplo la probabilidad acumulada hasta el valor X=25 situado
en una distribución Logística con parámetro α =30 y parámetro β =5. Como resultado,
se obtiene que la probabilidad que el valor X deja a su izquierda es igual a 0.268941, es
decir, Pr(X≤ 25)= 0.268941.
Distribución de Laplace
También se denomina doble exponencial. Viene determinada en función de dos
parámetros, uno de localización L (la media) y otro de escala S, siendo S > 0.
Es
una
distribución
más
apuntada
que
la
distribución
normal.
En otras situaciones se reparametriza la función de densidad haciendo que el parámetro
de escala sea:
Así lo hacen, por ejemplo, los programas STATLETS y STATGRAPHICS.
La función de densidad entonces se escribe como:
A continuación se ofrece la gráfica de la función de densidad de la distribución de
Laplace con parámetros 0 y 1.
En la dirección http://www.stat.ucla.edu/calculators/cdf/laplace/laplacecalc.phtml
encontrará un calculador basado en la función de distribución de Laplace. UCLA
Statistics.
Especificando 3 de los siguientes valores proporciona el cuarto (en el que debe
introducirse un signo de interrogación): valor de X, probabilidad acumulada, parámetro
media (Location Parameter) y parámetro de escala (Scale Parameter). Como ejemplo, y
basándonos en los parámetros del gráfico anterior, se obtiene que Pr(X≤ 2)= 0.932332.
Distribución de Pareto
Esta distribución depende de dos parámetros positivos, α y x0. La introdujo Pareto para
describir unidades económicas tales como salarios, rentas, etc., y se simboliza mediante
Par(α , x0)
Permite calcular la probabilidad, por ejemplo, de tener una renta superior a un
determinado valor x0.
Si no se indica el segundo parámetro, se entiende que este valor es 1.
A continuación se proporciona un gráfico en el que se muestran dos distribuciones de
Pareto con distintos parámetros.
Segunda Parte: INTRODUCCION
Cuando un investigador lleva a cabo una prueba de hipótesis para estudiar, por ejemplo,
la posible existencia de relación entre variables, aplicará una prueba estadística que le
proporcionará un valor que deberá ser situado en la distribución de referencia para
poder averiguar la plausibilidad de la hipótesis nula de no relación y, en función del área
(probabilidad) que le corresponda, tomar la decisión de mantener la hipótesis nula de no
relación (independencia) o rechazar dicha hipótesis en favor de la hipótesis alternativa
de existencia de relación entre las variables analizadas.
Se distingue entre variables aleatorias discretas y continuas, definiéndose una variable
aleatoria discreta aquella que puede tomar un número finito o numerable de valores,
mientras que una variable aleatoria continua puede tomar infinitos valores, es decir
cualquier valor dentro de un intervalo.
Cuando se trata de variables discretas, se puede calcular la probabilidad de obtener un
determinado valor , por medio de la función de probabilidad, denominada f(x) y
definida como la probabilidad P(X=x), así como la probabilidad de obtener un valor
inferior o igual a x, por medio de la función de distribución, denominada F(x) y definida
como la probabilidad acumulada P(X≤ x).
Cuando se trata de variables continuas, ya no tiene sentido calcular la probabilidad en
un valor, ya que esta es nula, sino que el interés radica en obtener la probabilidad en un
intervalo [a,b], así pues se trata de obtener el valor de la función de distribución F(x) en
este intervalo, el cual se obtiene por medio de la integración de la función de densidad
de probabilidad f(x):
Así pues, a efectos del investigador, en el caso de distribuciones discretas se debe
obtener el cálculo de probabilidades, mientras que en el caso de distribuciones continuas
el usuario debe realizar la integración pertinente para obtener el área correspondiente al
intervalo elegido.
Para evitar que el usuario tuviera que realizar estos cálculos, se crearon las tablas de las
diferentes distribuciones donde se transcribían los resultados obtenidos para cada uno de
los valores de la variable, en el caso discreto, y la probabilidad acumulada para
diferentes valores en el caso de las distribuciones continuas.
Tanto en el caso de las distribuciones discretas como en las distribuciones continuas, un
problema añadido es que cada una de ellas depende de uno o más parámetros.
Así por ejemplo, en el caso discreto la distribución binomial depende del número n de
ensayos y de la probabilidad p de éxito en cada ensayo. Teniendo en cuenta que p puede
tomar infinitos valores en el intervalo [0,1], nos encontramos que hay infinitas
distribuciones binomiales, por lo que al utilizar unas tablas escritas en papel,
forzosamente se tienen que realizar restricciones. En general las tablas solo
proporcionan unos cuantos valores del parámetro p.
En el caso continuo, por ejemplo, la distribución de la t de Student depende de un
parámetro n. Cada vez que varía este valor, varía la forma de la distribución y por tanto
se obtienen infinitas distribuciones, por lo que en las tablas escritas en papel se utilizan
tan solo una serie reducida de valores.
En ambos casos, cuando al usuario le interesa un valor no contemplado en las tablas
debe buscarlo, en general, por medio de una interpolación lineal entre los dos valores,
anterior y posterior, más cercanos que se encuentren en ellas, cometiéndose por tanto un
error, aunque en general este sea pequeño.
La entrada de los programas y paquetes estadísticos, con la difusión de los ordenadores
personales, vino a solucionar bastantes de estos problemas, ya que el ordenador es capaz
de realizar estos cálculos en milésimas de segundo y enseñarnos a continuación el
resultado. El único problema que se le plantea al usuario es que debe tener,
implementado en su ordenador, el programa estadístico que le permita realizar estos
cálculos.
Hoy en día, la situación ha vuelto a dar un giro copernicano en la solución de este tipo
de problemas, ya que actualmente Internet hace posible que un usuario no necesite tener
ningún programa matemático, ni estadístico, en su ordenador para poder solucionar el
cálculo de probabilidades en distribuciones de variables aleatorias.
Estar conectado a Internet permite, en estos momentos, disponer de una serie de
recursos que hacen ya innecesario el uso de libros de tablas de estadística o el uso de
algún programa informático situado en el disco duro de nuestro ordenador. El objetivo
de este tema es dar información, en forma de enlaces, para que cada usuario busque y
encuentre la solución a su problema, cuando este problema consista en obtener una
probabilidad asociada a una de las distribuciones conocidas, sea discreta o continua.
A efectos de tener identificadas las distribuciones, discretas y continuas, utilizadas de
forma mas frecuente, se proporciona su función de probabilidad (caso discreto) o su
función de densidad de probabilidad (caso continuo), con el ánimo de dar un poco de
contenido a cada distribución. Por supuesto que si el usuario quiere tener más
información sobre alguna de estas distribuciones le recomendamos que acuda a algún
texto especializado.
DISTRIBUCIONES DE USO COMUN
Existe un número enorme de distribuciones de probabilidad, sin embargo hay un
subconjunto de ellas que son las que frecuentemente son utilizadas en la Estadística
Clásica. Así, de las dos distribuciones más comunes, y más básicas, en el ámbito de los
datos categóricos podemos decir que, en primer lugar se encuentra la distribución
binomial (frecuencia de una categoría de una variable dicotómica) y la distribución de
Poisson (frecuencia de aparición de un suceso poco frecuente).
Cuando hablamos de distribuciones continuas en el ámbito del análisis de datos, sin
duda aparece en primer lugar la distribución Normal, básica en el campo de la
estadística paramétrica al aparecer como uno de los supuestos exigidos en el
cumplimiento de las condiciones para que puedan ser utilizadas las pruebas estadísticas
paramétricas.
Relacionada con la anterior, aparece una trilogía de distribuciones que constituyen las
distribuciones de referencia de la mayor parte de pruebas estadísticas. Así aparecen la
distribución t de Student, la distribución Ji-cuadrado de Pearson y la distribución F de
Snedecor, llamada así en conmemoración a Fisher.
Así pues, en este documento nuestra intención es hacer llegar al lector interesado
información sobre estas distribuciones y distintas posibilidades de realizar cálculos
sobre ellas.
DISTRIBUCIONES DISCRETAS
Distribución de Bernoulli
Sea un experimento aleatorio donde sólo pueden darse dos resultados: presencia del
suceso (definido como X=1) o ausencia del suceso (definido como X=0). La
distribución de esta variable aleatoria viene determinada por un parámetro, p que
representa la probabilidad de acertar o tener éxito en una realización.
Ejemplos: El lanzamiento de una moneda (cara/cruz), la respuesta a una pregunta
(correcta/incorrecta), comprar un nuevo producto (si/no), etc.
Distribución Binomial
Esta distribución proviene de n variables de Bernoulli y depende de dos parámetros
B(n,p). Permite calcular la probabilidad de obtener un número k de éxitos al realizar n
ensayos de Bernoulli independientes, cada uno de ellos con la misma probabilidad p de
éxito. La variable toma valores enteros entre 0 y n.
Ejemplo: Número de caras al lanzar 100 veces una moneda (p=0.50).
En el siguiente gráfico se muestra la función de probabilidad Binomial con 20
realizaciones y una probabilidad de éxito de 0.25. En abcisas se representan los distintos
valores que puede tomar la variable X (de 0 a 20), y en ordenadas se representa la
probabilidad asociada a cada valor posible de X.
Para calcular la función de probabilidad de una distribución binomial se puede utilizar
el siguiente enlace: http://www.stat.ucla.edu/calculators/cdf/binom/binomdens.phtml ,
que accede a una página con la calculadora que se muestra a continuación, en la que se
han introducido los parámetros utilizados en el gráfico. UCLA Statistics.
Concretamente, se obtiene una probabilidad de 0.189685 de que ocurran 4 sucesos con
éxito (X-value) de los 20 posibles (Number of Trials) con una probabilidad de éxito de
0.25 (Probability of Success). En el gráfico se puede leer de forma aproximada esta
probabilidad calculada.
También se muestra, como ejemplo, la calculadora que aparece en la siguiente
dirección: http://faculty.vassar.edu/~lowry/binom_stats.html , que proporciona la
probabilidad de que una determinada variable aleatoria binomial X tome el valor r en
una serie de n repeticiones teniendo en cada una de ellas una probabilidad p de
ocurrencia. Por tanto, calcula directamente la probabilidad exacta, y también, p(r≤ n), y
p(r≥ n). VassarStats.
Por ejemplo, se puede buscar la probabilidad de que un determinado suceso que tiene
una probabilidad de ocurrencia de valor p=0.4, se presente 3 veces en una serie de 6
repeticiones (exatly 3 out of 6), además de la probabilidad de que este suceso se presente
3 o menos veces en 6 repeticiones (3 or fewer out of 6), y la probabilidad de que se
presente 3 o más veces en esas 6 repeticiones (3 or more out of 6).
Distribución de Poisson
Permite calcular la probabilidad de obtener un número k de eventos en sucesos con
pequeña probabilidad de ocurrencia. La variable X se mueve desde 0 en adelante, con
valores enteros.
El valor del parámetro λ > 0 representa el número promedio esperado, por unidad de
tiempo o de espacio.
Así pues, al parámetro λ se le denomina parámetro de tasa, ya que, en una unidad de
espacio o de tiempo puede que no se observen exactamente λ eventos, pero sin embargo
en un amplio espacio de tiempo o de espacio esperaremos observar un evento
ocurriendo en una tasa de λ por unidad del tiempo o del espacio.
En general se define que una variable aleatoria de Poisson describe un evento raro o
poco frecuente, lo cual debe ser entendido en el sentido de que la probabilidad de
P(X=k) es menor a medida que el valor de k es mayor.
Ejemplos: el número de errores en una página de un libro, el número de llamadas
telefónicas equivocadas al cabo de un día.
En el siguiente gráfico se muestra la función de probabilidad de Poisson con λ =4.
En la dirección http://www.stat.ucla.edu/calculators/cdf/poisson/poissondens.phtml
tendrá acceso a un calculador de la distribución de Poisson no acumulada, en la que
especificando el valor de X ( número de sucesos) y el parámetro λ (Intensity parameter,
que representa el número promedio de sucesos esperado) se proporciona la probabilidad
de ocurrencia de esos X sucesos (campo Density). Para ello, pulsar el botón Submit!.
UCLA Statistics.
Por ejemplo, encontrará que la probabilidad de ocurrencia de 6 eventos (Pr(X=6)) en
una distribución de Poisson con un valor promedio esperado de 4 sucesos (λ =4), es de
0.104196, valor que se puede leer en el gráfico anterior de forma aproximada para X=6.
DISTRIBUCIONES CONTINUAS
Distribución Normal
Es una distribución simétrica cuyos valores se mueven en todo el eje real. Depende de
dos parámetros, la media µ y la desviación estándar σ . Se simboliza por N(µ ,σ ).
Esta distribución, conocida también como distribución gausiana o distribución de
Laplace-Gauss, es la distribución más conocida y utilizada en estadística, siendo una
distribución seguida por un gran número de variables.
Cuando a una variable X que sigue la normal N(µ ,σ ).se le realiza el cambio de variable
Y=(X-µ )/σ se obtiene la distribución normal N(0,1) denominada normal centrada y
reducida, o distribución normal estándar o unitaria.
En el siguiente gráfico se muestra la función de densidad de la distribución Normal
centrada y reducida.
Para calcular la probabilidad acumulada hasta un cierto valor X en la distribución
Normal puede acceder a la calculadora mostrada en la siguiente dirección:
http://www.stat.ucla.edu/calculators/cdf/normal/normalcalc.phtml .Especificándole 3 de
los siguientes cuatro valores proporciona el cuarto (en el que debe introducirse un signo
de interrogación): valor de la observación, media, desviación estándar, probabilidad
acumulada. UCLA Statistics.
En la figura se muestra la probabilidad acumulada en el valor X=1.96, es decir, Pr(X≤
1.96)=0.975.
En distribución normal (David Lane. HyperStat Online) puede calcularse el valor de Z,
es decir, valores de la normal (0,1), para un área dada y para un valor Z dado. Incluye la
representación gráfica de la distribución.
En la dirección http://www.stat.ucla.edu/calculators/cdf/normal/normaldens.phtml
encontrará un calculador de la distribución Normal no acumulada , en la que
introduciendo el valor X, la media y la desviación estándar de la distribución se obtiene
la densidad del valor X. UCLA Statistics.
Como se ve en la figura, dado un valor X=1.96 se obtiene su densidad en la distribución
Normal centrada y reducida, f(x=1.96)=0.058441.
Distribución Ji-cuadrado
Esta distribución proviene de la suma de n variables aleatorias independientes N(0,1)
elevadas al cuadrado, Σ Z2. Se simboliza como χ 2(n). Así pues, esta distribución
depende de un parámetro n denominado grados de libertad.
En el siguiente gráfico se muestra la función de densidad de la distribución Ji-cuadrado
con 15 grados de libertad.
En la dirección http://www.stat.ucla.edu/calculators/cdf/chi2/chi2calc.phtml encontrará
un calculador de la probabilidad acumulada en un valor ji-cuadrado (X-value) con unos
grados de libertad determinados (Degrees of Freedom), que a continuación le
mostramos. UCLA Statistics.
Especificando 2 de los valores proporciona el tercero, en el que debe escribirse un signo
de interrogación. Una vez introducidos dichos valores se ha de pulsar el botón Complete
Me!. Por ejemplo, si se pretende calcular la probabilidad acumulada en el valor X=20
de una distribución Ji-cuadrado con 15 grados de libertad se obtendría el valor
?=0.828067, es decir, Pr(X≤ 20)=0.828067.
Distribución Ji-cuadrado no centrada
Cuando las n variables aleatorias independientes X se distribuyen como N(µ i,1), la
suma Σ X2 se distribuye según una Ji-cuadrado no centrada, con n grados de libertad y
parámetro de descentralización δ , definido como:
En la dirección http://www.stat.ucla.edu/calculators/cdf/ncchi2/ncchi2calc.phtml se
puede calcular la probabilidad acumulada en el valor X de una distribución Ji- cuadrado
no centrada con n grados de libertad y parámetro de descentralización δ . Especificando
3 de los siguientes cuatro valores proporciona el cuarto (en el que debe introducirse un
signo de interrogación): valor X, probabilidad, grados de libertad (Degrees of Freedom)
y parámetro de descentralización (Noncentrality Parameter) . UCLA Statistics.
Con los tres parámetros especificados en la figura se obtendría una probabilidad
acumulada de 0.489703 (Pr(X≤ 20).
Distribución t de Student
Esta distribución depende de un parámetro n denominado grados de libertad. Se
simboliza por t(n) y puede tomar valores en todo el eje real.
Donde Γ simboliza la función gamma.
Esta distribución está ligada a la distribución Normal y a la Ji-cuadrado, de manera que
si X es N(0,1), e Y es una χ 2(n), la variable:
En el siguiente gráfico se muestra la función de densidad de la distribución t de Student
con 10 grados de libertad.
Se puede acceder a un calculador de probabilidades acumuladas basadas en la
distribución
t
de
Student:
http://www.stat.ucla.edu/calculators/cdf/student/studentcalc.phtml, así como también
obtener el valor X dada una determinada probabilidad acumulada. Concretamente,
especificando 2 de los siguientes valores proporciona el tercero (en el que debe
introducirse un signo de interrogación): valor de X, grados de libertad, probabilidad
acumulada. UCLA Statistics.
Si se quiere calcular la probabilidad acumulada en el valor X=2 que se sitúa en la
distribución t de Student con 10 grados de libertad se obtendría el valor ? = 0.963306, es
decir, Pr(X≤ 2)=0.963306.
Si se quiere calcular el valor X que se sitúa en la distribución t de Student con 10 grados
de libertad y una probabilidad acumulada de 0.95 se obtendría un valor ? = 1.812461, es
decir, Pr(X≤ 1.812461)=0.95.
Distribución t de Student no centrada
Si la variable X es N(µ ,σ ) y la variable Y/σ 2 se distribuye según una Ji-cuadrado con
n grados de libertad, se dice que la variable t sigue una distribución t de Student no
centrada con n grados de libertad y con parámetro de descentralización δ , definido
como:
En la dirección
http://www.stat.ucla.edu/calculators/cdf/ncstudent/ncstudentcalc.phtmlse
puede
calcular la probabilidad acumulada asociada a un valor X situado en una distribución t
de Student no centrada con n grados de libertad y parámetro de descentralización δ .
UCLA Statistics.
En este ejemplo se pretende obtener la probabilidad acumulada asociada a un valor X=2
en una distribución t de Student no centrada con 30 grados de libertad y un parámetro
de descentralización igual a 2. Una vez pulsado el botón Complete Me! obtendríamos
que dicha probabilidad es igual a 0.480973.
Distribución F de Snedecor
Esta distribución depende de dos parámetros, m y n. Se simboliza como F(m,n). La
variable puede tomar valores mayores que 0.
Esta distribución corresponde al cociente de dos variables aleatorias Ji-Cuadrado con m
y n grados de libertad. Es decir, si X es una χ 2(m) e Y es una χ 2(n) independientes,
entonces la variable:
Se distribuye según una F de Snedecor con m y n grados de libertad.
En el siguiente gráfico se muestra la función de densidad de dos distribuciones F de
Snedecor , una con 30 grados de libertad en el numerador y denominador, y otra con 5
grados de libertad en el numerador y 10 grados de libertad en el denominador.
En la dirección http://www.stat.ucla.edu/calculators/cdf/f/fcalc.phtml se encuentra una
aplicación para el cálculo de la probabilidad acumulada en un valor X asociado una
distribución F de Snedecor con m y n grados de libertad. UCLA Statistics.
Al introducir 3 de los siguientes valores, proporciona el restante, para el que debe
escribirse un signo de interrogación: el valor (X), la probabilidad acumulada y los
grados de libertad del numerador y denominador. Se comprueba en el ejemplo que, dada
una distribución F de Snedecor con 5 y 10 grados de libertad, Pr(X≤ 1)=0.534881.
En la dirección http://www.ruf.rice.edu/~lane/hyperstat/F_table.html se puede realizar
el cálculo de la probabilidad que un valor F deja a su derecha. David Lane. HyperStat
Online.
Se deben introducir los grados de libertad del numerador, los grados de libertad del
denominador y el valor de F. Pulsar a continuación el botón Compute, que calculará la
probabilidad dejada a la derecha del valor F. En el ejemplo vemos que, dada una
distribución F de Snedecor con 5 y 10 grados de libertad, el valor F=1 deja una
probabilidad de 0.46512 a su derecha (área del 46,5%), valor complementario al
obtenido en el calculador anterior (0.534881, que corresponde con la probabilidad que
deja el valor F=1 a su izquierda).
Distribución F de Snedecor no centrada
Si la variable X es una variable Ji-cuadrado no centrada con m grados de libertad y
parámetro de descentralización δ e Y es una Ji-cuadrado con n grados de libertad
independiente de la anterior, la variable F definida como el cociente anterior sigue una
distribución F no centrada con m y n grados de libertad y parámetro de
descentralización δ .
En la dirección http://www.stat.ucla.edu/calculators/cdf/ncf/ncfcalc.phtml se tiene
acceso a un calculador basado en dicha distribución. UCLA Statistics.
En este ejemplo se pretende obtener la probabilidad acumulada asociada a un valor X=1
en una distribución F de Snedecor no centrada con 5 y 10 grados de libertad y un
parámetro de descentralización igual a 3. Una vez pulsado el botón Complete Me!
obtendríamos que la probabilidad que dicho valor X deja a su izquierda es igual a
0.297324.
RELACION ENTRE DISTRIBUCIONES
Si bien a primera vista puede parecer que las distribuciones no tienen nada en común, lo
cierto es que, bajo ciertas condiciones, dos distribuciones pueden tener una equivalencia
tal que, para un valor determinado, la probabilidad bajo las dos distribuciones sea muy
similar, por lo que su cálculo puede ser realizado sobre cualquiera de las dos
distribuciones, por lo que, en este caso, se utilizará la distribución que sea más cómoda
para el usuario.
Binomial y Poisson
Una distribución binomial B(n,p) puede ser aproximada por medio de la distribución de
Poisson P(λ ), cuando la probabilidad de ocurrencia sea pequeña, sin más que obtener el
valor del parámetro λ de Poisson por medio de la relación:
En la dirección
http://www.stat.wvu.edu/SRS/Modules/PoissonApprox/poissonapprox.html
puede
encontrar una aplicación en la que se demuestra cómo una distribución binomial puede
ser aproximada por una distribución de Poisson. Se puede comparar la distribución de
frecuencias bajo una binomial y una Poisson cuando modificamos los valores n y p.
Incluye ejercicios y ejemplos. Eberly College of Arts and Sciences. Departament of
Statistics.
En esta aplicación se puede optar entre la visualización de la función de probabilidad
(f(x)), que representa la probabilidad en un punto específico, o bien, por la función de
distribución
(F(x)),
que
representa
la
probabilidad
acumulada.
Para actualizar los cambios en las distribuciones una vez modificados los parámetros n
y p se debe pulsar el botón Rescale.
La selección de un rango de valores para encontrar su probabilidad se debe realizar a
través de la lista desplegable que se encuentra encima del gráfico, en la zona grisácea.
Si hacemos clic en el botón de flecha que aparece justo al final del campo con el texto
Prob, aparecerá una lista de las posibles formas de selección (en rojo) de una zona del
gráfico.
Binomial y Normal
Una distribución binomial B(n,p) puede aproximarse a la Normal cuando n≥ 30 y
0.1<p<0.9, o bien cuando p está cerca de 0.5 y np>5.
Para npq ≥ 9, la siguiente transformación proporciona una variable aproximadamente
normal:
Para el cálculo de P(a≤ X≤ b), correspondiente a una distribución binomial, a partir de
la distribución Normal aproximada, se realiza la denominada corrección de continuidad
que se presenta a continuación:
y se calcula el área bajo la normal en el intervalo [a',b'].
Si p<0.1 ó n<30, la aproximación es aceptable si np>5.
Si p≈ 0.5, la aproximación sigue siendo válida si np>3.
Si n<30 y np<5, la binomial debe calcularse directamente como binomial.
En la dirección
http://www.stat.wvu.edu/SRS/Modules/NormalApprox/normalapprox.html se
encuentra una aplicación que puede usarse para obtener la aproximación de la binomial
a la Normal, para estudiar las diferencias entre las probabilidades obtenidas bajo las dos
distribuciones, y para estudiar en qué condiciones la aproximación es buena. Permite
ajustar los parámetros n y p, y ver gráficamente si la forma de la distribución se ajusta a
la normal. Por otra parte, también se puede optar entre la visualización de la función de
probabilidad (Binomial) / densidad (Normal) (f(x)), que representa la probabilidad en un
punto (Binomial) o intervalo (Normal) específico, o bien, por la función de distribución
(F(x)), que representa la probabilidad acumulada. Eberly College of Arts and Sciences.
Department of Statistics.
Para actualizar los cambios en las distribuciones una vez modificados los parámetros n
y p se debe pulsar el botón Rescale.
En la imagen puede ver como hemos aproximado una distribución binomial B(20, 0.5) a
una distribución normal, y cómo la probabilidad asociada al rango de valores discretos
7-13 (columnas) en la distribución binomial (0.8846) es muy similar a la probabilidad
asociada al mismo rango continuo (6.5-13.5, línea amarilla) de la distribución normal
(0.8824).
La selección de un rango de valores o área del gráfico para encontrar su probabilidad se
debe realizar a través de la lista desplegable que se encuentra encima del gráfico, en la
zona grisácea. Si hacemos clic en el botón de flecha que aparece justo al final del campo
con el texto Prob, aparecerá una lista de las posibles formas de selección de una zona
del gráfico. Una vez seleccionada la opción emergerá un cuadro de diálogo donde
introducir los valores discretos enteros del eje X que definirán la zona a seleccionar (en
color azul en el gráfico):
x>= a Se debe introducir el valor a en el campo Lower bound .
x<=a Se debe introducir el valor a en el campo Upper bound
a<=x<=b Se debe introducir el valor a en el campo Lower bound y b en el campo Upper
bound
x=?
Se debe introducir el valor discreto escogido.
Poisson y Normal
Para el cálculo de P(a≤ X≤ b) en la distribución de Poisson a partir de la normal se
realiza la corrección de continuidad.
y se calcula el área bajo la normal en el intervalo [a',b'].
Esta aproximación es aceptable para λ ≥ 9, y mejora a medida que λ aumenta de valor.
Normal y Ji-cuadrado
A medida que n aumenta, la distribución ji-cuadrado tiende a la distribución normal con
media n y variancia 2n
Para n grande (n≥ 30), un valor de la distribución ji-cuadrado se puede obtener por su
valor en la distribución normal, por medio de la siguiente transformación:
Normal, Ji-cuadrado, t de Student y F de Snedecor
El siguiente esquema permite visualizar la relación existente entre el conjunto de las
cuatro distribuciones continuas que se han presentado:
Los siguientes ejemplos numéricos permiten verificar la igualdad de los valores de las
funciones según el esquema presentado. El valor 0.05 se utiliza a efectos de obtener un
punto concreto de la distribución:
F(1,10,0.05) = 4.96463 <======> t(10,0.05) = 2.22814
F=t2
F(1,∞ ,0.05) = 3.84147 <======> z(0.05) = 1.95997
F=z2
F(10,∞ ,0.05) = 1.8307 <======> X2(10,0.05)/10 =1.8307
F(n,∞ )=Xn2/n
t(∞ ,0.05) = 1.95997 <======> z(0.05) = 1.95997
t∞ =z
2
X (1,0.05) = 3.84134 <======> z(0.05) = 1.95997
X12=z2
SOFTWARE ADECUADO
En Internet podemos "bajar" de forma gratuita el programa STATLETS que se
encuentra en http://www.statlets.com en su versión no comercial, el cual, entre otras
posibilidades que le da los 50 Java applets que contiene, permite obtener una serie de
gráficos y de valores para un amplio conjunto de distribuciones. El siguiente gráfico
recoge la pantalla de este programa en su apartado de distribuciones, en el que se
encuentran los nombres de las 24 distribuciones disponibles.
Para llegar a esta pantalla ejecutamos el programa STATLETS y en el menú elegimos
Plot | Probability Distributions
Una vez tengamos esta pantalla, elegimos la distribución que nos interese. A título de
ejemplo seleccionamos la distribución Normal.
A continuación se tiene que especificar la distribución concreta que nos interesa. Es
decir, se trata de proporcionar los valores de los parámetros de la distribución. Esto se
consigue pulsando en primer lugar la pestaña PDF y a continuación elegir Options en
donde podremos escribir los valores de los parámetros de la distribución. En nuestro
ejemplo se proporcionan los valores de la media y de la desviación estándar que
definirán a la distribución normal. Al pulsar OK queda definida la normal N(0,1), tal
como se puede ver en el siguiente gráfico.
Una vez definida la distribución podemos utilizar la pestaña Critical Values para definir
valores de probabilidad acumulada y poder obtener los valores de la distribución que les
corresponden. Para ello utilizamos Options y escribimos los valores de las áreas que
interesen. Al pulsar OK el programa nos proporciona los valores buscados, tal como se
puede ver en el siguiente gráfico.
Si lo que nos interesa es encontrar la probabilidad asociada a un valor de la distribución,
seleccionamos la pestaña Tail Areas y en el botón Options podemos escribir hasta un
máximo de cinco valores de la distribución. Para cada uno de ellos, el programa
proporciona la probabilidad acumulada por debajo del valor (Lower Tail Area), el valor
(altura) de la función de densidad de probabilidad para este valor (Probability Density)
y la probabilidad acumulada por encima del valor (Upper Tail Area).
En nuestro ejemplo utilizamos el valor 1.96, el cual deja por debajo un área de valor
0.975002 y por encima un valor 0.024998. Por otra parte la función de densidad de
probabilidad en el punto 1.96 vale 0.058441, tal como se puede leer en el siguiente
gráfico:
Media y Variancia de las distribuciones
Una distribución viene caracterizada, entre otros índices, por una medida de su
localización, la esperanza matemática, y una medida de su dispersión alrededor de la
esperanza, denominada variancia.
A partir de la función de probabilidad o de densidad se puede calcular el valor de la
esperanza matemática, que representa el centro de gravedad de los valores de la
distribución donde la masa de cada punto es proporcional a la densidad en dicho punto.
Su cálculo se realiza por medio de la siguiente expresión:
Para una variable discreta:
Para una variable continua:
La variancia de una distribución indica cómo se distribuye la probabilidad alrededor de
la esperanza, y su cálculo se realiza por medio de la expresión:
Para una variable discreta:
Para una variable continua:
Una expresión que a veces resulta más fácil utilizar para el cálculo de la variancia viene
dada por:
A continuación se proporcionan la esperanza matemática E(X) y la variancia V(X) de
cada distribución.
Bernoulli
Binomial: B(n,p)
Poisson: P(λ )
Normal: N(µ , σ )
Ji-cuadrado: χ 2(n)
t de Student: t(n)
F de Snedecor: F(m,n)
Ji-Cuadrado no centrada: χ 2(n,δ )
t de Student no centrada: t(n,δ )
F de Snedecor no centrada: F(m,n,δ )