Download Capítulo 4 Distribuciones Muestrales

Document related concepts

Estadístico muestral wikipedia , lookup

Distribución t de Student wikipedia , lookup

Prueba t de Student wikipedia , lookup

Muestra estadística wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Transcript
Capítulo 4
Distribuciones
Muestrales
Objetivos
•
•
•
•
•
Tomar una muestra de una población para inferir el comportamiento de esa población.
Introducir el concepto de distribución muestral.
Introducir el Teorema Central del Límite.
Introducir la Ley de los Grandes Números.
Aplicar estas leyes para estimar la media o la proporción poblacional.
1
Capítulo 4 Distribuciones Muestrales
Contenidos
La siguiente tabla de contenidos contiene vínculos que conducen a las páginas correspondientes.
Concepto de distribución muestral
Sesgo y convergencia
5
Descripción numérica
6
Descripción gráfica:
8
Descripción numérica
18
Descripción gráfica
19
Correlación
27
Regresión
28
2
3
Jorge Carlos Carrá
Introducción – Concepto de distribución muestral
Introducción
El estudiante cuanta ahora con los cimientos conformados por las 3 bases desarrolladas en los
capítulos previos. Este capítulo es el nexo entre estas bases y el capítulo 5, en el cual finalizaremos
nuestro edificio básico.
Con frecuencia se realizan investigaciones para probar alguna hipótesis, teoría o el comportamiento
de un procedimiento práctico. Estos estudios se realizan sobre un grupo determinado de personas o
elementos llamado muestra que son parte representativa de un total al que se dirige el estudio
llamado población (a veces hipotética o sin existencia real). La estadística consiste esencialmente en
formular y contrastar hipótesis acerca de la población. Este proceso se denomina inferencia
estadística y para ello entonces se requiere:
• Muestra
La muestra debe ser representativa de la población, es decir cada elemento de la población debe
tener igual probabilidad de ser incluido en la muestra. Si el muestreo no es al azar no es
posible aplicar el concepto matemático de probabilidades, el proceso no es válido y cualquier
esfuerzo en la toma de datos carece de sentido, obteniendo finalmente resultados que los
estadísticos llaman "basura".
• Población
De esa población desconocida se debe conocer la distribución de probabilidades de la variable en
estudio (o de alguna variable relacionada) y además esa distribución deberá presentar al menos
dos propiedades: ser insesgada y convergente (ver página 5). Estas características
afortunadamente se pueden obtener a partir del conocimiento de la distribución de
probabilidades de algunos estadísticos de interés, a los que llamaremos variables muestrales,
cuyo símbolo será en general θˆ .
El esquema ingenioso es el siguiente: supongamos que conocemos la forma de la distribución de
probabilidades de las medias (por ejemplo normal) y que la media de esta distribución es la
media poblacional μ (desconocida). ¡Bingo!. Contamos con una relación matemática que nos
permitirá relacionar el valor desconocido μ a partir de lo conocido. El proceso que nos llevará a
ese destino será motivo del capítulo 5.
El muestreo es un instrumento poderoso para poder inferir el comportamiento de un conjunto de
elementos a través de un subconjunto del mismo.
La razón básica para que esto sea posible es que los datos de los fenómenos masivos presentan, a
pesar de su diversidad individual, ciertas regularidades de conjunto.
La diversidad se evidencia en el hecho de que difícilmente obtengamos muestras exactamente
iguales entre sí. Por su parte la regularidad se manifiesta al observar que las características de la
muestra se van asemejando a las de la población, tanto más cuanto más grande sea la muestra.
Concepto de distribución muestral
En este capítulo trataremos el concepto de la distribución muestral de un estadístico θˆ . Esta
distribución es la que resulta del siguiente proceso de 3 pasos, esquemáticamente mostrados en la
figura 4-1.
3
Capítulo 4 Distribuciones Muestrales
1. Obtener todas las muestras posibles de tamaño n que pueden obtenerse de la población de la
v.a x.
2. Obtener θˆ en cada una de esas muestras.
θˆ es cualquier función de una variable aleatoria, como por ejemplo las medias muestrales, las
varianzas, el número de éxitos, la proporción de éxitos, los coeficientes de correlación, etc.
3. Obtener P(θˆ) en forma teórica o experimental. La grafica de esta distribución, se llama
distribución muestral y su relación con las muestras es lo que da origen al nombre de estas
distribuciones.
Observar que en el proceso están involucradas 3 distribuciones: población de X, muestras de X y
distribución muestral de θˆ .
Obtendremos de aquí en adelante las distribuciones teóricas muestrales más utilizadas en el proceso
de inferencia estadística. En el capítulo 5, veremos cómo realizar la inferencia a partir de una
muestra.
Figura 4-1
Esquema de una distribución muestral
Si bien pueden crearse distribuciones muestrales de estadísticos que no son medidas de posición o
dispersión, no resultan muy útiles para la inferencia estadística. En este capítulo veremos cómo
obtener, en particular, las distribuciones de probabilidades de los primeros estadísticos que se
enumeran en la figura 4-2 (media y proporciones). El conocimiento de cómo se comportan las
muestras y en particular cuales son las distribuciones muestrales de estas variables, permitirá inferir
el comportamiento de algunos parámetros desconocidos de la población, en particular los que se
encuentran en la última columna. Observar entonces la importancia de este capítulo en el proceso de
pasar de una muestra conocida a una población desconocida.
4
Jorge Carlos Carrá
Introducción – Concepto de distribución muestral
θˆ (muestra) θ (población)
μ
X
τ
τˆ
Tipo
I Univariables
Posición
p̂
2
Dispersión
s
ΔX
Δp̂
Δτˆ
s12
s22
Posición
II Bivariables
Dispersión
p
σ2
Δμ
Δp
Δτ
σ 12
σ 22
Figura 4-2
Distribuciones muestrales de interés
Existen 2 medidas de interés relacionadas con la media y la varianza.
Sesgo y convergencia
Sesgo
Esta propiedad se relaciona con la media. Se define el sesgo como:
Sesgo = E (θˆ) − θ
Veremos en el capítulo5, que cuando la esperanza de un estadístico, es un parámetro poblacional, ese
estadístico tiene una cualidad importante en el proceso de la inferencia y se lo llama estimador
insesgado del parámetro poblacional. Este nombre proviene de la definición anterior del sesgo.
Convergencia
Esta propiedad se relaciona con la media y con la varianza.
Un estimador es convergente si:
θˆ
→
θ
n→∞
Esto es equivalente (capítulo 5, página convergencia5) a la combinación de:
⎧ ˆ →
0
⎪V (θ )
n→∞
⎨
⎪θˆ insesgado
⎩
En el proceso de inferencia, naturalmente son deseables los estimadores convergentes.
El estudio de las distribuciones muestrales, como toda distribución, puede dividirse en 2 partes:
1. Descripción numérica
Obtención de la media y de la varianza
2. Descripción gráfica
Obtención de la PDF.
La obtención de los parámetros numéricos requiere el análisis de las sumatorias y es complementario
a la obtención de la PDF de θˆ .
5
Capítulo 4 Distribuciones Muestrales
I Una variable
Parámetros de posición
Estadístico: media
El esquema para este caso es el de la figura 4-1, con θˆ = X .
Descripción numérica
Supongamos que se han dispuesto los datos en una matriz de m*n de m muestras (filas) de tamaño n
(columnas), tal como se muestra en la figura 4-3. Por lo tanto cada fila se corresponde con un
diagrama del panel central de la figura 4-1.
Primero se deberá calcular la media x de cada fila lo cual dará origen a una nueva columna de
medias (columna derecha sombreada de la figura) y luego se obtendrá la media de todas estas medias
A esta media de la distribución muestral de medias x = μ x , se la llama también llamada gran media.
Figura 4-3
Si llamamos:
G
X o más simplemente X al vector columna de las medias muestrales,
G
X1 o más simplemente X 1 al vector columna de los valores de la primera columna,
G
X 2 o más simplemente X 2 al vector columna de los valores de la segunda columna, y así
sucesivamente, se puede expresar que:
X=
6
X 1 + ... + X n
n
Jorge Carlos Carrá
I Una variable – Estadístico: media
Si se han obtenido todas las muestras posibles, cada columna tendrá la misma distribución de la
población original con la misma media μ y varianza σ2 (se comprobará en el problema 4.1). Por
consiguiente:
Media
⎛ X + ... + X n ⎞ E ( X 1 ) + ... + E ( X n ) nμ
E( X ) = E ⎜ 1
=
=μ
⎟=
n
n
n
⎝
⎠
Es decir:
μx = μ
Esta relación refleja la propiedad de los errores aleatorios de compensarse cuando se promedian.
Cada una de las medias muestrales puede diferir de la media poblacional pero su valor esperado será
igual a μ.
Varianza
Población infinita o muestreo con reemplazo
2
σ2
⎛ X + ... + X n ⎞ V ( X 1 ) + ... + V ( X n ) nσ
V (X ) = V ⎜ 1
=
=
⎟=
n
n2
n2
n
⎝
⎠
Es decir:
σx =
σ
n
La desviación estándar de cualquier estimador, en este caso de la media, suele llamarse también:
error estándar o en inglés Standard Error, SE. Esta es la notación elegida por el SPSS.
SE x = σ x
Puede observarse que las desviaciones de las medias muestrales son siempre más pequeñas que las
de las observaciones individuales. Esto se relaciona con el hecho de que al tomar la media de
cualquier muestra, los extremos tienden a neutralizarse con los extremos de la dirección opuesta.
Población finita o muestreo sin reemplazo
Si la población es finita o el muestreo es sin reemplazo se puede demostrar que:
V (X ) =
σ2 N −n
n N −1
es decir:
σx =
σ
n
N −n
N −1
En donde el factor que involucra a N se denomina cpf, corrección por población finita (ya utilizado
en la distribución hipergeométrica).
cpf =
N −n
N −1
Observar que el factor cpf tiende a 0 cuando n tiende a N (todas las muestras son iguales y por lo
tanto la dispersión de la distribución muestral es cero) y tiende a 1 cuando N tiende a infinito (la
población es infinita por lo cual no hay corrección). En la práctica se considera que el cpf es 1 si n <
0.05N, criterio ya utilizado en la aproximación hipergeométrica a una binomial. Debe puntualizarse
que el muestreo con reemplazo equivale a una población infinita y por lo tanto debe considerarse que
N tiende a infinito en la ecuación anterior (obteniendo la expresión del apartado anterior).
7
Capítulo 4 Distribuciones Muestrales
Dado que el muestreo con reemplazo conduce a sucesos independientes, más simples de analizar
(ver ecuaciones anteriores), muchos procedimientos estadísticos se basan en el muestreo con
reemplazo y por lo tanto, a menos que se indique especialmente, se supondrá que:
a) el muestreo es con reemplazo, o que
b) la población es infinita. Se puede suponer infinita si, a pesar de ser finita, n < 5% N .
Sigma desconocido
Finalmente, si no se conoce la desviación estándar de la población, σ, se puede aproximar cualquiera
de los casos con la desviación estándar de la muestra, s. En este caso se utilizan, respectivamente, los
siguientes símbolos (el símbolo circunflejo .̂ se lee: "estima de").
s2
Vˆ ( X ) =
n
s2 N − n
Vˆ ( X ) =
n N
s
n
σˆ x =
σˆ x =
s
n
N −n
N
En el factor de corrección, en lugar de N-1 suele usarse N, por razones que se verán al tratar más
adelante, el estadístico s2.
Es apropiado remarcar que las expresiones anteriores no dependen de la forma de la distribución.
Sesgo y convergencia
Como en este caso el sesgo es cero, se dice que la media muestral es un estimador insesgado de la
media poblacional.
Como además la varianza tiene n en el denominador, es un estimador convergente pues tiende a cero
cuando n tiende a infinito.
Descripción gráfica
La regularidad planteada anteriormente se manifiesta claramente en la estabilidad que muestran los
valores medios de cada una de las muestras. Esto se debe a que los promedios o equivalentemente
las sumas de variables aleatorias, presentan más estabilidad que las medidas individuales.
Ésta característica experimental no resulta del todo sorprendente, puesto que se presenta
habitualmente en nuestro entorno para cualquier variable que se encuentre afectada por multiplicidad
(suma) de factores independientes. Por ejemplo los pesos o alturas de las personas son función de la
genética, la nutrición, enfermedades, etc. Esto por un lado provoca valores distintos en cada una de
las personas, pero por otro, la misma multiplicidad de fuerzas hace que tiendan a la compensación
cuando se toman en conjunto.
Así se observa que la mayoría de los alumnos tienen alturas que se agruparán alrededor de un valor
promedio, y en cambio la minoría se encontrará cerca de los valores extremos. Esto mismo sucede
con las notas de los estudiantes de cualquier escuela, con las cuentas bancarias de un banco, con los
inventarios de una empresa, con los valores de las acciones, con la hora de llegada a la escuela, lista
que podría continuar indefinidamente.
Este comportamiento experimental se estudia analizando teóricamente la distribución muestral del
estadístico x .
Se presentan 5 casos:
1. El tamaño de la muestra n es grande y la desviación estándar σ de la población es conocida.
2. La distribución de la población x es normal y su desviación estándar σ es conocida.
3. El tamaño de la muestra es grande y su desviación estándar es desconocida.
4. La distribución de la población x es normal y su desviación estándar es desconocida
5. Ninguna de las anteriores.
8
Jorge Carlos Carrá
I Una variable – Estadístico: media
La tabla de la figura 4-4, resume las 5 alternativas para detectar que distribución es aplicable si la
variable en estudio es la media. La palabra asintótica significa que la distribución no es exacta
pero, para muestras grandes, se aproxima asintóticamente. El caso 5 es la negación de los casos
anteriores. A los efectos del cálculo se tienen en realidad 3 casos: Normal, t de Student o ninguna de
ellas.
Desviación
Estándar
Casos
1y2
Casos
3y4
Caso 5
n>30 o
x normal
n > 30 o
x normal
n < 30 y
x no normal
Distribución
Asintótica
Exacta
Asintótica
=> t de Student
Exacta
σ
=>
s
––
=>
Normal
No paramétrica
Figura 4-4
Resumen para la distribución muestral de la media
Caso 1 Teorema Central del Límite, TCL
La demostración de este teorema en 1810 se debe al matemático francés Pierre Simon marqués de
Laplace (1749-1827) y constituye otra demostración de la función de distribución de Gauss o normal
(distinta a demostración de Gauss), estudiada en el capítulo 3.
Sea la distribución de una variable x poblacional cualquiera x con media μ y desviación
estándar σ. Si el tamaño de la muestra tiende a infinito (y por lo tanto el de la población),
entonces la distribución muestral teórica de las medias X , es una distribución normal.
Dado que el teorema establece una respuesta teórica definida para la forma y en la descripción
numérica de la sección anterior anterior se establecieron los valores de los parámetros numéricos, no
será necesario obtener la distribución experimental de medias en cada caso particular que se estudie.
Se aprecia además que se requiere un tamaño de la muestra grande (en teoría infinito), por lo cual el
resultado será asintótico aproximado, no exacto.
¿Qué valor de n se considera grande? Si la distribución de x ya es normal es probable que con n = 10
sea suficiente. En tanto que si se tratara de una distribución de Bernouilli con p = 10-5 se necesitaría
por lo menos n = 500000 para obtener una aproximación normal satisfactoria (recordar los criterios
de aproximación, página Aproximaciones3). En general con un valor entre 30 y 100 se obtiene una
buena convergencia y en la mayoría de los casos es aceptable la condición:
n ≥ 30
En los problemas deberán convertirse los valores x en valores estandarizados z, para lo cual deberá
conocerse la desviación estándar σ de la población. Si esta se desconoce, se utiliza en general la
desviación estándar de la muestra, s, por lo cual esta conversión a la variable z no se distribuirá
exactamente como normal. Esta situación corresponde al caso 3, aunque, dado que el error de tratarla
como normal es bajo, en los libros de texto suele considerarse como parte del caso1.
Este teorema se llama Central pues lo es para la aplicación de la estadística y Límite pues prevé el
comportamiento límite de las medias muestrales al aumentar el tamaño n de la muestra.
Aproximación normal de una binomial
El enunciado general del TCL se refiere en realidad a la sumatoria de variables aleatorias X., siendo
la media un caso particular. Se eligió este formato pues es de mayor utilidad en la inferencia.
Un caso particular de esta sumatoria es la variable aleatoria binomial, la cual, recordemos, es la
sumatoria de n variables aleatorias de Bernoulli.
Y = ∑ YB
9
Capítulo 4 Distribuciones Muestrales
Esta consideración justifica la aproximación de una distribución binomial a una normal, utilizada en
el capítulo 3.
Caso 2 Propiedad de las distribuciones normales
Este caso se presenta cuando la distribución de la población x es normal y su desviación estándar σ
es conocida (supuesto no muy realista, pues si conoce σ se deberían conocer los datos, por lo tanto μ
y entonces no habría necesidad de estimarla). En esta situación, por una propiedad de las
distribuciones normales, la distribución muestral de las medias X , es una distribución normal
exacta (no aproximada como en el TCL).
Casos 3 y 4 Distribución t de Student
El tercer caso es un aporte de William Gosset, alias Student (capítulo 3). Este matemático demostró
que si x es normal o el tamaño de la muestra es grande y la desviación estándar de la población se
reemplaza por la de la muestra, entonces la v.a que se expresa a continuación, sigue exactamente
una distribución t de Student (no aproximada como en el TCL).
t=
X −μ
Vˆ ( x )
donde, recordemos:
s2 N − n
Vˆ ( X ) =
n N
o equivalentemente:
σˆ x =
s
n
N −n
N
Los grados de libertad de la distribución t de Student, se calculan con la expresión:
ν = n −1
La lógica de esta expresión surge de observar que se estima la varianza poblacional con la varianza
muestral σˆ 2 = s 2 , en cuyo cálculo se debe estimar la media poblacional a partir de la media
muestral. Luego, suponiendo este valor fijo y conocido, solo se requieren conocer n–1 datos, pues el
enésimo dato se obtendría a partir del conocimiento de esa media. Como se tiene entonces libertad
solo para elegir n-1 datos, se dice que se tienen n-1 grados de libertad. En general, los grados de
libertad surgen de restar del tamaño n de la muestra, el número k de parámetros poblacionales que se
estiman.
ν = n−k
Si se utiliza una tabla para el cálculo y el estudio incluyera grados de libertad que se encuentran
entre 2 valores de la tabla, para ponerse del lado de la seguridad, utilizar el grado de libertad inferior.
Como fue mencionado en el caso 1, si el tamaño de la muestra es mayor que 30, la consideración de
la distribución muestral de medias como normal en lugar de t de Student es en general aceptable en
el cálculo manual, aunque la generalizada utilización de programas de computación ha provocado
que esta aproximación no sea utilizada por los investigadores en la presentación de los informes
estadísticos.
Caso 5 Estadística no paramétrica
En cualquier otro caso distinto a los anteriores, se deben usar procedimientos que no dependan del
conocimiento de la distribución del parámetro a estudiar.
Estas técnicas se estudian en el capítulo 7 (aunque algunas de ellas se introducirán en el capítulo 5),
pero entre ellas podemos aplicar una ya estudiada:
la desigualdad de Tchebysheff (capítulo 1). Recordemos que esta desigualdad permite calcular una
cota de cualquier distribución, solo con la media y la varianza, sin conocer la distribución del
parámetro e estudiar.
10
Jorge Carlos Carrá
I Una variable – Estadístico: media
Pruebas de normalidad
Los modelos teóricos representarán realmente a la distribución real si se demuestra que existe un
buen ajuste entre ambas distribuciones. Esto se realiza generalmente a través de un proceso
comparativo entre ambas, centrado en cada uno de los siguientes 5 aspectos:
• pruebas de comparación
• prueba de medias (paramétrica)
• prueba de varianzas (paramétrica)
• prueba de forma (no paramétrica) llamada de la bondad del ajuste
• pruebas de aleatoriedad (no paramétrica).
El estudio de las técnicas estadísticas que permiten comparar una distribución experimental obtenida,
con la teórica, se realizará en el capítulo 5, prueba de la bondad del ajuste. Mientras tanto, dado que
en varias técnicas estadísticas se parte del supuesto de normalidad para alguna de las distribuciones,
se podrían recorrer los siguientes métodos preliminares, algunos de los cuales fueron anticipados en
el capítulo 1, página transformacion1.
Métodos gráficos (ajuste a la normal)
Construir el diagrama de la PDF o de la CDF de los datos y observar si es razonable aproximarlo a
una distribución normal (en el SPSS, puede superponerse la curva normal a un histograma, con el
botón a tal efecto que se encuentra en la barra de herramientas). Si se requiere un procedimiento más
preciso, trazar un gráfico Q-Q, página normalidad1.
Métodos numéricos (ajuste a la normal)
•
•
•
Media y mediana: Revisar si la media y la mediana son casi iguales entre sí.
Desviación estándar: Verificar el acercamiento a los valores de z correspondientes a los
percentiles 68, 95 y 99 (z = 1, 2 y 3 respectivamente).
Sesgo y Curtosis: Verificar si el coeficiente de sesgo es cercano a 0 y controlar además
que la curtosis sea también cercana a 0.
Problema resuelto 4.1 Distribución muestral de medias
Con la población de este problema construiremos a lo largo de la sección de Una Variable, la distribución
muestral de la media, de la proporción y de la varianza de una variable discreta.
Las distribuciones muestrales que utiliza la estadística son en realidad alguno de los modelos ya vistos en el
capítulo 3, pero es sumamente esclarecedor que el estudiante construya, al menos una vez, una distribución
muestral.
Una urna contiene 4 esferas numeradas con 3, 5, 7 y 8. Se extraen aleatoriamente 2 esferas con reemplazo. a)
Hallar la distribución de la población, b) obtener la distribución de todas las m muestras de n = 2 con
reemplazo, c) obtener la distribución de los primeros componentes de cada muestra y comprobar que es igual a
la de la población progenitora, d) hallar la distribución muestral de medias con su esperanza y desviación
estándar. Comprobar que la misma coincide con los valores obtenidos en la teoría., e) repetir para un muestreo
sin reemplazo.
a)
11
Capítulo 4 Distribuciones Muestrales
3
5
7
8
x
p(x) 1/4 1/4 1/4 1/4
μ = 5.75
σ2 = 3.687
Figura 4-5
Distribución poblacional
Muestreo con reemplazo
b) La figura 4-6a contiene la distribución muestral de medias con la estructura espacial que se ha utilizado en
la demostración correspondiente a la figura 4-3, pues existen 16 maneras posibles de formar grupos de 2 con 4
elementos, con repetición (P42,r =42).
c) La figura 4.6b muestra la distribución de la primera columna, observando que es idéntica a la distribución
progenitora. Lo mismo sucede con la restante columna. Esto no es extraño si se observa la construcción del
árbol que origina todas las selecciones posibles.
x1° x2° Media
3 3
3
3 5
4
3 7
5
3 8
5.5
5 3
4
5 5
5
5 7
6
5 8
6.5
7 3
5
7 5
6
7 7
7
7 8
7.5
8 3
5.5
8 5
6.5
8 7
7.5
8 8
8
b
a
Figura 4-6
d)
12
Jorge Carlos Carrá
I Una variable – Estadístico: media
Figura 4-7
Distribución muestral de medias
μx =
V (X ) =
92
= 5.75
16
1
x 2 − μ x2 = 1.84
∑
16
σ x = 1.35
Esto parámetros son idénticos a los deducidos en la teoría:
μ x = μ = 5.75
V (X ) =
σ2
n
=
3.687
= 1.84
2
La PDF no tiene la forma de una distribución normal pero tenderá hacia ésta si n > 30, en lugar de ser n =2.
Muestreo sin reemplazo
Existen 12 maneras posibles de formar grupos de 2 con 4 elementos, sin repetición (P42 =4*3).
e)
13
Capítulo 4 Distribuciones Muestrales
x1° x2° Media
3 5
4
3 7
5
3 8
5.5
5 3
4
5 7
6
5 8
6.5
7 3
5
7 5
6
7 8
7.5
8 3
5.5
8 5
6.5
8 7
7.5
Figura 4-8
Distribución muestral de medias
μx =
V (X ) =
69
= 5.75
12
1
x 2 − μ x2 = 1.229
∑
12
Esto parámetros son idénticos a los deducidos en la teoría:
μ x = μ = 5.75
V (X ) =
σ 12 N − n
n1 N − 1
=
3.687 2
= 1.229
2 3
Resolución de problemas
Recordemos del capítulo 1 que en cualquier distribución de frecuencias conocida, se presentan dos
series de datos (x, f) y por lo tanto 2 tipos generales de problemas:
Dato
Incógnita
x
=>
f
f
=>
x
La mayoría de los problemas de este capítulo son similares a los del capítulo 1. En aquel capítulo se
conocía por completo la distribución de frecuencias de una muestra y aquí se conoce la de una
distribución muestral asociada con parámetros de la población. Por razones didácticas, en todos los
problemas resueltos que ilustran este capítulo se incluyen por lo menos las siguientes 2 preguntas,
rotuladas como a) y b):
a) Dado x, se pregunta la probabilidad
b) Dada la probabilidad, se pregunta x
Por lo tanto, en cada uno de ellos lo único que variará, será el carácter de las distribuciones
particulares que le corresponda a cada uno y por lo tanto el estudiante solo deberá concentrarse en el
método particular de resolución. Todos los problemas se resolverán de dos formas: a mano y con
computadora (SPSS o EXCEL), especialmente cuando las tablas sean demasiado restrictivas.
Estos problemas parten del conocimiento de la población y a partir de allí se calcula el
comportamiento de una muestra, sin necesidad de la obtención de la misma. El tipo opuesto de
problemas se presentará en el capítulo 5 (excepto en la sección de Control de Calidad). Estos serán
los problemas típicos de la estadística, en los cuales se desconoce algún parámetro de la distribución
de la población, pero luego del conocimiento de una muestra, se buscará inferir ese valor
desconocido de la población, a partir del conocimiento de la distribución de probabilidades. Con la
14
Jorge Carlos Carrá
I Una variable – Estadístico: media
misma podremos, en particular, averiguar si el resultado de la muestra es un evento poco común y
con esta información establecer conclusiones.
Muestra
Capítulo 4 Población =>
Población
Capítulo 5 Muestra =>
Problema resuelto 4.2 Gastos de comida
Las cuentas de gastos de comida de los empleados de una empresa tienen una media μ = 20$ y una desviación
estándar σ =5$. Si se selecciona una muestra aleatoria de 64 cuentas,
a) ¿qué proporción de medias estará comprendida entre 19$ y 22$?,
b) ¿por encima de que valor estará el 95% de las cuentas?
c) ¿Qué suposiciones deben hacerse para resolver estas preguntas?
a)
Parámetros de la distribución muestral
μ x = 20
σ
5
σx =
n
=
8
= 0.625
Distribución muestral
Las distribuciones se resuelven utilizando las herramientas del capítulo 3, es decir o bien utilizando tablas o
bien usando algún software, como por ejemplo: SPSS o EXCEL.
En este ejemplo n > 30 y σ es conocido, por lo tanto la distribución adecuada es la Normal (caso 1).
Figura 4-9
PDF muestral
Tablas
Es necesario primero transformar a la variable z:
z1 =
19 − 20
= −1.6
0.625
15
Capítulo 4 Distribuciones Muestrales
z2 =
22 − 20
= 3.2
0.625
Entrando a la tabla de distribución normal, se obtiene:
frecuencia = 1 − cola sup(1.6) − cola inf(3.2) = 0.94
SPSS
CDF.NORMAL(19,20,0.625)=0.054
CDF.NORMAL(22,20,0.625)=0.999
frecuencia = CDF (22) − CDF (19) = 0.94
b)
Tablas
z para una cola superior = 0.05 = 1.64
El valor de la media se obtiene de:
x = 20 + 1.64(0.625) = 21.02
SPSS
IDF.NORMAL(0.95,20,0.625)=21.03
P95 = 21.03
c) Ninguna pues es válido el TCL.
Caso particular
Total poblacional
Se define por:
τ = Nμ
Por lo tanto se estimará por:
τˆ = Nx
Observar que se trata ahora de la distribución muestral de totales poblacionales, es decir nos
encontramos en el esquema de la figura 4-1, con θˆ = τˆ .
Descripción numérica
A partir de la ecuación anterior, se obtienen:
Media
μτˆ = N μ x = N μ
Varianza
σ τ2ˆ = N 2σ x2
σ τˆ = Nσ x
Los valores de la varianza, tanto para población infinita como finita, se obtienen por reemplazo
directo de la varianza de la media en las expresiones anteriores.
Dada la relación lineal directa entre τˆ y , x el lector puede preferir seguir trabajando con x y
convertir a τˆ , allí donde sea necesario.
Descripción gráfica
En el capítulo 3 vimos que las distribuciones normales tienen la propiedad de linealidad, es decir: la
combinación lineal de distribuciones normales, también es normal. Como en este caso la distribución
16
Jorge Carlos Carrá
I Una variable – Estadístico: media
de medias es normal y el total poblacional es el producto de las medias por un factor constante N,
entonces la distribución muestral de totales poblacionales es también normal. Esto también se puede
aplicar a una t de Student y por lo tanto son válidos los 5 casos ya vistos para la distribución
muestral de medias.
Problema resuelto 4.3 Apertura de casa de té
Al revisar las ventas x desde la apertura de una casa de té, el dueño encontró que el número de clientes fue de
95, los cuales gastaron en total 3210$. No conoce la desviación estándar del gasto de la población, pero conoce
de una muestra que la desviación estándar de x es 5.65$. Si se selecciona una muestra de 20 clientes,
a) ¿cuál es la probabilidad de que el costo total se encuentre entre 3000$ y 3500$, ¿qué suposiciones deben
hacerse para resolverlo?
b) hallar el percentil 95.
Parámetros de la distribución muestral
En
τˆ : τ = 3210$ = μτˆ
En x :
μ = 33.79 = μx
σ τˆ = N
σ
N −n
= 107$
n N −1
σ x = 1.128
Distribución muestral
En este ejemplo n = 20 < 30. Por lo tanto, si se desea resolver en forma paramétrica, deberá postularse la
validez de la distribución normal o t de Student y por consiguiente que la distribución de la población sea
normal (casos 2 o 4). En este caso la desviación estándar de la población no se conoce y por lo tanto se adopta
la t de Student.
a)
En
τˆ :
En x :
3000 − 3210
= −1.96
107
31.58 − 33.79
tI =
= −1.96
1.128
tI =
3500 − 3210
= 2.71
107
36.8 − 33.79
tS =
= 2.71
1.128
tS =
Tablas
Por la limitación de las tablas, el resultado deberá obtenerse con el SPSS.
SPSS
CDF.T(-1.96,19)=0.032
CDF.T(2.71,19)=0.993
Por lo tanto:
Pr obabilidad = CDF (2.71) − CDF (−1.96) = 0.96
b)
Tablas
El percentil 95 es equivalente a una cola derecha de 5% o 0.05. Entrando a la tabla de la distribución t de
Student, se obtiene para ν = 19, t = 1.729. Por lo tanto:
τˆ = 3210 + 1.729(107) = 3395
x = 33.79 + 1.729(1.128) = 35.74
SPSS
IDF.T(0.95,19)= 1.73
17
Capítulo 4 Distribuciones Muestrales
Estadístico: proporción
El esquema para este caso es el de la figura 4-1, con θˆ = y (y = Número de Éxitos) o θˆ = p̂
(proporción de Éxitos), el cual se detalla en la figura 4-10. Una particularidad de esta figura, es que
además se han agrupado los diagramas centrales de acuerdo a la cantidad y de éxitos E.
Se aprecia que la distribución de la población con solo 2 elementos: E y F, es una distribución de
Bernoulli y que la distribución muestral del número de éxitos E, no es otra que las
conocidas distribuciones binomial o hipergeométrica, según el muestreo sea con
reemplazo o sin reemplazo. Es instructivo recorrer en forma simultánea el apartado LGN de la
sección Simulaciones de este capítulo, página Error! Bookmark not defined., el cual explica cómo
realizar la experiencia en forma virtual con el SPSS.
Debe ser claro que para construir la distribución del estadístico y (o p̂ ) se deberán tomar todas las
muestras posibles de tamaño n y calcular la proporción de E en cada una. Luego se podrá, por
ejemplo, confeccionar el histograma de la distribución.
Figura 4-10
Esquema de la distribución muestral del Número de Éxitos, y
Descripción numérica
Para obtener las siguientes fórmulas, se sugiere razonar en forma totalmente equivalente al
desarrollo realizado al tratar la media, en el apartado anterior. Una forma alternativa es aprovechar el
hecho de que la distribución muestral es una binomial y utilizar las expresiones del capítulo 3.
Media
18
μ y = np
μ p̂ = p
Jorge Carlos Carrá
I Una variable – Estadístico: proporción
Varianza
Población infinita o muestreo con reemplazo (binomial)
σ y = npq
SE pˆ = σ pˆ =
pq
n
Población finita o muestreo sin reemplazo (hipergeométrica)
σ y = npq
SE pˆ = σ pˆ =
N −n
N −1
pq N − n
n N −1
Recordemos del capítulo 3 que los valores de p y q en estas expresiones de una distribución
hipergeométrica, se corresponden con los valores iniciales antes de la primera extracción.
Nuevamente se ha colocado también la notación SE (Standard Error) para denotar a la desviación
estándar de una distribución muestral.
Sesgo y convergencia
Como en este caso el sesgo es cero, se dice que la proporción muestral es un estimador insesgado de
la proporción poblacional.
Como además la varianza tiene n en el denominador, es un estimador convergente.
Nota
El lector observará que en este caso se conoce la distribución poblacional (Bernoulli), pero es
evidente que esto es insuficiente para estimar el parámetro p, pues al ser n = 1, se carece de la
posibilidad de obtener un estimador convergente de p.
Descripción gráfica
Se materializa por la distribución binomial (exacta) respectiva.
Ley débil de los grandes números, LGN
La proporción muestral teórica p̂ en una larga serie de un proceso binomial se aproxima a la
probabilidad p de la población.
Esta forma de la LGN ya fue introducida en el capítulo 2, página LGN2 y tratada en el capítulo 3,
página LGN3. Su expresión es intuitiva si se aprecia que la media de la proporción muestral tiende a
la proporción poblacional y que la varianza de la proporción muestral tiene al tamaño de la muestra
en el denominador. En este apartado calcularemos con el teorema de Tchebysheff, sin mayor
esfuerzo, una cota superior de la probabilidad., llamada por esta causa, Ley débil de los Grandes
Números.
Partimos del teorema de Tchebysheff (capítulo 3, página Tchevy3):
⎛ pˆ − p
⎞
1
< z ⎟ ≥ 1− 2
P⎜
⎜ σ pˆ
⎟
z
⎝
⎠
Es decir:
P (| pˆ − p |< zσ pˆ ) ≥ 1 −
1
z2
Llamemos (esta nueva magnitud se usará en forma extensiva en el capítulo 5):
19
Capítulo 4 Distribuciones Muestrales
B pˆ = zσ pˆ
y recordemos que:
σ p̂ 2 =
pq
n
Por lo tanto:
P (| pˆ − p |< B pˆ ) ≥ 1 −
pq
nB pˆ 2
B p̂ es un número fijo y arbitrario. Si lo llamamos ε, para usar una simbología universal:
P (| pˆ − p |< ε ) ≥ 1 −
pq
nε 2
Tomado límites para n tendiendo a infinito:
lim P (| pˆ − p |< ε ) = 1 ∀ε
n →∞
En palabras: "si el tamaño de la muestra n tiende a ∞, la probabilidad de que la proporción muestral
difiera de p en menos de un infinitésimo ε, tiende a uno". Como se mencionó en el capítulo 2, debe
notarse nuevamente que, a diferencia de la convergencia que aparece en matemáticas, esta expresión
no garantiza que p̂ − p tienda a 0, sino que es probable que esa diferencia sea pequeña.
Esto también se expresa diciendo que p̂ es convergente en probabilidad con p:
P(( pˆ − p) → 0) → 1
n→∞
Observar que no excluye la posibilidad de que con n finito, esta probabilidad no sea cercana a 1 (por
ejemplo que en 100 tiradas, salgan todas caras), aunque esto es altamente improbable, si n es
suficientemente grande.
En la sección Simulaciones al final del capítulo, se mostrará la convergencia citada.
Problema resuelto 4.4 Distribución muestral de proporciones
En este problema construiremos la distribución muestral de una proporción de éxitos, en forma experimental.
Para ello utilizamos la misma población con la cual construimos la distribución muestral de medias, pero ahora
dicotomizamos la misma para crear la distribución muestral de la proporción de pares.
a) Obtener la distribución de la población de proporción de números pares. b) Generar la distribución muestral
de p̂ de la proporción de números pares, para n = 2, si las muestras son con reemplazo y comprobar lo
expuesto en la teoría. c) Repetir para muestras sin reemplazo.
a)
I
P
S
0
1
y
p(y) 3/4 1/4
μ = 0.25
σ2 = 0.375
Figura 4-11
Distribución poblacional
20
Jorge Carlos Carrá
I Una variable – Estadístico: proporción
Muestreo con reemplazo
b)
1 Obtención experimental como distribución muestral
Seguir los 3 pasos que permitieron construir la siguiente tabla.
Nota
Existen 16 maneras posibles de formar grupos de 2 con 4 elementos, con repetición (P42,r =42).
x1 x 2
3 3
3 5
3 7
3 8
5 3
5 5
5 7
5 8
7 3
7 5
7 7
7 8
8 3
8 5
8 7
8 8
y
0
0
0
1
0
0
0
1
0
0
0
1
1
1
1
2
p̂
0
0
0
0.5
0
0
0
0.5
0
0
0
0.5
0.5
0.5
0.5
1
Figura 4-12
2 Obtención teórica como binomial
S
Y=y
p̂
p(y)
2I
1I 1P
2P
0
0
q2
0.5625
1
0.5
2qp
0.375
2
1
p2
0.0625
Figura 4-13
El estudiante observará que agrupando los valores iguales de y se obtienen las 3 probabilidades de la
distribución binomial:
1
9 6
,
y
respectivamente para pˆ = 0, pˆ = 0.5, pˆ = 1 .
16 16 16
Se puede apreciar entonces que es un problema que se responde generando la distribución binomial de p̂
generada con by(2,0.25). Esto es así pues la distribución binomial es una distribución muestral de p̂ con
reemplazo.
Con cualquiera de los procedimientos, experimental con los datos de la figura 4-12 o teórica con los datos de la
figura 4-13, se obtienen:
μ pˆ = 0.25
σ pˆ 2 = 0.1875
En las investigaciones reales nunca realizaríamos manualmente una distribución muestral. O bien las mismas
ya fueron estudiadas teóricamente por algún científico y se las proporciona en tablas o en ecuaciones (como en
este caso), o bien se deja a una computadora que realice todo el proceso.
21
Capítulo 4 Distribuciones Muestrales
Muestreo sin reemplazo
c)
1 Obtención experimental como distribución muestral
Seguir los 3 pasos que permitieron construir la siguiente tabla.
Nota
Existen 12 maneras posibles de formar grupos de 2 con 4 elementos, sin repetición (P42 =4*3).
x1 x 2
3 5
3 7
3 8
5 3
5 7
5 8
7 3
7 5
7 8
8 3
8 5
8 7
y
0
0
1
0
0
1
0
0
1
1
1
1
p̂
0
0
0.5
0
0
0.5
0
0
0.5
0.5
0.5
0.5
Figura 4-14
2 Obtención teórica como hipergeométrica
S
Y=y
p̂
p(y)
2I
1I 1P
2P
0
0
3/4*2/3
0.5
1
0.5
(3/3*1/4)2
0.5
2
1
0
0
Figura 4-15
El estudiante observará que agrupando los valores iguales de y se obtienen las 3 probabilidades de la
6 6
,
y 0 respectivamente para pˆ = 0, pˆ = 0.5, pˆ = 1 .
12 12
Esto es así pues la distribución hipergeométrica es una distribución muestral de p̂ sin reemplazo.
distribución hipergeométrica:
Con cualquiera de los procedimientos se obtienen:
μ pˆ = 0.25
σ pˆ 2 = 0.125
Problema resuelto 4.5 Calefacción con gas natural
La Dirección de Escuelas estudia la relación de escuelas públicas que usan calefacción con gas natural. Existen
500 escuelas públicas en su zona y la proporción anterior es del 70%. Si se selecciona una muestra de 50
escuelas,
22
Jorge Carlos Carrá
I Una variable – Estadístico: proporción
a) ¿cuál es la probabilidad de que la proporción de escuelas con gas supere el 60%?,
b) hallar el percentil 55.
Distribución muestral
La distribución es hipergeométrica pues cumple las propiedades siguientes:
1. Propiedad 1 Dicotómica
Una v.a x tiene solo 2 resultados (dicotómica), G y G'.
2. Propiedad 2 Variable Aleatoria
Se busca la v.a: y = Número de escuelas G.
3. Propiedad 3 Tamaño
Las muestras tienen un tamaño n = 50 > 1
4. Propiedad 4 Independencia
La población se considera finita pues:
n > 5% N
En este caso:
50 > 5%500 = 25.
Por lo tanto la distribución es hipergeométrica pues la probabilidad en la extracción de una escuela influye
significativamente en la probabilidad de la extracción de la siguiente. Si bien no podría aproximarse a una
Normal por no ser binomial, en la práctica podría considerarse así, como primera aproximación.
Parámetros de la distribución muestral
μ pˆ = p = 0.7
σ pˆ =
pq N − n
= 0.0615
n N −1
a)
Cálculo a mano
Se deja este cálculo al lector. El resultado deberá compararse con la obtención siguiente con el SPSS.
SPSS
CDF.HYPER(30,500,50,350)=0.074
La respuesta pedida será 1-CDF, es decir 0.926, o en porcentajes 92.6%. En la figura 4-16 y figura 4-17, se
muestra la distribución completa.
Figura 4-16
Distribución PDF hipergeométrica (x,500,50,350)
23
Capítulo 4 Distribuciones Muestrales
Figura 4-17
Distribución CDF hipergeométrica (y,500,50,350)
b)
Cálculo a mano
Para obtener el valor de y dado el de la probabilidad (0.55), se debería construir toda la distribución o actuar
por ensayo y error hasta acercarse al valor de la probabilidad más cercano. Una alternativa es aproximar a una
normal, tomar el valor más cercano y luego actuar por ensayo y error.
Se deja al lector obtener por la tabla de la distribución normal que el valor de y para una CDF de 0.55 es 35.5.
Si ahora se calculan los valores de la hipergeométrica, se obtienen para:
y = 34 => CDF = 0.43
y = 35 => CDF = 0.56
Por lo tanto el percentil 55 es 35.
SPSS
No existe la CDF inversa en el SPSS o en EXCEL.
Normal
De forma similar al párrafo anterior, se obtiene:
IDF.NORMAL(0.55,0.7,0.0615)=0.71
Es decir que el valor de y es 0.71*50 = 35.5
Hipergeométrica
Construir la CDF de toda la distribución y buscar el percentil 55. En la figura 4-17 se observa que el entero de
menor valor para el cual la CDF es mayor o igual a 0.55 es 35.
Problema resuelto 4.6 Mala administración
Durante dos años las ventas han estado disminuyendo en las 2000 sucursales de una cadena de supermercados.
Una empresa de análisis de datos ha determinado que un 30% de las sucursales tiene signos de una mala
administración. Si se realiza una muestra aleatoria de 95 sucursales,
a) ¿cuál es la probabilidad de que la proporción de sucursales con problemas se encuentre entre el 25% y 40%,
b) hallar el percentil 80 de la distribución muestral, expresado en número de sucursales.
24
Jorge Carlos Carrá
I Una variable – Estadístico: proporción
Distribución muestral
1. La distribución es binomial pues cumple las propiedades siguientes:
2. Propiedad 1 Dicotómica
Una v.a x tiene solo 2 resultados (dicotómica), M y M'.
3. Propiedad 2 Variable Aleatoria
Se busca la v.a: y = Número de sucursales M.
4. Propiedad 3 Tamaño
Las muestras tienen un tamaño n = 95 > 1
5. Propiedad 4 Independencia
La población se considera infinita pues:
n < 5% N
En este caso:
95 < 5%2000 = 100.
Por lo tanto la probabilidad en la extracción de una sucursal no influye significativamente en la
probabilidad de la extracción de la siguiente y la distribución es binomial.
Aproximación a una Normal
Dado que:
np = 95(0.30) = 28.5 > 5
la binomial se puede aproximar a una Normal.
Parámetros de la distribución muestral
μ pˆ = p = 0.30
σ pˆ =
pq
= 0.047
n
a)
Cálculo a mano
Se deja este cálculo al lector. El resultado deberá compararse con la obtención siguiente con el SPSS.
SPSS
Figura 4-18
Distribución PDF binomial (y,95,0.30)
25
Capítulo 4 Distribuciones Muestrales
Figura 4-19
Distribución CDF binomial Y(95,0.30)
Como binomial
CDF.BINOM(24,95,0.30)=0.19
CDF.BINOM(38,95,0.30)=0.99
Por lo tanto la probabilidad buscada es 0.80 u 80%.
Como normal
CDF.NORMAL(0.25,0.30,0.047)=0.16
CDF.NORMAL(0.4,0.30,0.047)=0.98
Por lo tanto la probabilidad buscada es 0.82 u 82%.
En la figura 4-18 y figura 4-19 se muestra la distribución completa.
b)
Cálculo a mano
Para obtener a mano el valor de y dado el de la probabilidad, se debería construir toda la distribución o actuar
por ensayo y error hasta acercarse al valor de la probabilidad más cercano.
SPSS
Como normal
IDF.NORMAL(0.80,0.30,0.047)=0.34
Por lo tanto el valor buscado es: 0.34*95=32.30.Tomamos el entero más cercano, es decir, 32.
EXCEL
Como binomial
CRITBINOM(95,0.3,0.8)=32
Devuelve el entero de menor valor para el cual la CDF es mayor o igual a 0.80 (ver figura 4-19).
26
Jorge Carlos Carrá
III 1vi–1vd:
Asociar variables – Correlación
III 1vi–1vd:
Asociar variables
En el capítulo 5 utilizaremos modelos de distribuciones poblacionales para realizar la inferencia en
problemas de correlación y regresión.
Se estudiará que las distribuciones t de Student y chi-cuadrado son las que modelan los estadísticos
de interés.
Correlación
1. Escala por escala
La correlación líneal poblacional se simboliza con la letra griega ρ.
Modelado
Normal
La distribución del coeficiente de correlación rP es sesgada a la derecha, sin embargo es posible
normalizarla con un cambio de variable, utilizando la transformación de Fisher:
rF = arctanh r =
1 1 + rP
ln
2 1 − rP
Se demuestra que los parámetros de esta nueva distribución son:
E (rF ) = ρ F
1
V (rF ) =
n−3
t de Student
A partir de la ecuación de la pendiente de la recta de regresión demostraremos que en el caso
particular de que la correlación poblacional ρ sea cero, entonces el estadístico rP sigue una
distribución t de Student con:
ν = n−2
y parámetros:
E (rP ) = 0
1 − rP
Vˆ ( rP ) =
n−2
2
2. Ordinal por ordinal (por lo menos)
•
Si n > 30, se podría utilizar el modelo anterior con distribución normal, cambiando rP por rS.
27
Capítulo 4 Distribuciones Muestrales
•
Si n < 30, se podría utilizar la distribución t de Student.
3. Nominal por nominal (por lo menos)
La prueba chi-cuadrado fue introducida en el capítulo 1:
χ2 = ∑
(no − ne ) 2
ne
Si n es grande (valor de la celda total) y la frecuencia esperada de cada celda es mayor o igual a 5,
el estadístico χ2 sigue aproximadamente una distribución chi-cuadrado con grados de libertad dados
por:
ν = (r − 1)(c − 1)
siendo r el número de filas (row) y c el número de columnas (column).
Regresión
1. Inferencia sobre los coeficientes de la recta
Los coeficientes son función lineal de los valores de la variable y. Como se supone que la
distribución de esta variable es normal, entonces serán normales las distribuciones de los
coeficientes.
En el capítulo 5 se verá como se obtienen las expresiones de la media y la varianza de estas
distribuciones. Se estudiará también que, como normalmente la varianza se desconoce, se estima a
partir de un valor que se mide en cada muestra (error estándar de la estimación), motivando que la
distribución aplicable sea una t de Student.
2. Inferencia sobre los valores de y
Como la distribución de los coeficientes es normal, entonces será normal la distribución de la estima
de la variable y, pues ésta es una relación lineal de aquellos. Análogamente al caso anterior, se
estima la varianza y por lo tanto será la t de Student la distribución aplicable.
Repaso
En este capítulo analizamos el importante concepto de distribución muestral. La distribución
muestral de medias es la distribución de probabilidad de las medias muestrales, en la que todas las
muestras tienen el mismo tamaño n. La distribución muestral de proporciones es la distribución de
probabilidad de las proporciones muestrales, donde todas las muestras tienen igual tamaño n. En este
contexto se presentaron el Teorema del Límite Central para las medias y la Ley de los Grandes
Números para las proporciones.
28
Jorge Carlos Carrá
Problemas – Regresión
Problemas
1. Número de ventas
El número de ventas por día de un vendedor de una empresa es 1, 11, 6, y 9. a) Construir el
histograma de la población, hallando μ y σ, b) enumerar todas las muestras con reemplazo y sin
reemplazo de tamaño dos que se pueden extraer de la población anterior (12 sin reemplazo y 16
con reemplazo), c) calcular la media de cada muestra y construir el histograma de todas las
medias muestrales. Hallar μ y σ del histograma muestral por la definición de cada uno de estos
valores, d) calcular μ y σ del histograma anterior con las expresiones teóricas. Conclusión.
R: a) μ=6.75, σ=3.76, c) con reemplazo, μ=6.75, σx=2.66, sin reemplazo μ=6.75, σx =2.17, d)
ídem anterior.
2. Rendimiento medio de trigo
Un informe estadístico establece que en 125 granjas el rendimiento medio de trigo fue de 16
toneladas por hectárea con un σ=5 ton. Se escoge una muestra de 36 granjas sin reposición,
¿cuál es la probabilidad de que el rendimiento medio de la muestra sea menor o igual a 14.5 ton?
R: 0.0170.
3. Comidas envasadas
Un lote de 1000 comidas envasadas tiene un peso medio de 2 kg y una desviación estándar de
0.6 kg. ¿Cuál es la probabilidad de que en una muestra al azar de 100 sin reposición el peso total
de la muestra sea, a) menor de 190 kg, b) mayor de 195 kg, c) entre 190 kg y 195 kg.
R: a) 0.0392, b) 0.8106, c) 0.1502.
4. Tiempo muerto diario
El tiempo muerto diario de una instalación de computación es en promedio 4.0 horas con
desviación estándar de 0.8 horas. a) Calcular la probabilidad de que el tiempo muerto promedio
en un período de 30 días esté entre 1 y 5 horas. b) Calcular la probabilidad de que el tiempo
muerto total en los 30 días sea menor que 115 horas. c) Qué hipótesis son necesarias para que las
respuestas de a) y b) sean válidas.
R: a) 1. b) 0.123, c) ninguna.
5. Seguridad del teleférico
En un teleférico se ve una placa que indica que el peso máximo es de 900 kg (calculado con los
principios de Resistencia de Materiales). A partir de este dato la empresa coloca al lado que esto
equivale a 12 personas, indicando que esta capacidad se excedería si suben 12 personas con un
peso medio mayor a 75 kg. Dado que los hombres suelen pesar más que las mujeres, suponga
esta condición más desfavorable asuma que por Internet ha encontrado que los pesos de los
hombres se distribuyen normalmente con una media de 78 kg y una desviación estándar de 13.2
kg. a) Calcular la probabilidad de que al seleccionar a un hombre, su peso sea mayor a 75 kg, b)
calcular la probabilidad de que 12 hombres seleccionados al azar, tengan una media mayor a 75
kg, c) ¿Cuál resultado es más importante para evaluar la seguridad del teleférico, a) o b)? ¿Qué
recomendaría en este caso?
R: a) 0.5871, b) 0.7823, c) es más importante el resultado b) e indica que si suben todos
hombres, no es poco común que el peso de 900 kg se exceda.
6. Luces estroboscópicas
Las luces estroboscópicas de las aeronaves, cuya función es que los pilotos puedan ver a una
aeronave cercana, se diseñan de manera que los tiempos entre los destellos se distribuyan
29
Capítulo 4 Distribuciones Muestrales
normalmente con una media de 3.00 s y una desviación estándar de 0.40 s. a) Calcular la
probabilidad de que en forma individual, cada lámpara tenga un tiempo mayor de 4.00 s, b)
Calcular la probabilidad de que la media de 60 lámparas tengan un tiempo mayor de 4.00 s, c)
¿Cuál resultado es más importante para evaluar la seguridad de una luz estroboscópica, a) o b)?
¿Qué recomendaría en este caso?
R: a) 0.0062, b) 0, c) es más importante el resultado a).
7. Pepe y sus amigas
Un experimento de genética se realiza con 4 gatos, un macho que se llama Pepe y tres hembras
que se llaman, Susy, Caty y Lulu. Suponga que se seleccionan dos gatos con reemplazo. a)
Construir el histograma de la variable proporción de hembras, hallando μ y σ, b) enumerar las 16
muestras de tamaño dos que se pueden extraer de la población anterior, c) calcular la proporción
de hembras de cada muestra y construir el histograma de todas las proporciones muestrales de
hembras. Hallar μ y σ del histograma muestral por la definición de cada uno de estos valores, d)
calcular μ y σ del histograma anterior con las expresiones teóricas. e) Repetir para un muestreo
sin reemplazo. ¿Cuál de los dos tipos de muestreo es más lógico?
R: a) 0.75, 0.433, d) 0.75, 0.306., e) 0.75, 0.204.
8. Elecciones nacionales
En unas elecciones nacionales, 55 % de los electores están a favor del candidato A. Hallar la
probabilidad de que, en una muestra de 100 electores, el resultado no muestre mayoría a favor de
A.
R: 0.1587.
9. Número de ventas
El número de ventas por día de un vendedor de una empresa es 1, 11, 6, y 9. a) Construir el
histograma de la población, hallando μ y σ, b) enumerar todas las muestras con reemplazo y sin
reemplazo de tamaño dos que se pueden extraer de la población anterior (12 sin reemplazo y 16
con reemplazo), c) calcular la varianza de cada muestra y construir el histograma de todas las
varianzas muestrales. Hallar μ y σ del histograma muestral por la definición de cada uno de
estos valores, d) calcular μ y σ del histograma anterior con las expresiones teóricas. Conclusión.
R: a) μ=6.75, σ=3.76, c) μ s 2 = 14.14 (con reemplazo), μ s 2 = 18.85 (sin reemplazo).
10. Variancia de las distancias al centro del blanco
En balística es importante estudiar la variancia de las distancias al centro del blanco a las que cae
el proyectil. Si se sabe que estas distancias tienen una distribución normal con σ2=100 m2 y se
realizan 25 lanzamientos, a) estimar P(s2 >50), b) hallar P(s2 >150), c) calcular por el teorema de
Tchebyscheff el intervalo de s2 en el que por lo menos se encuentren el 75 % de los valores.
R: a) 0.975, b) 0.05, c) (42; 158).
11. Efecto del cobre disuelto en el agua
Se estudia el efecto letal del cobre disuelto en el agua sobre el salmón. La variancia de las
mediciones es aproximadamente 1.9 mg/ml. Se hacen 10 mediciones, y se supone que las
mediciones se distribuyen normalmente, a) calcular la probabilidad de que el promedio muestral
difiera del promedio real de la población en no más de 0.5 unidades, b) si se desea que el
promedio muestral difiera del promedio real de la población en no más de 0.5 unidades con
probabilidad 0.95, ¿cuántas pruebas deben hacerse?, c) repetir a) y b) si se desconoce la varianza
de la población y la varianza de la muestra resulta 1.9 mg/ml, d) si se hacen 20 mediciones,
determinar los números a y b, tales que P(a< S2 <b)=0.90.
R: a) 0.7498, b) 29,c) 0.720, 32, d) a = 1.01170, b = 3.01435.
12. Vida promedio
Se conectan 25 focos de tal forma que si uno falla, otro toma su lugar en forma automática. Solo
hay un foco encendido a la vez. Los focos trabajan en forma independiente, sus distribuciones
poblacionales son normales y cada uno tiene una vida promedio de 50 horas y una desviación
estándar de 4 horas. Si no se revisa el sistema durante 1300 horas después de haber encendido el
primer foco, ¿cuál es la probabilidad de que se halle un foco encendido al final del período de
1300 horas?
R: 0.0062.
30
Jorge Carlos Carrá
Problemas – Regresión
13. Tiempos de recorrido
Una empresa de transporte público de pasajeros está evaluando los tiempos de recorrido desde el
Centro Cívico hasta la terminal de ómnibus, según 2 alternativas: A: por la costanera, B: por el
centro de la ciudad. No solo le interesa el tiempo medio, sino la variabilidad. A partir de
experiencias previas conoce que las desviaciones estándares de ambos recorridos es: σΑ = 4.87 y
σΒ = 8.59, lo cual es lógico pues el camino por la costanera no tiene semáforos. Si se realizara
una muestra aleatoria de 15 vehículos A y 10 vehículos B, a) ¿cuál es la probabilidad de que la
varianza A sea al menos la mitad de la varianza B? b) hallar el percentil 80 de la distribución
muestral del cociente de varianzas muestrales A/B.
Asumir que las variables son independientes y que las distribuciones poblacionales son
normales.
R: a) 0.998, b) 0.562.
14. Tubos de acero
Tubos de acero producidos por cierto proceso tienen un diámetro medio de 5 cm y una σ de 0.1
cm. Cuál es la probabilidad de que 2 lotes de 25 tubos cada uno, difieran en su diámetro medio
en a) 0.01 cm o más, b) 0.005 cm o menos, c) 0.005 cm o más.
R: a) 0.7264, b) 0.1428, c) 0.8572.
15. Oferta y demanda
Cierto artículo tiene un precio de oferta igual a P0, el cual se distribuye normalmente con μ =
50$ y σ = 5$. El precio máximo que están dispuestos a pagar los consumidores es también una
variable aleatoria Pd con distribución normal, μ = 45$ y σ = 2.5$. Calcular la probabilidad de
que tenga lugar la transacción (es decir cuando el precio de oferta sea menor o igual al de
demanda, y = P0 − Pd ).
R: 0.1857.
16. Cara o seca
Dos amigos A y B juegan a cara o seca. Cada uno tira una moneda 50 veces y gana el juego el
que obtiene por lo menos 5 caras más que el otro. ¿Cuál es la probabilidad de que A gane el
juego?
R: 0.1587.
31