Download la probabilidad

Document related concepts
no text concepts found
Transcript
UNIDAD V
TEORIA DE LAS PROBABILIDADES
1.- Introducción
Hasta ahora, se ha desarrollado una estadística descriptiva, es decir el
tratamiento de datos consistió en una descripción a través de tablas, gráficas y medidas resumidas (de posición y de dispersión). Por ejemplo, un
negocio posee 100 cuentas por cobrar. Un auditor toma una muestra de
15 cuentas y obtiene la media y el desvío típico de los montos. El análisis
se limita a la muestra, sin hacer ningún tipo de generalización hacia la
población o sea a las 100 cuentas.
Si el auditor en base a los montos por cobrar de la muestra desea
estimar la media de montos de las 100 cuentas deberá utilizar métodos y
técnicas de la inferencia estadística. Toda conclusión a la que llegue el
auditor respecto a las 100 cuentas estará basado en una generalización
que es mucho más amplia que la conclusión que obtiene de las 15 cuentas; pero esa generalización no es totalmente válida, el auditor debe determinar “la probabilidad” de que sea verdadera. La inferencia estadística
ayuda a la toma de decisiones en condiciones de incertidumbre, ésta
incluye afirmaciones y generalizaciones sobre la “probabilidad de su validez”. En conclusión, la teoría de las probabilidades es la base de la estadística inferencial (1).
El desarrollo de las teorías de las probabilidades se debe a la atención
prestada a los juegos de azar en el siglo XVII en Francia e Inglaterra (2).
2.- Conceptos básicos
Las probabilidades existen porque hay fenómenos aleatorios. Un fenómeno es aleatorio cuando su ocurrencia está determinada por factores
fortuitos o por el azar. En cambio, en los fenómenos deterministas hay
seguridad de la ocurrencia o no de un hecho.
1. Levin, Richard, Estadística para Administradores. Prentice Hall.
2. Chao, Lincoln, Estadística para las Ciencias Administrativas, Mc. Graw Hill.
163
El resultado de la tirada de una moneda o de un dado es un ejemplo
clásico de un fenómeno aleatorio ya que situaciones aleatorias determinarán si ocurre cara o sello en la moneda o, los números 1, 2, ..., 6 en el
dado. También son ejemplos de fenómenos aleatorios el número de accidentes de tránsito en una ruta, el resultado de un partido de fútbol o el
número de defectuosos de un producto en un proceso productivo.
2.1.- Evento aleatorio - Espacio muestral - Experimento
a) Evento aleatorio: es uno o varios de los resultados posibles que se
obtienen al hacer algo, es decir son los resultados conseguidos a
través de un experimento.
b) Experimento: es un proceso, operación o actividad que producen un
evento.
c) Espacio muestral: es el conjunto de todos los resultados posibles
de un experimento. El espacio muestral es un conjunto universal.
Ejemplo:
Considérese los posibles resultados al arrojar un dado:
- Espacio muestral (U)
U
=
{1, 2, 3, 4, 5, 6}
Todos los posibles resultados
(las 6 caras del dado)
- Experimento: arrojar el dado
- Eventos o Resultados posibles: cada cara del dado.
2.2.- Eventos aleatorios simples y compuestos
Un experimento puede implicar muchos y hasta un número infinito de
resultados. Ya sea dijo que un resultado de un experimento constituye un
evento aleatorio o suceso aleatorio. Los eventos pueden ser simples o
compuestos.
164
a) Un evento aleatorio simple es el resultado de un solo ensayo en
particular.
Supóngase el experimento de tirar dos monedas para determinar la
ocurrencia del número de caras (c) o sellos (s). El espacio muestral
es:
U = {CC; CS; SC; SS},
o sea hay 4 resultados posibles. Cada uno de estos resultados es un
evento simple.
b) Un evento compuesto contiene dos o más eventos simples.
En el ejemplo anterior, los resultados de obtener por lo menos una
cara son CC; CS; SC. Esto es un evento compuesto que es un subconjunto del espacio muestral porque está formado por 3 eventos
simples distintos para un mismo resultado.
Cada uno de los eventos simples constituye un punto muestral. En el
ejemplo desarrollado hay 4 puntos muestrales:
CC CS SC SS
165
Actividad Nº 24
1) Un encuestador entrevista a 4 personas para conocer si está de
acuerdo (S) o no (N) con la reelección presidencial.
a) ¿Cuántos posibles resultados hay?
b) ¿Cuál es el espacio muestral de este experimento?
2) En un establecimiento secundario, se proyecta crear el nivel superior
no universitario. Se estudian 3 posibles orientaciones: carreras de
formación docente (D), carreras de formación técnica (T) y/o carreras
de formación artística (A). Observar el diagrama e indicar la zona o
zonas de los siguientes posibles eventos.
a) que se implementen únicamente carreras técnicas,
b) que no se implementen ninguna de las 3 orientaciones,
c) que no se implementen ni carreras técnicas ni artísticas,
d) que no se implementen carreras docentes,
e) que se implementen las 3 orientaciones.
D
T
5
2
1
3
6
4
7
8
A
3) En el experimento de arrojar un dado, se sabe que el espacio muestral
es U = {1,2,3,4,5 y 6}. Indicar si los siguientes eventos son simples o
compuestos.
166
a)
b)
c)
d)
El
El
El
El
evento
evento
evento
evento
de
de
de
de
obtener
obtener
obtener
obtener
un cuatro.
un número par.
un número mayor que 3.
un número menor que 2.
167
3.- Los tres enfoques de la Probabilidad
Los conceptos de probabilidad están relacionados con los 3 enfoques
diferentes: el clásico, el de frecuencia relativa y el subjetivo.
3.1.- Probabilidad clásica
La probabilidad clásica, llamada también “teórica” o “matemática”, de
que un evento ocurra se define como:
Número de resultados favorables
P (E) =
(1)
Número de resultados posibles
Por ejemplo: ¿Cuál es la probabilidad de que en un mazo de naipes de
la baraja española se obtenga una sota?
4
P (E) =
1
=
40
=
0,1
10
- El evento (E) es obtener una sota.
- El número de resultados posibles es 40 que es la totalidad de naipes
en la baraja española.
- El número de resultados favorables es 4 ya que en la baraja hay 4
sotas.
Otro ejemplo: Un cliente de una relojería desea comprar un despertador. Tiene la posibilidad de elegir entre 300 relojes marca A, 12 marca B y
8 marca C. ¿Cuál es la probabilidad de que compre un reloj marca C?
8
P (C) =
=
0,16
50
Obsérvese que en este enfoque todos los posibles resultados se conocen de antemano, por eso la probabilidad clásica se denomina “probabili168
dad a priori”. El espacio muestral está constituido: por resultados
equiprobables puesto que cada resultado tiene la misma probabilidad de
ocurrencia. Sin embargo, no en todos los problemas se pueden indicar de
antemano las probabilidades de los experimentos, por ejemplo, la probabilidad de que una persona viva hasta los 70 años, la probabilidad de que
las ventas de una empresa aumenten en los próximos tres meses, probabilidad de ocurrencia de un accidente de tránsito, etc. En estos casos son
útiles los otros dos enfoques.
3.2.- Frecuencia relativa de ocurrencia
Este enfoque tiene su origen en Inglaterra durante la década de 1800
cuando los estadísticos intentaban encontrar un fundamento teórico para
calcular el riesgo de las pérdidas en los seguros de vida y comerciales,
comenzaron definiendo las probabilidades de los datos estadísticos referidos a nacimientos y muertes(3).
El enfoque de la frecuencia relativa define la probabilidad de dos maneras:
a)Frecuencia relativa observada de un evento en un gran número
de ensayos. Se determinan las frecuencias de que algo ha sucedido en el
pasado y mediante esta cifra se puede estimar la probabilidad de que
nuevamente ocurrirá en el futuro. Se requiere de la observación y recopilación de datos y no está implícita ninguna suposición de igualdad de
probabilidades, por ello este enfoque también se denomina “probabilidad
empírica”. Por lo tanto, de acuerdo a este enfoque, la probabilidad de que
ocurra el evento (E) es:
Número de observaciones de E
P (E) =
n (E)
=
Tamaño de la muestra
n (E) = frecuencia
(2)
n
n(E)/n = frecuencia relativa
Ejemplo: Una muestra aleatoria de empresas industriales con un total
de 10.000 empleados registró 300 accidentes de trabajo en un período de
3. Levin, Richard op. cit
169
12 meses. ¿Cuál es la probabilidad de ocurrencia de accidentes de trabajo
durante este año?
300
P (E) =
= 0,03
10.000
Este valor de probabilidad está calculado sobre una muestra, por eso es
una estimación del valor verdadero. Además, se hace la suposición de que
los parámetros de seguridad industrial no han variado con respecto al
período anterior en que se tomó la muestra.
b) La proporción de las veces que un evento ocurre en el largo
plazo cuando las condiciones son estables. Esta segunda característica de la probabilidad de frecuencia relativa indica que a más ensayo hay
mayor exactitud. Un ejemplo clásico es el lanzamiento de una moneda
correcta. La probabilidad de que ocurra cara o sello es 0,50 (1/2). Si se
arroja 50 veces, la probabilidad de cara esta lejos de 0,5. Al aumentar el
número de lanzamientos, hay una mayor estabilidad y mayor probabilidad
de acercarse a 0,50.
En resumen, si un experimento se realiza n veces con f éxitos, se supone que la frecuencia relativa f/n tiende a un límite cuando n aumenta.
Entonces, la probabilidad de éxito es:
lim f / n
n of
La probabilidad no está dada por este límite, lo que puede hacerse es
estimarla a partir de una muestra grande.
3.3.- Probabilidad subjetiva
Los dos enfoques anteriores dan como resultados valores de probabilidad objetivos porque indican la proporción o porcentaje de ocurrencia del
evento a largo plazo. En cambio, el enfoque subjetivista, la probabilidad de
un evento es el grado de confianza que tiene una persona de que ese
evento ocurra en base a la evidencia disponible, es un juicio personal. Un
170
enfoque personalista es apropiado cuando hay probabilidad de que el evento
ocurra (o no) una única vez o muy pocas veces.
Muchas decisiones administrativas para problemas particulares requieren de probabilidades subjetivas ya que no existen situaciones idénticas
anteriores como referencias; de esta manera debe contar con toda la
información sobre el tema a efectos de tomar una decisión acertada.
El siguiente ejemplo ilustra muy bien este enfoque. Un juez debe decidir
si permite o no la instalación de una planta de energías nuclear en una
zona donde existe una falla geológica. Puede preguntarse cuál será la
probabilidad de que ocurra un grave accidente nuclear en ese lugar. El
hecho de que no haya frecuencia relativa de evidencia de accidentes anteriores en el lugar no lo exime de tomar la decisión. Deberá recopilar toda
la información posible y actuar con gran sabiduría para determinar la probabilidad o no de un accidente nuclear (4).
4. Levin, Richard, op. cit.
171
Actividad Nº 25
1) Para cada uno de los siguientes casos, indicar cuál de los 3 enfoques
es el más apropiado (clásico, de frecuencia relativa o subjetiva) es el
más apropiado para determinar el valor de probabilidad.
a)
b)
c)
d)
La probabilidad de que Ud. efectúe un viaje a Europa este año.
La probabilidad de que aparezca un número par al tirar un dado.
La probabilidad de anotar un gol en un partido de fútbol.
La probabilidad de que un producto elegido al azar de un pedido
grande resulte defectuoso.
e) La probabilidad de que salga el 0 en la ruleta.
2) Elabore ejemplos de determinación de probabilidad con los tres
enfoques aplicados a problemas de la Administración o Economía.
172
4.- Axiomas de Probabilidad
Un axioma o postulado es una declaración que se acepta sin prueba. En
general, el valor de probabilidad de un evento está entre 0 y 1.
0 < P (E) < 1
De aquí se desprende que:
a) P (E) > 0: La probabilidad de cualquier evento debe ser siempre un
valor positivo. Cuando la probabilidad es cero, significa que el evento
no ocurrirá.
b) P (E) < 1: Significa que la probabilidad de un evento nunca puede ser
mayor que 1.
c) P (U) = 1: Significa que hay certeza que el evento ocurrirá. U indica el
espacio muestral que incluye todos los resultados posibles.
P (E) + P (E’) = 1
P (E) probabilidad de que ocurra el evento E.
P (E’) probabilidad de que no ocurra el evento E
por lo tanto,
P (E) = 1 - P (E’)
y
complemento de
E
P (E’) =
complemento de
E’
P (E) + P (E’) = 1
o
1 - P (E)
P (E u E’) = U (conjunto universal)
173
5.- Reglas de Probabilidad
5.1.- Eventos mutuamente excluyentes y no excluyentes.
Reglas de la adición
a) Eventos mutuamente excluyentes
Dos eventos A y B son mutuamente excluyentes cuando la probabilidad
de A excluye la probabilidad de ocurrencia de B y viceversa. Esto significa
que ocurre A o B pero no ambos. Por lo tanto:
o
P (A o B) = P (A) + P (B)
P (A u B) = P (A) + P (B)
(3)
Esta regla se denomina regla especial de la adición. Como A y B no
tienen elementos en común, entonces A B = 0.
Ejemplos: Determinar la probabilidad de obtener una sota en un rey en
las 40 cartas de la baraja española.
P (S) = probabilidad de sota
P (R) = probabilidad de rey.
P (S o R) = P (S u R) = P (S) + P (R)
4
4
8
40 40 40
P (S o R) =
1
= 0,02
5
Utilizando el diagrama de Venn
S
R
4
0,10
40
4
0,10
40
P (S) + P (R) = 0,20
P (otra carta) = 1 - P (S u R)
= 1 - 0,20 = 0,80
0,80
174
* La regla de la adición se puede aplicar para tres o más eventos.
b) Eventos no excluyentes
Dos eventos A y B no son mutuamente excluyentes cuando es posible
que ocurran ambos. Por ejemplo si se desea determinar la probabilidad de
obtener una sota o una carta de copa. Los eventos sota y copa pueden
ocurrir simultáneamente ya que se puede obtener una sota de copa. Entonces sota y copa son eventos no excluyentes. La fórmula (3) debe modificarse para evitar un conteo doble, deberá reducirse la posibilidad de
ocurrencia de sota y copa. Entonces:
o
P (A o B) = P (A) + P (B) - P (A y B)
P (A u B) = P (A) + P (B) - P (A n B)
(4)
Esta es la regla general de la adición. Pueden ocurrir A o B o ambos.
Recordar que si son mutuamente excluyentes (A n B) = Æ
Ejemplo: P (S) = probabilidad de sota
P (C) = probabilidad de copa
P (S o C)
=
P (S) + P (C) - P (S y C)
4 10 1 13
40 40 40 40
S
C
los eventos se intersectan
parcialmente
S
y
C
Otros ejemplos:
- En un negocio de 40 empleados hay 8 cajeros, 20 vendedores, 7
administrativos y 5 empleados de maestranzas. 5 cajeros, 14 vendedores,
4 administrativos y 2 son empleados de maestranzas son varones.
175
Sean C = Cajero, A = Administrativo, V = vendedores, M = empleado
de maestranza, H = hombre, F = mujer.
Se elige un empleado al azar. Determinar:
a)la
b)la
c) la
d)la
probabilidad de que sea vendedor o administrativo.
probabilidad de que no sea vendedor.
probabilidad de que sea cajero o mujer,
probabilidad de que sea empleado de maestranza o varón.
a)
P (V o A) = P (V) + P (A)
20 7 27
0,675 (eventos excluyentes)
40 40 40
b)
P (V’) = P (C) + P (A) + P (M)
8
7
5 20
0,50 (eventos excluyentes)
40 40 40 40
o bien:
P (V' ) 1
20
0,50
40
c)
P (C o F) = P (C) + P (F) - P (C y F)
P (Cop)
8 15 3 20
0,50 (eventos no excluyentes)
40 40 40 40
d)
P (M o H) = P (M) + P (H) - P (M y H)
P (M y H)
5 25 2 28
0,70 (eventos no excluyentes)
40 40 40 40
- La probabilidad de que una persona invierta en acciones de la compañía A es 0,20 y en acciones de la compañía B 0,30 y en ambas A y B, 0,10.
Cuál es la probabilidad de que:
176
a)Invierta en A o en B o en ambas.
b)Invierta en A o en B pero no en ambas.
c) No invierta en ninguna de las dos.
A
0,10
B
0,10
0,10
0,60
a)P (A o B)
= P (A) + P (B) - P (A y B)
= 0,20 + 0,30 - 0,10 = 0,50 (sucesos no excluyentes)
b)P (A o B)
= P (A o B) - P (A y B)
= 0,40 - 0,10 = 0,30 (sucesos excluyentes)
c) P (ni A ni B) = 1 - 0,40 = 0,60
177
Actividad Nº 26
1) El Sr. Gómez tiene una suma de dinero y piensa gastar el mismo en
tres cosas: en una computadora (C), en vacaciones (V) o en una
video grabadora (G). Las probabilidades de los tres eventos son
respectivamente 0,28; 0,20 y 0,35.
a) ¿Cuál es la probabilidad de que gaste el dinero en una de
estas 3 cosas?
b) ¿Cuál es la probabilidad de que gaste el dinero en otra cosa
distinta (hacer un diagrama de Venn).
2) En una caja hay 30 artículos marca X, 15 marca Y, 35 marca Z. Entre
los artículos X hay 10 defectuosos, entre los artículos Y hay 5
defectuosos y entre los de marca Z hay 8 defectuosos. Sea P (D) =
defectuoso y P (D’) = bueno.
Si se selecciona al azar un producto, cuál es la probabilidad de que:
a)
b)
c)
d)
Sea defectuoso
Sea Y o Z.
Sea X o defectuoso o ambos
Sea Z o bueno o ambos
3) Las probabilidades de que un vendedor de automóviles venda en una
semana cero, uno, dos, tres, cuatro o cinco y más automóviles son:
0,05; 0,10; 0,18; 0,25; 0,20 y 0,22 respectivamente. Cuál es la
probabilidad de que venda en una semana.
a) dos o más automóviles;
b) tres o menos automóviles.
178
5.2.- Eventos independientes y dependientes.
Reglas de la multiplicación
a) Eventos independientes
Dos eventos A y B son independientes cuando la ocurrencia de A no
afecta a la probabilidad de que ocurra B y viceversa.
Si A y B son eventos independientes, la probabilidad de A y B es igual
al producto de sus probabilidades respectivas.
o
P (A y B) = P (A) P (B)
P (A n B) = P (A) P (B)
(5) Regla especial de la multiplicación.
P (A B) indica que tanto A como B ocurren, por lo tanto la intersección
es una probabilidad conjunta.
Ejemplo: se arroja una moneda dos veces, cuál es la probabilidad de
que en cada tirada aparezca cara.
Se sabe que P(C)
Sea
1
1
0,50 ; P (S)
0,50
2
2
C1 =
evento de cara en la primera tirada.
C2 =
evento de cara en la segunda tirada.
La probabilidad conjunta es:
P (C1 n C2) =
=
P (C1) P (C2)
(0,50) (0,50)= 0,25
Las probabilidades conjuntas se pueden mostrar a través de un diagrama de árbol. Considérese el lanzamiento de una moneda.
179
1 lanzamiento
P (C1) 0,50
2 lanzamiento
Probabilidades conjuntas
P (C1) u P (C2 ) 0,25
P (C2 ) 0,50
P (C1) u P (S 2 ) 0,25
P (S 2 ) 0,50
P (S 2 ) 0,50
P (S1) u P (S 2 ) 0,25
P (C2 ) 0,50
P (S1) u P (C2 )
P (S1) 0,50
0,25
1
La probabilidad de cara, P (C) = 0,50 y la probabilidad de sello, P (S) =
0,50. Cada una de estas probabilidades es una probabilidad marginal o
incondicional, es decir la simple probabilidad de que ocurre un evento. Por
lo tanto, la probabilidad conjunta en condiciones de independencia estadística es el producto de las probabilidades marginales.
Otro ejemplo: Considérese en una baraja española, la probabilidad de
que se obtengan una sota y luego un rey teniendo en cuenta que después
de sacar la primera carta se la repone. Por lo tanto:
P (S n R)
= P (S) . P (R)
4
4
u
40 40
1
0,01
100
Obsérvese que la P (R) es la misma que P(S) porque al haber reposición no está condicionada por la ocurrencia de S.
b) Eventos dependientes
Dos eventos A y B son dependientes cuando la ocurrencia de A afecta
la probabilidad de ocurrencia de B y viceversa.
Si A y B son eventos dependientes, la probabilidad de que ocurran A y
B es igual a la probabilidad de A por la probabilidad de B con la condición
de que haya ocurrido A.
P (A n B)
=
180
P (A) . P (B/A)
(6)
P (B/A) denota la probabilidad condicional de B dado que ocurre A.
La ecuación (6) se denomina regla general de la multiplicación. Es general porque se aplica tanto a eventos dependientes como independientes.
Si los eventos son independientes P (B/A) = P (B).
De la fórmula (6) se obtiene la probabilidad condicional P (B/A):
P (A ˆ B)
(7)
P (B/A) =
P (A)
Ejemplo: Considérese el mismo ejemplo anterior de obtener una sota y
luego un rey en una baraja española, pero en este caso al sacar la primera
carta no se la repone. Por lo tanto.
P (S o R) = P (S) . P (R / S)
4
4
u
40 39
16
4
0,0103
1560 390
En este caso la P (R) si está condicionada por P (S) debido a que no
hubo reposición. Al sacar la primera carta P(S) = 4/40, al sacar la segunda
quedan 39, por lo tanto P(R/S) = 4/39.
Probabilidades conjuntas utilizando tablas de contingencias
Para determinar las probabilidades conjuntas también se pueden utilizar
una tabla de contingencia.
En la asignatura Contabilidad de la carrera de Contador Público de la
Universidad Norte se analiza el rendimiento de los alumnos de 1º año
considerando si provienen de colegios secundarios con carreras comerciales o de otras carreras.
Sea: B = rendimiento bueno
B’= rendimiento pobre
C = provienen de colegios de carreras comerciales.
C = provienen de colegios con otras carreras.
Se muestran las probabilidades conjuntas en la siguiente tabla:
181
CARRERA
Rendimiento
C
C’
Total
B
0,08
0,12
0,20
B’
0,32
0,48
0,80
Total
0,40
0,60
1,00
- En cada celda se anotan las probabilidades conjuntas P(B n C); P
(B’n C); P (B n C’); P (B’ n C).
- El total de cada fila y de cada columna son las probabilidades marginales
P (C) = 0,60; P (C’) = 0,40; P (B)= 0,20; P (B’) = 0,80.
A través de esta tabla se puede determinar si los eventos rendimiento y
carrera son independientes o no. En este caso son independientes ya que
cada probabilidad conjunta es igual al producto de las probabilidades
marginales. Esto indica que el rendimiento no tiene nada que ver con la
carrera secundaria.
Se puede demostrar de la siguiente manera:
P (B) = 0,20
P (B n C)
P (B/C) =
0,08
=
P (C)
= 0,20
0,40
P (B/C) = P (B)
Supóngase que se analiza la misma situación en la Universidad Sur. Se
confeccional la siguiente tabla de contingencia o de probabilidades conjuntas:
182
CARRERA
Rendimiento
C
C’
Total
B
0,15
0,05
0,20
B’
0,25
0,55
0,80
0,40
0,60
1,00
Total
En este caso, los eventos son dependientes, es decir que el rendimiento
si depende de la carrera. Las probabilidades conjuntas no son iguales al
producto de las probabilidades marginales.
Esta situación de dependencia se puede comprobar de la siguiente
manera:
P (B) = 0,20
P (B C)
P (B/C) =
0,15
=
P (C)
= 0,375
0,40
P (B/C) z P (B)
Los ejemplos anteriores sirvieron para analizar la dependencia o independencia de los eventos. En el siguiente ejemplo se verá como se confecciona una tabla de contingencia.
Se presentan 100 postulantes, 40 mujeres (M) y 60 varones (V) para un
examen de admisión a distintos cargos en una empresa. De las mujeres
aprobaron (A) el 90%, mientras que el 20% de los varones desaprobaron
(D) el examen.
P (M) = 0,40
P (V) = 0,60
P (A/M) = 0,90
P (A/V) = 0,80
P (D/M) = 0,10
P (D/V) = 0,20
183
M)
P(
P(V
=
)=
P(A/M) = 0,90
P(M) . P(A/M) = 0,40 (0,90) = 0,36
P(D/M) = 0,10
P(M) . P(D/M) = 0,40 (0,10) = 0,04
P(A/V) = 0,80
P(V) . P(V/A) = 0,60 (0,80) = 0,48
0
0,4
0,6
0
0,12
P(D/V) = 0,20
P(V) . P(D/V) = 0,60 (0,20)=
Probabilidades Conjuntas
Primero se confeccionará un diagrama de árbol:
1,00
Ahora se construirá una tabla:
Resultado
A
D
Total
M
0,36
0,04
0,40
V
0,48
0,12
0,60
0,84
0,16
1,00
Sexo
Total
Determinar
a)P (A)
b)
P (V n D)
C) P (V/A)
e)Si sexo y calificación son independientes.
a)P (A) = 0,84
b)
P (V n D) = 0,12
P (V n A)
c) P (V/A) =
0,48
=
= 0,57
P (A)
0,84
P (A n V)
0,48
d)P (A/V) =
=
P (V)
= 0,80
0,60
184
d)
P (A/V)
P (M n A)
e)P (M) = 0,40
P (M/A) =
0,36
=
P (A)
P (M/A) = P (M)
no son independientes.
185
= 0,43
0,84
Actividad Nº 27
1) Una bolsa contiene 30 tarjetas: 8 blancas, 10 rojas, 12 azules. Se
extraen dos tarjetas sin reemplazos, ¿Cuál es la probabilidad de
extraer?
a) ¿Dos tarjetas azules una después de la otra?
b) ¿Una blanca y una roja después?
c) ¿Dos del mismo color?
2) Resolver el ejercicio anterior con reposición de tarjetas.
3) Dos divisiones de productos distintos de una empresa son Alfa y
Beta. Se estima que la probabilidad de que productos Alfa tenga un
margen de utilidad del 10% este año es 0,30; la probabilidad de que
Beta tenga un margen de utilidad del 10% es 0,20 y la probabilidad de
que ambos productos tengan un margen de utilidad del 10% es 0,06:
a) ¿Cuál es la probabilidad de que ambos productos tengan la utilidad
del 10%?
b) ¿Cuál es la probabilidad de que Beta tenga el margen de utilidad
del 10% dado que Alfa alcanza ese criterio de ganancia?
c) Aplicar una prueba apropiada para determinar si el logro de
utilidades de ambos productos es estadísticamente independiente.
4) Un profesor de estadística sabe por experiencia anterior que un alumno
que estudia regularmente la asignatura tiene una probabilidad de
aprobar del 0,80, mientras que el alumno que no lo hace regularmente
tiene una probabilidad del 0,20 de aprobar. El docente sabe que el
60% de los estudiantes estudian regularmente. Si un estudiante
aprueba la asignatura, ¿cuál es la probabilidad de que haya estudiado
regularmente? Sea A = aprobó, R= Estudia regularmente.
5) La siguiente tabla de probabilidad conjunta muestra las reacciones
de los votantes ante un nuevo decreto presidencial:
186
REACCIÓN
AFILIACION
P.J.(J)
UCR (R)
OTROS (O)
TOTAL
A FAVOR NEUTRAL
(F)
(N)
0,30
0,125
0,125
0,55
0,05
0,075
0,025
0,15
EN CONTRA
(C)
TOTAL
0,05
0,15
0,10
0,30
0,40
0,35
0,25
1,00
I) Con referencia a la tabla determinar las siguientes probabilidades:
a) de que el votante esté en contra,
b) de que el votante sea afiliado del P.J. y esté en contra,
c) de que el votante sea afiliado a otros partidos políticos.
d) de que el votante esté a favor del decreto dado que pertenece a
la U.C.R.
e) de que el votante sea del P.J. o de la U.C.R.
f) de que el votante sea de la U.C.R. o sea neutral.
II) ¿Son afiliación y reacción eventos independientes?
187
6.- Reglas de conteo
En el enfoque clásico para determinar la probabilidad se requiere del
número total de posibles resultados. En problemas sencillos es posible
contar todos los posibles resultados, pero en otros se necesita del uso de
los métodos de combinatoria (permutaciones, variaciones y combinaciones).
6.1.- Regla de la multiplicación
Esta regla puede considerarse bajo dos situaciones:
a)Si se realizan un cierto número (n) de operaciones o actos, y cada
operación o acto puede realizarse en el mismo número de formas (k), el
número total de posibles resultados para n operaciones o actos:
(k) . (k) ... (k) = kn
Ejemplo: se lanzan 4 monedas para determinar cuántas caras salen.
Hay 4 actos y cada uno tiene dos posibles resultados (formas): cara o
sello. Entonces, el total de posibles resultados para los 3 actos es:
kn = 24 = 16 posibles resultados
Listando los resultados se tiene:
CCCC
SCCC
SSCS
SCSC
CCCS
CCSS
SCSS
CSCS
16
CCSC
SSSS
CSSS
CSSC
Resultados
CSCC
SSSC
SSCC
SCCS
b)Si hay n actos u operaciones que pueden realizarse en k1, k2, .... kn
formas, respectivamente, el número total de posibles resultados diferentes para los n actos u operaciones es:
188
(k1) . (k2) .... (kn)
Ejemplo: Un menú consta de 3 comidas, 2 tipos de bebidas y 2 tipos de
postres. ¿De cuántas formas posibles puede seleccionarse dicho menú?
(3) (2) (2) = 12 formas posibles
Diagrama de árbol
Comidas
Bebidas
Postres
Resultados
P1
C1 B1 P1
P2
C1 B1 P2
P1
C1 B2 P1
P2
C1 B2 P2
P1
C2 B1 P1
P2
C2 B1 P2
P1
C2 B1 P1
P2
C2 B2 P2
P1
C3 B1 P1
P2
C3 B1 P2
P1
C3 B2 P1
P2
C3 B2 P2
B1
C1
B2
B1
C2
B2
B1
C3
B2
6.2.- Permutaciones
Una permutación es un arreglo ordenado de todos los n elementos de
un conjunto.
189
Pn = n (n-1) (n-2) (n-3) ... (3) (2) (1)
n
Pn = n! (8)
n
n! factorial de n
Si n = 0, 0! = 1
Ejemplo: Encontrar el número total de permutaciones del conjunto de
letras a b c tomadas todas a la vez.
P3 = 3! = 3 x 2 x 1 = 6 permutaciones
3
abc
acb
bac
bca
cab
cba
6.3.- Variaciones
Una variación es una forma especial de permutación. Se refiere a un
arreglo ordenado de r elementos tomados de conjunto de n elementos. Es
un arreglo de una parte de los elementos.
El número total de posibles variaciones es:
n!
n r !
V
n r
(9)
Ejemplo: Encontrar el número total de variaciones del conjunto de letras abc tomadas de dos a la vez:
n=3
V
3 2
o
ab
ba
r=2
3!
3 x 2 x1
3 2!
1
V2
3
ac
ca
=
6
3x2
=
bc
cb
6 formas posibles. Obsérvese que
como aquí interesa el orden, ab
no es lo mismo que ba190
6
Otro ejemplo: En un concurso hay 3 premios (primero, segundo y tercero) para 10 participantes. ¿De cuántas formas pueden obtenerse los 3
premios?
n = 10
r = 3. Hay 10 formas de obtener el primer premio, 9 de obtener
el segundo y 8 el tercero. Por lo tanto:
V3 =
10
o bien
(10) (9) (8) =
720 formas posibles
10!
(10) (9) (8) (7! )
10 3!
7!
V
10 3
720
6.4.- Combinaciones
Una combinación es un arreglo de r elementos tomados de un conjunto
de n elementos sin importar el orden.
El número total de posibles combinaciones es:
n!
r! n r !
C
n r
(10)
Ejemplo: Encontrar el número total de combinaciones del conjunto de
letras abc tomadas de a dos a la vez.
n=3
C
3 3
r=2
3!
(3) (2) (1)
2! 3 2!!
(2) (1)
Ÿ
Ÿ
ab - ac - bc
3
3 formas posibles
Obsérvese que como aquí no interesa el orden ab = ba
Otro ejemplo: Entre 15 personas, se desea formar una comisión de 5
miembros. ¿De cuántas maneras posibles puede formarse dicha comisión?
C
15 5
15!
5! 15 5 !
191
3.003
El número total de combinaciones posibles de un conjunto de n elementos tomados todos a la vez es igual a 1.
Cn = 1
n
6.5.- Aplicación de permutaciones y combinaciones para
determinar probabilidades
Sea el siguiente problema:
Una caja contiene 15 tarjetas, 6 rojas y 9 verdes. Se sacan 4 tarjetas
aleatoriamente. Determinar la probabilidad de que:
a)Sean 4 rojas o 4 verdes.
b)Sean 2 rojas y 2 verdes.
1) Se deben calcular el número total de posibles resultados
(combinaciones) de sacar 4 tarjetas entre las 15.
C
15 4
15!
4! 11!
1.365
2) A continuación se resuelven los puntos a y b.
a) El número de combinación de 4 rojas tomadas de las 6 tarjetas
rojas es:
C
6 4
6!
4! 2!
15
El número de combinaciones de 4 tarjetas verdes tomadas de las
9 verdes es:
C
9 4
9!
4! 5!
126
Por regla de la adición, el número total de combinaciones de 4
rojas o 4 verdes es:
6
C4 +
9
C4 =
15 +
192
126 =
141
La probabilidad de sacar 4 rojas y 4 verdes es:
C C
R (4R o 4V)
6 4
9 4
C
141
1.365
0,103
15 4
b) El número de combinaciones de 2 rojas entre 6 tarjetas de ese
color es:
C
6 2
6!
2! 4!
15
El número de combinaciones de 2 verdes entre 9 tarjetas de ese
color es:
C
9 2
9!
2! 7!
36
Por regla de la multiplicación, el número total de combinaciones
de 2 rojas y 2 verdes es:
-6C2 . 9C2 = 15 . (36) = 540
La probabilidad de sacar 2 rojas y 2 verdes es:
C ˜ C
P (2R y 2V)
6 2
9 2
C
15 4
193
540
1.365
0,396
Actividad Nº 28
1) Una prueba consiste en 10 preguntas de verdadero/falso. ¿De cuántas
formas posibles puede resolverse la prueba?
2) Un contratista de construcción ofrece casas con cinco distintos tipos
de ambientes, tres tipos de techos y dos tipos de pisos. ¿De cuántas
maneras puede elegir un comprador una casa?
3) El presidente, vicepresidente, secretario y tesorero de una determinada
asociación, se elegirán de entre 10 candidatos. Determinar el número
de maneras distintas que esos puestos pueden ocuparse.
4) Un profesor recomienda doce textos en la bibliografía de su materia.
Siete de los libros son de autores nacionales y el resto de autores
extranjeros: Si el profesor indica a los alumnos la lectura de 3 libros:
a) ¿De cuántas formas posibles pueden seleccionar 3
libros de autores nacionales o 3 de autores extranjeros;
b) ¿de cuántas formas pueden seleccionar 2 libros de autores
nacionales y 1 de autor extranjero.
5) Una compañía tiene dos puestos disponibles y los asignará eligiendo
al azar 2 personas de una lista de 2 mujeres y 2 hombres, todos ellos
con una larga trayectoria dentro de la compañía.
a) ¿Cuál es la probabilidad de que al menos una mujer sea
seleccionada?
b) Cuál es la probabilidad de que ninguna de las mujeres sea
seleccionada?
194
7.- Teorema de Bayes
La regla de Thomas Bayes (1702-1761) es una técnica para calcular
probabilidades condicionales. La importancia de Bayes radica en el uso de
probabilidades subjetivas para tomar decisiones en condiciones de incertidumbre. Su interés se centró en el desarrollo de un método para encontrar la probabilidad de una causa específica cuando se observa un efecto
particular. El evento B ha ocurrido, cuál es la probabilidad de que la causa
sea A1 o A2.
Sea la siguiente ecuación:
P (A1) . P(B/A1) = P (B) P (A1/B)
P ( A 1 / B)
P (A1) ˜ P (B / A1)
P (B)
(11)
Si hay n eventos mutuamente excluyentes A1 A2,...An que pueden causar el evento B (efecto), entonces B puede ser determinado por una de las
causas, la probabilidad de que el evento B ocurra es:
P(B)= P [(A1 n B) U P (A2 n B) U....U + P (An n Bn)]
Como los eventos son mutuamente excluyentes, entonces (Ai n B) y (Aj
n B) son también mutuamente excluyentes. Por regla especial de la adición.
P(B)= P (A1 n B) + P (A2 n B) +...+ P (An n B)
Por regla general de la multiplicación:
P(B)= P (A1) P (B/A1) + P (A2) P (B\A2) +...+ P (An) P (B/An)
Sustituyendo en (11)
P (A1) . P(B/A1)
(12)
P(A1/B) =
P(A1).P(B/A1)+P(A2)P(B/A2) +...+ P(An).P(B/An
195
P ( A 1 / B)
P ( A 1 n B)
P (B)
(13) igual a la fórmula (7)
En resumen: Conociendo P(B/A1) puede calcularse P(A1/B).
Ejemplo: Los productos de un negocio son comprados a 3 proveedores
X, Y, Z. El 50% de los artículos se compran en X, el 30% a Y y 20% a Z. Se
sabe que X se retrasa en los pedidos el 3% de las veces, Y, el 5% de las
veces, y Z el 2%. Se recibe un pedido retrasado, cuál es la probabilidad de
que sea del proveedor Y?
R = retraso P (R/X) = 0,03 P(R/Y) = 0,05
P (R/Z)= 0,02
P (Y) . P (R/Y)
P (RnY)
P(Y/R)=
=
P (X). P(R/X) + P(Y) P(R/Y) + P(Z) P(R/Z)
P (R)
0,50 (0,05)
0,025
=
=
0,30 (0,03) + 0,50 (0,05) + 0,20 (0,02)
P(Y/R) =
0,038
0,658
Con el uso de las tablas de probabilidades conjuntas se simplifica el
cálculo de probabilidades condicionales para el teorema de Bayes.
Se constituye la tabla para el ejemplo anterior:
R = retraso
R’= sin retraso
Proveedor
X
Y
Z
Total
R
0,009
0,025
0,004
0,038
R’
0,291
0,475
0,196
0,962
196
Total
0,30
0,50
0,20
1,00
P(Y n R)
P(Y/R) =
0,025
=
P (R)
= 0,658
0,38
El teorema de Bayes es, en un sentido, lo que se espera que haga el
médico al diagnosticar un paciente. El médico conoce los síntomas de
cada enfermedad P(B/Ai) y la frecuencia relativa de cada enfermedad P
(Ai). Lo que el médico observa en el paciente es un síntoma y debe determinar (diagnosticar) la probabilidad de que ese paciente tenga una enfermedad particular, dado ese síntoma P(Ai/B) (5).
5. Mills, Richard, Estadística para Economía y Administración. Ed. Mc Graw-Hill.
197
Actividad Nº 29
1) Una vendedora a domicilio sabe por experiencia que de todas las
visitas realizadas el 15% dieron como resultado grandes ventas (G),
el 30% pequeñas ventas (S) y el 55% no fueron ventas (N). De aquellos
que hicieron grandes compras, el 75% viven en zona céntrica (C); de
los que realizaron pequeñas compras, el 50% vive en zona céntrica
y el 30% que no realizó compras vive en esa zona.
Si la siguientes visita se realiza en la zona céntrica, ¿Cuál es la
probabilidad de una gran venta? ¿Una venta pequeña?, ¿Ninguna
venta?
2) Hay 3 cajas iguales (I, II, III) que contienen alhajas de oro. La caja I
contiene un anillo, la II un reloj y dos pulseras y la III un anillo, dos
pulseras y dos relojes. Se selecciona al azar una caja y extrae una
alhaja. Si la alhaja es un reloj, cuál es la probabilidad de que provenga
de la caja I? ¿De la caja II? ¿De la caja III?
198
Ejercicios de Repaso
1) Una compañía telefónica está considerada la conveniencia de distribuir
los fondos de una campaña promocional tendiente a incrementar las
llamadas a larga distancia en una provincia. La siguiente tabla contiene
los mercados en los que, en opinión de la empresa, vale la pena
centrar las promociones:
Segmentos del mercado
Costo de la Campaña
A
B
C
D
E
$
$
$
$
$
350.000
550.000
250.000
200.000
250.000
Se cuenta con $800.000 para destinarlos a esas campañas:
a) Preparar una lista mutuamente excluyente de los eventos posibles
de la decisión referente a los gastos.
b) Suponer que la compañía decidió destinar la totalidad de los
$800.000. Cambia esto la respuesta de (b)? Fundamentar.
2) De 100 postulantes que se presentaron a una empresa, 40 tenían
experiencia anterior (E) y 30 profesionales (F). Sin embargo, 20 de
los solicitantes reunían ambos requisitos y ya han sido incluidos en
los conteos anteriores.
a) Elaborar un diagrama de Venn que describa esta población.
b) ¿Cuál es la probabilidad de que un solicitante elegido al azar tenga
experiencias previa o sea profesional?
c) ¿Cuál es la probabilidad de que un solicitante tenga experiencia
previa o sea profesional pero no ambas cosas?
d) ¿Cuál es la probabilidad de que un solicitante elegido al azar sea
profesional, dado que tiene experiencia anterior?
199
3) Un canillita ofrece 3 diarios: Tribuno, Nación y Clarín. Posee 10
ejemplares del diario Tribuno, 7 del diario Nación y 4 del diario Clarín.
Un comprador adquiere 3 ejemplares, ¿Cuál es la probabilidad de que:
a) los 3 sean de distintos diarios?
b) los 3 sean del mismo diario?
4) Los empleados de una universidad fueron clasificados de acuerdo a
su edad y ocupación. Los resultados se dan en el siguiente cuadro:
Edad
Ocupación
X
W
Y
Z
21 - 30
31 - 40
41 - 50
51 y más
Administrativo
2
24
16
17
Docentes
1
40
36
28
Personal de
Apoyo
16
20
14
2
Considerando que se selecciona un empleado al azar, obtener la
probabilidad de que el elegido:
a) Sea administrativo o tenga 51 años o más.
b) No sea docente.
c) Sea docente dado que tiene entre 41 y 50 años.
5) Un hombre de 40 años contrata un seguro diferido a 20 años. Su
mujer tiene la misma edad. Se sabe que la probabilidad de que un
hombre de 40 años sobreviva 20 años es 0,80 y la probabilidad de
que una mujer de 40 años sobreviva 20 años es 0,90. ¿Cuál es la
probabilidad de que por lo menos uno esté vivo para que cobre el
seguro?
6) Un gerente bancario estudia la relación entre la condición de empleo
al momento de un préstamo y el hecho de que si después del préstamo
se vuelve o no moroso. Elige al azar 100 cuentas, y obtiene los
siguientes resultados:
200
Condición
del
Préstamo
Condición de empleo
Total
Con empleo (E)
Sin empleo (E’)
Moroso (M)
No moroso (M’)
10
60
8
22
18
82
Total
70
30
100
a) Confeccionar una tabla de probabilidades conjuntas.
b) Obtener las siguientes probabilidades indicando el significado de
cada una:
i) P (M)
ii) P (M’ y E’)
iii) P (M / E)
iv) P (M’ o E’)
v) Son condición de préstamos y
condición de empleo independiente.
7) De un grupo de 20 personas, 10 hablan francés (F), 8 hablan inglés
(I) de los cuales 3 también hablan francés y 5 no hablan ninguno de
estos idiomas. Se selecciona un individuo al azar.
a)
b)
c)
d)
e)
¿Cuál es la probabilidad de que hable francés?
¿Cuál es la probabilidad de que hable inglés?
¿Cuál es la probabilidad de que no hable ninguno de estos idiomas?
¿Cuál es la probabilidad de que hable francés e inglés?
¿Cuál es la probabilidad de que hable francés sabiendo que habla
inglés?
f) ¿Cuál es la probabilidad de que hable inglés sabiendo francés?
g) ¿Cuál es la probabilidad de que hable francés o inglés o ambas?
8) Sean los siguientes eventos:
A1 :la familia tiene auto.
A2 :la familia no tiene auto.
B1 :el ingreso familiar es menor que $4.000.
B2 :el ingreso familiar está entre $4.000 y $8.000.
B3 :el ingreso familiar es mayor que $8.000 y en la población bajo
estudio se tiene:
201
P (A1) = 0,70
P (B2) = 0,45
P (A1 / B2) = 0,85
P (A1 / B3) = 0,90
Hallar:
P (B3) = 0,08
a) P (B3 y A1)
b) P (A1 o B3)
c) P (B2 / A1)
d) P (A1 /B2)
9) Para contribuir a la selección de empleados idóneos para el desempeño
de un puesto determinado, el departamento de personal toma una
prueba de aptitud a todos los solicitantes. A fin de determinar la
efectividad de la prueba, se contrastó con una muestra de solicitantes
que reprobaron y se los puso a prueba durante un lapso de tiempo
corto. Se encontró que del 30% que pasaron la prueba sólo el 80%
fueron satisfactorios y de aquellos que no pasaron la prueba, el 10%
fueron satisfactorios.
a) Determinar la probabilidad de que un solicitante sea satisfactorio
para este puesto.
b) Determinar la probabilidad de que un solicitante sea satisfactorio
habiendo sido reprobado.
10) Indicar si los siguientes enunciados son correctos o incorrectos (C o I).
a) ( ) El resultado de un experimento se llama actividad.
b) ( ) Si A y B son eventos mutuamente excluyentes, entonces
P (A
B) ) =
c) ( ) La probabilidad clásica supone que todos los resultados
posibles de un experimento tienen igual probabilidad de
presentarse.
d) ( ) Si A y B son estadísticamente dependientes, entonces
P (A y B) = P (A) . P (B).
e) El teorema de Bayes es la fórmula de la probabilidad condicional
en condiciones de dependencia estadística.
202
Respuestas a los ejercicios de la Unidad V
Puntos 1 y 2
1) a) 16
SSSS, SSSN, SSNS, SNSS, NSSS, SSNN, SNNS, SNSN
b) (U) = NSNS, NNSS, NSSN, NNNS, NNSN, NSNN, SNNN, NNNN
2)a) 6
b) 8
3)a) Simple;
c) 5 y 8 d) 4 - 6 - 7 y 8
b) Compuesto;
e) 1
c) Compuesto;
d) Compuesto.
Punto 3
1) a) Subjetiva; b) Clásica; c) Frecuencia relativa;
d) Frecuencia relativa; e) Clásica.
Puntos 4 y 5.1
1)
C
0,28
V
0,20
G
a) P (C o V o G) = 0,83
0,35
b) P (otra cosa distinta)=
=0,17 o bien 1-0,83= 0,17
0,17
2)a) P (D) = 23/30
b) P (Y o Z) = 5/8
c) P (X o D) = 43/80 (eventos no excluyentes)
d) P (Z o D’) = 13/16 (eventos no excluyentes)
3) a) P (2 o más) = 0,85
b) P (3 o menos) = 0,33
203
Punto 5.2
1) a) P (A1 n A2) = 22/145 = 0,152
b) P (B1 n R2) = 8/87 = 0,092
c) P (A1 n B2) u P (R1 n R2) u P (A1 n A2) = 0,32
2)a) 0,16 ;
3)a)
b) 0,09 ;
c) 0,34
P (Alfa y Beta) = 0,06
0,06
b)
P (Beta/Alfa) =
= 0,20
0,30
c)
¿P (Beta)
=
P (Beta/Alfa)?
P (Beta) = 0,20
P (Beta/Alfa) = 0,20
son independientes
P (R n A)
4)P (R/A) =
0,48
=
P (A)
5)I)
= 0,86
0,56
a) P (C) = 0,30
b) P (J y C) = 0,05
c) P (O) = 0,25
d) P (F/R) = 0,36
e) P (J o R) = 0,75
f) P (R o N) = 0,425
II) O son independientes
Punto 6
1) kn = (2)10 = 1024
2) (5) (3) (2) = 30
204
3)
4)
V4 = 5040
10
a) 7C3 + 5C3 = 45 ;
b) 7C2 . 5C1 = 26.
C C
5)
C
6
a)
2 1
2 2
C
4 2
2
6
1
3
4 2
C
b)
2 2
C
1
6
4 2
Punto 7
1)
C
C’
Total
G
0,1125
0,0375
0,15
S
0,15
0,15
0,30
N
0,165
0,385
0,55
Total
0,4275
0,5725
1,00
P (G/C) = 0,26
2) a) P (I/R) = 0
P (S/C) = 0,35
P (N/C) = 0,39
b) P (II/R) = 0,45 c) P (III/R) = 0,55
205
Ejercicios de Repaso
1) a) Hay 17 subconjuntos que pueden abarcarse con el presupuesto A
BCD E
A,C - A,D - A,E - B,C - B,D - B,E - C,DC,E - D,E - A,C,D - A,D,E - C,D,Eb) Los únicos subconjuntos donde se gasta todo el presupuesto son
B,C - A,C,D - B,E - A,C,E.
2) a)
E
20
F
20
b) P (E o F) = 0,50
10
50
c) P (E o F) = 0,30
d) P (F \ E) = 0,50
3) a) 280/1330 = 0,21
b) 159/1330 = 0,12.
4) a) P (A o Z) = 0,41; b) P (A o S) = 0,51; c)P (D/Y) = 0,24
5) 0,98
6) a)
M
M’
Total
E
0,10
0,60
0,70
E’
0,08
0,22
0.30
Total
0,18
0,82
1,00
b) i) Prob. de moroso = 0,18
ii) Prob. de no moroso y sin empleo = 0,22
iii) Prob. de moroso dado que tiene empleo = 0,14
iv)Prob. de no moroso o sin empleo = 0,90
v) No son independientes.
206
7)
I
5
F
3
7
5
a)P
b)P
c) P
d)P
e)P
f) P
g)P
(F) = 0,5
(I) = 0,4
(I’ n F’) = 0,25
(F n I) = 0,15
(F / I) = 0,375
(I / F) = 0,30
(F o I) = 0,75
8)
B1
B2
B3
Total
A1
0,2455
0,3825
0,072
0,70
A2
0,2245
Total
0,47
a) 0,072
b) 0,708
0,0675
0,008
0,30
c) 0,546
0,45
0,08
1,00
d) 0,85
9)a)
Satisf. (S)
0,80
0,24
Aprobaron (A)
0,30
0,06
No satisf. (S’)
0,20
Satisf. (S)
0,10
0,07
Reprobaron (R)
0,70
0,63
No Satisf. (S’)
0,90
b)P (S) = 0,31
10)
a)
I
1,00
c) P (S / R) = 0,10
b)
C
c)
C
d)
207
I
e)
C
208
UNIDAD VI
DISTRIBUCIÓN DE PROBABILIDADES
1.- Distribución probabilística
1.1.- Concepto de Función (6)
Se define una función como una asociación especial entre un elemento
(x) de un conjunto y un elemento (y) de otro conjunto, donde cada elemento x se relaciona con uno y sólo uno de los elementos y.
x e y consideran un par ordenado (x,y). Por ejemplo, un par ordenado
(5,3) que se muestra en el siguiente gráfico. El primer elemento del par se
representa en el eje horizontal y el otro en el eje vertical.
y
5
4
3
2
1
(5.3)
1 2 3 4 5
x
Cada par ordenado está representado por un punto en el plano. Los dos
conjuntos de elementos representan a todos los posibles valores que x e
y pueden tomar; cualquier regla que defina una relación entre ellos será
una ecuación. Considérese y = x + 2; y es una función de x. Al asignar un
valor a x le corresponde uno y solo un valor de y; por ej.: x=6; y=8.
Se utiliza f para designar función y la notación funcional es f(x) (valor de
f en x). La ecuación x+2 puede expresarse como f(x) = x+2 o sea y = f(x).
1.2.- Variable aleatoria
Las letras x e y se consideran “variables”. El valor de variable y se
obtiene cuando se sustituye el valor de la variable x en la función. Entonces x es la variable independiente e "y" la variable dependiente.
6. Chao, Lincoln, op. cit.
209
La mayoría de las funciones en estadística son funciones probabilísticas.
A cada evento aleatorio se le asigna un número y dicho número es “el
valor de la variable aleatoria”.
Si los valores que toma un símbolo tal como x están asociados
con los eventos aleatorios de un experimento, y depender de
ocurrencias aleatorias, a ese símbolo se le denomina“variable
aleatoria”.
Por ejemplo, sea X el número de caras al arrojar 2 monedas:
Espacio muestral
Valor de la variable aleatoria (X)
SS
CS
SC
CC
0
1
1
2
(ninguna cara)
(una cara)
(una cara)
(dos caras)
1.3.- Función probabilística
Una función probabilística es una regla que asigna una fracción
probabilística a cada uno de los valores de la variable aleatoria.
La función probabilística para el número de caras al lanzar 3 monedas
es la siguiente:
Espacio muestral
X
P (X) probabilidad
SS
0
1/4
1
2/4
2
1/4
CS
SC
CC
1,0
210
P(x)
2/4
1/4
0
1
2
x
1.4.- Distribución probabilística
Las funciones probabilísticas también se denominan “distribuciones
probabilísticas”, ya que la probabilidad total (1 o 100%) se distribuye entre
todos los posibles valores de la variable aleatoria.
Una distribución probabilística es una distribución de probabilidades donde cada fracción probabilística está asociada con uno
de los posibles valores diferentes de la variable aleatoria.
De acuerdo a la naturaleza de la variable aleatoria, las distribuciones
probabilísticas pueden ser discretas o continuas (ver módulo 1).
La distribución probabilística es una distribución de frecuencias relativas
a largo plazo. La distribución probabilística es una distribución teórica mientras que la distribución de frecuencias relativas es una distribución empírica.
211
Actividad Nº 30
1) Cuatro tarjetas marcadas con los números 1 - 2 - 3 y 4 se colocan en
una caja y se mezclan. Sea X la variable aleatoria que indica el número
de la tarjeta que se extrae con reemplazo. Obtener la distribución
probabilística de X.
2) Un vendedor ofrece dos modelos de video grabadoras R y S. La
preferencia de ambos modelos es la misma: el 50% de los posibles
compradores prefieren R y el otro 50% prefieren S. Hay en existencia
3 videos de cada modelo y supóngase que en un sólo día se venden
3 videos:
a) ¿Cuál es la probabilidad de que en un cierto día se vendan 3
videos del mismo modelo?
b) Definir la variable aleatoria de este experimento.
c) Definir los eventos simples y sus valores correspondientes de la
variable aleatoria.
d) ¿Cuál es la distribución probabilística de X?
212
2.- Valor esperado
La media a largo plazo de una variable aleatoria x se denomina valor
esperado y se simboliza E(X).
Para una variable aleatoria discreta el valor esperado es igual a la suma
de los distintos valores multiplicados por sus probabilidades correspondientes:
n
E (X) = ¦ Xi P (Xi)
i=1
¦ xi P (xi)
(14)
= x1 P(x2) + x2 P(x2) + ... + Xn P(xn)
El valor esperado llamado también esperanza matemática de una variable aleatoria es un promedio ponderado, donde las probabilidades correspondientes son utilizadas como ponderación.
Ejemplo: En el ejemplo del lanzamiento de las 2 monedas, el valor
esperado de X es:
E(X)
0
1
2
1
1 2
4
4
4
1
El valor esperado 1 es un promedio a largo plazo, esto significa que a
medida que el número de tiradas se acerque al infinito, el promedio de las
tiradas estarán cercano a 1.
Otro ejemplo: un inversor tiene un millón de pesos para una inversión.
X indica la cantidad de dinero con la que terminará.
X (millones)
P (X)
1
2
3
4
5
0,2
0,3
0,2
0,2
0,1
1,0
213
¿Cuál es la ganancia esperada de este inversor?
E(X) = ¦ xi P (xi)
E(X) = 1 (0,2) + 2 (0,3) + 3 (0,2) + 4 (0,2) + 5 (0,1)
E(X) = 2,7 millones.
Ganancia esperada = 2,7 - 1= 1,7 millones
3.- Media y varianza de la población
3.1.- Media de la población
Ya se estudió en el módulo 3 que la media de una población ( m ) se
obtiene de la siguiente manera:
P=
¦ xi
(15)
N
Esta fórmula se empleará cuando la población sea finita. Si la población
es infinita, la fórmula anterior no puede utilizarse para el cálculo de la
media poblacional. En este caso la manera de trabajar las poblaciones
infinitas es conociendo los valores probabilísticos de cada valor de la misma, por lo tanto estas poblaciones se manejan como distribuciones
probabilísticas. La media de una población infinita se obtiene calculando la
media de la distribución probabilística.
En resumen: Cualquier distribución probabilística, continua o discreta,
se denomina distribución de la población.
Ejemplo: Se marcan 4 números (1 - 2 - 3 y 4) en un conjunto de tarjetas.
El 30% de las tarjetas están marcadas con 1; el 20% con 2; el 10% con 3
y el 40% con 4. Las tarjetas se mezclan en una bolsa, se saca una y se
anota su número. Luego se la repone, antes de sacar la siguiente y así
sucesivamente. ¿Cuál es la media de x? (Obsérvese que la población es
infinita debido a que hay reposición de las tarjetas).
x:
1
P (x): 0,30
2 3 4
0,20
0,10
0,40
214
Distribución
probabilística
La media de X es el valor esperado E (X)
=
E(X) = 1 (0,30) + 2 (0,20) + 3 (0,10) + 4 (0,40)
E(X) = 2,6
Se calcula de esta manera debido a que cada número tiene distinta
probabilidad de salir.
En caso de que cada número tuviera la misma probabilidad de salir (1/
4) la media sería:
1 2 3 4
4
10
4
2,5
3.2.- Varianza de la población
Si la población es finita, la varianza se calcula de la siguiente manera:
V2
¦ ( XI P )2
(16)
N
¦ ( XI P ) 2
V
Y el desvío típico
N
(17)
Para una población infinita, es necesario utilizar la distribución
probabilística para obtener la varianza. La notación “promedio de” es reemplazado por el signo de “valor esperado” para expresar la varianza de
la población, porque el valor esperado es el promedio a largo plazo de la
variable. Por lo tanto:
s
2
=
(X - P )2 =
Entonces E (x - P )2
E (x - P )2
X2 - 2 P X + P
2
=
E (X2 - 2 P X + P 2) =
=
E (X2) - E (2 P X) + E (P 2)
215
Como 2 P y P son constantes, el valor esperado del producto de una
constante por una variable es igual a la constante multiplicada por el valor
esperado de la variable o sea: E (2 P X) = 2 P E(X). Además E (P2) = P2.
Por lo tanto:
E (X -P)2 = E (X2) - 2 P E (X) + P
=
E (X2) - 2 P P + P
=
E (X2) - 2 P 2 + P
En consecuencia
2
2
2
V 2 = E (X2) - P2 = ¦ x2 P (X) - P2
Ejemplo: Obtener la varianza de x correspondiente al problema de las
tarjetas:
x
1
2
3
4
x2
1
4
9
16
P(x)
0,30
0,20
0,10
0,40
x2 P (x)
0,30
0,80
0,90
6,40
8,40
Recordar que P = E (X) = 2,6
entonces:
V 2 = X2 P (x) - P 2
V 2 = 8,40 - (2,6)2
V 2 = 1,64
y el desvío típico es
V =
1,65
216
1,28
Actividad Nº 31
1) Una empresa está evaluando dos proyectos de inversión cuyos valores
actuales netos y tasas de retornos son iguales. No obstante, se sabe
que un proyecto es más conveniente que otro desde el punto de vista
del riesgo que está relacionado con la dispersión relativa (a mayor
dispersión, mayor riesgo). Las siguientes cantidades, expresadas en
moneda constante, corresponden a los flujos de fondos anuales de
los dos proyectos con sus respectivas probabilidades de ocurrencia.
Decidir qué proyecto es más conveniente.
Proyecto 1
Proyecto 2
Flujos
Prob.
Flujos
Prob.
$
$
$
$
$
0,05
0,15
0,25
0,35
0,20
$
$
$
$
$
0,10
0,15
0,18
0,30
0,27
1.200
2.800
1.000
3.000
2.000
1.700
1.200
3.100
1.500
2.500
2) Se ha determinado que las ventas de una revista en quioscos tiene la
siguiente distribución probabilística:
Número de revistas (x) 100
- 150 - 200 - 250 - 300 - 350
P (x) 0,05 - 0,10 - 0,25 - 0,30 - 0,20 - 0,10
Calcular el valor esperado y las varianza de las ventas de la revista.
217
4.- Distribuciones de probabilidades discretas
4.1- Distribución binominal
La distribución binominal es una distribución discreta de probabilidad
que es útil en la aplicación para la toma de decisiones. El proceso de
interés describe datos resultantes de un experimento denominado proceso de Bernoulli. El proceso de Bernoulli es un proceso de muestreo en las
siguientes características:
a) Hay solamente dos posibles resultados que son mutuamente
excluyentes en cada ensayo u observación: éxito y fracaso (ocurrencia
o no).
b) Los ensayos son estadísticamente independientes.
c) La probabilidad de éxito (p), permanece constante de un ensayo a
otro, esto significa que el proceso es estacionaria.
Para determinar la probabilidad de un evento se requiere:
1) el número de éxitos u ocurrencias (x),
2) el número de ensayos u observaciones (n),
3) la probabilidad de éxito en cada ensayo (p)
La fórmula que se aplica es:
P ( x ÷ n÷ p) =
Cx px qn-x
n
(18)
q = 1-p
La obtención de la fórmula (18) se puede demostrar con el siguiente
ejemplo del número de caras (x) en el lanzamiento de 3 monedas:
218
Re sultados
SSS
x
Distribución probabilística P( x )
0
1p
3
1
8
1
3
2
SSC
SCS
1 12
3
2 2
3p 1 p
1
3
8
CSS
SCC
CCS
2
2
3p 2
3
1p
2
1
1
3
2 2
3
8
CSC
CCC
p 3
1
2
Cara
18
1
Sello
p = (éxito)= 1/2
(1-p) o q (fracaso) = 1/2
Para X = 0 hay solamente un posible resultado
P (X = 0)
=
=
P (SSS)
(1-p) (1-p) (1-p) = (1-p)3 = 1/8
Para X = 1 hay 3 posibles resultados
P (SSC) = (1-p) (1-p) . p = (1-p)2 . p
P (SCS) = (1-p) (p) (1-p) = (1-p)2 . p
P (CSS) = p (1-p) (1-p) = (1-p)2 . p
Como hay 3 posibles resultados
P (X = 1) = 3 (p) (1-p)2 = 3/8
y lo mismo para P (X = 2) y P (x = 3).
219
El total de posibles resultados para cada valor de x para una muestra de
3 elementos no es otra cosa que una combinación de x elementos entre
3 elementos.
Entonces:
X
Combinaciones
0
3
C0 = 1
1
3
2
3
3
3
C1 = 3
C2 = 3
C3 = 1
Por lo tanto si tenemos:
P (x=2 ÷ n=3 ÷ p=1/2) =
C2 (1/2)2 (1/2) = 3/8
3
P (x ÷ n÷ p) =
n
Cx px qn-x
La distribución binomial de este ejemplo se puede graficar de la siguiente manera:
P (X)
3
8
2
8
1
8
0
1
2
3
x
Ejemplo: La selección argentina de fútbol jugará 10 partidos durante
una gira. Se sabe que en la región donde se realizarán los partidos el 20%
de los días son lluviosos. ¿Cuál es la probabilidad de que 3 partidos se
jueguen bajo la lluvia?
220
x=3
n = 10 p = 0,20
P (x =3 ô
n =10
ô
p
=
q = 0,80
0
, 2
0
)
=
C3 (0,20)3 (0,80)7
10
10!
(0,20)3 (0,80)7 = 0,20133
P (x = 3) =
3! 7!
Uso de las tablas
El cálculo de las probabilidades con la fórmula de la binomial resulta
tediosa sobre todo cuando n es grande. Esto se simplifica utilizando las
tablas de la distribución binomial (Tablas 1 y 2 del Anexo). La tabla 1
corresponde a las distribuciones de probabilidades individuales y la 2 a la
distribución de probabilidades acumuladas.
Para cada tamaño de la muestra se consignan los valores de probabilidades para cada número de éxitos (x) que se ubican en la columna y las
probabilidades de éxito (p) que se ubican en la fila. El valor de probabilidad
está en la intersección de x y p.
Sean los siguientes ejercicios utilizando el mismo ejemplo:
a) ¿Cuál es la probabilidad de que 5 partidos se jueguen en la lluvia?
P (x = 5 µn =10µ p = 0,20) =
0,02642
según tabla 1
b) Calcular la probabilidad de que no más de dos partidos se jueguen en
la lluvia, o sea:
P (x<2 µn =10µ p=0,20)
= P (x = 0) + P (x = 1) + P (x = 2)
= 0,10737 + 0,26844 + 0,30199
=
221
0,6778
según tabla 1
En lugar de sumar las probabilidades individuales, se puede utilizar la
tabla 2 que contiene las probabilidades acumuladas:
P (x<2 µn=10µ
p=0,20)
=
0,6778
según tabla 2
c) ¿Cuál es la probabilidad de que a lo sumo 4 partidos se jueguen en
la lluvia?
P (x<4 µn=10µ
p=0,20)
=
0,96721
según tabla 2
d) Determinar la probabilidad de que 3 o más partidos se jueguen en la
lluvia, o sea:
P (x > 3 µn=10µ p=0,20)
Usando la tabla 2 obtenemos la probabilidad de que hasta 2 partidos
se jueguen bajo la lluvia.
P (x< 2 µn=10µp=0,20)
por lo tanto
= 0,6778
P (x > 3) = 1 - P (x < 2)
= 1 - 0,6778 = 0,3222
Media y desviación típica en la distribución binomial
La distribución binomial tiene un valor esperado o medio ( m ) y una
desviación típica ( s ).
n = número de ensayos
p = probabilidad de éxito
q = probabilidad de fracaso
m=np
s=
1 - p.
npq
Ejemplo: Se sabe que el 10% de los productos fabricados por una
compañía son defectuosos.
222
Se toma una muestra aleatoria de 25 artículos, ¿cuál es el número
esperado de defectuosos (promedio de largo plazo)? ¿Cuál es la desviación típica?
P = 25 (0,20) = 5 artículos
V=
25 0,20 0,80
223
4
2
Actividad Nº 32
1) En un barrio de la ciudad de Salta el 40% de las familias no tiene
teléfono. Se toma una muestra de 15 familias. Determinar la
probabilidad de que:
a)
b)
c)
d)
e)
f)
7 familias no tengan teléfono.
Ninguna familia tengan teléfono.
A lo sumo 5 familias no tenga teléfono.
Por lo menos 8 familias no tengan teléfono.
No más de 3 familias sí tenga teléfono.
Entre 8 y 10 familias tengan teléfono.
2) En una empresa nueva sólo el 35% de los empleados tiene el legajo
completo. Si en un control se revisan 15 legajos, calcular P y V.
224
4.2.- Distribución de Poisson
Esta distribución se llama así por el francés Siméon Dennis Poisson
(1781-1840) quien desarrolló esta distribución.
Puede utilizarse la distribución de Poisson para determinar la probabilidad de que ocurra un número de eventos, en un continuo de tiempo o
espacio.
El proceso de Poisson es similar al proceso de Bernoulli, pero los eventos no ocurren en ensayos fijos, sino en un continuo (por ejemplo, en un
intervalo de tiempo), como ser la distribución de llamadas telefónicas que
están en un conmutador, la demanda de servicios de asistencia médica,
etc. Estos casos pueden ser descriptos por una variable discreta. El número de pacientes que llega a una guardia médica en un intervalo de
tiempo será 0, 1, 2, 3 o algún número entero.
El proceso de Poisson, como el de Bernoulli es estacionario y los eventos son independientes.
Para determinar la probabilidad de un evento en un proceso de Poisson
sólo se requiere el número promedio a largo plazo de eventos para el
intervalo de tiempo o dimensión específica. La media se representa por la
letra griega O (lamda). La fórmula para el cálculo de probabilidad de X
ocurrencias en la distribución de Poisson es:
x O
P (x µ O) = O
e
(19)
X!
donde:
X: número de éxitos (u ocurrencias)
l: número medio de ocurrencias por intervalo de tiempo
e: constante 2,7183 base del sistema de logaritmos naturales.
Ejemplo: En un banco de la ciudad de Salta, en promedio cinco personas utilizan un cajero automático cada hora. ¿Cuál es la probabilidad de
que en una hora elegida aleatoriamente, 2 personas utilicen el cajero automático?
225
(5)2 (2,7183)-5
P (X=2 ôl = 5) =
= 0,0842
2!
Uso de tablas
En forma alternativa, y para facilitar los cálculos, se puede utilizar la
tabla de probabilidades de Poisson (Tabla 3). En las filas se consignan los
valores de l y en las columnas el número de ocurrencias (x). La intersección de l y X indica el valor de probabilidad buscada.
Ejemplo: Considerando el ejercicio anterior, cuál es la probabilidad de
que:
a) ¿una persona utilice el cajero?
b) ¿no más de dos personas utilicen el cajero?
Utilizando la tabla 3
a) P (x = 1 µ O= 5) = 0,0337
b) P (x < 2 µ O = 5) = P (x = 0) + P (x =1) + P (x =2)
= 0,0067 + 0,0337 + 0,0842
= 0,1246
Aproximación de la distribución de Poisson a la distribución
binomial
Si el número de ensayos (n) en el proceso de Bernoulli, es grande, los
cálculos se vuelven tediosos. La distribución de Poisson puede usarse
como aproximación de la binomial si se cumplen dos requisitos:
1) n grande
2) p pequeño
Una regla para una buena aproximación es trabajar con un n > 30 y n p
< 5.
226
Ejemplo: un informe indica que en el 10% de las empresas industriales
se producen graves accidentes de trabajo. Si se toma una muestra de 30
empresas, ¿cuál es la probabilidad de que en 5 de ellas hayan ocurrido
graves accidentes de trabajo?
-Utilizando la binomial
P (x = 5 µn = 30µp = 0,10) =
0,10230
-Utilizando Poisson
O = np
O = 30 (0,10) = 3
P (x = 5 µ O = 3) = 0,1008
La diferencia entre los dos valores es de 0,0015 por lo que la aproximación es buena.
Así como O define la media de la distribución de Poisson, la desviación
típica de esta distribución es
V
O
227
Actividad Nº 33
1) Una tienda recibe 4,2 reclamos de clientes por semana. Determinar
la probabilidad de que en una semana elegida al azar:
a) Ningún cliente haga un reclamo.
b) No menos de 5 clientes hagan reclamos.
c) No más de 1 cliente haga un reclamo.
2) El 2% de operarios de una fábrica padecen de problemas en la vista.
En 100 operarios elegidos al azar, ¿cuál es la probabilidad de que a
lo sumo 5 tengan problemas en la vista?
228
4.3.- Distribución hipergeométrica
Cuando el muestreo es sin reemplazo para cada uno de los elementos
tomados de una población, no es aplicable el proceso de Bernoulli, ya que
hay un cambio sistemático en la probabilidad de éxito mientras se extraen
elementos de la población.
En este caso, la distribución discreta de probabilidad apropiada es la
distribución hipergeométrica.
Para la determinación de las probabilidades hipergeométricas se requiere conocer:
X: número designado de éxitos
N: número de elementos de la población
T: número total de éxitos en la población
n: número de elementos de la muestra
Luego aplicar la siguiente fórmula:
N-T
T
Cn - x
P (x) =
Cx
(20)
N
Cn
Ejemplo: Una biblioteca posee 10 textos de Estadística, de los cuales 6
son de autores extranjeros. Si se eligen al azar 5 textos, ¿cuál es la probabilidad de que 2 de ellos sean de autores extranjeros?
X=2
N = 10
T= 6
n=5
10 - 6
6
4
6
C5 - 2
C2
C3
C2
P (x = 2) =
10
=
10
C5
C5
(4) (15)
=
= 0,24
252
229
4!
6!
3! 1! 2! 4!
=
10!
5! 5!
Debe observarse que la distribución hipergeométrica es una aplicación
del análisis combinatorio desarrollado en el punto 6.4. Se resolverá el
ejercicio (a) que se utilizó como ejemplo en esa oportunidad utilizando la
fórmula (20).
Tarjetas rojas
Tarjetas verdes
X=4
N = 15
T=6
n=4
X=4
N = 15
T=9
n=4
15 - 6
C4 - 4
P (4 rojas o 4 verdes) =
6
15 -9
9
C4
C4 - 4
C4
+
15
15
C4
=
C4
9
6
C0
C4
6
+
15
C4
15
=
1365
=
141
=
1365
C4
15
C4
126
+
9
C0
1365
0,103
230
Actividad Nº 34
1) Un producto industrial se embarca en lotes de 20 unidades. Para
reducir el número de unidades defectuosas enviados a los clientes,
se implementó un programa de inspección que consiste en tomar
una muestra de 5 unidades de cada lote y rechazar el lote si se
observa más de un artículo defectuoso. Si un lote contiene 4 artículos
defectuosos, ¿cuál es la probabilidad de que sea aceptado?
2) En el departamento de ventas de una compañía hay 15 empleados
de los cuales 10 tienen legajo incompleto. Si se controla una muestra
de 5 legajos, determinar la probabilidad de que 3 estén incompletos.
231
5.- Distribución de probabilidades continuas
5.1. Distribución Normal
5.1.1. Naturaleza e Importancia
La variable aleatoria normal es de naturaleza continua ya que su espacio muestral consiste en un número infinito de valores reales y la variable
puede asumir cualquier valor de una gama de ellos.
La distribución normal es la más conocida y la más usada de las distribuciones teóricas. Muchas variables aleatorias parecen seguir un patrón
de distribución que es semejante a la distribución normal, como ser peso,
estatura y otras relacionadas con la producción de procesos físicos (dimensiones y rendimientos). Si bien no todas las poblaciones se distribuyen normalmente, muchas distribuciones pueden aproximarse a la normal
a medida que aumenta el tamaño de la muestra.
5.1.2.- Características
f
P
f
Figura A
Puede describirse a la distribución normal como una curva regular en
forma acampanada que está definida por la media y por la desviación
estándar de la variable aleatoria x. Es simétrica alrededor de su media; la
altura y la dispersión están dadas por la desviación estándar.
Matemáticamente puede describirse de la siguiente manera:
232
P(x )
1
V 2S
e
1 2 >x P \ V @2
(21)
para - f < x < + f
x
P
V
S
e
=
=
=
=
=
valor de la variable aleatoria continua.
la media o valor esperado de x
desviación estándar de x
constante 3,1416...
base de los logaritmos naturales 2,718.
De acuerdo a lo expuesto, se resumen a continuación las características de la distribución normal.
1') Como la curva normal presenta una distribución probabilística de
una variable continua es imposible referirse a algún punto en particular
sobre la curva como probabilidad de x. Para determinar probabilidades, se
deben establecer intervalos, como por ejemplo, el intervalo entre a y b
indica el área sombreada bajo la curva que proporciona la probabilidad de
que la variable aleatoria tome cualquier valor entre a y b. El área total
bajo la curva es igual a 1. La ecuación (20) se define como una función
probabilística de densidad. El término “densidad” es obtenido de la física,
donde la palabra se usa para designar “probabilidad”.
a
b
Figura B
2') La curva normal tiene forma de campana. El componente exponencial
da la forma general de la curva.
3') La curva tiene un solo pico (por lo tanto es unimodal) y es simétrica
con respecto a su media ( P ).
4') Una curva normal está definida por tres constantes (S y 2) y dos
parámetros, la P y V de x.
233
5') Como x es una variable continua, puede asumir cualquier valor real
entre - f y + f. La curva normal no toca el eje de las x. Cuando, x aumenta
o disminuye apartándose de la media, la curva es asintótica al eje x.
5.1.3.- Regla de la Normal
Ya se dijo que el área bajo la curva normal es igual a 1, cualquiera sea
el valor de y el valor de . Esto significa que los valores bajo la curva son
valores de probabilidades.
Si los valores de una población se distribuyen normalmente puede aplicarse la denomina “regla de la normal” que se enuncia a continuación.
1') Aproximadamente el 68% de los valores de una población se encuentran dentro de 1 desviación estándar respecto de la media, o sea
m + 1 s = 68% de los casos.
2') Aproximadamente el 95,5% de los valores de una población se encuentran dentro de 2 desviaciones estándar respecto de la media, o sea:
m + 2 s = 95,5% de los casos
3') Aproximadamente el 99,7% de los valores de una población (casi el
100%) se encuentran dentro de 3 desviaciones estándar respecto de la
media, o sea:
m + 3 s = 99,7% de los casos
16 % del área
68 %
del área
1V
95,5 %
del área
2,25 % del área
16 % del área
V
1V
2,25 % del área
V
Figura D
Figura C
234
99,7 %
del área
15 % del área
15 % del área
V
V
Figura 3
Ejemplo: La distribución de los salarios de los vendedores de una tienda es normal con m =$300 y s =$10. El negocio cuenta con 80 vendedores.
Aplicando la regla de la normal, se tiene.
1') P + 1 V o 300 + 10 = 68% de los casos
290 < P < 310
Aproximadamente 54 vendedores (0,68.80) tienen un salario entre 190
por 310 pesos.
2') P + 2 V o 300 + 2 (10) = 95,5% de los casos
280 < P < 320
Aproximadamente 76 vendedores (0,955 x 80) tienen un salario entre
280 y 320 pesos.
3') P + 3 V o 300 + 3 (10) = 97,7% de los casos
270 < P < 330
Aproximadamente 78 vendedores (0,977 x 80) tienen un salario entre
270 y 330 pesos.
235
5.1.4.- Importancia de los parámetros
Los dos parámetros, media ( P ) y desviación típica ( V ) determinan la
forma y ubicación de la curva normal. Si las distribuciones tienen la misma
media pero con diferentes desviaciones típicas, las curvas tienen el mismo centro. Cuando V es pequeña la curva tiende a ser leptocúrtica (alto
apuntamiento). Si es más grande la curva tiende a ser más achatada (Ver
figura F).
V=3
V=5
V=5
P = 10
P = 18
V=5
P = 10
Figura G
Figura F
Cuando las distribuciones tienen la misma desviación típica, pero con
medias distintas, las formas de las curvas son iguales, pero la curva se
mueve a lo largo del eje de las x.
5.1.5.- Distribución normal estándar
Para calcular probabilidades dentro de un intervalo es necesario conocer la distribución probabilística. Como hay tantas variables normales no
es práctico desarrollar una distribución probabilística distinta para cada
una. Este problema se soluciona debido a que existe una distribución
probabilística aplicable a cada una de las posibles variables normales que
se denomina “distribución normal estándar” . Esta distribución
probabilística de la variable normal estándar Z, se define como:
x-m
Z=
(22)
s
236
donde:
x
P
V
Z
=
=
=
=
valor de la variable aleatoria de interés.
media de la distribución de la variable aleatoria.
desviación típica de la distribución.
es la diferencia entre el valor observado de X y su media, expresada
en términos de su desviación típica. El valor de Z es igual al número
de desviaciones típicas de x respecto de la media.
Considérese el ejemplo de la distribución de salarios con P = 300 y V =
10. ¿Cuál es la probabilidad de que un vendedor seleccionado al azar
tenga un salario mayor o igual que $320?
x = 320. Aplicando la ecuación (2) se transforma x en Z.
320 - 300
Z=
= 2
10
Cambiando la pregunta, ¿Cuál es la probabilidad de que el salario de un
vendedor seleccionado aleatoriamente sea mayor o igual que 2 desviaciones típicas a partir de su media?
P (x < P) = 0,50
f
P (x > P) = 0,50
P
f
Figura H
Como Z se expresa la desviación del valor observado de X a partir de la
media, el control de la distribución de Z no representa ninguna desviación,
la media de Z es igual a cero (0). Como Z está expresada en unidades de
desviaciones típicas, la desviación típica de Z es igual a 1. La distribución
se define completamente por la media 0 y el desvío típico 1. Hay una y
solamente una distribución probabilística para la variable estándar Z.
237
En el ejemplo anterior el valor 2 significa 2 desviaciones típicas por
encima de la media o bien Z es igual a 2.
Si el área bajo la curva es igual 1 (o 100%) entonces P(X > P) = 0,50 y
P (X < P) = 0,50.
0,4775
0,4775
280
V
300
0
320
V
Volviendo al ejemplo
320 - 300
Z=
=2
10
Por regla de la normal P + 2 V = 0,955 (95,5%) de los valores. Como
la curva normal es simétrica,
P + 2 V = 0,4775
P - 2 V = 0,4775
(Ver figura)
Se pide la probabilidad de que un vendedor tenga un salario mayor o
igual a 320, o la probabilidad de que Z > 2.
P (300 a 320) = 0,4775
Z=2
P (x t) = 0,0225
300
320
238
El valor de probabilidad entre 0 y Z o 0 y 2 es igual a 0,4775. Como P
( > 300) = 0,5, para conocer el valor de probabilidad de x > 320 o Z > 2
se debe restar 0,5 - 0,4775 = 0,0225. Esto significa que existe una probabilidad de 0,0225 (o del 2,25%) que un vendedor gane un salario igual o
mayor que 320.
5.1.6.- Cálculo de probabilidades. Uso de la tabla
El valor de probabilidad para cualquier valor de x puede obtenerse usando la tabla 4. La tabla proporciona los valores de probabilidad de 0 a Z.
Por ejemplo:
- Si Z = 1,50, el valor de probabilidad es 0,4332.
- Si Z = 1,56, el valor de probabilidad es 0,4406.
Las puntuaciones de Z se listan en la columna del lado izquierdo y en el
renglón superior. La columna del lado izquierdo tiene el dígito de las unidades y décimos, mientras que en el renglón superior se halla el dígito de los
dos centésimos.
Z
0,00
1,5
...
0,4332
0,06
0,4406
Por ejemplo la probabilidad de que Z > 1,50 es 0,0668 (0,5 - 0,4332) y
la probabilidad de que Z < -1,56 es 0,0594 (0,5 - 0,4406).
0,4406
0,4332
0,0594
0,0668
f
0
1,5
f
f
239
- 1,56
0
f
Con el siguiente ejercicio se analizarán distintos casos para obtener
valores de probabilidades para x con la distribución normal.
La factura mensual de teléfono por casa en una zona céntrica se distribuye normalmente con una media de $80 y una desviación típica de $6. Si
se selecciona aleatoriamente una factura, determinar la probabilidad de
que la misma:
a)
b)
c)
d)
e)
sea de $70 y menos
esté entre $78,50 y $82,50;
esté entre $85 y $95;
sea de $75 de más;
sea igual a $90;
a)P (x < 70)
x-P
Z=
V
70 - 80
Z=
70
80
- 1,67
0
= -1,67
Area entre 0 y -167 = 0,4525 y como
el área entre - ¥ y 0 es 0,50.
P (x < 70) = 0,50 - 0,4525 = 0,0475
b) P (78,50 < x < 82,50)
P
78,50 80
-0,25
0
Z
78,50 80
6
0,25
Z
82,50 80
6
0,42
Area entre 0 y -0,25 = 0,0987
82,50
Area entre 0 y 0,42 = 0,1628
0,42
P (78,50 < x < 82,50) = 0,0987 + 0,1628 = 0,2615
240
c) P (85 < x < 95)
85 - 80
Z=
= 0,83
6
95 - 80
Z=
80
85
95
0
0,83
2,5
= 2,5
6
Area entre 0 y 2,5 (entre 80 y 95) = 0,4938
Area entre 0 y 0,83 (entre 80 y 85) = 0,2967
P (85 < x < 95) = 0,4938 - 0,2967 =
0,1971
d) P (x > 75)
75 - 80
Z=
= -0,83
6
f
f
P
75
80
-0,83
0
Area entre 0 y -0,83 = 0,2967
Area entre 0 y + = 0,50
H
P (x > 75) = 0,2967 + 0,50 = 0,7967
e) P (x = 90)
Se estableció que como se trabaja con una distribución probabilística
continua es imposible determinar la probabilidad de un valor en particular,
sino que deben establecerse intervalos. En el caso de P(X = 90) se deberá
buscar P (89,5 < X < 90,5). Es el mismo caso de (c).
241
90,5 - 80
Z=
= 1,75
6
89,5 - 80
80
89,5
Z=
90,5
= 1,58
6
Area entre 0 y 1,75 = 0,4599
Area entre 0 y 1,58 = 0,4429
P (X = 90) = 0,4599 - 0,4429 = 0,017
5.1.7.- Aproximaciones de la Normal a otras distribuciones
Una de las importancias que la distribución normal es que puede aproximarse a otras distribuciones.
Se estudiarán a continuación las aproximaciones de una distribución
continua como la normal a distribuciones discretas como la binomial y
Poisson.
I) Aproximación normal a la binomial
Cuando el número de observaciones (n) es grande, puede utilizarse la
distribución probabilística normal a las probabilidades binomial. Una regla
conveniente es la que indica que las aproximaciones son aceptables cuando n>30 y np>5.
Al usar la normal como base de aproximación a la binomial.
P = np (número promedio de éxitos u ocurrencias).
V=
npq (desviación estándar del número de éxitos).
Como la distribución normal es continua los valores de X deben ajustarse mediante una corrección de continuidad, ya que un evento discreto
representa un intervalo continuo desde un límite exacto superior.
242
Ejemplo: En un barrio de la ciudad de Salta el 20% de las casas no
poseen gas natural. Si se investigan 30 casas de ese barrio, cuál es la
probabilidad de que 50 más no haya gas natural.
- Se utilizará primeramente la distribución binomial.
P (X>5\n=30\p=0,20) =
0,7448
- Aproximación de la normal
n = 30
np = 30 (0,20) = 6
se cumplen los dos criterios de aproximación.
P = np = 6
V = npq =
30 (0,20) (0,80)
V = 2,2
Si bien se busca P (X > 5) al utilizar la corrección de continuidad P (X > 4,5).
El evento discreto 5 casas representa el intervalo continuo entre 4,5 y 5,5.
En general:
Cuando P (X > Xi)
y Cuando P (X < Xi)
se resta
0,5
Cuando P (X < Xi)
y cuando P (X > Xi)
se suma
0,5
En el ejercicio como P (x > xi) se resta 0,5 (5 - 0,5 = 4,5).
4,5 - 6
Z=
= -0,68
2,2
Area entre 0 y -0,68 = 0,2518
Area entre 0 y +
= 0,50
4,5
6
-0,68
0
P (X > 5) = 0,2518 + 0,5 = 0,7518
243
La diferencia entre el valor obtenido por la binomial y el obtenido por la
normal es solamente 0,007 por lo que la aproximación es buena.
II) Aproximación normal a la distribución de Poisson
Cuando la media de la distribución de Poisson es grande, puede aproximarse la distribución normal a probabilidad de Poisson. Una regla que
indica una buena aproximación es considerar
> 10.
Recordar que P - O y V =
O
Ejemplo: En un banco, en promedio 10 personas utilizan el cajero automático cada hora. Determinar la probabilidad de que no más de 5 personas utilicen el cajero en una hora seleccionada al azar.
- Utilizando Poisson (tabla 3)
P (x < 5 \ O =10) = P (X=0) + P (X=1) + P (X=2) + P (X=3) +
+ p (X=4) + P (X = 0,5)
= 0 + 0,0005 + 0,0023 + 0,0076 + 0,0189 +
+ 0,0378 = 0,0671
- Utilizando la Normal
m = O = 10 se cumple el criterio de aproximación P(x < 5), al aplicar la
corrección de continuidad P (x>5,5), se suma 0,5 debido a que P(X < x1).
O = 20
V=
10 = 3,16
5,5 10
1,42
3,16
Area entre 0 y -1,42 = 0,4222
Z
5,5
10
- 1,42
0
P (X < 5,5) = 0,5 - 0,4222 =0,0778
La diferencia entre los valores de probabilidad calculados con ambas
distribuciones es muy pequeña, lo que indica una aproximación aceptable.
244
Actividad Nº 35
1) Las exportaciones de productos agrícolas de nuestro país se
distribuyen normalmente con un promedio de 8.000 millones de dólares
anuales y un desvío típico de 1.000 millones.
Hallar:
a) P (X > 10.000)
b) P (X < 7.000)
c) P (X = 6.000)
d) P (9.000 < X < 11.000)
e) P (6.000 < X < 8.500)
f) P (X > 9.000 o X < 8.000)
2) El 20% de los clientes de un negocio son morosos. Si se toma una
muestra de 60 clientes, ¿Cuál es la probabilidad de que a lo sumo 5
sean morosos?
3) Un conmutador recibe en promedio 12 llamadas por minuto. Hallar la
probabilidad de que lleguen por lo menos 6 llamadas en un minuto.
245
5.2. Distribución exponencial
El modelo de probabilidad exponencial tiene su origen en el proceso de
Poisson. Una probabilidad de Poisson se relaciona con la probabilidad de
ocurrencia de un número específico de éxitos en una unidad especificada
finita, donde el número de éxitos es la variable aleatoria. Al invertir los
papeles de una variable de Poisson y su unidad especificada finita, se
tiene un modelo de probabilidad exponencial. Una variable "exponencial" x
es el intervalor de tiempo, o espacio requerido para obtener un número
específico de éxitos (7).
En su libro, Kazmier establece que si se presentan eventos en el contexto de un proceso Poisson, la longitud de tiempo o el espacio entre eventos
sucesivos tiene una "distribución exponencial de probabilidad". Al ser el
tiempo y el espacio son continuos, una medición de este tipo es una variable aleatoria continua. Para cualquier variable continua, no se pregunta,
por ejemplo, ¿"cuál es la probabilidad de que la primera solicitud de servicio llegue exactamente en un minuto?, sino que se debe determinar un
intervalo dentro del cual debe ocurrir el evento; por lo tanto la pregunta
sería "¿cuál es la probabilidad de que la primera solicitud de servicio llegue
en un minuto?". La distribución exponencial se aplica cuando interesa el
tiempo (o espacio) hasta la ocurrencia del primer evento, o el tiempo entre
dos eventos sucesivos, o bien el tiempo que transcurre hasta que se
presenta el primer evento, después de cualquier punto en el tiempo elegido al azar (8).
La probabilidad exponencial de que ocurra el primer evento dentro del
intervalo designado de tiempo o espacio es:
P (t < t) = 1 - e
-O
(23)
La probabilidad exponencial de que el primer evento no ocurra dentro
del intervalo designado de tiempo o espacio es:
P (T > t) = e
-O
(24)
representa el número promedio de ocurrencias para el intervalo de interés.
7. Chou, Ya Lun "Análisis Estadístico" Ed. Mc Graw-Hill
8. Kazmier, Leonard "Estadística Aplicada a la Administración y a la Economía" Serie Sahaon "Ed.
Mc. Graw-Hill"
246
Ejemplo 1
Una empresa mayorista recibe 8 pedidos de compra por hora es promedio. Determinar la probabilidad de que se reciba el primer pedido dentro de
un lapso de quince minutos.
Promedio por hora = 8
= Promedio por quince minutos: 2
P (T < 15') = 1 - e
-2
= 1 - 0,13534
= 0,8647
Los valores de e-l se pueden obtener de la tabla V.
Ejemplo 2:
Considerando el ejemplo anterior, ¿cuál es la probabilidad de que el
primer pedido no llegue durante la primera hora.
O = 8 por hora
P(T>8) = e-8
= 0,00034
El valor esperado de una distribución exponencial es E(T) = 1/ O y la
varianza en V(T) = 1/ O2.
247
ACTIVIDAD INTEGRADORA
En promedio, 6 personas utilizan un cajero bancario automático cada
hora. Determinar la probabilidad de que:
a) Cuando menos pasen 10 minutos entre las llegadas de dos clientes.
b) Después de que salga un cliente, no llegue otro cuando menos 20
minutos.
c) De que llegue un segundo cliente antes de que pase un minuto después
de que el primer cliente comienza su transacción bancaria?
248
Ejercicios de Repaso
1) Una empresa dedicada a la investigación de mercados efectúa una
encuesta postal sabiendo que la probabilidad de contestar es de 0,20.
Si se enviaron 20 cartas, hallar la probabilidad de:
a) 8 respuestas,
b) no más de 3 respuestas,
c) por lo menos 16 sin respuestas.
2) La DGI ha clausurado en promedio 6,4 negocios por mes. Encontrar
la probabilidad de que:
a) Ningún negocio sea clausurado durante una semana.
b) Entre 3 y 5 negocios sean clausurados durante un mes.
3) La compañía “Click” fábrica encendedores de cigarrillos. Un
componente importante de este producto es una pequeña rueda de
acero dentada que gira y crea la chispa para el encendido. Esta
rueda de acero está fabricada con un acero comprado por la compañía
"Click". La característica más importante del acero es su dureza. El
departamento de ingeniería industrial ha especificado que los lingotes
de acero deben tener una dureza de cuando menos 425 Unidades
Brinell (UB). Es también conveniente que el material sea uniforme.
Se ha decidido comprar todo este material a un solo proveedor, ya
que ello implica ahorro en costos. La lista de posibles proveedores se
redujo a dos firmas A y B.
a) La dureza media de los lingotes producidos por A es de 510,2 UB,
mientras que la dureza media de los lingotes de B es 492,8 Ub.
¿Es la calidad de B inferior a la de A? Explicar la respuesta,
aclarando cuál es la interpretación del término “calidad”.
b) La dureza de los lingotes producidos por cada proveedor está distribuida
normalmente. La desviación típica de la dureza de los lingotes de A es
53,9 UB y la desviación típica de la dureza de los lingotes de B es 31,4
Ub. ¿Qué forma presenta mayor uniformidad? Explicar.
c) ¿Cuál es la proporción de lingotes con 425 o más UB producidas
por cada proveedor?
249
d) Sobre la base de la información anterior, ¿qué firma seleccionaría
Ud? Fundamentar la respuesta.
e) ¿Qué otros factores además de la calidad, consideraría al hacer
la selección del proveedor?
4) La duración de las pilas fabricadas por la compañía “Luxor” está
normalmente distribuida con = 795 minutos y =37 minutos.
a) ¿Cuál es la probabilidad de que una pila dura entre 775 y 820
minutos?
b) ¿Cuál es la probabilidad de que una pila dure más de 800 minutos?
c) ¿Existe una probabilidad de 0,95 de que una pila dure menos de
cuántos minutos?
d) El 50% de las pilas duran entre —— y ——. Usar límites simétricos
alrededor de la media.
5) La media de las puntuaciones de los exámenes de 80 postulantes es
de 75 con un desvió típico de 8. La distribución es normal. El
departamento de personal determinó que aquellos postulantes que
hayan obtenido 60 puntos o más pasarán a una entrevista. ¿Cuántos
de ellos serán entrevistados?
250
Respuestas a los ejercicios de la Unidad VI
Punto 1
1) X: 1 2 3 4
P(X): 1/4 1/4 1/4 1/4 = 4/4 = 1
2) a) 0,25; b) Número de videos del mismo modelo.
c) Eventos simples RRR - RRS - RSR - SRR - SSR - SRS - RSS - SSS
Valor de X
1
0
0
0
0
0
0
1
d) X=
0
P(X)= 6/8
1
2/8
Punto 2 y 3
1) CV1= 38,2% - CV2= 33,51% - Conviene el 2.
2) E(X)= 240 2 = 4.150 = 64,4
Punto 4.1.
1) a) P(X=7) = 0,17708; b) P(X=0) = 0,00047; c) P(X 5) =0,40321
d) P(X 8) = 0,21311; e) P(X 3) = 0,00193; f) P(8 X 10) = 0,56962
2) = mp= 5,25
= 1,85
(Aprox. Posson a la Binamial)
Punto 4.2.
1) a) 0,0150;
b) 0,4101;
c) 0,078
2) 0,9834
251
Punto 5
1) a) 0,0228;
e) 0,6687
f) 0,6587
b) 0,1587;
c) 0,0005;
2) P(X 5,5)= 0,0179 (Aprox. Normal a la Binomial)
3) P(X 5,5)= 0,9686 (Aprox. Normal a Posson)
252
d) 0,1574;
Ejercicios de Repaso
1) a) 0,02216; b) 0,41145; c) 0,62965
2) a) 0,2019 b) 0,3375
3) a) No, porque ambos cumplen las especificaciones.
b) B
c) A= 0,9429
B= 0,9846
d) B cumple con todas las condiciones
e) precio, condiciones de pago, etc.
4) a) 0,4572;
c) 855,9 minutos,
b) 0,4443;
d) Entre 770 y 820 minutos.
5) 78 postulantes.
253
254
APÉNDICES
255
256
Apéndice 1
Distribución Probabilisticas Binomiales
§ n · x n x
Las anotaciones en la tabla son valores de ¨¨ ¸¸ p q
©x¹
257
258
259
Apéndice 2
Probabilidades acumuladas para distribuciones binomiales
§ n · k nk
CP (x ) ¦ ¨¨ ¸¸ p q
k 0 © k ¹
x
260
261
262
Apéndice 3
Probabilidades Poisson
263
264
265
266
Apéndice 4
267
l
Apéndice 5
Valores de e-O
268
269
Importancia de la
muestra
Distribución
en el muestreo
Errores muestrales
y no muestrales
Diagrama de Contenido - Unidad VII
Teorema del
límite central
Distribución muestral
de proporciones
Distribución muestral
de medias
Distribuciones
Muestrales
270
UNIDAD VII
DISTRIBUCION EN EL MUESTREO
(1)
1. Introducción
Luego de haber estudiado la teoría de las probabilidades como base de
la inferencia estadística, se desarrollará la distribución en el muestreo que
es un tema fundamental para entender el proceso de inferencia estadística.
Se analizarán los puntos básicos para el estudio de la “Estimación” y el
“Test de Hipótesis”.
2. Importancia de la muestra
En la unidad I (módulo 1) se expusieron algunas características importantes de una muestra. Se hizo referencia a la necesidad de que una
muestra debe ser representativa para que pueda ser usada con fines de
realizar inferencias acerca de la población.
Los métodos para seleccionar muestras son muchos, dependiendo del
objetivo del estudio, del tiempo, del dinero y de la naturaleza de los elementos individuales de la población. En este módulo no se desarrollará
este tema, sino que el mismo será investigado por el alumno a través de
la guía propuesta en las actividades de pág. 17. No obstante, se hará la
diferencia entre “muestras probabilísticas” y “muestras no probabilísticas”.
Una muestra “probabilística” es aquella en la que los sujetos de la muestra se eligen sobre la base de probabilidades conocidas. En cambio, una
muestra “no probabilística” está basada en los puntos de vista subjetivos
de una persona que utiliza su conocimiento y su opinión para identificar los
elementos de la población que serán incluidos en una muestra, por ello se
denomina también “muestreo de juicio”.
Las muestras probabilísticas son preferidas porque la selección de los
elementos es objetiva y el error muestral puede ser medido en términos
1 Shao, Stephen: "Estadística para Economía y Administración de Empresas", Herrero Hnos.
271
de probabilidad. Si bien una muestra de juicio es fácil de obtenerla y su
costo es bajo, no permite medir el error muestral.
Recuérdese que los valores que describen características de la muestra se denominan “estadígrafos” y los valores que describen características de una población se denominan “parámetros”. Los símbolos a utilizar
son:
Medida
Media
Desviación típica
Proporción
Números de elementos
Muestra
(Estadígrafo)
Población
(Parámetro)
P
V
p
N
x
s
p
n
3. Error muestral
La diferencia entre el resultado obtenido de una muestra y el resultado
el cual deberíamos haber obtenido de la población se llama “error muestral”.
El error muestral es medido por el error estándar del estadígrafo, en términos de probabilidad, bajo la curva normal (ver punto 5). Esta medida
indica “la precisión” de la estimación de la población basada en una muestra. Mientras más pequeño sea el error muestral, mayor precisión hay en
la estimación.
Debe hacerse notar que hay errores que se cometen en las encuestas,
en las tabulaciones de datos, en los cálculos, etc. que no son debidos a la
muestra por eso se denominan errores “no muestrales”.
4. Distribución en el muestreo
Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de
la población (N), pueden extraerse dos o más muestras de la misma población. De cada muestra, puede ser calculado un estadígrafo. Una distribución del estadígrafo obtenida de las muestras se denomina “distribución
en el muestreo del estadígrafo”. Por ejemplo, de una población de tamaño
272
3, con los elementos A, B y C, es posible extraer 3 muestras de tamaño 2
(sin reposición). Si se calcula la media de cada muestra, habrá 3 medias
muestrales. Estas 3 medidas forman una distribución que se denomina
“distribución de medias muestrales” o “distribución muestral de medias”.
5. Error estándar
La desviación estándar de una distribución muestral de un estadígrafo,
se denomina “error estándar del estadígrafo”. Por ejemplo, la desviación
típica de la distribución muestral de medias se denomina “error estándar
de la media”.
La “desviación estándar” se refiere a los valores originales, mientras que
el “error estándar” se refiere a valores calculados. Los estadígrafos son
valores calculados a partir de una muestra.
6. Distribución muestral de medias
Tómese como ejemplo, esta población finital pequeña compuesta por
los jornales de 4 trabajadores de una empresa industrial.
Trabajador
A
B
C
D
Jornal ($)
2
5
6
3
La media es P
¦ x i 16 4
N
$4
( x P )2
¦
La desviación típica es V
N
$ 1,58
A continuación se obtendrá todas las muestras posibles de tamaño 2 y
se calculará la media para cada una (El muestreo es sin reposición).
C
n r
C
4 2
4!
2! 2!
6 combinaciones posibles
273
Muestras
Jornales
A-B
A-C
A-D
B-C
B-D
C-D
2
2
2
5
5
6
-
Medias muestrales
5
6
3
6
3
3
3,5
4,0
2,5
5,5
4,0
4,5
24,0
El total de las 6 medias muestrales es 24, por lo tanto, la media de las
medias muestrales es:
X
24 6
$4
Esta media es igual a la media de la población.
Las medias muestrales pueden presentarse en la siguiente distribución:
Medias Muestrales (X)
Número de medias muestrales (f)
2,5
3,5
4,0
4,5
5,5
1
1
2
1
1
6
La media de esta distribución puede calcularse:
X
24
6
$4
El desvío típico de la distribución muestral de medias (Simbolizado por
Vx) se puede obtener por la fórmula:
Vx
¦ x2 f
n
x2
10 1
6
42
;
274
Vx
0,83
0,91
El desvío típico obtenido es el “error estándar de la media”, que en la
práctica se calcula por:
Vx
V
n
(1)
Si la población es finita, se agrega el factor de corrección, o sea:
Vx
En el ejemplo
V
n
Nn
N 1
(2)
V = 1,58 ; N = 4 ; n= 2
Vx
1,58
2
42
4 1
0,91
En resumen:
La distribución de las medias obtenidas de todas la muestras posibles,
se denomina distribución muestral de medias. La media de esta distribución es igual a la media poblacional y la desviación típica es igual al error
estándar de la media. El error estándar disminuye a medida que aumenta
el tamaño de la muestra.
7. Distribución muestral de proporciones
La distribución en el muestreo de la proporción es un conjunto de proporciones de todas las muestras posibles del mismo tamaño, extraídas de
una población.
Hay 4 empleados en una empresa, A, B, C y D. Los empleados A y B son
profesionales universitarios; C y D son no profesionales. Supóngase los 4
empleados como una población.
Desígnese con el valor 1 a un profesional y con 0 a un no profesional.
275
Empleado
X
A
1
B
1
C
D
0
0
2
La proporción de los profesionales es
2
4
p
V
0,50 Parámetro y el desvío típico:
p.q
0,50(0,50)
0,50
Se obtendrán todas las muestras posibles (sin reposición) de tamaño 3
y se calculará la proporción de profesionales.
Muestra
ABC
ABD
ACD
BCD
Proporción muestral
2/3 = 0,67
2/3 = 0,67
1/3 = 0,33
1/3 = 0,33
2,00
La media de las proporciones muestrales es:
p
2,00
4
0,50
====
igual a la proporción
de la población.
El error estándar de la proporción obtenida por la fórmula 22 (Módulo 3) es:
Vp = 0,17
El cálculo del error estándar de la proporción se simplifica por:
(3)
Vp
p.q
n
o
Vp
p.q N n
n N 1
(4)
para poblaciones
finitas
Vp
276
0,50(0,50) 4 3
3
4 1
0,17
8. Teorema del límite central
Como resulta impracticable obtener todas las medias muestrales la distribución normal se utiliza para aproximar las probabilidades de las medias
muestrales en un a distribución muestral. La normalidad de la distribución
muestral de medias queda establecida en el “teorema del límite central”
cuyo enunciado dice:
- Si una población es bastante grande y está normalmente distribuida,
la distribución de las medias muestrales también será normal.
- Si una población no está normalmente distribuida, la distribución
muestral de medias se aproximará a una distribución normal si el
tamaño es suficientemente grande.
La distribución normal de las medias muestrales tiene una media igual a
E(X) y el error estándar Vx. Si se desconocen los valores de P y Vx, pueden
estimarse a partir de X y S. El erro estándar estimado a partir de S, se
obtiene por:
S
S
n
(5)
Ejemplo:
La media de las cuentas a cobrar de 1.500 clientes en una tienda es de
$250 y una desviación típica de $45. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria de 100 cuentas con una media de $260 y más?
Z
Z
260 250
45 100
10
4,5
x P
Vx
x P
V n
(6)
2,22
Area entre 0 y 2,22 = 0,486
0,50 - 0,4868 = 0,0132
P (X ³ $ 260) = 0,0132
250 260
277
Cuando N es grande y el tamaño de la muestra n, es pequeña, el factor
de corrección
Nn
N 1
se aproxima a 1, por lo tanto puede obviarse y utilizar sólo
Vx
V
n
o Vp
p.q
n
según corresponda para el cálculo del error estándar.
278
Actividad Nº 36
1) Contestar las siguientes preguntas:
a)
b)
c)
d)
e)
f)
¿Cuáles son las principales características de una muestra?
¿Qué diferencia hay entre un parámetro y un estadígrafo?
¿Qué diferencia hay entre error muestral y erro no muestral?
¿A qué se denomina distribución en el muestreo?
¿Qué mide el error estándar? ¿Cómo se obtiene este error?
¿Por qué es importante el teorema del límite central?
2) Las pólizas vendidas por 5 vendedores de seguros durante un período
dado son:
Vendedor
Pólizas Vendidas
A
2
B
3
C
4
D
5
E
1
I) Considerar los 5 vendedores como una población.
a) Obtener la media aritmética y la desviación típica.
II) Elegir todas las muestras posibles de tamaño 2 (sin reposición).
a) Obtener las medias de todas las muestras posibles.
b) Construir un a distribución muestral de medias.
c) Obtener la media de la distribución muestral y el error estándar
de la media.
3) Con los datos de la población del ejercicio (2), elegir todas las muestras
posibles de tamaño 3 (sin reposición) y realizar las mismas actividades
consignadas en el punto II.
4) La duración promedio de 2.000 baterías producidas por una compañía
es de 38 meses y una desviación típica es de 8 meses. ¿Cuál es la
probabilidad de seleccionar una muestra al azar de 50 baterías con
una duración de por lo menos 35 meses?
5) De 50.000 familias en una ciudad, el 30% no tiene televisión por
cable. Determinar la probabilidad de seleccionar una muestra aleatoria
de 500 familias con una proporción de 33% o más.
279
6) Consultar la bibliografía consignada en el programa y desarrollar la
siguiente guía de estudio sobre el tema Métodos de Muestreo.
a) Efectúe una lectura global sobre el tema de referencia.
b) Lea atentamente el tema "Muestras Probabilísticas".
b.1. Conteste: a qué se denomina "muestra probabilística".
b.2. Cuáles son los 4 tipos de muestras probabilísticas?
c) Lea el tema "Muestreo Simple al Azar".
c.1. Explique el procedimiento de este tipo de muestreo.
c.2. Supóngase que los 70 alumnos de una carrera reciben números de identificación del 01 al 70. Se desea entrevistar a 10 de
ellos eligiéndolos aleatoriamente. Utilizando la tabla de números aleatorios, cuáles serán los seleccionados? (Ver Anexo I)
c.3. ¿Cuáles son las principales ventajas y desventajas de este
tipo de muestreo?
d. Lea el tema sobre "Muestreo sistemático"
d.1. Explique el procedimiento de este tipo de muestreo.
d.2. ¿Cómo seleccionaría la muestra del punto c.2. por este método?
d.3. ¿Cuáles son las ventajas y desventajas del muestreo sistemático?
e. Lea el tema "Muestreo Estratificado".
e.1. Explique en qué consiste este diseño de muestra.
e.2. Supóngase que de un total de 1.000 empleados de una gran
compañía, se desea obtener una muestra de 100 para una
investigación. El número total de empleados se distribuye
según su instrucción.
Instrucción
Nº de Trabajadores
Primaria
Secundaria
Superior No Univ.
Superior Univ.
50
500
150
300
1.000
a) ¿Cómo seleccionaría la muestra estratificada proporcional?
b) ¿Cómo seleccionaría la muestra estratificada no proporcional?
c) ¿Cuál de las dos es más apropiada?
280
e.3. Señale ventajas y desventajas de este diseño de muestra.
f. Lea el tema "Muestreo por Conglomerados"
f.1. ¿En qué consiste este tipo de muestreo?
f.2. ¿Qué diferencias hay con el muestreo estratificado?
f.3. Determine ventajas y desventajas.
g. Lea el tema "Muestras no Probabilísticas".
g.1. A qué se denomina "muestras no probabilísticas?
g.2. Explique cuál es la diferencia con las muestras probabilísticas?
g.3. Señale, en general, ventajas y desventajas.
281
Respuestas a los ejercicios de la Unidad VII
1) Consultar el marco teórico del módulo y de la bibliografía.
2)
I) P = 3
V = 1,41
II) a) 10 muestras
b) Media
Nº de muestras
1,5 2,0 2,5 3,0 3,5 4,0 4,5
1 1 2 2 2 1 1 = 10
c) Media: 3 pólizas Error estándar de la media = 0,87
3)a) 10 muestras
b) Media
Nº de muestras
2,0 2,33 2,67 3,0 3,33 3,67 4,0
1
1
2
2
2
1
1 = 10
c) Media: 3 pólizas Error estándar de la media = 0,58
4) P (X ³ 35 meses) = 0,9960
5) P (X ³ 0,33) = 0,0668
282
283
^ Por intervalo
^ Puntual
Tipos de
estimación
Estimaciones para muestras grandes:
- Estimación de la Media Poblacional
- Estimación de la Proporción de la Población
- Estimación de la Diferencia de dos medias
Nivel e Intervalo de Confianza
Estimador y
Estimación
TEORÍA CLÁSICA
DE LA ESTIMACIÓN
Diagrama de Contenido - Unidad VIII
Propiedades
de un buen
estimador
284
UNIDAD VIII
TEORÍA CLÁSICA DE LA ESTIMACIÓN
1. Introducción
Por lo general, los parámetros de la población son desconocidos y se
hace necesario estimarlos a partir de valores muestrales (estadígrafos).
El empresario recurre a las estimaciones por cuanto sus decisiones se
basan en una información incompleta y con una gran incertidumbre. La
estimación, una de las bases de la inferencia estadística, permitirá la generalización respecto de las características de la población a partir de la
información de las muestras.
2. Estimador y Estimación
- Un estimador es un estadígrafo con el cual se estima un parámetro
poblacional. La media muestral (X), por ejemplo, puede ser un estimador
para la media población (m).
- Estimación es un valor específico observado de un estadígrafo.
Supóngase que se toma una muestra de focos y se prueban para
determinar la duración media que es X = 4.000 hs. Si nos servimos de
este valor específico para estimar la duración media de todos los focos,
el valor 4.000 hs. será una estimación.
3. Tipos de Estimaciones
Una estimación de un parámetro puede ser expresada de dos maneras:
“por punto” y “por intervalo”.
- Una estimación puntual es un número único que se utiliza para estimar
el parámetro. Si en el ejemplo anterior se afirma que la duración media
de los focos es de 4.000 hs., se está haciendo una estimación puntual.
Este tipo de estimación es insuficiente ya que hay un acierto o una
equivocación. Si la estimación de 4.000 hs. es equivocada, no se conoce
el grado de error y no hay seguridad de la confiabilidad de la estimación.
285
Si el margen es de solamente de 50 hs., 4.000 hs. puede ser una
buena estimación, pero si el error es de 500 hs., se rechazará como
estimación. Esta estimación debe incluir una estimación del error (2).
- “La estimación por intervalos” es una gama o recorrida de valores
dentro del cual se puede esperar que esté el parámetro. Si la estimación
de la duración de los focos se expresa como entre 3.950 hs. y 4.050
hs., es una estimación por intervalo. Este tipo de estimación indica el
error por el grado de su intervalo y por la probabilidad de que el
verdadero parámetro se encuentre dentro de él.
4. Propiedades de un buen estimador
La calidad de un estadígrafo como estimador se puede evaluar de acuerdo
a los siguientes criterios:
a) Insesgabilidad. Se dice que un estadígrafo es un estimador insesgado
de la población si el valor esperado de su distribución muestral es
igual al parámetro poblacional.
X es un estimador insesgado de P, ya que E(X) = P
p es un estimador insesgado de P, ya que E(p) = P
b) Consistente . Debido al error de muestreo, un estimador,
generalmente, no es idéntico al parámetro a estimar. Un estimador
es consistente si al aumentar el tamaño de la muestra, se logra una
seguridad casi absoluta de que el valor del estadígrafo se acerca
mucho más al valor del parámetro de la población.
c) Eficiencia. La eficiencia hace referencia al tamaño del error estándar
del estadígrafo. Un estimador es más eficiente que otro si el primero
tiene un error estándar menor. Un estimador con esta propiedad
tiene mayor probabilidad de lograr una estimación más cercana al
parámetro poblacional.
d) Suficiencia. Un estimador es suficiente si utiliza la información de la
muestra, de modo tal que ningún otro estimador proporcione más
información de esta muestra referente al parámetro de la población.
2. Levin, Richard, "Estadística para Administración". Ed. Prentice-Hall.
286
5. Estimaciones puntuales
La media muestral es el mejor estimador de P. Cumple con todas las
propiedades mencionadas en el punto anterior. Si la muestra es grande su
distribución muestral puede aproximarse a una distribución normal. Al
conocer la distribución muestral de X se puede realizar una estimación
basada en la muestra.
Recordar que la X se obtiene con la fórmula ya conocida:
¦ xi
x
n
En cuanto a la varianza, se utilizó la siguiente fórmula al estudiar las
medidas de dispersión (unidad IV).
¦ x x 2
s
2
n
Pero al utilizar S como estimador de V2, la fórmula anterior se vuelve:
2
¦ x x 2
s
2
n 1
(7)
Al usar n-1, se obtiene un estimador insesgado de s. Si se hubiera
trabajado sólo con n, el valor tendría algún sesgo.
Ejemplo: Una compañía desea conocer el número de pólizas vendidas
durante por los vendedores. Obtiene los siguientes datos durante una
semana con una muestra de 20 vendedores.
1
5
x
111
20
2
6
5,6
2
6
3
7
S2
3
8
3
8
8,26
287
4
9
4
5 5
10 10 10
S
8,26
2,9
Actividad Nº 37
Ejercicios - Puntos 1 al 5
1) Contestar las siguientes preguntas:
a) Diferenciar entre “estimador” y “estimación”.
b) Explicar la ventaja que tiene una estimación por intervalo sobre el
estimación puntual.
2) Indicar si los siguientes enunciados son correctos (C) o incorrectos
(I).
a) ____Se dice que un estimador es eficiente del parámetro
poblacional, con un tamaño creciente de la muestra, se tiene casi
la certidumbre de que el valor del estadístico se acerca más al
parámetro poblacional.
b) ____El intervalo es una gama de valores que se usan para estimar
la forma de la distribución de una población.
c) ____Cuando se elige un estimador del parámetro poblacional, la
propiedad más impor tante para evaluar su calidad es la
insesgabilidad.
3) El propietario de una sala de espectáculos está considerando la
posibilidad de ampliar su capacidad y necesita conocer el número
promedio de personas que asisten a los distintos espectáculos y la
variación de dicho número. La asistencia a 9 espectáculos
seleccionados, aleatoriamente (en miles) fue:
13,0
8,5
14
20,5 7,6 12,5 20,6 14,2 10,2
Obtener las estimaciones puntuales de la media y la varianza de la
población.
288
6. Estimación por intervalo
6.1 Introducción
Ya se definió en el punto 3 que la estimación por intervalo indica un
grado de error. Si se estima la duración media de los focos fabricados por
una compañía, se puede seleccionar una muestra de 300 unidades a
través de un control de calidad cuya X = 4.000 hs. Se sabe que la desviación típica de la población es de 1.500 hs.
Si se utiliza X para estimar P , se hace necesario un dato sobre la
incertidumbre que acompaña a esta estimación, o sea establecer un intervalo donde posiblemente se encuentre la media poblacional desconocida.
Por lo expresado, se necesita obtener “el error estándar de la media”.
Por el teorema del límite central, la distribución muestral de medias se
aproxima a una distribución normal. Recuérdese que la dispersión de la
distribución muestral se mide a través del error estándar. Como n = 300 es
una muestra bastante grande, se puede aplicar el teorema de referencia.
El error estándar de la media es:
Vx
V
n
1500
300
86,6 hs.
Ese resultado es el error estándar que acompaña a la estimación. Es
decir, la duración media verdadera de todos los focos puede estar en el
intervalo entre 3.913,4 y 4.086,6. No obstante, falta determinar la probabilidad de que la verdadera duración de los focos se halle en el intervalo.
Por regla de la normal (Unidad VII) hay una probabilidad de 0,683 de que
la media de una muestra de tamaño 300 se encuentre dentro de un error
estándar positivo y negativo de P . En otras palabras el 68,3% de todas las
medias muestrales se encuentra a un error estándar positivo o negativo
de m . En el ejemplo de la duración de focos, hay una confianza del 68,3%
de que la duración se encuentre en el intervalo 3.913,4 o 4.086,6 (4.000
± 1 V ). Análogamente:
-
3.826,9 a 4.173,2 hs. con el 95,5% de confianza (4.000 ± 2 V).
-
3.740,2 a 4.259,8 hs. con el 99,7% de confianza (4.000 ± 3 V).
289
6.2 Nivel e Intervalo de Confianza
- La probabilidad asociada a una estimación por intervalo se denomina
nivel de confianza. Por ejemplo 80%; 90%; 95%; 99% y otros. El nivel de
confianza se expresa como 1 - D .
- El intervalo de confianza es la estimación, es decir el recorrido dentro del cual se espera que se encuentre el parámetro. Como estamos
trabajando con una distribución normal estándar, la diferencia entre el
valor de x y su media, expresada en términos de su desviación típica está
dada por z. El valor de z es igual al número de desviaciones típicas. Por lo
tanto, los intervalos de confianza se expresan como:
x + zsx
límite superior de intervalo de confianza
x - zsx
límite inferior de intervalo de confianza
Si se estima la duración media de los focos con 90%(*) el intervalo de
confianza es:
4000 + 1,64 (86,6) = 3.858 a 4.142
(*) Para 1 - a = 90%, z = 1,64 (ver la tabla)
Una proporción 1 - a del área bajo la curva normal estándar queda entre
-z a /2 y z a /2.
Si 1 - D = 90%
D = 0,10 y D / 2 = 0,05.
D
DD
=DVx =DVx
P
=D=D
Interpretación
La estimación obtenida anteriormente no significa que haya una probabilidad de 0,90 de que la duración media de todos los focos se encuentre
dentro del intervalo establecido, sino que debe interpretarse así:
290
“Si se seleccionan muchas muestras aleatorias de tamaño 300 y se
calcula el intervalo de confianza de todas esas muestras, en el 90% de
ellas, la media de la población se encuentra dentro de ese intervalo”.
Valores de z para los coeficientes de confianza más utilizados:
1-D
z
50%
0,6745
68,27%
90%
95%
1,00
1,645
1,96
95,45%
2,00
99%
99,73%
2,58
3,00
6.3 Cálculo de Estimaciones por intervalos para muestras grandes
6.3.1 Estimación de una media poblacional
Si se conoce el desvío estándar de la población, el error estándar se
calcula como:
Vx
n
Vx
por lo tanto el intervalo de confianza para estimar m se obtiene de la
siguiente manera:
x z D / 2 Vx P x z D / 2 . Vx
(8)
Si el desvío estándar de la población se desconoce, se utiliza el desvío
estándar de la muestra, S para estimar V.
De acuerdo a lo estudiado en el punto 5 de la unidad, se estima por:
2
S
¦ (x x )
n
En este caso, el error estándar de la media se obtiene:
Sx
S
n
(9)
siendo los límites de confianza x + Sx
291
Ejemplo: El Dpto. de Personal de una empresa está interesada en estimar el número promedio de días que los empleados faltaron por razones
particulares. Un análisis de los legajos de 49 trabajadores elegidos al azar
dio una media de 12 días. Si el desvío estándar poblacional es de 2,5 días,
determinar el intervalo de confianza del 95% para el verdadero promedio.
x±z
12 ± 1,96 (2,5 / 49)
12 ± 1,96 (0,36)
11,3 d P d 12,7
Determinación del tamaño de la muestra para la estimación
En la distribución normal
P ± z Vx = P ± E y E = z
E = es el error muestral o sea la diferencia entre x y P
En el problema anterior E = 1,96 (0,36) = 0,7
E z.
V
n
y
§ z. 2 ·
n ¨¨ V ¸¸
© E ¹
n
z.V
E
(10)
donde:
E: error muestral máxima que se acepta.
z: se establece mediante el nivel de confianza.
V: desvío estándar de la población que si se desconoce se puede estimar
por V.
Ejemplo: Supóngase que el Jefe de Personal desea estimar la media de
inasistencia utilizado la misma desviación típica y con el mismo nivel de
confianza pero acepta como error máximo 0,5. El tamaño de la muestra
que deberá elegir es:
292
n
(1,96)2 . (2,5)2
(0,5)
2
96,04 96 trabajadores
6.3.2 Estimación de la proporción de la población
Para construir un intervalo de confianza para estimar la proporción
poblacional se debe utilizar la distribución binomial. Como los cálculos de
probabilidades binomiales son complejos, se puede aproximar por medio
de una distribución normal que puede servir para aproximar la distribución
muestral. Para aproximarse debe cumplir que:
n t 30 y np t 5, donde P np y V
n.p.q
La proporción de éxitos en la muestra se expresa por p. Como np es
igual al número medio de éxitos, se divide np entre n para obtener sólo a
proporción p. La media de la distribución muestral de proporciones es:
Pp = p
Análogamente, se modifica la desviación típica dividiendo n.p.q entre
n para convertir número de éxitos en proporción de éxitos. La desviación
estándar de la proporción de éxitos se representa por:
Vp
p.q
n
error estándar de la proporción
Si se desconoce la proporción de la población:
Sp
p.q
n
(11)
Por lo tanto el intervalo de confianza para estimar la proporción de la
población p es;
p z D / 2 . Vp d p d p z D / 2 Vp
Si se desconoce la proporción de la población:
p r z D / 2 Sp
293
(12)
Ejemplo: Otro problema del jefe del personal es estimar la verdadera
proporción de legajos de los empleados que están incompletos. Elige una
muestra de 50 legajos y encuentra 14 incompletos. Determinar el intervalo
de confianza del 99% para p.
p
14
0,28
50
p z D / 2 . Sp
0,28 (0,72)
50
0,12 d p d 0,44
0,28 r 2,58 .
Determinación del tamaño de la muestra para estimar la proporción de
la población
E z Vp z .
p.q
n
p.q
n
o
E
z
donde:
p.q
n
n
E2
z2
z2 .p . q
E2
(13)
Ejemplo: Supóngase que para la estimación del ejercicio anterior, el
jefe desea un error no mayor de 0,10. El tamaño de la muestra será:
n
(2,58)2 . (0,28) . (0,72)
(0,10)2
n
134 legajos
294
134,2
6.3.3 Estimación de la diferencia entre dos medias
Si dos medias muestrales x1 y x2 son independientes, el procedimiento
para construir el intervalo de confianza para G (delta), verdadera entre las
dos medias poblaciones P1 y P2 es similar a los anteriores.
D z D / 2 . VD d G d D z D / 2 . V 2
(13)
Siendo D = x1 - x2
VD
error estándar de la diferencia de medias
V12 V 22
n1
n2
VD
(15)
se puede estimar a partir de S2 cuando se desconoce la varianza de la
población.
Ejemplo: se desde estimar la verdadera diferencia de medias en la
duración de dos marcas de baterías. Se obtiene los siguientes datos.
Marca A
n1 = 100
x1 = 38 meses
V12 = 36 meses
Tamaño de la muestra
Media muestral
Varianza poblacional
Marca B
n2 = 100
x2 = 35 meses
V12 = 25 meses
Obtener el intervalo de confianza del 95% para G, verdadera diferencia
de las dos medias:
D zD / 2
3r
1,96
V12 V 22
n1
n2
D 38 35 3
36 25
100 100
3 r 1,96 (0,78)
1,5 d G d 4,5 meses
295
Actividad Nº 38
Ejercicios del punto 6
1. Una fábrica de golosinas desea estimar el peso medio de los paquetes
de caramelos envasados automáticamente por una máquina. De la
producción de un día se sacó una muestra de 120 paquetes y se
obtuvo una media de 855 gramos y un desvío típico de 47 gramos.
Estimar m con un nivel de confianza de 99%.
2. La oficina de Extensión Universitaria de una Universidad desea estimar
la proporción de ingresantes que estudiarán carreras humanistas.
Selecciona aleatoriamente una muestra 80 fichas de inscripción y
encontró que 12 ingresantes estudiarán dichas carreras. Estimar p
con un nivel de confianza de 95%.
3. Un examen estándar se aplica a un grupo de estudiantes de nivel
superior universitario y a un grupo de estudiantes de nivel superior no
universitario. Se obtienen los siguientes docentes:
Muestra
Puntuación media
Varianza
Sup. Univ.
n1 = 72
x1 = 84
V12 = 40
Sup. No Univ.
n2 = 36
x2 = 80
V12 = 64
Determinar el intervalo de confianza del 90% para la verdadera
diferencia de medias entre las puntuaciones medias de ambos grupos
de estudiantes.
4. Supóngase que es la estimación de ejercicio 1, se pretende que el
error de la estimación no sea mayor a 3 gramos. ¿Cuál debe ser el
tamaño de la muestra para dicha estimación?
5. Si en el ejercicio 2, se desea un error máximo de 2,5%, ¿cuál debe
ser el tamaño de la muestra para la estimación?
6. Se realiza un estudio sobre el ingreso de los operarios de una gran
compañía metalúrgica. Una muestra de 100 operarios dio como
resultado ingreso medio de $520 y una desviación típica de $30. De
296
esos 100 trabajadores, se encontró que 20, tenían un ingreso menor
a $350.
a) Estimar con el 95% de confianza, la verdadera media de ingreso
de todos los operarios.
b) Estimar con el 95% de confianza, la verdadera proporción de
operarios con ingresos menores de $350.
297
Respuestas a los ejercicios de la Unidad VIII
Puntos 1 al 5
1) Consultar el marco teórico del módulo.
2)
a) I ;
3)
P = 13,5
b) I ;
c) I
V = 4,6
Punto 6
1)
843,9 d P d 866,1
2)
0,07 d p d 0,23
3)
1,49 d G d 6,51
4)
n = 16,34
5)
n = 784
6)
a. 514,12 d P d 525,88
b. 0,12 d p d 0,28
298
299
Inferencia
estadística
Características
Distribución t
MUESTRAS
PEQUEÑAS
Estimaciones de la media
poblacional y de la
diferencia de medias
Pruebas para la media
poblacional y para la
diferencia de medias
PRUEBAS DE
HIPÓTESIS
PROCEDIMIENTO
DE LA PRUEBA
DE HIPÓTESIS
TEST DE
HIPOTESIS
Prueba de la
diferencia de
dos medias
Prueba de
proporción
de la población
Prueba de una
media poblacional
MUESTRAS
GRANDES
PRUEBAS DE
HIPÓTESIS
Diagrama de Contenidos - Unidad IX