Download curso_taller_de_m_to..

Document related concepts
no text concepts found
Transcript
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Métodos
estadísticos
Curso taller
Dr. Primitivo Reyes Aguilar /
julio 2013
Página 1
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
CONTENIDO
MÓDULO 1. INTRODUCCIÓN A LA PROBABILIDAD Y ESTADÍSTICA ................................................ 3
1.1 Introducción a la probabilidad .................................................................................................................. 3
1.2 Introducción a la estadística ..................................................................................................................... 3
MÓDULO 2. ESTADÍSTICA DESCRIPTIVA ................................................................................................. 4
2.1 Medidas de tendencia central y de dispersión datos simples. ................................................................... 5
Medidas de tendencia central ..................................................................................................................... 5
Medidas de dispersión ................................................................................................................................ 6
2.2 Otras medidas de dispersión: percentiles, deciles y quartiles ................................................................... 9
2.3 Distribución de frecuencias e histogramas ............................................................................................. 11
2.5 Usos frecuentes de la desviación estándar .............................................................................................. 16
2.6 Uso de Minitab y excel ........................................................................................................................... 20
2.7 Diagramas de dispersión ......................................................................................................................... 25
2.8 Correlación y regresión lineal ................................................................................................................. 26
MÓDULO 3. CÁLCULO DE PROBABILIDADES ....................................................................................... 34
3.1 Introducción............................................................................................................................................ 34
Definiciones.............................................................................................................................................. 34
Probabilidad Compuesta ........................................................................................................................... 35
Relaciones entre eventos .......................................................................................................................... 35
Técnicas de conteo ................................................................................................................................... 40
Teorema de bayes ..................................................................................................................................... 42
MÓDULO 4. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD ..................... 44
4.1 Definiciones............................................................................................................................................ 45
4.2 Distribuciones de probabilidad discretas ................................................................................................ 47
Distribución uniforme .............................................................................................................................. 47
Distribución hipergeométrica ................................................................................................................... 48
Distribución binomal ................................................................................................................................ 49
Distribución de Poisson ............................................................................................................................ 51
4.3 Distribuciones de probabilidad continuas ............................................................................................... 54
Distribución exponencial .......................................................................................................................... 55
La distribución normal ............................................................................................................................. 59
MÓDULO 5. INTRODUCCIÓN AL MUESTREO......................................................................................... 67
7.1 El problema de la aceptación por muestreo ............................................................................................ 67
7.2 Muestreo simple por atributos ................................................................................................................ 69
La curva característica de operación OC .................................................................................................. 69
Inspección rectificadora............................................................................................................................ 72
7.3 Tablas de muestreo MIL-STD-105E (ANS Z1.4, ISO 2859) ................................................................. 74
MÓDULO 6. ESTIMACIÓN DE PARÁMETROS ......................................................................................... 80
6.1 Introducción............................................................................................................................................ 80
6.2 Intervalos de confianza ........................................................................................................................... 80
Distribuciones muestrales utilizadas......................................................................................................... 82
MÓDULO 7. PRUEBAS DE HIPÓTESIS ...................................................................................................... 85
7.1 Introducción a las pruebas de hipótesis .................................................................................................. 85
7.2 Pruebas de hipótesis de una población ................................................................................................... 87
7.3 Pruebas de hipótesis para dos poblaciones ............................................................................................. 95
Pruebas para la igualdad de dos varianzas. ............................................................................................... 96
Pruebas de hipótesis sobre la igualdad de dos medias. ............................................................................. 99
Prueba de dos medias pareadas con t ...................................................................................................... 111
Pruebas de hipótesis sobre dos proporciones .......................................................................................... 113
Resumen de las pruebas de hipótesis ...................................................................................................... 116
7.4 Análisis de varianza de un factor (ANOVA de 1 via) .......................................................................... 119
Página 2
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 1. INTRODUCCIÓN A LA PROBABILIDAD Y
ESTADÍSTICA
1.1 Introducción a la probabilidad
La teoría de la probabilidad es la parte de las matemáticas que se encarga del estudio de
los fenómenos o experimentos aleatorios. Un experimento aleatorio es el que cuando se
le repite bajo las mismas condiciones iniciales, el resultado que se obtiene no siempre es
el mismo. Por ejemplo el experimento aleatorio de lanzar una moneda o un dado.
El espacio muestral de un experimento aleatorio es el conjunto de todos los posibles
resultados del experimento, y se le denota generalmente por la letra griega Ω (omega o
S). Un evento es cualquier subconjunto del espacio muestral. Por ejemplo si el espacio
muestral es el conjunto Ω = {1, 2, 3, 4, 5, 6}. Un evento que represente obtener un número
par este experimento se puede definir el conjunto A = {2, 4, 6}.
1.2 Introducción a la estadística
Una población de interés es un conjunto arbitrario de personas, mediciones u objetos
cualesquiera. Para conocer cierta información de esta población, se toma un pequeño
subconjunto de la población denominado muestra.
La estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar
datos para después obtener conclusiones a partir de ellos. De manera general,
la estadística puede ser dividida en dos grandes áreas:
 Estadística descriptiva.
 Estadística inferencial.
La estadística descriptiva es una colección de métodos para la organización, resumen y
presentación de datos. La estadística inferencial consiste de técnicas que permiten
conocer, con determinado grado o nivel de confianza, cierta información de la población
con base en la información de la muestra obtenida.
Una variable es una característica que varía entre los elementos de una población bajo
estudio. Si son personas entonces las siguientes son ejemplos de variables que podrían ser
de interés: edad, peso, sexo, estatura, etc. Las variables pueden ser cuantitativas, cuando
se realiza una medición, o pueden ser cualitativas, cuando solamente presentan una
cualidad. La edad, el peso y la estatura son ejemplos de variables cuantitativas en una
población de personas, mientras que el sexo y el estado civil son variables cualitativas.
Página 3
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 2. ESTADÍSTICA DESCRIPTIVA
La Estadística descriptiva es la rama de las matemáticas que comprende la recopilación,
tabulación, análisis e interpretación de datos cuantitativos y cualitativos, para tomar
decisiones que se requieran a fin de que el comportamiento de los datos se mantenga
dentro de los parámetros de control establecidos.

Población (N)– Es el conjunto de todos los elementos de interés para determinado
estudio

Parámetro – Es una característica numérica de la población, se identifica con letras
griegas (Media = µ, Desviación estándar = σ, Proporción = π, Coeficiente de
correlación = ρ)

Muestra (n) – Es una parte de la población, debe ser representativa de la misma.

Estadístico – Es una característica numérica de una muestra, se identifica con
letras latinas (Media = X, Desviación estándar = s, Proporción = p, Coeficiente de
correlación = r)
La Estadística descriptiva proporciona un criterio para lograr mejoras, debido a que sus
técnicas se pueden usar para describir y comprender la variabilidad. Por ejemplo,
consideremos en una caldera de vapor la presión del combustible alimentado y la
eficiencia de la caldera, si utilizamos instrumentos de medición con la resolución
suficiente, encontraremos que existe variabilidad en esos parámetros, y mediante el uso
de técnicas estadísticas podemos realizar mejoras para reducir la variación en rendimiento
de la caldera.
Para poder obtener consecuencias y deducciones válidas de los datos de un estadístico, es
muy útil contar con información sobre los valores que se agrupan hacia el centro y sobre
qué tan distanciados o dispersos estén unos respecto a otros. Comenzaremos por definir
estas medidas:
La estadística inferencial se refiere a la estimación de parámetros y pruebas de hipótesis
acerca de las características de la población en base a los datos obtenidos con una
muestra.
Página 4
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2.1 Medidas de tendencia central y de dispersión datos simples.
Medidas de tendencia central

Media: ( x ) Es el promedio aritmético de todos los valores que componen el conjunto
de datos. Se calcula mediante la siguiente fórmula:
Para una muestra y para una población se tiene respectivamente:
x
xi
n

xi
n
Ejemplo 1: En un equipo de fútbol, una muestra de estaturas de sus integrantes son
las siguientes:
1.70,1.79,1.73,1.67,1.60,1.65,1.79,1.84,1.67,1.82, 1.74. Calcule la media.
x

xi 19

 1.73
n 11
Mediana: ( ~
x ) Los datos de "n" observaciones son ordenados del más pequeño al más
grande, Si el tamaño de la muestra es "non" la mediana es el valor ordenado en la
posición (n+1)/2,
Cuando el tamaño de la muestra es "par" la mediana es el promedio de los dos valores
que se encuentran al centro del conjunto de valores. Se puede calcular mediante:
n 2  n 2  1
2
Ejemplo 2: Para el ejemplo anterior ¿cuál es la mediana?
Ordenando los datos de mayor a menor se obtiene:
1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;
Como tenemos 11 datos el número es non por lo que (n+1)/2 = 12/2 = 6, buscando el
número que ocupa la sexta posición en los datos ordenados encontramos el valor de la
mediana ~
x  1.73
Página 5
CURSO TALLER DE MÉTODOS ESTADÍSTICOS

P. Reyes / julio 2013
Media acotada (Truncated Mean): Determinado porcentaje de los valores más altos y
bajos de un conjunto dado de datos son eliminados (tomando números enteros), para
los valores restantes se calcula la media.
Ejemplo 3: Para la siguiente serie de datos calcule la media acotada al 20%:
68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,
Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el más
bajo y el más alto, ordenado los datos obtenemos:
8.4,31.1,33.2,34.3,42.5,54.2,68.7,71.6,72.3,73.4,80.6,82.2,87.9,97.7,97.9, los valores a
eliminar son: 8.4 y 97.9; calculando la media de los datos restantes obtenemos
~x ,.20  63.82
Medidas de dispersión
Para comprender el concepto de varianza, supóngase que tenemos los datos siguientes de
los cuales queremos saber que tan dispersos están respecto a su media:
2, 3, 4, 5, 6
con media = 20/5 = 4
Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se
tiene:
(-2) + (-1) + (0) + (1) +(2) = 0
Por lo que tomando diferencias simples no es posible determinar la dispersión de los
datos.
Si ahora tomamos esas mismas diferencias al cuadrado y las sumamos se tiene:
4 + 1 + 0 + 1 + 4 = 10
Varianza de los datos
Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan
distanciados están de la media
Página 6
CURSO TALLER DE MÉTODOS ESTADÍSTICOS

Poblacional (σ2 ) Se obtiene dividiendo el valor anterior entre n = 5, o sea el
promedio de la suma de las diferencias al cuadrado, tomando n datos.
2 

( xi  x ) 2
n
Muestral (s2 ) Se obtiene dividiendo el valor anterior entre n - 1 = 4, o sea el
promedio de la suma de las diferencias al cuadrado, tomando n -1 datos.
s2  

( xi  x ) 2
n 1
Desviación estándar: Es la raíz cuadrada de la varianza:
Para el caso de una población  
Para el caso de una muestra

P. Reyes / julio 2013
s
( xi  x ) 2
 n
( xi  x ) 2
 n 1
Rango ( R ): es la diferencia positiva entre el valor mayor y el valor menor de un
conjunto de datos. Por ejemplo para el conjunto de datos siguiente:
2.0,2.1,2.4,2.5,2.6,2.8,2.9,2.9,3.0,3.1,3.6,3.8,4.0,4.0
Su rango es R = 4.0 – 2.0 = 2.0

Coeficiente de Variación (CV): Se utiliza para comparar la dispersión de dos
conjuntos de datos que tienen unidades diferentes, ya que representa una medida
relativa de dispersión.
s
Coeficiente.de. var iación  CV  (100)
X
Por ejemplo si la media de tiempos de respuesta es de 78.7 y su desviación estándar es
12.14, el CVt:
12.14
(100)  12.05%
78.7
Por otra parte si la media de temperaturas es de 10 y su desviación estándar de 2, el CVs
de las temperaturas es:
CVt 
Página 7
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
CVs 
P. Reyes / julio 2013
2
(100)  20%
10
Por tanto la dispersión de las temperaturas es mayor que la de los tiempos de de
respuesta, es posible comparar estas dispersiones con el CV aunque los dos conjuntos de
datos sean completamente disímbolos.
Ejemplo 4: La resistencia al rompimiento de dos muestras de botellas es la siguiente:
Muestra 1:
Muestra 2:
230
190
250
228
245
305
258
240
265
265
240
260
Calcule la desviación estándar para ambas muestras.
Muestra 1:
Muestra 2

x  248

x  248
Suma(Xi - x )2 = 790
Suma(
n-1=5
n-1 = 5
s=
790
= 12.56
5
s=
7510
= 38.75
5
Rango = 265 – 230 = 35
CV = 12.56/248*100= 5.06%
Xi - x )2 = 7510
Rango = 305 – 190 = 115
CV = 38.75/248*100 = 15.625
Aunque la media en ambas muestras es la misma, la desviación estándar (s), rango y
coeficiente de variación, son menores en la muestra 1, por lo cual deducimos que es
presenta menor variabilidad.
Ejemplo 5:
Se desea hacer un estudio estadístico de la temperatura del agua, para esto es necesario
tomar una muestra y calcular la media, mediana, media acotada al 15%, desviación
Página 8
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
estándar, rango y coeficiente de variación. Se realizan 14 observaciones arrojando los
siguientes resultados en ºC: 2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6,2.9, 3.0.
1) Calcular la media, mediana, desviación estándar, media acotada al 5%, desviación
estándar, rango y coeficiente de variación.
2.2 Otras medidas de dispersión: percentiles, deciles y quartiles
Cada conjunto de datos ordenado tiene tres cuartiles que lo dividen en cuatro partes
iguales. El primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones y
sobre el cual se encuentra el 75% restante. El segundo cuartil divide a los datos a la mitad
similar a la mediana.
Los deciles separan un conjunto de datos ordenado en 10 subconjuntos iguales y los
percentiles en 100 partes, la ubicación de un percentil se encuentra en:
L p  (n  1)
P
100
Dónde:
Lp es el sitio del percentil deseado en una serie ordenada
n es el número de observaciones
P es el percentil deseado
Por ejemplo para el conjunto de datos siguiente:
3
4
7
9
10
10
12
14
15
17
19
20
21
25
27
27
29
31
31
34
34
34
36
37
38
38
39
43
45
47
48
48
52
53
56
56
59
62
63
64
67
67
69
72
73
74
74
76
79
80
La localización del percentil 35 se halla en:
35
 17.85
100
O sea que el percentil 35 está al 85% del trayecto comprendido entre la observación 17
que es 29 y la observación 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el
35% de las observaciones están por debajo de 30.7 y el 65% restante por encima de 30.7.
Página 9
L35  (50  1)
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
De la misma forma los percentiles 25, 50 y 75 proporcionan la localización de los cuartiles
Q1, Q2 y Q3 respectivamente.

Q1: es el número que representa al percentil 25 (hay 25% de los datos por debajo
de este).

Q2 o Mediana: es el número que representa al percentil 50 (hay 50% de los datos
por debajo de este).

Q3: es el número que representa al percentil 75 (hay 75% de los datos por debajo
de este).
 Rango o Recorrido intercuartílico: es la diferencia entre Q1 y Q3.
DIAGRAMA DE CAJA
ES LA REPRESENTACIÓN GRÁFICA DE LOS DATOS EN FORMA DE CAJA :
1 10 4
1050
Q3 + 1.5 RIC
Weight
Q3
950
Q2 Mediana
Q1
850
Q1 – 1.5RIC
Rango
Intercuartílico = RIC
= Q3 – Q1
Valores atípicos
Figura 1. Diagrama de caja con sus cuartiles y bigotes
Página 10
Bigotes
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2.3 Distribución de frecuencias e histogramas
Cuando tenemos una cantidad grande de datos es difícil poder analizarlos, a menos que
hagamos uso de herramientas que nos permitan hacerlo con mayor facilidad y claridad. El
histograma es una de ellas, consiste en un diagrama de barras donde las bases
corresponden a los intervalos y las alturas a las frecuencias. Para construir un histograma
es necesario tener un mínimo de 50 a 100 datos. Se tienen las siguientes definiciones:

Distribución de frecuencias: es un resumen tabular de un conjunto de datos que
muestra el número o frecuencia de artículos en cada una de varias clases que no se
traslapan.

Frecuencia relativa (f): Es la frecuencia de la clase dividida entre el total n de
datos. Se puede representar en porcentaje.

Distribución de frecuencias porcentuales: es la representación de las frecuencias
relativas porcentuales.

Frecuencia acumulada (F): es la acumulación secuencial de las frecuencias de cada
clase.
Ejemplo 6
Construir un histograma con la siguiente serie de datos:
2.41
3.34
4.04
4.46
8.46
9.15
11.59
12.73
13.18
15.47
16.20
16.49
17.11
17.87
18.03
18.69
19.94
20.20
20.31
24.19
28.75
30.36
30.63
31.21
32.44
32.89
33.51
33.76
34.58
35.58
35.93
36.08
36.14
36.80
36.92
37.23
37.31
37.64
38.29
38.65
39.02
39.64
40.41
40.58
40.64
43.61
44.06
44.52
45.01
45.08
45.10
45.37
45.70
45.91
46.50
47.09
47.21
47.56
47.93
48.02
48.31
48.55
48.62
48.98
49.33
49.36
49.95
50.02
50.10
50.10
50.72
51.40
51.41
51.77
52.43
53.22
54.28
54.71
Página 11
55.08
55.23
55.56
55.87
56.04
56.29
58.18
59.03
59.37
59.61
59.81
60.27
61.30
62.53
62.78
62.98
63.03
64.12
64.29
65.44
66.18
66.56
67.45
67.87
69.09
69.86
70.37
71.05
71.14
72.46
72.77
74.03
74.10
76.26
76.69
77.91
78.24
79.35
80.32
81.21
82.37
82.79
83.31
85.83
88.67
89.28
89.58
94.07
94.47
94.60
94.74
96.78
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Paso 1: Contar el número de datos n = 130
Paso 2: Calcular el rango R = Valor mayor – Valor menor, R = 96.78-2.41 = 94.37.
Generalmente los datos no están ordenados por lo cual resulta conveniente ordenarlos de
menor a mayor para tener una mejor visualización. En el ejemplo los datos ya han sido
previamente ordenados.
Paso 3: Seleccionar el número de columnas, mediante
cual el histograma se compone de 11 columnas
n =
130  11.4  11. Por lo
Paso 4: Calcular el tamaño del intervalo de clase ( C ), dividiendo el rango entre el número
94.37
 8.58  9 , resultando el tamaño del intervalo 9.
de columnas: C =
11
 Otra manera de calcular el tamaño del intervalo es el siguiente:
Dividir el valor del rango entre un cierto número de clases (K). La tabla de abajo es una
guía que nos muestra para diferentes cantidades de datos el número recomendado de
clases a utilizar.
Número de datos (N)
Menos de 50
50 a 100
100 a 250
Más de 250
Número de clases (K)
5–7
6 – 10
7 – 12
10 – 20
Paso 5: Calcular los límites de clase de cada intervalo: [0-8], [ 9-17], etc., considerando
que el tamaño del intervalo representa la diferencia entre dos límites de clase adyacentes
ya sean inferiores o superiores.
Paso 6: Contar el número de valores que caen en cada intervalo utilizando una hoja de
registro, de esta manera se obtiene la frecuencia para cada intervalo.
Página 12
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
Tabla 1.
Columna
1
2
3
4
5
6
7
8
9
10
11
Intervalo
0 -8
9-17
18-26
27-35
36-44
45-53
54-62
63-71
72-80
81-89
90-98
Registro de frecuencias
IIIII
IIIII
IIII
IIIII
I
IIIII
IIIII
I
IIIII
IIIII
II
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
III
IIIII
IIIII
IIIII
III
IIIII
P. Reyes / julio 2013
IIIII
III
IIIII
III
5
9
6
11
17
28
18
13
10
8
5
Paso 7: Basándose en los datos anteriores construya el histograma.
Diagrama de tallo y hojas
Es otra representación de la información, primero se ordenan los dígitos principales a la
izquierda de una línea vertical. A la derecha de esta línea se registra el último dígito para
cada dato conforme se revisan las observaciones en el orden en que se registraron. Por
ejemplo:
Con Minitab: Stat > EDA > Steam and leaf… Indicar columna de datos, increment = 10
Página 13
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
Stem-and-leaf of Respuest
Leaf Unit = 1.0
2
8
16
(11)
23
14
7
3
1
6
7
8
9
10
11
12
13
14
N
P. Reyes / julio 2013
= 50
89
233566
01123456
12224556788
002466678
2355899
4678
24
1
2.4 Medidas de tendencia central y de dispersión para datos agrupados.

La media con datos agrupados: se calcula así:
Xg 
 fM
n
Donde
f es la frecuencia o número de observaciones en cada clase
M es el punto medio de cada clase, se determina como el valor medio entre los límites
de clase.
n es el tamaño de la muestra o la suma de todas las frecuencias de las clases
Ejemplo:
Clase
(Presión)
Frecuencia de clase
(días)
M
fM
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
50
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
54.5
64.5
74.5
84.5
94.5
104.5
Página 14
Frecuencia acumulada
F
3
10
28
40
48
50
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
Xg 
P. Reyes / julio 2013
3935
 78.7
50

Mediana de datos agrupados:
Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este
caso la clase de 70 a 79 con punto central de clase = 74.5.
n / 2  F 
~
 50 / 2  10 
Mediana  X  Lmd  
(C )  70  
10  78.33 pasajeros
 18

 f md 
Dónde:
Lmd es el límite inferior de la clase de la mediana cuya F es >= n / 2 o sean (70)
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (10)
Fmd es la frecuencia de la clase de la mediana (18)
C es el intervalo de clase de la mediana que es la diferencia entre dos límites de clase (10)

Moda de datos agrupados:
Primero se halla la clase que tenga la frecuencia más alta, en este caso la clase 70 a 79.
 Da 


18  7
Moda  Lmo  
(C )  70  
10  76.47
 (18  12)  (18  7) 
 Db  Da 
Donde:
Lmo es el límite inferior de la clase modal con la frecuencia más alta (70).
Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 – 7 =
11)
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 – 12 = 6)
C es el intervalo de la clase modal ( 80 – 70 = 10 )

s2 
Varianza y desviación estándar de datos agrupados:
 fM
s s
2
 nX 2
n 1
2
Página 15
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Para los datos anteriores se tiene:
Clase
(Presión)
Frecuencia de clase
(días)
M
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
54.5
64.5
74.5
84.5
94.5
104.5
fM
M2
fM2
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
2790.25
4160.25
5550.25
7140.25
8930.25
10920.25
8910.75
29121.75
99904.50
85683.00
71442.00
21840.50
316902.50
3935
 78.7
50
316902.50  50(78.7) 2
s2 
 147.31 pasajeros
49
s  12.14 pasajeros
Xg 
Con esta información el personal puede tomar sus decisiones
2.5 Usos frecuentes de la desviación estándar

Teorema de Tchebyshev
1
)% de las observaciones
K2
se encuentran dentro de  K desviaciones estándar de la media, con K >= 1.
Establece que para todo conjunto de datos por lo menos (1 
Por ejemplo si K =  3 desviaciones estándar respecto a la media, se tiene que por lo
menos el:
(1 
1
1

)%  1  2 %  88.89%
2
K
 3 
De las observaciones estarán dentro de dicho intervalo.
Página 16
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Caso de la distribución normal
68.3% de las observaciones se encuentran dentro de  1 desviación estándar de la media
95.5% de las observaciones se encuentran dentro de  2 desviaciones estándar de la
media
99.7% de las observaciones se encuentran dentro de  3 desviaciones estándar de la
media

SESGO
En la distribución normal si no es simétrica y tiene una cola más amplia del lado derecho,
se dice que existe un sesgo a la derecha y viceversa.
El coeficiente de sesgo o asimetría P se determina como sigue:
3( X  Mediana )
s
Si P < 0 los datos están sesgados a la izquierda, si P > 0 están sesgados a la derecha; si P =
0 están distribuidos normalmente.
P
Para el caso de los datos del ejemplo anterior se tiene:
P
3(78.7  78.33)
 0.03 Los datos están un poco sesgados hacia la derecha.
12.14
Coeficiente de asimetría de Fisher
Otra estimación del sesgo o coeficiente de asimetría se hace a través de momentos
estadísticos (diferencias contra la media) como lo sugiere Fisher:
n
Mj 
(X
i 1
i
 X)j
n
j  1, 2,3, 4
Página 17
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
1 n
( Xi  X ) 3

n i 1
M3
o 1 
Para la distribución normal debe ser 0.
3/ 2
M 23 / 2
1 n
2
  ( Xi  X ) 
 n i 1

Se puede considerar que una distribución es simétrica si  1  0 , asimétrica hacia la
Sesgo  ˆ1 
izquierda con  1  0 o hacia la derecha  1  0 .
Ejemplo: Ejemplo de una distribución con sesgo negativo o sesgada hacia la izquierda con
Sesgo = -1.01
Ejemplo de una distribución con sesgo positivo o sesgada hacia la derecha con Sesgo =
1.08

CURTOSIS
En la distribución normal si no es acampanada y es más picuda o aplanada de lo normal se
dice que tiene una Curtosis diferente de cero que es lo normal, si es mayor es más picuda
o más plana al revés.
Página 18
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Coeficiente de Curtosis de Fisher
1 n
 ( Xi  X ) 4
n i 1
M4
3
- 3 o 2 
2
M 22
1 n

  ( Xi  X ) 2 
 n i 1

Para la distribución normal debe ser 0.
Kurtosis   2 
La distribución es mesocúrtica (plana normal) si  2  0 , leptocúrtica si  2  0 más
puntiaguda que la normal o platicúrtica (más plana que la normal ) con  2  0 .
Ejemplo de curva más plana que la normal Curtosis = -1.03
Ejemplo de curva más picuda que la normal Curtosis = 0.76
Página 19
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2.6 Uso de Minitab y excel
Uso de Minitab
Para la obtención de las estadísticas descriptivas con Minitab las instrucciones son:
 Stat > Basic statistics > Display descriptive statistics
Indicar las variables de las cuales se quieren obtener las estadísticas básicas y la variable
categórica si se desean varios grupos.
Seleccionar las gráficas opcionales para los datos: Histograma, diagrama de caja y de
puntos.
Seleccionar los estadísticos específicos que se desean obtener:
Los resultados son los siguientes:
Descriptive Statistics: Peso en gr
Página 20
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
Variable
Peso en gr
Línea
1
2
N
250
250
N*
0
0
Variable
Peso en gr
Línea
1
2
Q3
4040.0
4121.5
Mean
3999.6
4085.6
P. Reyes / julio 2013
SE Mean
3.14
3.32
StDev
49.6
52.5
Minimum
3877.0
3954.0
Q1
3967.8
4048.8
Median
3999.5
4087.0
Maximum
4113.0
4202.0
Diagramas de caja en Minitab:
1. Capture datos en la hoja de trabajo: 7 8 9 9 11 12 12 13 14 15 16 17 18 19
20 22
2. Seleccione la opción: Graph> Boxplot
3. Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
4. A continuación se muestra el diagrama de caja:
Boxplot of Caja
22.5
20.0
17.5
Caja
15.0
12.5
10.0
7.5
5.0
Histograma en Minitab:
1.
2.
3.
4.
Capture los datos del ejemplo 6 en la hoja de trabajo:
Seleccione la opción: Graph> Histogram (simple)
Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
En Options se puede cambiar el número de celdas con Number of intervals (6 –
8)
5. A continuación se muestra el Histograma:
Página 21
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Histogram of DATOS
40
Frequency
30
20
10
0
-10
20
50
DATOS
80
110
Prueba de normalidad en Minitab:
1.
2.
3.
4.
5.
Capture los datos del ejemplo 6 en la hoja de trabajo:
Seleccione la opción: Stat > Basic statistics
Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
Seleccione la prueba de Anderson Darling OK
A continuación se muestra la gráfica normal, si P value > 0.05 los datos son
normales.
NOTA: Si el número de datos es mayor a 15 se utiliza la prueba de Anderson Darling y si
son 15 o menos datos se utiliza la prueba de Kolmogorov Smirnov
Probability Plot of DATOS
Normal
99.9
Mean
StDev
N
AD
P-Value
99
Percent
95
90
80
70
60
50
40
30
20
10
5
1
0.1
0
30
60
DATOS
90
Página 22
120
50.05
22.50
130
0.380
0.399
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Uso de excel
1. En el menú Herramientas seleccione la opción Análisis de datos. Datos de
ejemplo 6.
2. Seleccione la opción Estadística descriptiva.
3. Seleccione el rango de entrada, estos corresponden a los datos numéricos de la
tabla.
4. Seleccione Resumen de estadísticas.
5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de
cálculo que este en blanco (a partir de esta celda serán insertados los
resultados).
La hoja mostrará las siguientes medidas estadísticas de los datos presentados:
Columna1
Media
50.0537692
Error típico
1.9738137
Mediana
49.345
Moda
50.1
Desviación estándar 22.5049388
Varianza de la
muestra
506.47227
Curtosis
-0.4466339
Coeficiente de
asimetría
-0.0352296
Rango
94.37
Mínimo
2.41
Máximo
96.78
Suma
6506.99
Cuenta
130
Página 23
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
EJERCICIOS:
1. Las empresas de generación de energía eléctrica están interesadas en los hábitos de
consumo de los clientes para obtener pronósticos exactos de las demandas de energía.
Una muestra de consumidores de 90 hogares con calefacción de gas arrojó lo siguiente
(FURNACE.MTW):
BTU.In_1
2.97
4.00
5.20
5.56
5.94
5.98
6.35
6.62
6.72
6.78
6.80
6.85
6.94
7.15
7.16
7.23
7.29
7.62
7.62
7.69
7.73
7.87
7.93
8.00
8.26
8.29
8.37
8.47
8.54
8.58
8.61
8.67
8.69
8.81
9.07
9.27
9.37
9.43
9.52
9.58
9.60
9.76
9.82
9.83
9.83
9.84
9.96
10.04
10.21
10.28
10.28
10.30
10.35
10.36
10.40
10.49
10.50
10.64
10.95
11.09
11.12
11.21
11.29
11.43
11.62
11.70
11.70
12.16
12.19
12.28
12.31
12.62
12.69
12.71
12.91
12.92
13.11
13.38
13.42
13.43
13.47
13.60
13.96
14.24
14.35
15.12
15.24
16.06
16.90
18.26
a) Determinar los estadísticos de tendencia y dispersión
b) Construir un diagrama de caja e histograma
c) Realizar una prueba de normalidad de los datos
d) Establecer conclusiones
Página 24
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2.7 Diagramas de dispersión
El diagrama de dispersión es una técnica estadística utilizada para estudiar la relación
entre dos variables. Por ejemplo, entre una característica de calidad y un factor que le
afecta. La ventaja de utilizar este tipo de diagramas es que al hacerlo se tiene una
comprensión más profunda del problema planteado.
La relación entre dos variables se representa mediante una gráfica de dos dimensiones en
la que cada relación está dada por un par de puntos (uno para cada variable).
La variable del eje horizontal x normalmente es la variable causa, y la variable del eje
vertical y es la variable efecto.
La relación entre dos variables puede ser: positiva o negativa. Si es positiva, significa que
un aumento en la variable causa x provocará una aumento en la variable efecto y y si es
negativa significa que una disminución en la variable x provocará una disminución en la
variable y.
Por otro lado se puede observar que los puntos en un diagrama de dispersión pueden
estar muy cerca de la línea recta que los atraviesa, o muy dispersos o alejados con
respecto a la misma. El índice que se utiliza para medir ese grado de cercanía de los
puntos con respecto a la línea recta es el índice de correlación r. En total existen cinco
grados de correlación: positiva evidente (r = 1), positiva, negativa evidente (r = -1),
negativa y nula (r = 0).
Correlación Negativa
Evidente
25
20
20
15
15
10
Y
Y
Correlación Positiva
Evidente
25
5
0
5
10
15
20
5
Sin Correlación
0
25
X
10
0
0
5
10
25
15
20
25
X
20
15
25
Y
Correlación
Positiva
10
0
0
20
5
10
15
20
25
25
X
20
15
15
10
Y
Y
Correlación
Negativa
5
5
10
5
0
0
5
10
15
20
0
25
0
X
5
10
15
X
Página 25
20
25
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2.8 Correlación y regresión lineal
Son dos herramientas para investigar la dependencia de una variable dependiente Y en
función de una variable independiente X. Y = f(X)
Y = Variable dependiente que se desea explicar o predecir, también se llama regresor o
respuesta
X = Variable independiente, también se llama variable explicativa, regresor o predictor
Regresión lineal - La relación entre X y Y se representa por medio de una línea recta
Regresión curvilinea - La relación entre X y Y se representa por medio de una curva.
Y
*
**
*
*
*
*
*
*
*
b1
*
*
* *
*
*
*
*
* *
*
*
*
*
*
*
*
b0
Correlación positiva
Correlación negativa
X
Sin correlación
La ecuación de la recta es la siguiente:
Y   0   1 X  e .........Con.base.en.la. población
Y  b0  b1 X  e...........Con.base.en.datos.de.la.muestra
´*
Y  b0  b1 X ................Modelo.de.regresión .estimada
El término de error es la diferencia entre los valores reales observados Yi y los valores
estimados por la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual se
utiliza el método de mínimos cuadrados.
Se identifican tres medidas de desviación como sigue:
Página 26
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Y
Yest = 4.4 + 1.08 X
Yi = 23
*
Variación no explicada
Error = (Yi - Yest) = 1.32
Variación total
(YiYmedia)=5.13
Variación explicada
(Yest-Ymedia) = 3.81
Ymedia=17.87
Ymedia =17.87
X = 16
X
Ejemplo 7: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo
está relacionado con su número. Calcular el coeficiente de correlación y graficar. Los
datos de tiempo tomados para n = 25 servicios se muestran a continuación:
X Servicios
2
8
11
10
8
4
2
2
9
8
4
11
12
2
4
4
20
1
Y Tiempo
9.95
24.45
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
(Xi-X)*(Yi-Y)
119.076672
1.099872
7.499472
10.502272
0.963072
51.612672
91.433472
121.260672
-3.558928
0.367872
50.679872
21.989472
48.568672
108.406272
31.303072
47.245472
470.014272
135.625472
(Xi-X)^2
38.9376
0.0576
7.6176
3.0976
0.0576
17.9776
38.9376
38.9376
0.5776
0.0576
17.9776
7.6176
14.1376
38.9376
17.9776
17.9776
138.2976
52.4176
Página 27
(Yi-Y)^2
364.1533
21.0021
7.3832
35.6075
16.1026
148.1771
214.7045
377.6337
21.9286
2.3495
142.8694
63.4763
166.8541
301.8142
54.5057
124.1620
1,597.3771
350.9178
Yest
10.9199
28.3362
37.0443
34.1416
28.3362
16.7253
10.9199
10.9199
31.2389
28.3362
16.7253
37.0443
39.9470
10.9199
16.7253
16.7253
63.1686
8.0172
Error
0.9408
15.1022
28.0292
0.7369
10.9969
0.0181
11.9721
1.7422
47.4563
0.6991
0.1258
0.0020
4.0121
0.5477
24.2523
1.3564
34.0052
5.2111
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
10
15
15
16
17
6
5
206
SX
34.93
46.59
44.88
54.12
56.63
22.13
21.15
725.82
SY
10.379072
118.686672
107.127072
194.676672
241.751472
15.462272
25.540272
2,027.7132
X
promedio
8.24
Y Promedio
20.0328
P. Reyes / julio 2013
3.0976
45.6976
45.6976
60.2176
76.7376
5.0176
10.4976
698.5600
34.7770
308.2553
251.1337
629.3676
761.6054
47.6486
62.1385
6,105.9447
Sxy
Sxx
Syy = SST
SXi-X)*(Yi-Y)
S(Xi-X)^2
S(Yi-Y)^2
Sxy
Sxx
Syy
34.1416
48.6551
48.6551
51.5578
54.4605
22.5307
19.6280
0.6216
4.2646
14.2512
6.5649
4.7068
0.1606
2.3164
220.0926
SSE
Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería
y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que
se minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de
cuadrados siguientes se muestran a continuación:
Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94
Las ecuaciones para el cálculo manual son las siguientes:
b1  ̂1 
b0  ˆ0 
 ( Xi  X )(Yi  Y )  S
S
 ( Xi  X )
XY
2
Y
i
 ˆ1  X i
n
= 2.902704421
XX
 Y  ˆX = 5.114515575
Las sumas de cuadrados son:
SST   (Yi  Y ) 2  6,105.9447
SSE   (Yi  Yˆi ) 2  (Yi  (bo  b1* X i )) 2  220.0926
SSR  SST  SSE  5,885.8521
Página 28
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
El coeficiente de determinación r2 y el coeficiente de correlación r se calculan a
continuación:
r2  1
SSE ( SST  SSE ) SSR


= 0.9639
SST
SST
SST
El coeficiente de determinación indica el porcentaje de la variación total que es explicada
por la regresión.
r  r 2 = 0.9816
El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea
recta indicando el nivel de influencia de una variable en la otra. El factor de correlación r
es un número entre –1 (correlación negativa evidente) y +1 (correlación positiva
evidente), y r = 0 indicaría correlación nula.
El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia estadística
para afirmar que el tiempo de atención esta relacionado con el número de servicios
atendidos.
USO DE EXCEL
1. En el menú Herramientas seleccione la opción Análisis de datos. Datos de ejemplo
7.
2. Seleccione la opción Regresión.
3. Seleccione el rango de entrada, estos corresponden a los datos numéricos de la
tabla.
4. Seleccione Resumen de estadísticas.
5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de
cálculo que este en blanco ( a partir de esta celda serán insertados los resultados).
Resumen
Estadísticas de la regresión
Coeficiente de
correlación múltiple
0.981811778
Coeficiente de
determinación R^2
0.963954368
R^2 ajustado
0.962387167
Página 29
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
Error típico
Observaciones
P. Reyes / julio 2013
3.093419627
25
ANÁLISIS DE VARIANZA
Suma de
Promedio de
Grados de
libertad
Valor crítico
Cuadrados
cuadrados
F
de F
1 5885.852069 5885.852069 615.0800898 4.24118E-18
23 220.0926348 9.569244992
24 6105.944704
Regresión
Residuos
Total
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
5.114515575 1.145804127 4.463691004 0.000177215 2.744239161
2.902704421 0.117040719 24.80080825 4.24118E-18 2.660587249
Intercepción
XServicios
X Servicios Curva de regresión ajustada
80.00
70.00
Y Tiempo
60.00
Y Tiempo
50.00
Pronóstico Y Tiempo
40.00
30.00
Lineal (Pronóstico Y
Tiempo)
20.00
10.00
0.00
0
5
10
15
20
25
X Servicios
En la gráfica observamos que al aumentar el número de servicios el tiempo de atención
aumenta.
USO DE MINITAB
Para determinar la función de regresión y correlación en Minitab se siguen los pasos
siguientes (después de cargar los datos correspondientes a X y a Y en las columnas C1 y
C2):
Página 30
CURSO TALLER DE MÉTODOS ESTADÍSTICOS

P. Reyes / julio 2013
Stat >Regresión ... Indicar la columna de Respuestas Y y la de predictores X y
aceptar con OK. Observar el valor del coeficiente de correlación y de
determinación.
Para obtener la línea de mejor ajuste de la regresión, se procede como sigue en Minitab:
 Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X,
seleccionar si se quiere ajustar con los datos con una línea, una función cuadrática
o cúbica y aceptar con OK. Observar el mayor valor del coeficiente de correlación
que indica el mejor ajuste.
 En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals
para X.
 En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals
 La gráfica de residuos debe apegarse a la recta y tener siempre un valor P value
>0.05.
Fitted Line Plot
Y Tiempo = 5.115 + 2.903 X Servicios
Regression
95% CI
95% PI
70
60
S
R-Sq
R-Sq(adj)
Y Tiempo
50
3.09342
96.4%
96.2%
40
30
20
10
0
0
5
10
X Servicios
15
20
Regression Analysis: Y Tiempo versus X Servicios
The regression equation is
Y Tiempo = 5.115 + 2.903 X Servicios
S = 3.09342
R-Sq = 96.4%
R-Sq(adj) = 96.2%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
1 5885.85 5885.85 615.08 0.000
Error
23
220.09
9.57
Total
24 6105.94
La regresión tiene una r^2 de 96.4% y la influencia de una variable X en Y es significativo.
Página 31
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Los intervalos de confianza para la media y el intervalo de predicción para un punto
específico X son los siguientes:
Sy  Se
1 ( Xi  X ) 2

n
SCx
*
IC. para. y!x  Y est  tSy
1 ( Xi  X ) 2
Syi  Se 1  
n
SCx
*
IP . para .Yx  Y est  tSyi
EJERCICIOS:
1. La energía consumida en un proceso depende del ajuste de máquinas que se
realice, realizar una regresión cuadrática con los datos siguientes y responder las
preguntas.
Cons_energía
Y
21.6
4
1.8
1
1
0.8
3.8
7.4
4.3
36.2
Ajuste
Máq.
X
11.15
15.7
18.9
19.4
21.4
21.7
25.3
26.4
26.7
29.1
a) Trazar un diagrama de dispersión
b) Obtener la ecuación de regresión lineal y cuadrática y comparar
c) Estimar el consumo de energía para un ajuste de máquina de 20 con regresión
cuadrática
d) Obtener los intervalos de predicción y de confianza para un ajuste de máquina de 20
e) Obtener el coeficiente de correlación y de determinación
2. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas en
una línea aérea. Las quejas son por cada 100000 pasajeros.
Página 32
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
%puntos
Aerolínea
A
B
C
D
E
F
G
H
X
81.8
76.6
76.6
75.7
73.8
72.2
70.8
68.5
P. Reyes / julio 2013
Quejas
Y
0.21
0.58
0.85
0.68
0.74
0.93
0.72
1.22
a) Trazar un diagrama de dispersión
b) Obtener la ecuación de regresión lineal
c) Estimar las quejas para un porcentaje de puntualidad de 80%
d) Obtener los intervalos de predicción y de confianza para una altura de 63"
e) Obtener el coeficiente de correlación y de determinación
Página 33
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 3. CÁLCULO DE PROBABILIDADES
3.1 Introducción
La probabilidad se refiere al estudio de la aleatoriedad y la incertidumbre en cualquier
situación donde podría ocurrir uno de varios resultados posibles. En algunos casos se
utiliza de manera informal, como por ejemplo: hay un 50% de probabilidad de que llueva.
Definiciones




Probabilidad: es la posibilidad numérica de ocurra un evento. Se mide con valores
comprendidos entre 0 y 1, entre mayor sea la probabilidad, más se acercará a uno.
Experimento: es toda acción bien definida que conlleva a un resultado único bien
definido como el lanzamiento de un dado. Es el proceso que produce un evento.
Espacio muestral: es el conjunto de todos los resultados posibles de un
experimento. Para un dado es SS = (1,2,3,4,5,6)
Evento: es cualquier colección de resultados contenidos en el espacio muestral. Es
simple si sólo tiene un resultado y compuesto si tiene varios resultados.
Definición Clásica de Probabilidad. Modelo de frecuencia relativa
La probabilidad de un evento (E), puede ser calculada mediante la relación del número de
respuestas en favor de E, y el número total de resultados posibles en un experimento.
P E  
# Favorable E
# Total resultados
1
 .16
6
1
Ejemplo 2: La probabilidad de lanzar una moneda y que caiga cara es:  .5
2
Ejemplo 3: La probabilidad de sacar 1,2,3,4,5, o 6 al lanzar un dado es:
Ejemplo 1: La probabilidad de que salga 2 al lanzar un dado es:
1 1 1 1 1 1
     1
6 6 6 6 6 6


La probabilidad de un evento está comprendida siempre entre 0 y 1. La suma de
las probabilidades de todos los eventos posibles (E) en un espacio muestral S = 1
Un espacio muestral (S): Es el conjunto Universal; conjunto de todos los “n”
elementos relacionados = # Total de resultados posibles.
Página 34
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Probabilidad Compuesta
Es la probabilidad compuesta por dos eventos simples relacionados entre sí.
En la composición existen dos posibilidades: Unión  o Intersección  .
 Unión de A y B
Si A y B son eventos en un espacio muestral (S), la unión de A y B  A  B contiene todos
los elementos delevento A o B o ambos.
 Intersección de A y B
Si A y B son eventos en un espacio muestral S, la intersección de A y B  A  B  está
compuesta por todos los elementos que se encuentran en A y B.
Relaciones entre eventos
Existen tres tipos de relaciones para encontrar la probabilidad de un evento:
complementarios, condicionales y mutuamente excluyentes.
1. Eventos complementarios: El complemento de un evento A son todos los elementos
en un espacio muestral (S) que no se encuentran en A. El complemento de A es:
A  1  P A
Ejemplo 4: En el evento A (día nublado), P(A) = .3, la probabilidad de tener un día
despejado será 1-P(A) = .7
P A  .7 
P(A)=.3
2. Probabilidad condicional: Para que se lleve a cabo un evento A se debe haber
realizado el evento B. La probabilidad condicional de un evento A dado que ha
ocurrido el evento B es:
P A B  
P A  B 
, si B  0
P B 
Página 35
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Ejemplo 5:
Si el evento A (lluvia) y B(nublado) = 0.2 y el evento B (nublado) = 0.3, cual
es la probabilidad de que llueva en un día nublado? Nota: no puede llover si no hay nubes
P A B  
P A  B 
=
P B 
0. 2
 0.67
0. 3
A
P(A/B)=.67
B
Ejemplo 6. Las razones de queja en productos se muestran a continuación:
En garantía
Fuera de
garantía
Total
Falla eléctrica
18%
12%
RAZÓN DE LA
QUEJA
Falla mecánica
13%
22%
Falla apariencia
32%
3%
Total
63%
37%
30%
35%
35%
100%
Si A es el evento de que la queja es por apariencia y que B representa que la queja ocurrió
en el periodo de garantía. Se puede calcular P(Z | B) = P(A y B) / P(B)
P(A | B) = 0.32 / 0.63 = 0.51
Si C es el evento fuera de garantía y D falla mecánica:
P(C|D) = P(C y D) / P(D) = 0.22 / 0.35 = 0.628
 Se dice que dos eventos A y B son independientes si: P(A/B) = P(A) o P(B/A) = P(B).
La probabilidad de la ocurrencia de uno no está afectada por la ocurrencia del otro. De
otra manera los eventos son dependientes.
Un ejemplo de evento independiente es: ¿Cuál es la probabilidad de que llueva en lunes?
El ejemplo de evento dependiente es el ejemplo 5.
Página 36
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Eventos mutuamente excluyentes.
Cuando un evento A no contiene elementos en común con un evento B, se dice que estos
son mutuamente excluyentes.
A
B
Eventos mutuamente excluyentes.
Ejemplo 7. Al lanzar un dado: a) cual es la probabilidad de que salga 2 o 3? B) Calcule
P A  B ?
a)
P A  B 
1 1 1
   .33
6 6 3
b) P A  B = 0, ya que al ser conjuntos mutuamente excluyentes la intersección no
existe, es imposible que salga 2 y 3 al mismo tiempo.
Ley aditiva:
 Cuando dos eventos no son mutuamente excluyentes:
P A  B  P A  PB  P A  B

Cuando los eventos son mutuamente excluyentes:
P A  B  P A  PB
Ley multiplicativa:
 Si los eventos A y B son dependientes:
P A  B  P A  PB A

Si los eventos A y B son independientes:
P A  B  P A  PB
Ejemplo 8: Se selecciona una muestra aleatoria n = 2 de un lote de 100 unidades, se sabe
que 98 de los 100 artículos están en buen estado. La muestra se selecciona de manera tal
que el primer artículo se observa y se regresa antes de seleccionar el segundo artículo
(con reemplazo), a) calcule la probabilidad de que ambos artículos estén en buen estado,
Página 37
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
b) si la muestra se toma sin reemplazo, calcule la probabilidad de que ambos artículos
estén en buen estado.
A: El primer artículo está en buen estado.
B: El segundo artículo está en buen estado.
a) Al ser eventos independientes el primero del segundo:
 98   98 
P A  B  P A  PB = 

  .9604
 100   100 
A
P(A) =.98
B
P(B) =.98
b) Si la muestra se toma “sin reemplazo” de modo que el primer artículo no se regresa
antes de seleccionar el segundo entonces:
 98   97 
P A  B  P A  PB A = 
     .9602
 100   99 
Se observa que los eventos son dependientes ya que para que para obtener el evento B,
se tiene que haber cumplido antes el evento A.
B
P(B/A)=.97
A
P(A) =.98
Página 38
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
EJERCICIOS:
1. Tres componentes forman un sistema. Como los componentes del subsistema 2-3 están
conectados en paralelo, trabaja si por lo menos uno de ellos funciona. Para que trabaje el
sistema debe trabajar el componente 1 y el subsistema 2-3.
a) ¿Qué resultados contiene un evento A donde funcionan exactamente dos de los tres
componentes?
b) ¿Qué resultados están contenidos en el evento B en el que por lo menos funcionan dos
los componentes?
c) ¿Qué resultados están contenidos en el evento C donde funciona el sistema?
d) Listar los resultados de C’, A o C, A y C, B o C y B y C.
2
1
3
2. En una planta los trabajadores trabajan 3 turnos. En los últimos años ocurrieron 200
accidentes. Algunos se relacionan con condiciones inseguras y otros a condiciones de
trabajo, como se muestra a continuación:
Turno
Diurno
Vespertino
Nocturno
Total
Condiciones inseguras Condiciones de
trabajo
10%
35%
8%
20%
5%
22%
23%
77%
Total
45%
28%
27%
100%
c) ¿Cuál es la probabilidad de que no haya ocurrido en el turno diurno?
3. La ruta que usa un automovilista tiene dos semáforos. La probabilidad de que pare en el
primero es de 0.4, la probabilidad de que pare en el segundo es de 0.5 y la probabilidad de
que pare por lo menos en uno es de 0.6. ¿Cuál es la probabilidad de que se detenga
a) En ambos semáforos?
b) En el primero pero no en el segundo?
c) Exactamente en un semáforo?
Página 39
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
4. Una empresa construye tres plantas eléctricas en tres lugares diferentes. Se Ai el evento
en el que se termina la planta i en la fecha del contrato. Utilizar las notaciones de unión,
intersección y complemento para describir cada uno de los siguientes eventos, en
términos de A1, A2 y A3, mostrar en diagramas de Venn.
a) Por lo menos una planta se termina en la fecha del contrato.
b) Todas las plantas se terminan en la fecha del contrato
c) Sólo se termina la planta del sitio 1 en la fecha del contrato
d) Exactamente se termina una planta en la fecha del contrato
e) Se termina ya sea la planta del lugar 1 o las otras dos en la fecha del contrato.
Técnicas de conteo
Supóngase que una persona tiene dos modos de ir de una ciudad A a otra ciudad B; y una
vez llegada a B, tiene tres maneras de llegar a otra ciudad C. ¿De cuántos modos podrá
realizar el viaje de A a C pasando por B?
a pie
CIUDAD A
en avión
CIUDAD B
en bicicleta
en carro
CIUDAD C
en trasatlántico
Evidentemente, si empezó a pie podrá tomar avión, carro o trasatlántico; y si empezó en
bicicleta, también podrá tomar avión, carro o trasatlántico.
Utilizando literales (las iniciales) el viajero tuvo las siguientes oportunidades: pa, pc, pt;
ba, bc, bt.
Que son 6; cada primera oportunidad contó con tres posibilidades.
Se tiene: 2 oportunidades X 3 posibilidades = 6 posibilidades.
Principio de conteo: Si un evento puede hacerse de a1 maneras diferentes, y cuando se ha
hecho, puede hacerse un segundo evento (independiente del primero) de a2 modos
diferentes y luego un tercer evento de a3 maneras también diferentes, y así
Página 40
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
sucesivamente, entonces el número de maneras diferentes en que los eventos se pueden
realizar , en el orden indicado es de:
a1  a2  a3 ....an
Ejemplo 9: ¿De cuántos modos podrá vestirse un joven que tiene 3 camisas diferentes, 4
pantalones y dos pares de calzado?
Solución: Primer evento (camisas) a1 = 3
Segundo evento ( pantalones) a2 = 4
Tercer evento (zapatos) a3 = 2
a1  a2  a3  3  4  2  24 modos diferentes.
PERMUTACIONES: Una permutación es un arreglo ordenado de una parte de los
elementos, o de todos los elementos de un conjunto.
Ejemplo 10: Dado el conjunto de las letras o, p, i, escribir todas las permutaciones
empleando las tres letras cada vez.
Solución: opi, oip, ipo, iop, pio, poi : son seis permutaciones posibles.
Ejemplo 11: ¿Y tomando dos letras solamente cada vez?
Solución: op, oi, io, ip, pi, po: son seis permutaciones.

En la mayoría de los casos resulta muy complicado hacer las permutaciones
manualmente por lo cual utilizamos la siguiente fórmula:
Prn 
n!
n  r  !
dónde:
n = número total de elementos del conjunto
P = Permutaciones
r = número de elementos que se toman a la vez.
! = factorial.
Nota: 0! = 1
Ejemplo 12: ¿Se toman 3 números de lotería de un total de 50, de cuantas formas se
pueden tomar los números?
Página 41
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
50 !
50 !

 (50  49  48)  117,600
50  3 ! 47 !
P350 
COMBINACIONES: Es el número de subconjuntos de r elementos que se puede formar de
un conjunto de n elementos, sin importar el orden de los elementos. Para determinar el
número de combinaciones posibles utilizamos:
Crn 
n!
n  r  ! r !
Ejemplo 13: Un entrenador de basket ball tiene 9 jugadores igualmente hábiles, ¿cuántas
quintetas podrá formar?
C59 
9!
 126
4 ! 5 !
Ejemplo 14: Se extraen 5 cartas de una baraja de 52 cartas. Hallar la probabilidad de
extraer (a) 4 ases, (b) 4 ases y un rey (c) 3 dieces y dos jotas,
 4 C4  48 C1  = 1
 52 C5 
54145
 C  C 
b) P (4 ases y 1 rey) = 4 4 4 1 
a) P(4 ases) =
52
c) P (3 dieces y 2 jotas) =
C5
1
649740
 4 C3  4 C2  
52
C5
1
108290
Teorema de bayes
Mediante el teorema de Bayes podemos calcular la probabilidad de que ocurra un
determinado evento, cuando no tenemos datos inmediatos del mismo mediante la
información que tenemos de otros eventos.
Cuando existen dos eventos posibles A y B, la probabilidad de que ocurra Z se describe
mediante el “teorema de probabilidad total” el cual es:
P(Z )  P A PZ APB PZ B
Mediante el teorema anterior se deduce el teorema de Bayes:
Página 42
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P A Z  
P. Reyes / julio 2013
P A  PZ A
P A  PZ APB   PZ B 
Ejemplo 8: En cierta universidad 20% de los hombres y 1% de las mujeres miden más de
1.80m de altura. Asimismo 40% de los estudiantes son mujeres. Si se selecciona un
estudiante al azar y se observa que mide más de 1.80m ¿Cual es la probabilidad de que
sea mujer?
Z > 1.80 m
A = Hombre
B = Mujer
P (A) = .60
P (B) = .40
P (Z/A) = .20
P (Z/B) = .01
HOMBRE
< 1.80
> 1.80
MUJER
.80
.99
.20
.01
=Z
Para encontrar la probabilidad de que sea mujer dado que mide más de 1.80,
Utilizando el teorema de Bayes:
P B Z  
PB   PZ B 
P A PZ APB  PZ B 
Hombre
P(B/Z) = (.4 x .01)/ (.6 x .20 +.4 x .01) = .032.
Podemos visualizar P(B/Z) en el siguiente diagrama:
Por lo tanto la probabilidad de que sea mujer dado
que mide más de 1.80 es .032 = 3.2 %
Página 43
Z > .80
P(A/Z)
Mujer
P(B/Z) = .032
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
EJERCICIOS:
1. Una planta emplea 20 trabajadores en el turno diurno, 15 en el segundo y 10 en la
noche. Se seleccionan 6 para hacerles entrevistas exhaustivas. Suponer que cada uno
tiene la misma probabilidad de ser seleccionado de una urna de nombres.
a) ¿Cuántas selecciones dan como resultado seis trabajadores del turno diurno?
b) ¿Cuál es la probabilidad de que los 6 trabajadores sean seleccionados del mismo turno?
c) ¿Cuál es la probabilidad de que por lo menos dos turnos diferentes estén representados
en la selección?
d) ¿Cuál es la probabilidad de que por lo menos uno de los turnos no esté representado en
la muestra de trabajadores?
2. Una caldera tiene 5 válvulas de alivio idénticas. La probabilidad de que que en algún
momento se abra una de ellas es de 0.95. Si su operación es independiente, calcular la
probabilidad de que por lo menos se abra una de ellas. Y la probabilidad de que por lo
menos no se abra una de ellas.
3. Dos bombas conectadas en paralelo fallan en determinado día, sin que haya
dependencia mutua. La probabilidad de que solo falle la bomba más vieja es de 0.10 y de
que falle la bomba más nueva es de 0.05. ¿Cuál es la probabilidad de que fallen ambas
bombas al mismo tiempo?
4. Un sistema de componentes conectados como se muestra en la figura. Los
componentes 1 y 2 en paralelo hacen que el subsistema funcione con uno solo, el sistema
funciona solo si también trabajan los componentes 3 y 4. Si los componentes son
independientes y la probabilidad de que cada componente funcione es de 0.9, calcular la
probabilidad de que funcione el sistema.
1
1
3
4
Página 44
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 4. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD
4.1 Definiciones
Variable aleatoria: Para un determinado espacio muestral SS una variable aleatoria (VA)
es cualquier regla que relaciona un número con cada resultado en SS.
Variable aleatoria de Bernoulli: Es cualquier variable aleatoria con valores 0 y 1.
Variable aleatoria discreta: Es una variable aleatoria cuyos posibles valores son enteros.
Variable aleatoria continua: Es una variable aleatoria cuyos valores posibles son los
reales.
Distribución de probabilidad o función de masa de probabilidad: Establece en una tabla,
fórmula o gráfica como se distribuye la probabilidad P(y) asociada a los posibles valores de
la variable aleatoria y.
Debe cumplir con las reglas siguientes:
1. 0 <= P(y) <= 1
2. Suma (P(y)) = 1
y
P(Y=y)
0
1/4
1
1/2
2
1/4
Su fórmula es la siguiente:
3 
P( y )  P(Y  y )   (.5)3 y (.5) y
 y
Valor esperado:
Página 45
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Función de distribución acumulativa:
FX ( x)  P( X  x)
Función de distribución acumulativa para Y=#de caras
0.9
F(x)
0.7
0.5
0.3
-0.2
0
0.3
0.8
1.3
1y
1.8
2
Con propiedades:
0  F ( x)  1
Lim x  F ( x)  1
Lim x  F ( x)  0
Valor esperado de una distribución de probabilidad discreta
La media o valor esperado de una variable aleatoria discreta X , denotada como E(X), es
 X  E ( X )   xf X ( x)  xP( X  x)
x
x
La media es el centro de la masa del rango de los valores de X.
Varianza de una distribución de probabilidad discreta
Sea Y una variable aleatoria discreta con distribución de probabilidades P(X=x). Entonces ,
la varianza de Y es:
 X 2  E[( X   X ) 2 ]   ( x   X ) 2 P( X  x)
x
Página 46
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
4.2 Distribuciones de probabilidad discretas
Distribución uniforme
La variable aleatoria toma un numero finito de n valores, cada uno con igual probabilidad.
f ( x)  P( X  x) 
1
n
Con n = 10 se tiene:
Su media y varianza son las siguientes:
X 
 X2 
(n  1)
2
n2 1
12
0.15
0.13
prob
0.11
0.09
0.07
0.05
0
2
4
6
8
x
Página 47
1e+001
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Distribución hipergeométrica
Se aplica cuando la muestra (n) es una proporción relativamente grande en relación con la
población (n > 0.1N). El muestreo se hace sin reemplazo
P(x,N,n,D) es la probabilidad de exactamente x éxitos en una muestra de n elementos
tomados de una población de tamaño N que contiene D éxitos. La función de densidad de
distribución hipergeométrica:
C xDCnNxD
P( x)
CnN
C xn 
Con
n!
x!(n  x)!
La media y la varianza de la distribución hipergeométrica son:

nD
N
 nD  D  N  n 
 2   1  

 N  N  N  1 
Ejemplo 1: De un grupo de 20 productos, 10 se seleccionan al azar para prueba. ¿Cuál es
la probabilidad de que 10 productos seleccionados contengan 5 productos buenos? Los
productos defectivos son 5 en el lote.
N = 20, n = 10, D = 5, (N-D) = 15, x = 5
P(x=5) = 0.0183 = 1.83%
 5!  15! 



5!0!  5!10! 

P(5) 
 0.0183
20!
10!10!
USO DE EXCEL:
N = Tamaño de Población, n = Tamaño de muestra, D= éxitos en la población; x = éxitos en
la muestra.
 En Fx Estadísticas seleccionar
 =distr.hipergeom(x, n, D, N)
USO DE MINITAB:
 Calc > Probability distributions > Hypergeometric
 Probability (densidad) o Cumulative probability (acumulada)
Página 48
CURSO TALLER DE MÉTODOS ESTADÍSTICOS

P. Reyes / julio 2013
N, D, n y en Input constant introducir x.
EJERCICIO:
1. Se compran 10 transformadores y se toma una muestra de 4. Si se encuentra uno o más
defectuosos se rechaza el lote de 10.
a) Si el lote tiene un defectuoso, ¿Cuál es la probabilidad de que se acepte el lote?
b) Cuál es la probabilidad de aceptar el lote si contiene 3 defectuosos.
Distribución binomal
Ensayo Bernoulli. Es un experimento aleatorio que solo tiene dos resultados. Éxito o
fracaso.
Donde la probabilidad de éxito se denota por p
Suponga se realizan n experimentos Bernoulli independientes. Suponga que la variable X
de interés es el número de éxitos. X toma valores 0,1,2,...,n
La distribución binomial se utiliza para modelar datos discretos y se aplica para
poblaciones grandes (N>50) y muestras pequeñas (n<0.1N). El muestreo binomial es con
reemplazamiento.
Es apropiada cuando la proporción defectiva es mayor o igual a 0.1.
La binomial es una aproximación de la hipergeométrica
La distribución normal se aproxima a la binomial cuando np > 5
La variable aleatoria x tiene una distribución binomial como sigue:
n
f ( x)  P( X  x)    p x (1  p) n x
 x
x  0,1,..., n
Con media y varianza:
E ( X )   X  np
V ( X )   X2  np(1  p)
Ejemplo 2: Un equipo requiere a lo más 10% de servicios en garantía. Para comprobarlo
se compran 20 de estos equipos y se someten a pruebas aceleradas de uso para simular el
uso durante el periodo de garantía. Obtener la probabilidad para P(x<=4).
Página 49
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Rechazar la afirmación de que falla menos del 10% si se encuentra que X>=5.
P(X>=5) = 1- P(X<=4) =1 - distr.binom(4,20,0.1,1) = 1 – 0.9568 = 0.0432 lo cual es bajo.
USO DE EXCEL:
x = éxitos en la muestra, p = probabilidad de éxito, n = tamaño de muestra.
 En Fx Estadísticas seleccionar
 =distr.binom(x, n, p, 0 o 1 dependiendo si es puntual o acumulada)
USO DE MINITAB:
 Calc > Probability distributions > Binomial
 Probability (densidad) o Cumulative probability (acumulada)
 n = number of trials, p = probability of success y en Input constant introducir x.
EJERCICIOS:
1. Un panel solar tiene una vida útil de 5 años con una probabilidad de 0.95. Se toman 20
páneles solares y se registró la vida útil.
a) ¿Cuál es la probabilidad de que exactamente 18 tengan su vida útil de 5 años?
b) ¿Cuál es la probabilidad de que cuando mucho 10 tengan esa vida útil?
c) ¿Si solo 10 paneles tienen una vida útil de 5 años, que debería pensarse sobre el valor
verdadero de P?
2. 20% de los teléfonos se reparan cuando todavía está vigente la garantía. De estos el
60% se reparan mientras que el 40% se reemplazan. Si una empresa compra 10 de estos
teléfonos, ¿Cuál es la probabilidad de que exactamente sean reemplazados 2 en periodo
de garantía?.
3. Suponga que solo 25% de los automovilistas se detienen por completo en un alto con
luz roja intermitente cuando no está visible otro automóvil. ¿Cuál es la probabilidad de
que de 20 automovilistas seleccionados al azar se detengan:
a) A lo sumo 6 se detengan por completo
b) Exactamente 6 se detengan por completo?
c) Al menos 6 se detengan por completo?
d) Cuántos de los siguientes 20 automovilistas se espera que se detengan por completo?
Página 50
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
4. De todas las plantas sólo el 5% descargan residuos por sobre la norma. Si se muestrean
20 plantas ¿Cuál es la probabilidad de que estén fuera de la ley:
a) Menos que una planta?
b) Menos de dos plantas
c) Exactamente 3
d) Más de una
Distribución de Poisson
La distribución de Poisson se utiliza para modelar datos discretos como aproximación a la
Binomial dada la dificultad que existía de encontrar tablas Binomiales adecuadas cuando n
es grande y p pequeña. La distribución de probabilidad de Poisson proporciona buenas
aproximaciones cuando np <= 5.
Se aproxima a la binomial cuando p es igual o menor a 0.1, y el tamaño de muestra es
grande (n > 16) por tanto np > 1.6.
Una Variable aleatoria X tiene distribución Poisson si toma probabilidades con.
e   x
f ( x) 
x!
x  0,1,...
Con media y varianza:
  np
    np
Ejemplo 3. Suponga que una compañía de seguros asegura las vidas de 5000 hombres de
42 años de edad. Si los estudios actuariales muestran que la probabilidad de que un
hombre muera en cierto año es 0.001, entonces la probabilidad de que la empresa pague
exactamente 4 indemnizaciones y= 4 en un cierto año es:
Página 51
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P( y  4)  p(4) 
P. Reyes / julio 2013
5000!
(0.001) 4 (0.999) 4996
4!*4996!
El valor de esta expresión no aparece en tablas y su cálculo era difícil, no así con Excel.
Aproximando con la distribución de Poisson, se toma la tasa media de sucesos = np =
(5000)*(0.001)= 5, teniendo:
P( y  4) 
4 e  
4!

5 4 e 5
 0.1745
4!
Ejemplo 4. Una planta tiene 20 máquinas, si la probabilidad de que falla una en cierto día
es 0.05. Encuentre la probabilidad de que durante un día determinado fallen dos
máquinas.
np = 20 *0.05 = 1.0
P( y  2) 
12 e1
 0.184
2!
Si se calcula con la distribución Binomial se tiene:
P( y  2)  p(2) 
20!
(0.05) 2 (0.95)18  0.188
2!*18!
La aproximación es mejor conforme se aproxima a np = 5.
La distribución de Poisson además de ser útil como aproximación de las probabilidades
Binomiales, constituye un buen modelo para experimentos donde Y representa el número
de veces que ha ocurrido un evento en una unidad dada de tiempo o de espacio, sólo se
requiere que los eventos sean independientes.
Por ejemplo:
Número de llamadas recibidas en un conmutador durante un día, dado promedio por día.
Número de reclamaciones en empresa de seguros por semana, con el promedio Semanal
Número de ventas hechas por un agente en un día, conociendo el promedio por día.
USO DE EXCEL:
x = éxitos en la muestra, np = media.
 En Fx Estadísticas seleccionar
 =Poisson(x, np, 0 o 1 dependiendo si es puntual o acumulada)
Página 52
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
USO DE MINITAB:
 Calc > Probability distributions > Poisson
 Probability (densidad) o Cumulative probability (acumulada)
 n*p = mean y en Input constant introducir x.
EJERCICIOS:
1. El 20% de los choferes son mujeres, si se seleccionan 20 al azar para una
encuesta:Usando la distribución binomial y la distribución de Poisson
a) ¿Cuál es la probabilidad de que dos choferes sean mujeres ?
b) ¿Cuál es la probabilidad de que al menos cuatro sean mujeres?
2. Se tienen 8 recepcionistas, estan ocupadas en promedio el 30% del tiempo, si 3 clientes
llaman ¿la prob. De que estén ocupadas es mayor al 50%?
3. Un proveedor de partes de bicicleta tiene 3% de defectos. Se compran 150 partes y si la
probabilidad de que 3 o más partes sean defectuosas excede al 50%, no se hace la
compra.
¿Qué sucede en este caso?.
4. En una universidad las llamadas entran cada 2 minutos
a) ¿Cuál es la cantidad esperada de llamadas en una hora?
b) ¿Cuál es la probabilidad de 3 llamadas en los sig. 5 minutos?
c) ¿Cuál es la probabilidad de no llamadas en los sig. 5 minutos?
d) ¿cuál es la prob. de recibir 10 llamadas en los sig. 15 minutos?
5. Un proceso de manufactura produce 1.2 defectos por cada 100 unidades producidas,
¿Cuál es la probabilidad de que las siguientes 500 unidades presenten X=3 defectos?
6. 40 trabajadores tienen nuevas computadoras, 26 con MMX. Si se seleccionan 10 al azar,
¿Cuál es la prob. De que 3 tengan la tecnología MMX?.
7. De un grupo de 20 productos, se toman 10 al azar,
¿Cuál es la probabilidad de contengan las 5 mejores unidades?
8. De 9 empleados diurnos sólo 6 están calificados para hacer su trabajo, si se seleccionan
aleatoriamente 5 de los 9 empleados, Cuál es la probabilidad de que:
a) Los 5 estén calificados
b) 4 esten calificados
c) Por lo menos 3 estén calificados
Página 53
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
4.3 Distribuciones de probabilidad continuas
Se diferencian de las distribuciones de probabilidad discretas en que su función de
distribución acumulativa (F(yo)) para una variable aleatoria y es igual a la probabilidad
F(yo) = P(y<=y0).
Si F(y) es la función de distribución acumulada para una variable aleatoria continua
entonces su función de densidad f(y) para y es:
f(y) = dF(y) / dy
Sus propiedades son que:
1. f(y) >= 0
2. Integral desde menos infinito a más infinito de f(y) d(y) = F(  ) = 1
f(y)
F(yo)
y
yo
Función de distribución acumulativa
Entre las distribuciones continuas más comunes se encuentran la distribución distribución
exponencial y la distribución normal.
Página 54
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Distribución exponencial
Se usa para modelar artículos con una tasa de falla constante y está relacionada con la
distribución de Poisson. Si una variable aleatoria x se distribuye exponencialmente,
entonces el recíproco de x, y = 1/x sigue una distribución de Poisson y viceversa.
La función de densidad de probabilidad exponencial es: Para x >= 0
f ( x)
1

e

x

 e  x
Donde Lambda es la tasa de falla y theta es la media.
La función de densidad de la distribución exponencial
El modelo exponencial, con un solo parámetro, es el más simple de todos los modelos de
distribución del tiempo de vida. Las ecuaciones clave para la exponencial se muestran:
CDF : F (t )  1  e
 t
CONFIABILIDAD : R(t )  e

PDF : f (t )  e t
MEDIANA :
0.0035
0.0025

0.0020
= 0.002, MEDIA = 500
= 0.001, MEDIA = 1,000
0.0015


0.693

1

= 0.003, MEDIA = 333
0.0030
1
ln 2
VARIANZA :
Función de Densidad de Probabilidad Exponencial
f(t)
MEDIA : m 
t
2
0.0010
0.0005
0.0000
0
TASA DE FALLA : h (t )  
Página 55
500
1,000
Tiempo
1,500
2,000
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Si el número de ocurrencias tiene Distribución de Poisson, el lapso entre ocurrencias tiene
distribución exponencial. Su función de distribución acumulada es la siguiente:
P( X  x)  1  e t
Cuando X = 0 la distribución de Poisson se convierte en el segundo término de la
distribución exponencial.
Probabilidad de que el tiempo entre la ocurrencia de dos eventos cualquiera sea <=
t
F(x)
t
Aquí se desea saber que no transcurra más de cierto tiempo entre dos llegadas, sabiendo
que se tiene una tasa de llegadas .
Ejemplo 5: El tiempo de respuesta de un departamento es de 5 minutos promedio y se
distribuye exponencialmente. La probabilidad de que el tiempo de respuesta a lo sumo de
10 minutos se determina como sigue:
P(X<=10) = F(10; 1/5) = 1- exp(-0.2*10) = 0.865
La probabilidad entre el tiempo de respuesta de 5 y 10 minutos es:
P(5<=X<=10) = F(10;1/5) – F(5; 1/5) = 0.233
USO DE EXCEL:
Lamda = 1/ media.
 En Fx Estadísticas seleccionar
 =distr.exp(x, lamda,1) = distr.exp(10,0.2,1) = 0.865
USO DE MINITAB:
 Calc > Probability distributions > Exponential
 Probability (densidad) o Cumulative probability (acumulada)
 Indicar Threshold = 0 y en Scale indicar la media 5
 En Input constant indicar la X del tiempo.
Exponential with mean = 5
Página 56
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
x
10
P. Reyes / julio 2013
P( X <= x )
0.864665
La Distribución Exponencial es usada como el modelo, para la parte de vida útil de la curva
de la bañera, i.e., la tasa de falla es constante. Los sistemas complejos con muchos
componentes y múltiples modos de falla tendrán tiempos de falla que tiendan a la
distribución exponencial
Desde una perspectiva de confiabilidad, es la distribución más conservadora para
predicción.
Las fallas ocurren en los sistemas con una distribución denominada Curva de la Bañera:
Fallas diseño
  tasa.de. falla.  cons tan te
Fallas infantiles
Senectud
Fallas aleatorias
Fallas por desgaste
La zona de tasa de fallas constantes, es modelada con La Distribución exponencial, muy
aplicada a la Confiabilidad, que es la probabilidad de que un equipo o componente
sobreviva sin falla hasta un periodo t bajo condiciones normales de operación:
R(t) = Confiabilidad de un sistema o componente
R(t )  e t
Donde  es la tasa media de falla y su inverso es el tiempo medio entre fallas (MTBF), o
sea:
1

MTBF
Ejemplo 6: El MTBF de un foco es de 10 semanas, por tanto = 0.1 fallas/semana y la
probabilidad de que el foco no falle o continúe en operación hasta las 15 semanas es:
R(15)  e0.1*15  0.223
y la probabilidad de que falle dentro de las 15 semanas es:
Página 57
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
P(15)  1  e0.1*15  0.777
EJERCICIOS:
1. Sea X el tiempo entre dos solicitudes de servicio sucesivas a un departamento, si X tiene
una distribución exponencial con media = 10, calcular:
a) El tiempo esperado entre dos solicitudes sucesivas.
b) La desviación estándar de esas llegadas
c) P(X<=15)
d) P(8<=X<=14)
2. Las falla de los ventiladores de un equipo tiene un tiempo promedio de 25,000 Horas,
¿cuál es la probabilidad de que
a) Un ventilador seleccionado al azar dure por lo menos 20,000 horas?
b) A lo sumo 30,000 horas?
c) Entre 20,000 y 30,000 horas?
3. Un fabricante de equipos electrónicos ofrece un año de garantía. Si el equipo falla en
ese periodo por cualquier razón se reemplaza. El tiempo hasta una falla está modelado
por la distribución exponencial:
f(x) = 0.125 exp(-0.125*x)
a) ¿Qué porcentaje de los equipos fallarán dentro del periodo de garantía?
b) El costo de fabricación del equipo es de $500 y la ganancia es de $250 ¿Cuál es el efecto
de la garantía por reemplazo sobre la ganancia?
4. El tiempo entre fallas de un componente de equipo es importante para proveer de
equipos de respaldo. Un generador eléctrico tiene una vida promedio de 10 días.
a) ¿Cuál es la probabilidad de que falle dentro de los siguientes 14 días?
b) ¿Cuál es la probabilidad de que opere por más de 20 días?
Página 58
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
La distribución normal
La distribución normal es una de las distribuciones más usadas e importantes. Se ha
desenvuelto como una herramienta indispensable en cualquier rama de la ciencia, la
industria y el comercio.
Muchos eventos reales y naturales tienen una distribución de frecuencias cuya forma es
muy parecida a la distribución normal.
La distribución normal es llamada también campana de Gauss por su forma acampanada.
Y


X
La Función de Distribución de Probabilidad (PDF) normal tiene forma de una campana con
simetría sobre su media definida por la siguiente ecuación:
f (t ) 
 1  t   2 
1
exp  
 
 2
 2    
Función de Densidad de Probabilidad Normal
0.0140
0.0120
 = 500
 = 30
 = 50
 = 70
f(t)
0.0100
0.0080
0.0060
0.0040
0.0020
0.0000
200
400
600
Tiempo
800
Página 59
1000
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
La desviación estándar
sigma representa la
distancia de la media al
punto de inflexión de la
curva normal
X
x-3
x-2
x-
x
x+
x+2
x+3
z
-3
-2
-1
0
1
2
3
Propiedades de la distribución normal estándar


La distribución normal o Distribución Gaussiana tiene forma de campana y es la más
conocida.
La distribución normal estándar tiene media  = 0 y desviación estándar  = 1. Su




Media = Mediana = Moda
El área bajo la curva o la probabilidad desde menos infinito a más infinito vale 1.
La distribución normal es simétrica, es decir cada mitad de curva tiene un área de 0.5.
La escala horizontal de la curva se mide en desviaciones estándar.
La forma y la posición de una distribución normal dependen de los parámetros  ,  ,
en consecuencia hay un número infinito de distribuciones normales.
Existe una relación del porcentaje de población a la desviación estándar. En la figura
observamos por ejemplo que el área bajo la curva para  1 tiene un porcentaje de
68.26%,  2 = 95.46% y  3  99.73%
-3s -2s -1s
+1s +2s +3s
68.26%
95.46%
99.73%
Página 60
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
La distribución de probabilidad f (Z) es una distribución normal estándar con media 0 y
desviación estándar 1; esto es Z se distribuye normalmente con media cero y desviación
estándar = 1 Z~N(0,1): La gráfica de densidad de probabilidad se muestra en la figura.
F(z)
  1
Z
0
La distribución f (Z) se encuentra tabulada en la tabla de distribución normal estándar o
se puede determinar con Excel. En esta tabla podemos determinar los valores de Z o la
probabilidad de determinado valor Z.
Nota: Excel proporciona el valor del área bajo la curva desde menos infinito hasta un valor
dado de Z.
F(z)=pr(Z z)
1.0
0.5
.01
Z
-4
-3
-2
-1
0
1
Forma de la Distribución Normal acumulada
Página 61
2
3
4
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
La población incluye todos los datos, la muestra es una porción de la población.
Población
Muestra







x-3s
x-2s
x-s
x
x+s
x+2s
x+3s
X
El valor de Z
Determina el número de desviaciones estándar  entre algún valor X y la media de la
población  Para calcular el valor de Z usamos la siguiente fórmula.
Z
X 

Cálculo de Probabilidades normales
1. Identificar la variable de interés.
2. Identificar los parámetros de la variable (su media y desv. estándar).
3. ¿Cuál es la pregunta sobre el área bajo la curva de probabilidad normal?
4. Convertir los valores a la distribución normal estándar (estandarización
Media)/S) .
5. Encuentre la probabilidad en tabla de la normal estándar o por Excel.
Z = (X-
Ejemplo 7: El gerente de personal de una gran compañía requiere que los solicitantes a un
puesto efectúen cierta prueba y alcancen una calificación de 500. Si las calificaciones de la
prueba se distribuyen normalmente con media   485 y desviación estándar   30
¿Qué porcentaje de los solicitantes pasará la prueba?
Calculando el valor de Z obtenemos:
X   500  485
=
Z
 0.5

30
Buscamos el valor correspondiente Z en las tablas de distribución normal estándar o por
medio de Excel (=distr.norm.estand(0.05). Z0.5 = 0.69146 = 69.146%. siendo esta la
485
30.85%
Z.05
Página 62
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
probabilidad de que la calificación sea menor a 500 P (X<500). Dado que el porcentaje
pedido es P( X  500) la solución es 1-.69146 =0.3085 , 30.85% de los participantes
pasarán la prueba.
Ejemplo 8:
Encuentre las probabilidades siguientes usando la tabla Z.
a) P(-1.23 < Z > 0)
Z
-1.23
0
Solución: Buscamos el valor Z1..23 en las tablas siendo este =0.89065. restando
0.89065-0.5 = 0.3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la
misma de –1.23 a 0 por simetría. Por lo tanto la probabilidad es 0.3905
USO DE EXCEL

Para calcular la probabilidad dado un valor Z procedemos de la siguiente manera:
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand. OK

Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de clic
en aceptar y aparecerá la probabilidad buscada f(z)= 0.903199
 Para calcular Z dada una probabilidad f(z)
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand.inv OK
De clic en aceptar. Procedemos de la misma manera que en el caso anterior, pero en
esta ocasión seleccionamos la probabilidad 0.93319
El valor Z = 1.4999

Cuando no tenemos valores de Z ni probabilidad.
Ejemplo 9 : Suponga que una distribución normal dada tiene una media de 20 y una
desviación estándar de 4. Calcule la probabilidad P (X > 24).
Página 63
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand. OK
El sistema muestra la siguiente ventana, en la cual llenamos los siguientes datos:
El resultado de la fórmula = 0.8413. , dado que esta es la probabilidad P(X  24), la
probabilidad buscada es:
P (X > 24) = 1-.8413= .1587
USO DE MINITAB
Para cálculos utilizando el paquete Minitab, usar:
1. Calc >Probability Distributions >Normal
DISTRIBUCIÓN NORMAL ESTÁNDAR (con Z):
2. Indicar Cumulative Distribution o inverse Cumulative Distribution (dando valores
de Z se obtienen valores de área) o Inverse Cumulative Distribution (dando áreas
proporciona los valores de Z).
3. Dejar los parámetros de Mean Mu=0 y Estándar deviation Sigma = 1.
4. En Input constant indicar el valor de Z (cumulative) para obtener el área bajo la
curva o proporcionar el área bajo la curva (Inverse cumulative) para obtener el
valor de Z. OK
Página 64
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
5. Si se especifica una columna Cx para almacenamiento de los resultados, estos no
se muestran automáticamente, para verlos es necesario ejecutar la opción
>Manip >Display Data
DISTRIBUCIÓN NORMAL (con datos reales y X):
6. Indicar Cumulative Distribution o inverse Cumulative Distribution (dando valores
de X se obtienen valores de área) o Inverse Cumulative Distribution (dando áreas
proporciona los valores de X).
7. Introducir los valores de los parámetros de la media en Mean y la sigma en
Estándar deviation.
8. En Input constant indicar el valor de X (cumulative) para obtener el área bajo la
curva o proporcionar el área bajo la curva (Inverse cumulative) para obtener el
valor de X. OK
9. Si se especifica una columna Cx para almacenamiento de los resultados, estos no
se muestran automáticamente, para verlos es necesario ejecutar la opción
>Manip o Data >Display Data
Página 65
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
EJERCICIOS:
1. ¿Qué porcentaje del área bajo la curva normal estándar está incluido dentro de los
siguientes rangos?
a) P(1.2 <= Z <= 2.2):
b) P(-2.1 <= Z <= -0.4)
c) P( -1.3 <= Z <= 2.7)
d) P( Z >= 2.4)
e) P( Z<-2.9) + P(Z>3.1)
f) P(Z>= 1.9)
2. El tiempo de vida de las baterías del conejito tiene una distribución aproximada a la
normal con una media de 85.36 horas y una desviación estándar de 3.77 horas.
a) ¿Qué porcentaje de las baterías se espera que duren 80 horas o menos?
b) ¿Cuál es la probabilidad de que una batería dure entre 86.0 y 87.0 horas?
c) ¿Cuál es la probabilidad de que una batería dure más de 88 horas?
3. Considere una media de peso de estudiantes de 75 Kgs. con una desviación estándar de
10Kgs.
a) ¿Cuál es la probabilidad de que un estudiante pese más de 85Kgs.?
b) ¿Cuál es la probabilidad de que un estudiante pese menos de 50Kgs.?
c) ¿Cuál es la probabilidad de que pese entre 60 y 80 Kgs.?.
d) ¿Cuál es la probabilidad de que pese entre 55 y 70 Kgs.?
e) ¿Cuál es la probabilidad de que pese entre 85 y 100Kgs.?
4. Una máquina llenadota de refresco se ajusta para servir 10 onzas de líquido por vaso, si
la desviación estándar es de 0.12 onzas. ¿Cuál es la probabilidad o porcentaje de las veces
de que la máquina sirva:
a.
b.
c.
d.
e.
10.2 onzas o más?
Entre 10.1 y 10.3 onzas?
Entre 9.7 y 10.3 onzas?
Menos de 9.8 onzas?
Entre 9.8 y 9.9 onzas?
Página 66
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 5. INTRODUCCIÓN AL MUESTREO
7.1 El problema de la aceptación por muestreo
Si se recibe un lote de un proveedor, se toma una muestra y se evalúan algunas de las
características del producto, en base a los resultados se toma una decisión sobre la
disposición del lote, ya sea aceptados para su uso en producción, o rechazados para que el
proveedor tome acciones.
Muestreo aleatorio estadístico
Muestra n
Lote N
Proceso de inspección por muestreo
Hay 3 aspectos importantes del muestreo:
1. Su propósito es calificar los lotes, no estimar los parámetros del lote.
2. No proporcionan un mecanismo de control de calidad, simplemente aceptan o
rechazan lotes.
3. Sirven como herramienta de auditoría para segurar que la calidad de un lote esté de
acuerdo a especificaciones.
Existen 3 alternativas para calificar un lote:
1. Aceptar sin inspección. Con proveedores confiables.
2. Inspeccionar al 100%, separando los productos defectuosos.
3. Realizar un muestreo de aceptación.
La aceptación por muestreo es más útil en las situaciones siguientes:
1. Cuando las pruebas son destructivas.
Página 67
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2. Cuando el costo de la inspección 100% es muy alto.
3. Cuando la inspección 100% es muy tardada.
4. Cuando las cantidades a inspeccionar 100% son muy altas y con tasa de defectos baja,
que haga que se causen errores al inspeccionar, dejando pasar productos defectuosos.
5. Cuando el proveedor no es confiable al 100%, o su capacidad de proceso es baja.
6. Cuando hay riesgo de generar problemas legales por productos críticos.
VENTAJAS Y DESVENTAJAS DEL MUESTREO
Cuando se utiliza inspección por muestreo, se tienen las ventajas siguientes:
1. Es más barato, requiriendo menos inspección.
2. Existe un menor manejo de producto o menor daño.
3. Se aplica a pruebas destructivas.
4. El rechazar un lote completo en lugar de sólo las partes defectivas, motiva al
proveedor a mejorar su calidad.
El muestreo de aceptación también presenta varias desventajas:
1. Existe el riesgo de “aceptar” lotes malos y de “rechazar” lotes buenos.
2. La información que se genera respecto al producto o proceso es poca.
3. El muestreo de aceptación requiere documentación y planeación, no así la inspección
100%.
TIPOS DE PLANES DE MUESTREO
Existen diversas clasificaciones de estos planes, una de ellas es la de variables y atributos.
Una característica se expresa en variables si se puede medir, o en atributos si se califica
como “pasa no pasa”.
Un plan de muestreo simple es un procedimiento de calificación de lotes, donde se toma
una muestra aleatoria de n partes y la disposición del lote es determinada dependiendo
de los resultados de la muestra, aceptándose si se encuentran hasta c productos
defectivos.
FORMACIÓN DE LOTES
Para inspección de lotes, estos deben cumplir las características siguientes:
1. Deben ser homogéneos, las unidades deben ser producidas por las mismas corridas de
producción, en condiciones similares. Es difícil tomar acciones correctivas para lotes
mezclados.
Página 68
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2. Lotes grandes son preferibles a lotes pequeños, dado que la inspección es más
eficiente.
3. Los lotes deben manejarse en forma similar con el proveedor y con el cliente, las
partes deben estar empacadas adecuadamente para evitar riesgos de daño y permitir
la selección de muestra en forma sencilla.
MUESTREO ALEATORIO
Las muestras deben ser representativas del lote, no deben tomarse sólo partes de las
capas superiores, sino de preferencia numerar las partes con un número y seleccionar con
tablas de números aleatorios o también se puede estratificar el lote.
El muestreo de aceptación se utiliza mientras se mejora la calidad con el proveedor.
7.2 Muestreo simple por atributos
Un plan de muestreo simple se define por su tamaño de muestra n y el número de
aceptación c. El tamaño del lote se especifica como N.
Por ejemplo si se tiene el plan:
N=10,000
n=89
c=2
Significa que de cada lote de 10,000 partes se toman al azar n=89 para inspección, si el
número de productos defectivos observados en la muestra d es menor o igual a c = 2, el
lote se acepta, en caso contrario se rechaza.
La curva característica de operación OC
La curva característica de operación (OC) muestra la probabilidad de aceptar el lote (Pa o
 en el eje Y), versus la fracción defectiva media en el lote (p en el eje X), mostrando la
potencia de discriminación del plan de muestreo.
Pa
1
0.8
0.5
0.3
0.1
Curva característica de
Operación dado una
Tamaño de muestra n
y un criterio de aceptación c
0.05 0.1 0.15
0.2 0.25
0.3
Página 69
p Prov.
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
La curva característica de operación se obtiene graficando p versus la probabilidad
binomial de encontrar y aceptar a lo más c defectivos o sea:
c
n!
(7.1)
Pa  P{d  c)  
p d (1  p) n  d
d
!
(
n

d
)!
d 0
Esto mismo se puede aproximar por la distribución de Poisson para efectos prácticos.
Se puede usar Excel para los cálculos, un ejemplo utilizando la distribución binomial
acumulada (opción VERDADERA en Excel) se muestra a continuación:
Binomial=distr.binom(c, n, p, 1) ó Poisson=Poisson(c, n*p, 1)
p
P(A<x<X)
0.01
0.91
0.02
0.736
0.03
0.555
0.9
0.04
0.400
0.8
0.05
0.279
0.06
0.190
0.07
0.126
0.08
0.083
0.5
0.09
0.053
0.4
0.1
0.034
0.11
0.021
0.12
0.013
0.13
0.008
0.1
0.14
0.005
0
0.15
0.003
0.16
0.002
0.17
0.001
0.18
0.001
0.19
0.000
0.2
0.000
P(A<x<X)
1
0.7
0.6
0.3
0.2
0.19
0.18
0.17
0.16
0.15
0.14
0.13
0.12
0.11
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.2
0.01
Pa
p
Traza la curva OC Tipo B para el plan de muestreo ùnico n=50 y c=1.
En este caso si los lotes tienen un 2% de defectivo, su probabilidad de aceptación es de
0.74. Significa que de cada 100 lotes recibidos, se aceptarán 74 y se rechazarán 26.
A continuación se muestran algunas variaciones de la curva característica de operación
variando tanto como el criterio de aceptación c manteniendo n constante y después
manteniendo c como constante y variando n.
Manteniendo n constante y variando c se tiene:
n = 89, n = 89 n = 89,
p
c=0
c=1
c =2
0.01
0.64 0.93
0.99
0.01
0.41 0.78
0.94
Página 70
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.17
0.07
0.03
0.01
0.00
0.00
0.00
0.00
0.47
0.25
0.12
0.06
0.03
0.01
0.01
0.00
P. Reyes / julio 2013
0.74
0.50
0.30
0.17
0.09
0.05
0.02
0.01
Pa
c=0, 1,
2
P (fracción defectiva en el lote)
Curvas características de operación diversas para n = 89 y c = variable
Para el caso en que lo que se varíe sea n se tiene:
p
0.005
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
n = 50,
c=2
0.997944
0.986183
0.921572
0.810798
0.676714
0.540533
0.416246
0.310789
0.225974
0.16054
n
=
100, c
=2
0.9859
0.9206
0.6767
0.4198
0.2321
0.1183
0.0566
0.0258
0.0113
0.0048
n = 200,
c=2
0.920161
0.676679
0.235148
0.059291
0.012489
0.002336
0.0004
6.40E-05
9.66E-06
1.39E-06
Página 71
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Pa
n=50, 100, 200
2
p (fracción defectiva en el lote)
Curvas características de operación diversas para n = variable y c =2
Puntos específicos en la curva OC
Un consumidor frecuentemente fija de común acuerdo con su proveedor, un nivel de
calidad aceptable (AQL), que representa el nivel más pobre de calidad que el consumidor
considera aceptable como promedio, fracción defectiva que tiene alta probabilidad de ser
aceptada. Por otra parte el consumidor quiere rechazar los lotes en la mayoría de los
casos cuando tengan una fracción defectiva de a lo más un porcentaje defectivo tolerable
en el lote (LTPD), normalmente esta fracción defectiva corresponde a una probabilidad de
aceptación del 10% o rechazo del 90% de las veces. También se el denomina Nivel de
Calidad Rechazable.
Inspección rectificadora
Los programas de aceptación por muestreo normalmente requieren acción correctiva
cuando los lotes son rechazados, de tal forma que el proveedor los selecciona al 100%
remplazando los artículos defectivos por buenos. Esta actividad se denomina inspección
rectificadora por su impacto en la calidad de salida final hacia la planta.
Entrada de 100
lotes de cierto
proveedor con
N=10,000 y
Pa
n =200
c=1
9 lotes son
aceptados a pesar
de tener un 2%
defectivo:
Es decir ingresan
p = 0.02
P=0.02
88,820 piezas OK
Y 1800 piezas KO
91 lotes son
rechazados y
seleccionados
por el
proveedor,
deja 910,000
piezas OK
Total de piezas OK
AOQ
Alm.
998,820
Piezas defectivas
1,800
0.18% AOQ
Inspección rectificadora (las piezas malas son reemplazadas y reintegradas al lote)
Página 72
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Suponiendo que los lotes que llegan tienen una fracción defectiva p0 , después de la
actividad de inspección bajo un plan de muestreo, algunos lotes serán aceptados y otros
serán rechazados. Los lotes rechazados serán seleccionados al 100% por el proveedor
remplazando los artículos defectuosos por buenos después se integran a los lotes que
ingresan a la planta obteniéndose una fracción defectiva p 1 menor a la original,
denominada calidad promedio de salida AOQ, en lotes de tamaño N se tiene:
1. n artículos de la muestra no contienen defectivos.
2. N-n artículos los cuales si el lote se rechazó no contenían defectivos.
3. N-n artículos los cuales si el lote se acepta contienen p(N-n) defectivos.
Así los lotes después del proceso rectificador, contienen un número esperado de
defectivos igual a Pap(N-n) con la cual se puede expresar una fracción defectiva media
AOQ como sigue,
AOQ 
Pa p( N  n)
N
Ejemplo: Suponiendo que N=10,000, c=2 y que la calidad de entrada p=0.01.
Como en la curva característica de operación (para n=89, c=2) cuando p=0.01, Pa = 0.9397,
entonces el AOQ es:
Pa p( N  n) (0.9397)(0.01)(10000  89)

 0.0093
N
10000
AOQ  0.93% en lugar del 1% entrante.
AOQ 
Cuando N es grande respecto al tamaño de muestra n, se tiene,
AOQ  Pa p
La curva de AOQ versus p se muestra a continuación:
Página 73
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
p
P(A<x<X)
AOQ
0.001667
1.00
0.002
0.003333
0.99
0.003
0.005000
0.96
0.005
0.006667
0.92
0.006
0.008333
0.87
0.007
0.010000
0.81
0.008
0.011667
0.74
0.009
0.013333
0.68
0.009
0.015000
0.61
0.009
0.016667
0.54
0.009
0.018333
0.48
0.009
0.020000
0.42
0.008
0.021667
0.37
0.008
0.023333
0.32
0.007
0.025000
0.27
0.007
0.004
0.026667
0.23
0.006
0.003
0.028333
0.20
0.006
0.030000
0.17
0.005
0.031667
0.14
0.005
0.033333
0.12
0.004
0.035000
0.10
0.004
0.01
CURVA AOQ
0.036667
0.08
0.003
Fracción defectiva en el lote
0.038333
0.07
0.003
0.040000
0.06
0.002
0.041667
0.05
0.002
0.043333
0.04
0.002
0.045000
0.03
0.001
0.046667
0.03
0.001
0.048333
0.02
0.001
0.050000
0.02
0.001
Pa Probabilidad de aceptación del lote teniendo una fracción defectiva p
AOQ
0.01
AOQL
0.009
0.008
0.007
0.006
0.005
0.002
0.001
n=89, c=2
Curva de calidad de salida promedio (AOQ)
De la gráfica anterior se observa que la curva AOQ tiene un valor máximo o la peor
fracción defectiva de salida hacia la planta o proceso, que se denomina límite de calidad
de salida promedio AOQL el cual es aproximadamente 0.0155 o 1.55% defectivo.
7.3 Tablas de muestreo MIL-STD-105E (ANS Z1.4, ISO 2859)
La norma proporciona tres tipos de muestreo (con curvas OC equivalentes):
-
Muestreo simple.
Muestreo doble.
Muestreo múltiple
En cada uno de los casos se prevén los siguientes tipos de inspecciones:
-
Inspección normal.
Inspección estricta.
Inspección reducida.
Página 74
0.05
0.05
0.05
0.05
0.04
0.04
0.04
0.04
0.04
0.04
0.03
0.03
0.03
0.03
0.03
0.03
0.02
0.02
0.02
0.02
0.02
0.02
0.01
0.01
0.01
0.01
0.01
0
0
0
p
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Se inicia con la inspección normal, se pasa a estricta cuando se observa mala calidad del
proveedor y se usa la reducida cuando la calidad del proveedor es buena, reduciendo
los tamaños de muestra.
El punto focal de la norma es el AQL (nivel de calidad aceptable entre 0.1% y 10%),
negociado entre cliente y proveedor. Los valores típicos de AQL para defectos mayores
es de 1%, 2.5% para defectos menores y 0% para defectos críticos. Cuando se utiliza
para planes de defectos por unidad se tienen 10 rangos adicionales de AQLs hasta
llegar a 1000 defectos por cada 100 unidades, los noveles pequeños de AQL se pueden
utilizar tanto para controlar fracción defectiva como defectos por unidad.
El tamaño de muestra en el estándar está determinado por el tamaño del lote y por la
selección del nivel de inspección. Se proporcionan tres niveles de inspección, donde el
nivel II se considera normal; el nivel I requiere alrededor de la mitad de la inspección
del nivel II y se usa cuando se requiere menos discriminación; el nivel III requiere
alrededor del doble de inspección del nivel II, y se usa cuando se requiere más
discriminación. Hay también cuatro niveles especiales de inspección, S-1, S-2, S-3 y S-4,
estos usan tamaños de muestra muy pequeños y sólo deben usarse cuando los riesgos
grandes del muestreo sean aceptables.
Para un AQL específico, un nivel de inspección y un tamaño de lote dado, el estándar
MIL-STD-105E proporciona un plan de muestreo normal que se utilizará conforme el
proveedor produzca productos con calidad AQL o mejor. También proporciona un
mecanismo de cambio de cambio a inspección estricta o reducida como se ilustra en la
figura y se describe a continuación.
1.
Normal a estricta. Cuando se tiene inspección normal, la inspección estricta se
instituye cuando cuándo dos de cinco lotes consecutivos han sido rechazados.
2.
Estricta a normal. Cuando se tiene inspección estricta, la inspección normal se
instituye cuando cinco lotes consecutivos son aceptados.
3.
Normal a reducida. Cuando se tiene inspección normal, la inspección reducida se
instituye cuando se cumple con todas las condiciones siguientes:
a. Diez lotes consecutivos han sido aceptados con inspección normal.
Página 75
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
b. El número total de defectivos en las muestras de los diez lotes precedentes es
menor o igual a el número límite aplicable del estándar.
c. La producción de lotes ha sido continua sin interrupciones mayores.
d. La inspección reducida se considera adecuada por la función responsable de la
inspección por muestreo.
4.
Reducida a normal. Cuando se tiene inspección reducida, la inspección normal se
instituye cuando se cumple cualquiera de las condiciones siguientes:
a. Un lote es rechazado.
b. Cuando el procedimiento de muestreo termina sin decisión de aceptación o
rechazo, el lote se acepta pero se cambia a inspección normal en el próximo lote.
c. La producción es irregular o se retarda en entregas.
d. Otras condiciones que fuercen a cambiar a la inspección normal.
5.
La Inspección se descontinúa. Cuando diez lotes se acepten con inspección estricta y
el proveedor tome acciones para mejorar su calidad.
Iniciando las reglas para el Sistema ANSI Z1.4



INICIO
10 lotes aceptados
Producción regular
Aprobado por la autoridad
responsable.
Reducido
2 de 5.
Lotes consecutivos.
No aceptados.
Estricto
Normal




Se rechaza un Lote
Lotes aceptados con no
conformidades encontrándose entre
Ac y Re del plan, o
Producción irregular
Otras condiciones de detección.
5 consecutivos.
Lotes aceptados
10 Lotes consecutivos aceptados
Inspección discontinua con Z1.4
Reglas de cambio de planes de inspección
Página 76
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
1.2
1
0.8
0.6
0.4
0.2
0
0.00 0.01 0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.03 0.04 0.04 0.04 0.05 0.05
Normal
Rigurosa
Reducida
Comparación entre los planes normal, reducido y estricto
PROCEDIMIENTO
Los pasos a seguir para el uso de las normas es el siguiente:
1.
2.
3.
4.
Negociación del AQL (cliente – proveedor).
Decisión del nivel de inspección.
Determinación del tamaño del lote.
Consultar la tabla 1 (ver apéndice) y localizar la letra código correspondiente al
tamaño del lote y el nivel de inspección.
5. Decisión en cuanto al procedimiento de muestreo a utilizar (simple, doble, múltiple).
6. Uso de la tabla correcta para encontrar el tipo de plan a utilizar (las tablas se
encuentran en el apéndice).
7. Uso de la tablas para inspección reducida y estricta, cuando se requieran hacer
cambios.
Ejemplo: Si N= 2,000 y AQL= 0.65% usando el nivel II de inspección:
1. La tabla I indica la letra código K.
2. La tabla II-A para inspección normal indica el plan de muestreo n=125 y c=2.
3. La tabla II-B para inspección estricta indica el plan de muestreo n= 125, c=1.
La flecha descendente cambia la c, la letra de código y el tamaño de muestra, lo mismo
para la ascendente. Por ejemplo, un AQL de 1.5% y letra F será cambiado a letra G con
tamaño de muestra 32 en lugar de 20.
Página 77
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Letras código para el tamaño de muestra
MIL-STD-105E
Lote
2-8
9-15
16-25
26-50
51-90
91-150
151-280
281-500
501-1 200
1 201-3 200
3 201-10 000
10 001-35 000
35 001-150 000
150 001-500 000
500 001 -----
Niveles de inspección especiales
S-1
S-2
S-3
S-4
A
A
A
A
A
A
A
A
A
A
B
B
A
B
B
C
B
B
C
C
B
B
C
D
B
C
D
E
B
C
D
E
C
C
E
F
C
D
E
G
C
D
F
G
C
D
F
H
D
E
G
J
D
E
G
J
D
E
H
K
Niveles de inspección generales
I
II
III
A
A
B
A
B
C
B
C
D
C
D
E
C
E
F
D
F
G
E
G
H
F
H
J
G
J
K
H
K
L
J
L
M
K
M
N
L
N
P
M
P
Q
N
Q
R
Tabla de inspección normal II-A
Letra código
para tamaño
de muestra
A
B
C
Tamaño de
muestra
2
3
5
D
E
F
8
13
20
G
H
J
32
50
80
K
L
M
125
200
315
N
P
Q
500
800
1250
R
2000
0.01
Ac Re
0.015 0.025
0.04
Ac Re Ac Re Ac Re
Niveles de calidad aceptables AQL (%)
0.065
0.1
0.15
0.25
0.4
0.65
Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re
1
Ac Re
1.5
Ac Re
2.5
Ac Re
4
Ac Re
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
1 2
2 3
3 4
5 6
3 4
5 6
7 8
5 6
7 8
10 11
7 8
10 11 14 15
10 11 14 15 21 22
5 6
7 8
10 11 14 15 21 22
7 8
10 11 14 15 21 22
10 11 14 15 21 22
1 2
1 2
1 2
2 3
2 3
3 4
5 6
3 4
5 6
7 8
2 3
3 4
5 6
7 8
10 11 14 15 21 22
Usar el primer plan de muestreo debajo de la flecha
Ac
Número de aceptación
Usar el primer plan de muestreo arriba de la flecha
Re
Número de rechazo
0 1
0 1
1 2
Página 78
3 4
5 6
7 8
1 2
2 3
3 4
1 2
2 3
3 4
0 1
2 3
3 4
5 6
1 2
2 3
3 4
1 2
2 3
0 1
1 2
2 3
1 2
2 3
0 1
0 1
1 2
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Tabla de inspección rigurosa II-B
Letra código
para tamaño Tamaño de
de muestra muestra
A
2
B
3
C
5
D
8
E
13
F
20
G
32
H
50
J
80
K
125
L
200
M
315
N
500
P
800
Q
1250
R
2000
S
3150
Niveles de calidad aceptables AQL (%)
0.01 0.015 0.025 0.04 0.065
0.1
0.15
0.25
0.4
0.65
1
1.5
2.5
4
Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
1 2
1 2
2 3
1 2
2 3
3 4
1
2
3
5
2
3
4
6
1
2
3
5
8
2
3
4
6
9
1 2
0 1
1 2
2 3
1 2
2 3
3 4
1 2
2 3
3 4
5 6
1 2
2 3
3 4
5 6
8 9
2 3
3 4
5 6
8 9
12 13
3 4
5 6
8 9
12 13 18 19
5 6
8 9
12 13 18 19
8 9
12 13 18 19
12 13 18 19
1 2
2 3
3 4
5 6
8 9
12 13
18 19
1 2
Usar el primer plan de muestreo debajo de la flecha
Ac
Número de aceptación
Usar el primer plan de muestreo arriba de la flecha
Re
Número de rechazo
Tabla de inspección reducida II-C
Letra código
para tamaño Tamaño de
de muestra muestra
A
2
B
2
C
2
D
3
E
5
F
8
G
13
H
20
J
32
K
50
L
80
M
125
N
200
P
315
Q
500
R
800
0.01
Ac Re
0.015 0.025
0.04
Ac Re Ac Re Ac Re
Niveles de calidad aceptables AQL (%)
0.065
0.1
0.15
0.25
0.4
0.65
Ac Re Ac Re Ac Re Ac Re Ac Re Ac Re
1
Ac Re
1.5
Ac Re
2.5
Ac Re
4
Ac Re
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 1
0 2
0 2
1 3
0 2
1 3
1 4
0
1
1
2
2
3
4
5
0
1
1
2
3
2
3
4
5
6
0
1
1
2
3
5
2
3
4
5
6
8
0
1
1
2
3
5
7
2
3
4
5
6
8
10
0 2
1 3
1 4
2 5
3 6
5 8
7 10
10 13
Usar el primer plan de muestreo debajo de la flecha
Ac
Número de aceptación
Usar el primer plan de muestreo arriba de la flecha
Re
Número de rechazo
0 2
1 3
1 4
2 5
3 6
5 8
7 10
10 13
0 2
1 3
1 4
2 5
3 6
5 8
7 10
10 13
0 2
1 3
1 4
2 5
3 6
5 8
7 10
10 13
0 2
1 3
1 4
2 5
3 6
5 8
7 10
10 13
NOTA: Si se ha excedido el número de aceptación, sin alcanzar el número de rechazo, aceptar el lote pero regresar a la inspección normal
Tablas de muestreo simple por atributos
Página 79
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 6. ESTIMACIÓN DE PARÁMETROS
6.1 Introducción
La inferencia estadística es el proceso mediante el cual se utiliza la información de los
datos de una muestra para extraer conclusiones acerca de la población de la que se
seleccionó la muestra. Las técnicas de inferencia estadística se dividen en dos áreas
principales: Estimación de intervalos de confianza y Pruebas de hipótesis.
En cada prueba estadística, se comparan algunos valores observados contra algunos
esperados u otro valor observado comparando estimaciones de parámetros (media,
desviación estándar, varianza). Estas estimaciones de los verdaderos parámetros son
obtenidos usando una muestra de datos y calculando los estadísticos.
La capacidad para detectar una diferencia entre lo que es observado y lo que es esperado
depende del desarrollo de la muestra de datos. Incrementando el tamaño de la muestra
mejora la estimación y la confianza en las conclusiones estadísticas.
6.2 Intervalos de confianza
Las medias o desviaciones estándar calculadas de una muestra se denominan estadísticos,
podrían ser consideradas como un punto estimado de la media y desviación estándar real
de la población o de los parámetros.
Cuando no deseamos obtener números sencillos como la media basada en una muestra,
utilizamos los intervalos de confianza, los cuales nos dan un margen con algún tipo de
error.

Para obtener un intervalo de confianza usamos:

Punto estimado + error estimado

Para calcular el error estimado:

Desviación estándar  multiplicador de CI (nivel de confianza) deseado.
Página 80
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
P(Z<= - Zexcel ) = alfa/2
P(Z>= + Zexcel ) = alfa/2
Intervalo de confianza donde
se encuentra el parámetro con
un NC =1-
Ejemplo 1. Obtenemos una muestra donde la media x = 100, la desviación estándar s =
10, Encontrar el intervalo de confianza al 95% en el cual se encuentra la media para una
distribución normal.
100 + (10) X 1.96 => (80.4, 119.6)
1.96 = Z0.025

95% de nivel de confianza significa que sólo tenemos un 5% de probabilidad de
obtener un punto fuera de ese intervalo. Esto es el 5% total, o 2.5% mayor o
menor. En la tabla Z vemos que para un área de 0.025, corresponde a una Z de
1.960.
C.I.
99
95
90
85
80
Multiplicador
2.576
1.960
1.645
1.439
1.282
Para tamaños de muestra > 30, la distribución de referencia es la Normal, para muestras
de menor tamaño, debe usarse la distribución t. El IC que no es simétrico es el de la
varianza:

 para .n 30  X  Z 
2
 para .n 30  X  t
n

n
2
( n  1) s 2
 2
2

, n 1
2

( n  1) s 2
2
1
  p  Z
2

2
p (1  p )
n
Página 81
, n 1
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Distribuciones muestrales utilizadas
T
CHI CUADRADA
USO DE EXCEL
Los estadísticos de prueba con alfa se determinan como sigue:
Zalfa/2 = distr.norm.estand.inv(alfa/2)
talfa/2 = distr.t.inv(alfa, gl) donde gl = grados de libertad = n-1
Chi cuadrada de alfa/2 = prueba.chi.inv(alfa/2, gl)
Falfa/2 = distr.f.inv(alfa/2, gl. Numerador, gl. Denominador)
USO DE MINITAB
Calc > Probability distributions > Normal, t , Chi-Square, F, etc.
Seleccionar Inverse Cumulative Distribution; si los pide dar los grados de libertad = n-1
En input constant poner el valor de alfa/2 o alfa
Intervalo de confianza para la media
stat > basic statistics > 1-sample z o 1-sample t
variable -- indicar la columna de los datos en samples in columns o summarized data
(indicando en sample size el tamaño de muestra y en mean la media). para el caso de la
prueba z además se indica en standard deviation la desviación estándar.
en options: indicar el confidence level -- 90, 95 o 99%
(igual a 1-alfa). OK
Página 82
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Intervalo de confianza para una proporción
stat > basic statistics > 1-proportion
seleccionar summarized data
number of trials = n tamaño de la muestra
number of events = d éxitos encontrados en la muestra
en options: indicar el confidence interval -- 90, 95 o 99%..
seleccionar use test and interval based in normal distribution
Tamaño de muestra
Para determinar el tamaño de muestra necesario para el intervalo de confianza o la
prueba hipótesis con base a un error máximo y un nivel de confianza deseado se utilizan
las siguientes fórmulas:
Z2 / 2 2
n
( X   )2
n
Z2 / 2 ( )(1   )
( p   )2
Página 83
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
EJERCICIOS:
Ejemplos para la media con distribución normal z
1. El peso promedio de una muestra de 50 bultos de productos Xmedia = 652.58 kgs., con
s = 217.43 kgs. determinar el intervalo de confianza al nc del 95% y al 99% donde se
encuentra la media del proceso (poblacional). alfa = 1 - NC
2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de
ratones de laboratorio oscila entre 0.93 y 1.73 onzas. ¿Cuál es el valor de z?.
3. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas con
una s = 0.96 onzas. ¿a un nivel de confianza del 95%, las latas parecen estar llenas con 16
onzas?.
4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con s = 3.63. se
rechaza la solución si el peso promedio de todo el lote no excede las 18 onzas. ¿cuál es la
decisión a un 90% de nivel de confianza?.
Ejemplos para la media (con distribución t) y varianza (con distribución chi cuadrada)
5. 20 cajas de producto pesaron 102 grs. con s = 8.5 grs. ¿cuál es el intervalo donde se
encuentra la media y varianza del lote para un 90% de nivel de confianza? grados
libertad=20 -1 =19
6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. con una s = 9.56.
¿cuál es la estimación del intervalo de confianza para la media y varianza a un nivel de
confianza del 95 y del 98% del peso de productos del lote completo?.
7. Los pesos de 25 paquetes enviados a través de ups tuvieron una media de 3.7 libras y
una desviación estándar de 1.2 libras, hallar el intervalo de confianza del 95% para estimar
el peso promedio y la varianza de todos los paquetes, los pesos de los paquetes se
distribuyen normalmente.
Ejemplos para proporciones con distribución z
8. De 814 encuestados 562 contestaron en forma afirmativa. ¿Cuál es el intervalo de
confianza para un 90% de nivel de confianza?
9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados
¿se puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el
intervalo de confianza. ?
Página 84
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
MÓDULO 7. PRUEBAS DE HIPÓTESIS
7.1 Introducción a las pruebas de hipótesis
Una hipótesis es una afirmación a comprobar, por ejemplo:
Un proveedor de bebidas afirma que sus botellas contienen 16 onzas; un productor de
software dice que su rechazo
promedio es de 3%; etc.
La hipótesis planteada que contiene el signo de igualdad se denomina hipótesis nula Ho
(=, >=, <=) y su complemento es la hipótesis alterna Ha. se puede iniciar planteando
cualquiera de las dos por ejemplo si se indica …probar si las ventas son mayores que
$1000 o …..las ventas son menores a $1000, se inicia planteando Ha y como complemento
se plantea Ho (ventas<=1000 o ventas>=1000).
Ho :  ,  2 ,  , ,  parametro de la hipotesis
Ha :  ,  2 ,  , ,  parametro de la hipotesis
Las conclusiones al final siempre son contra la Ho.
Los términos surgen de las investigaciones agrícolas quienes probaban la efectividad de
fertilizantes, lo nulo era sin efecto
Las hipótesis nulas no se rechazan o si se rechazan (aceptándose la ha) con base en datos
muestrales y un valor alfa.
Prueba estadística: es un procedimiento para probar una afirmación o creencia sobre el
proceso.
Hipótesis nula (Ho): usualmente es una afirmación representando una situación “status
quo”, generalmente deseamos rechazar la hipótesis nula.
puede ser por ejemplo ho: , , = 5
sólo puede ser rechazada o no rechazada
Hipótesis alterna (Ha): es lo que aceptamos si podemos rechazar la hipótesis nula. Ha es
lo que queremos probar es el complemento de Ho.
Por ejemplo  5 para prueba de dos colas
< 5 para prueba de cola izquierda
 > 5 para prueba de cola derecha
Esta hipótesis se acepta cuando se rechaza Ho
Página 85
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Estadístico de prueba: Calculado con datos de la muestra (Z, t, X2 or F).
Región de Rechazo: Indica los valores de la prueba estadística para que podamos
rechazar la Hipótesis nula (Ho). Esta región esta basada en un riesgo  deseado,
normalmente 0.05 o 5%.
Las pruebas de hipótesis pueden ser de dos colas, de cola derecha o de cola izquierda,
dependiendo del signo de la hipótesis alterna, a continuación se esquematizan cada una
de ellas.
Pruebas de Hipótesis de dos colas:
Ho: a = b
Ha: a  b
Región de
Rechazo
Región de
Rechazo
-Z
Z
0
Pruebas de Hipótesis de cola derecha:
Ho: a  b
Ha: a > b
Región de
Rechazo
Pruebas de Hipótesis cola izquierda:
Ho: a  b
Ha: a < b
0
Z
Región de
Rechazo
-Z
0
Z
Procedimiento para realizar pruebas de hipótesis
1.
2.
3.
4.
Definir el Problema (problema Práctico).
Señalar los Objetivos (problema Estadístico).
Determinar tipo de datos: Atributo o Variable.
Si son datos Variables: Prueba de Normalidad.
5. Establecer las Hipótesis: Hipótesis Nula (Ho lleva signo =, <=, >=), Hipótesis
Alterna (Ha lleva signo >, < o <>).
6. Seleccionar el nivel de significancia Alfa (normalmente 0.05 o 5%) o el nivel de
confianza 1 - alfa.
7. Establecer el tamaño de la muestra,  10 .
Página 86
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
8. Desarrollar el Plan de Muestreo.
9. Seleccionar Muestras y Obtener Datos.
10. Decidir la prueba estadística apropiada y calcular el estadístico de prueba (Z, t,
X2 o F) a partir de los datos.
11. Obtener el estadístico correspondiente de tablas o Excel.
12. Determinar la probabilidad P de que el estadístico de prueba calculado ocurra
al azar.
13. Comparar el estadístico calculado con el de tablas y ver si cae en la región de
rechazo o ver si la probabilidad es menor a alfa, rechace Ho y acepte Ha. En
caso contrario no rechace Ho.
14. Con los resultados interprete una conclusión estadística para la solución
práctica.
7.2 Pruebas de hipótesis de una población
Las fórmulas para calcular el estadístico de prueba en base a la muestra son las siguientes:
X 
;Una.media; n  30;   conocida
/ n
X 
t
;Una.media; n  30;   desconocida
S/ n
S12
F  2 ; DF  n1  1, n2  1; prueba.dos. var ianzas
S2
Z 
t
X1  X 2
; dos.medias;  ' s  desconocidas. pero. 
1
1
Sp /

n1
n2
Sp 
t
( n1  1) s12  ( n2  1) s22
; DF  n1  n2  2
n1  n2  2
X1  X 2
s12
s22

n1
n2
; dos.medias;  ' s  desconocidas.diferentes
DF  formula.especial
Para el caso de muestras pareadas se calculan las diferencias d individuales como sigue:
Página 87
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
t
X
2
P. Reyes / julio 2013
d
; Pares.de.medias; d i . para.cada. par
Sd / n

X2 
( n  1) S 2
2
; DF  ( n  1); prueba.una.v ar ianza
(O  E ) 2
 E ; DF  (r  1)(c  1); bondad .ajuste
Ejemplos de Prueba de hipótesis Estadística
Paso 1. Para una muestra grande (n >30) probar la hipótesis de una media  . Establecer
alfa.
Ho:    o
Ha:   0
Paso 2. Calcular el estadístico de prueba
  0
Z calc 
s
n
Paso 3. Establecer la región de rechazo, para prueba de 2 colas:  Z  2  Z  2
Región de
Región de
Rechazo
Rechazo
0
-Z
Z
Paso 4. Si el valor del estadístico de prueba cae en la región de rechazo rechazaremos Ho
de otra manera no podemos rechazar Ho.
Paso 5. Calcular el intervalo de confianza IC para un nivel de confianza de 1-alfa, si la
media de la hipótesis se encuentra dentro del intervalo, no rechazar Ho y viceversa.
Paso 6. Calcular el valor de Probabilidad P para el estadístico calculado a partir de la
muestra Zc o Tc por medio de:
Para Zc: P = distr.norm.estand.inv(-Zc)
Para Tc: P = distr.t.inv(Tc, grados de libertad, 1 o 2 colas)
Página 88
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Para Chi2: P = Prueba.chi.inv(Chi c, grados de libertad)
Si el valor de P es menor o igual a alfa se rechaza Ho y se acepta Ha (en el caso de dos
colas el valor de P total es del doble del calculado).
Uso de minitab para prueba de hipótesis de la media
Stat > basic statistics > 1-sample z o 1-sample t
Variable -- indicar la columna de los datos en samples in columns o summarized data
(indicando en simple size el tamaño de muestra y en mean la media). para el caso de la
prueba z además se indica en standard deviation la desviación estándar.
Indicar en test mean la media de la hipótesis a probar.
Indicar el signo de la hipótesis alterna: less than, not equal, greater than
OK
Página 89
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Prueba de Hipótesis para muestras grandes usando Z:
¿Parecería ser correcta la afirmación de que se mantiene el precio promedio de las computadoras en $2,100?
Probarlo a un 5% de nivel de significancia
Se inicia con el planteamiento de la hipótesis nula
Datos
Minoristas
n
64
media mu =
2100
Precio prom.
X
2251
Desv. Estándar
s
812
(Alfa =
0.05
(Alfa/2 =
0.025
Paso 1. Establecimiento de hipótesis
Ho: uC = 2100
Ha: uC <> 2100
Por tanto se trata de una prueba de dos colas
Paso 2. Cálculo del estadístico de prueba Zc
Zc 
X   HIPOTESIS. NULA
s
n
151
101.5
= > Zc =
1.48768473
Error estándar
Como el valor de Zc es positivo se comparará contra de Zexcel (1-alfa/2) positivo
Paso 3. Determinar la Ze de Excel o de tablas para el valor de probabilidad (Alfa / 2):
Ze ( 0.025 ) =
1.95996398
DIST.NORM.STAND.INV.(
0.025
)
Paso 4. Comparando los valores Zc calculado contra Zexcel se tiene
P(Z<= - Zexcel ) = alfa/2
Zexcel (
P(Z>= + Zexcel ) = alfa/2
0.025 )
-1.95996398
Zexcel (
1.959963985
Zc =
0.025 )
1.487684729
Valor p para Zc es igual a
P(-Zc) =
0.06841765
p > Alfa / 2
Como Zc es menor que Zexcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para RECHAZAR Ho
Se concluye que el precio promedio no es diferente de $2,100
Paso 5. Como el valor P = 0.068 correspondiente a la Z calculada Zc es mayor
que el valor de Alfa / 2 = 0.025, también nos da el criterio
para NO RECHAZAR la Ho
Paso 6. El Intervalo de confianza para la media poblacional
al nivel de confianza 1-Alfa
IC. para.estimar.  X  Z
s
2
n
Error estándar
Z alfa/2
(1-Alfa =
Porciento)
101.5
1.95996398
Intervalo de confianza
El intervalo de confianza incluye a la media de la hipótesis
por tanto no se rechaza la Ho.
2052.063656 <=
Página 90
0.95
2251
<=

2449.936344 )
198.936344
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Ejemplo de Prueba de Hipótesis para muestras pequeñas usando t:
Se piensa que las ventas promedio de $5,775 se han incrementado gracias a la campaña publicitaria
Probar esta afirmación a un nivel de significancia alfa de 1%
Se inicia con el planteamiento de la hipótesis Alterna
Datos
Semanas
Ventas prom
Desv. Estándar
n
X
s
15
6012
977
media mu =
5775
(Alfa =
(Alfa/2 =
0.01
0.005
(1-Alfa =
(1-Alfa/2 =
0.99
0.995
Paso 1. Establecimiento de hipótesis
Ho: uC <=
5775
Ha: uV >
5775
Se trata de una prueba de cola derecha
Paso 2. Cálculo del estadístico de prueba tc
tc 
X   HIPOTESIS
s
n
237
. NULA
252.260315
= > tc =
0.93950568
Error estándar
Como el valor de tc es positivo se comparará contra de t excel (1- alfa) positivo
NOTA:En excel poner 2alfa
para obtener t de alfa
Paso 3. Determinar la te de Excel o de tablas para
Alfa
0.01
te (
0.99 2.62449406
DIST.T.INV(
gl = 14
Paso 4. Comparando los valores tc calculado contra t excel se tiene
0.02 , gl. 14 )
P(t >= + t excel ) = alfa
texcel (
2.62449406
tc =
0.02 gl. 14)
0.93950568
Valor p para tc es igual a
P(tc) =
0.368130427
p > Alfa
Como tc es menor que texcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
Se concluye que la publicidad no ha tenido efecto en las ventas
Paso 5. Como el valor de P para Zc es 0.368 mayor a Alfa = 0.05 no se rechaza Ho
Paso 6. El Intervalo de confianza para la media poblacional al nivel
(1-Alfa =
IC. para.estimar.  X  t
Como el intervalo de confianza
s
n
99
Porciento)
Error estándar 252.260315
t alfa
2.62449406
Intervalo de confianza
contiene a la media de la Hipótesis no se rechaza Ho
5349.9443
Página 91
6012
<=
 <=

6674.0557 )
662.0557002
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Ejemplo de Prueba de hipótesis para una proporción:
EJERCICIOS DE PRUEBAS DE HIPOTESIS E INTERVALOS EN LA PROPORCIÓN DE UNA POBLACION
El gerente de mercado considera que el 50% de sus clientes gasta menos de $10 en cada visita a la tienda.
¿Estás de acuerdo con esta afirmación a un nivel de significancia del 5%?
Se inicia con el planteamiento de la hipótesis nula
Datos
Clientes
n
50
Proporción media =
0.5
30 gastaron
p
0.6
menos de$10
(Alfa =
0.05
(1-Alfa =
0.95
(Alfa/2 =
0.025
(1-Alfa/2 =
0.975
Paso 1. Establecimiento de hipótesis
Ho :  c  0.5
Ha :  c  0.5
Se trata de una prueba de dos colas
Paso 2. Cálculo del estadístico de prueba Zc
Zc 
p   HIPOTESIS. NULA
 HIP. NULA (1   HIP. NULA )
0.1
= > Zc =
0.07071068
n
1.41421356
Error estándar
Como el valor de Zc es positivo se comparará contra de Zexcel (alfa/2) positivo
Paso 3. Determinar la Ze de Excel o de tablas para
Ze ( (1-Alfa/2 =
1.95996398
(1-Alfa/2 =
0.975
DIST.NORM.STAND.INV.(
0.975 )
Paso 4. Comparando los valores Zc calculado contra Zexcel se tiene
P(Z <= - Zexcel ) = alfa/2
Zexcel (
P(Z>= Zexcel ) = alfa/2
0.025 )
-1.95996398
Zexcel (
1.95996398
Zc =
0.975 )
1.41421356
Valor p para Zc es igual a
P(-Zc) =
0.07926984
p > Alfa /2
Como Zc es menor que Zexcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho y se concluye
que el porcentaje que compra menos de $10 no difiere del 50% de clientes
Paso 5. Como el valor P de Zc es 0.079 mayor a Alfa/2 no se rechaza Ho
Paso 6. El Intervalo de confianza para la media poblacional al nivel
(1-Alfa =
IC . para.estimar.  p  Z 
2
p(1  p)
n
Porciento)
Error estándar 0.07071068
Z alfa/2
1.41421356
Intervalo de confianza
Como la media de p = 0.6 se encuentra
dentro del intervalo, no se rechaza Ho
95
(
Página 92
0.5
0.6
<=
 

0.7
0.1
)
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Uso de minitab para la prueba de hipótesis de una proporción
 Stat > Basic Statistics > 1-Proportion
 Seleccionar Summarized Data
 Number of trials = n tamaño de la muestra
 Number of events = D éxitos encontrados en la muestra
En Options:
 Indicar el Confidence Interval -- 90, 95 o 99%
 Indicar la Test Proportion Proporción de la hipótesis
 Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than
Seleccionar Use test and interval based in normal distribution
OK
EJERCICIOS
1. Se midió la temperatura de fusión de un aceite vegetal hidrogenado en n=16 muestras y
se encontró una media de 94.32. Si la temperatura de fusión sigue una distribución
normal con sigma = 1.20.
a) Probar a un 95% de nivel de confianza de que la media se ha mantenido en 95.
2. La duración promedio de cierto foco es de 750 horas. El cliente cambiaría de marca sólo
que se demuestre que de manera concluyente que la vida de los focos es menor que la
anunciada. Se elige una muestra aleatoria de 20 focos, se determina su duración y se
obtiene una vida media de 738.44 con una desviación estándar de 38.20.
a) ¿Cuál sería la conclusión a un 95% de nivel de confianza?
3. Después de ciertas horas de trabajo se determinó el desgaste de flechas en 0.0001”
para cada una de las n=8 máquinas que tienen plomo y cobre como material de soporte, y
se obtuvo como resultado que la media fue de 3.72 con desviación estándar de 1.25.
a) Se desea probar si el desgaste es mayor a 3.5 a un 95% de nivel de confianza.
3. Las lecturas de radiación de Radón tomadas en 12 lugares fueron como sigue:
105.6, 90.9, 91.2, 96.9, 96.5, 91.3, 100.1, 105, 99.6, 107.7, 103.3 y 92.4.
a) A un alfa de 5%, ¿indican las lecturas que difieren de 100?.
Página 93
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
4. Se prueban 100 baterías de Ni-H para celdas de prueba y se determina que 14 de ellas
se ampoyan en sus placas fallando. Para un 5% de nivel de significancia.
a) ¿Proporciona lo anterior una evidencia de que más del 10% de las baterías fallan?
5. Para un cierto servicio los tiempos de respuesta son de 3 horas, probar la afirmación
para un 98% de nivel de confianza.
Una muestra de datos arrojó los resultados siguientes:
1.92
2.16
3.63
3.16
4.02
3.14
2.2
2.34
3.05
2.38
6. Las horas tomadas para mantenimiento son las siguientes. Probar a un 5% si el tiempo
es > 2 Hrs.
Tiempos
1.9
1.7
2.8
2.4
2.6
2.5
2.8
3.2
1.6
2.5
7. Un estudio encontró que 40% de los usuarios de Internet recibieron más de 10
mensajes diarios
Página 94
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% ¿Cuál es la conclusión?
8. Un estudio indicó que el 64% de los consumidores de supermercado creen en las
marcas propias.
El fabricante de una salsa de tomate preguntó a 100 compradores donde 52 prefieren
marca propia,
probar si el porcentaje de preferencias es menor al 64%, para un 5% de nivel de
significancia
7.3 Pruebas de hipótesis para dos poblaciones
Supongamos que tenemos muestras de dos calderas que producen el mismo rendimiento.
Se desea ver si hay diferencia significativa en el rendimiento de “Caldera A y Caldera B”.
Caldera A
89.7
81.4
84.5
84.8
87.3
79.7
85.1
81.7
83.7
84.5
Caldera B
84.7
86.1
83.2
91.9
86.3
79.3
82.6
89.1
83.7
88.5
Estadísticas Descriptivas
Variable
Caldera N
Rendimiento
A
10
B
10
Media
84.24
85.54
Desv.Std
2.90
3.65
Pregunta Práctica: ¿Existe diferencia entre las Calderas?
Pregunta Estadística ¿La media de la caldera B (85.54) es significativamente diferente de
la media de la Caldera A (84.24)? o su diferencia se da por casualidad en una variación de
día a día.
Ho: Hipótesis Nula: No existe diferencia entre las Calderas.
Página 95
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Ha: Hipótesis Alterna: Las medias de las Calderas son diferentes.
H 0 :  a  b
H a :  a  b
Se busca demostrar que los valores observados al parecer no corresponden al mismo
proceso, se trata de rechazar Ho.
Reactor
Caldera A
A
Reactor
B
Caldera B
B
A
B B B B BB
AA
AAAA
A
BB
A
B
¿Representan las Calderas dos procesos diferentes?
¿Representan las mismas condiciones como un solo proceso?
Lo anterior se contesta con pruebas de hipótesis para dos poblaciones como se explica a
continuación.
Pruebas para la igualdad de dos varianzas.
Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las
poblaciones de interés, por ejemplo X1 y X2, donde 1, 12 ,  2 ,  22 , se desconocen.
Deseamos probar hipótesis relativas a la igualdad de las dos varianzas, H 0 :  12   22 .
Considérese que se disponen dos muestras aleatorias de tamaño n 1 de la población 1 y de
tamaño n2 de la población 2, y sean S12 yS 22 las varianzas de muestra. Para probar la
alternativa de dos lados
H 0 :  12   22
H 1 :  12   22
Utilizamos el hecho de que la estadística
Fc 
S12
S 22
Página 96
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Se distribuye como F, con n1-1 y n2 –1 grados de libertad.
Rechazaríamos H0 si
F0  F 2, n1 1, n2 1 o si F0  F1 2,n1 1,n2 1
Donde F 2,n1 1,n2 1 y F1 2,n1 1,n2 1 son los puntos porcentuales  2 superior e inferior de la
distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona sólo los puntos de
la cola superior de F, por lo que para determinar F1 2,n1 1,n2 1 debemos emplear
F1 2,n1 1,n2 1 =
1
F 2,n2 1,n1 1
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un
lado. La hipótesis alternativa de un lado es:
H 0 :  12   22
H 1 :  12   22
Si F0  F ,n1 1,n2 1 , rechazaríamos H 0 :  12   22 .
Ejemplo 1: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de
dos tipos diferentes.
Tipo 1
Tipo 2
63
64
81
72
57
83
66
59
82
65
82
56
68
63
59
74
75
82
73
82
Pruebe la hipótesis de que las dos varianzas sean iguales. Use   .05
Página 97
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
H 0 :  12   22
H 1 :  12   22
X 1  70.6
X 2  70
S12  88.71
S 22  100.44
F0 
S12 88.71
 .877
=
S 22 100.44
F 2,n1 1,n2 1 = F.025,9,9= 4.03 F1 2,n1 1,n2 1 =.248
0.877 no es mayor que 4.03, por lo cual no se rechaza la hipótesis nula
H 0 :  12   22 .
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción : Prueba F para varianzas de dos
muestras.
Seleccionar las columnas de datos con rótulos y el nivel Alfa/2 de 0.025.
Prueba F para varianzas de dos muestras
Media
Varianza
Observaciones
Grados de libertad
F
P(F<=f) una cola
Valor crítico para F (una cola)
Tipo 1
70.6
88.7111111
10
9
0.88318584
0.42811371
0.24838585
Tipo 2
70
100.444444
10
9
De la tabla deducimos que F1-alfa/2 = 0.248 es menor que Fc de 0.883 y el valor de P
value = 0.428 es mayor a alfa/2 de 0.025 por lo cual no rechazamos H0. y las varianzas son
iguales.
USO DE MINITAB



Stat > Basic statistics > 2 Variances Samples in different columns
Seleccionar las columnas de datos
En Options: Confidence level 97.5%, Test Mean = 0.0; Alternative = Not equal
Página 98
CURSO TALLER DE MÉTODOS ESTADÍSTICOS

P. Reyes / julio 2013
OK
Test for Equal Variances: Tipo 1, Tipo 2
97.5% Bonferroni confidence intervals for standard deviations
N
10
10
Tipo 1
Tipo 2
Lower
5.89483
6.27256
StDev
9.4187
10.0222
Upper
20.8295
22.1643
F-Test (normal distribution)
Test statistic = 0.88, p-value = 0.856
Conclusión: Como Fc de 0.88 es mayor a F1-alfa/2 de 0.248 y Pvalue de 0.856 es mayor a
Alfa de 0.05, no se rechaza Ho, las varianzas son similares.
Pruebas de hipótesis sobre la igualdad de dos medias.
a) Varianzas conocidas
Supóngase
que hay dos poblaciones de interés X1 y X2, Suponemos que X1 tiene media
desconocida 1 y varianza conocida  1 y que X2 tiene media desconocida  2 y varianza
2
conocida  2 . Estaremos interesados en la prueba de la hipótesis de que las medias 1 y
2
 2 sean iguales.
Considérense primero las hipótesis alternativas de dos colas:
H 0 : 1   2
H1 : 1   2
Donde: H0 = Hipótesis nula; H1 = Hipótesis alternativa; 1 = media de la población 1;  2 =
media de la población 2.
El procedimiento para probar H 0 : 1   2 es calcular la estadística de prueba Zc
mediante la siguiente fórmula:
Zc 
X1  X 2
 21
n1

 22
n2
Página 99
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Dónde:
X 1 = media de la muestra 1; X 2 = media de la muestra 2;  2 1 = varianza de la población 1;
 2 2 = varianza de la población 2; n1 = tamaño de la muestra 1; n 2 = tamaño de la
muestra 2
La hipótesis nula H0 se rechaza aceptándose a su vez H1 o Ha en los tres casos siguientes:
a) Z 0  Z  2 o Z 0   Z  2
Donde: Z0 = Valor calculado del estadístico de prueba; Z  2 = distr.norm.estand(alfa/2).
b) Si el cero no se encuentra en el intervalo de confianza de la diferencia de las medias.
c) Si el valor P de probabilidad para el estadístico de prueba Zc es menor al valor del nivel
de significancia Alfa. P = 2*distr.norm.estand.inv(Zc)
Las hipótesis alternativas de un lado se analizan de manera similar. Para probar
H 0 : 1   2
H1 : 1   2
Se calcula la estadística de prueba Zc , y se rechaza H 0 : 1   2 si Z 0  Z .
Para probar las otras hipótesis alternativas de un lado
H 0 : 1   2
H1 : 1   2
Se utiliza la estadística de prueba Zc y se rechaza H 0 : 1   2 si Z 0  Z
Ejemplo 2:
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16
onzas. El proceso de llenado puede suponerse normal, con desviaciones estándar de
 1  .015 y  2  .018 . Se cree que ambas máquinas llenan hasta el mismo volumen neto,
sin importar que este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la
salida de cada máquina.
Página 100
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
¿Piensa usted que el llenado es similar? Utilizando   .05 . o nivel de confianza de 95%.
Máquina 1 Máquina 2
16.03
16.02
16.04
15.97
16.05
15.96
16.05
16.01
16.02
15.99
16.01
16.03
15.96
16.04
15.98
16.02
16.02
16.01
15.99
16.00
H 0 : 1   2
H1 : 1   2
Calculando las medias de cada máquina obtenemos X 1  16.015, X 2  16.005 .
Zc 
X1  X 2

2
n1
1


2
n2
=
2
16.015  16.005
.015 2 .018 2

10
10
 1.34
Z  2 = Z.025 = distr.norm.estand.inv(0.975) = 1.96
El uso de la tabla es el siguiente: 1-.025 =.975 buscando el valor de Z correspondiente a
.975 encontramos Z = 1.96
Utilizando el criterio de decisión Zc  Z  2 para rechazar la hipótesis nula H0, nos damos
cuenta de que 1.34 no es mayor que 1.96. por lo cual no rechazamos H 0. No existe
suficiente evidencia estadística para pensar que las medias son diferentes.
Cuando rechazamos la hipótesis nula se considera que la prueba es potente, si no se
rechaza la hipótesis nula el criterio de decisión es débil, ya que generalmente se busca
rechazar H0.
Página 101
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
P(z <= - Z excel ) = alfa/2
P(z >= Z excel ) = alfa/2
-Zalfa/2=-1.96
Zc = 1.34
Zalfa/2=1.96
Como Zc es menor que Z alfa/2, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
USO DE EXCEL


Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción : Prueba z para medias de dos muestras.
Página 102
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Prueba z para medias de dos muestras
Máquina 1 Máquina 2
Media
16.015
16.005
Varianza (conocida)
0.000225 0.000324
Observaciones
10
10
Diferencia hipotética de las
medias
0
z
1.34962722
P(Z<=z) una cola
0.08856779
Valor crítico de z (una cola)
1.95996398
Valor crítico de z (dos colas)
0.17713559
Valor crítico de z (dos colas)
2.24140273
Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.349 < Zalfa/2 de 1.96; el
valor P de 0.177 es mayor a Alfa = 0.05.
USO DE MINITAB




Stat > Basic statistics > 2 Sample t seleccionar Summarized data
Seleccionar Assume equal variantes
En Options: Confidence level 95%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Two-Sample T-Test and CI
Sample
1
2
N
10
10
Mean
16.0150
16.0050
StDev
0.0150
0.0180
SE Mean
0.0047
0.0057
Difference = mu (1) - mu (2)
Estimate for difference: 0.010000
Página 103
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
95% CI for difference: (-0.005567, 0.025567)
T-Test of difference = 0 (vs not =): T-Value = 1.35
DF = 18
Both use Pooled StDev = 0.0166
P. Reyes / julio 2013
P-Value = 0.194
Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.35 < Zalfa/2 de 1.96; el
valor P de 0.194 es mayor a Alfa = 0.05 y el cero se encuentra en el IC para la diferencia de
medias de
(-0.005567, 0.025567).
b) Varianzas desconocidas:
Consideraremos ahora pruebas de hipótesis respecto a la igualdad de las medias 1 ,  2
de dos distribuciones normales donde no se conocen las varianzas  12 y 22 . Tenemos dos
casos en el primero las varianzas son iguales y en el segundo las varianzas son desiguales,
a continuación analizaremos cada uno de ellos.
Caso 1 varianzas iguales
Sean X1 y X2 dos poblaciones normales independientes con medias desconocidas 1 y 2 , y
varianzas conocidas pero iguales  12   22   2 . Deseamos probar:
H 0 : 1   2
H1 : 1   2
Sean X1, X2, S12 , S 22 , las medias y las varianzas de las muestras, respectivamente. Puesto
que tanto S12 como S 22 estiman la varianza común  2 , podemos combinarlas para producir
una sola estimación, mediante la siguiente fórmula:
Sp 
n1  1S12  n2  1S 22
n1  n2  2
Para probar H 0 : 1   2 calcúlese la estadística de prueba
t0 
X1  X 2
1
1
Sp

n1 n2
Si t 0  t 2,n1  n2 2 o si t 0  t 2,n1  n2  2 , rechazamos H 0 : 1   2
Página 104
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Las alternativas de un lado se tratan de modo similar. Para probar:
H 0 : 1   2
H 1 : 1   2
Calcúlese la estadística de prueba t0 y rechácese H 0 : 1   2 si:
t 0  t ,n1  n2  2
Para la otra alternativa de un lado,
H 0 : 1   2
H 1 : 1   2
Calcúlese la estadística de prueba y rechácese H 0 : 1   2 si:
t 0  t a ,n1  n2  2
Ejemplo 3: Se está investigando la resistencia en ohms de dos alambres, con la siguiente
información de muestras.
Alambre 1 Alambre 2
0.14
0.135
0.141
0.138
0.139
0.14
0.14
0.139
0.138
0.144
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse
respecto a la resistencia media de los alambres?
H 0 : 1   2
H1 : 1   2
Página 105
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Calculando la media y la desviación estándar de la muestra:
x1  .140
x 2  .138
S1  .0021
S 2  .0022
Sp 
t0 
n1  1S12  n2  1S 22
n1  n2  2
= .0021
X1  X 2
= 1.72
1
1
Sp

n1 n2
Buscamos en la tabla de distribución t el valor t 2,n1 n2, 2 = t.025,8 =2.306
Utilizando el criterio de rechazo t 0  t 2,n1  n2 2 , 1.72 no es mayor que 2.306, por lo tanto
no rechazamos H0.
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción: Prueba t para dos muestras suponiendo
varianzas iguales.
Seleccionar las columnas de datos y las celdas de resultados.
Página 106
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Prueba t para dos muestras
suponiendo varianzas iguales
Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipotética de las
medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
Alambre 1 Alambre 2
0.14033333
0.138
4.6667E4.2667E-06
06
6
4
4.4167E-06
0
8
1.72002633
0.06187033
2.30600413
0.12374065
2.75152359
Conclusión: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que
2.306 (=distr.t.inv(0.05,8) por lo cual no rechazamos Ho. Asimismo P value de 0.123 es
mayor a alfa/2 de 0.025 y no se rechaza Ho, las medias son similares.
USO DE MINITAB




Stat > Basic statistics > 2 Sample t Samples in different columns
Seleccionar Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Two-Sample T-Test and CI: Alambre 1, Alambre 2
Two-sample T for Alambre 1 vs Alambre 2
Alambre 1
Alambre 2
N
6
4
Mean
0.14033
0.13800
StDev
0.00207
0.00216
SE Mean
0.00084
0.0011
Difference = mu (Alambre 1) - mu (Alambre 2)
Estimate for difference: 0.002333
97.5% CI for difference: (-0.001399, 0.006066)
Página 107
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
T-Test of difference = 0 (vs not =): T-Value = 1.72
0.124 DF = 8
Both use Pooled StDev = 0.0021
P-Value =
Conclusión: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que
2.306 por lo cual no rechazamos Ho. Asimismo P value de 0.124 es mayor a alfa/2 de
0.025 y el cero se encuentra en el intervalo de confianza por lo que no se rechaza Ho, las
medias son similares.
Caso 2 Varianzas diferentes
Cuando las varianzas  12 y 22 son diferentes utilizamos el estadístico de prueba:
t0 
X1  X 2
S12 S 22

n1 n2
Para el cálculo de los grados de libertad utilizamos:
2
 S12 S 22 



n1 n2 


2
S12 n1 2  S 22 n2 2
n1  1
n2  1
El procedimiento para llevar a cabo la prueba de hipótesis es el mismo que el caso 1,
varianzas iguales excepto que se emplean t0 como estadística de prueba y n1 + n2 -2 se
sustituye por  en la determinación de los grados de libertad para la prueba.
Ejemplo 4: Se están investigando dos métodos para producir gasolina a partir de petróleo
crudo. Se supone que el rendimiento de ambos procesos se distribuye normalmente. Los
siguientes datos de rendimiento se han obtenido de la planta piloto.
Proceso 1
24.2
26.6
25.7
24.8
25.9
26.5
Proceso 2
21
22.1
21.8
20.9
22.4
22
Página 108
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
¿Hay alguna razón para creer que el Proceso 1 tiene un rendimiento medio mayor?
H 0 : 1   2
H1 : 1   2
Calculamos la media y la varianza para ambos procesos:
x1  25.62
x 2  21.70
S12  .9017
S 22  .3760
t0 
X1  X 2
2
1
2
2
S
S

n1 n2
=
25.62  21.70
 8.48
.9017 .376

6
6
2
2
 S12 S 22 
 .9017 .376 






n1 n2 
6
6 


 2  9.32  9

2 =
.9017 62  .376 62
S12 n1 2  S 22 n2 2
7
7
n1  1
n2  1
Buscando el valor en la tabla t encontramos t.05,9 = 1,833, mediante el criterio de rechazo
para una cola t0>t.05,9 , 8.48>2.262, por lo tanto rechazamos la hipótesis nula, y aceptamos
la hipótesis alterna, el proceso 1 tiene mayor rendimiento que el proceso 2.
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción: Prueba t para dos muestras suponiendo
varianzas desiguales.
Seleccionar las columnas de datos y las celdas de resultados.
Prueba t para dos muestras
suponiendo varianzas
desiguales
Proceso 1
Página 109
Proceso 2
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
Media
Varianza
Observaciones
Diferencia hipotética de las
medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
P. Reyes / julio 2013
25.6166667
0.90166667
6
21.7
0.376
6
0
9
8.48757168
6.878E-06
2.26215716
1.3756E-05
2.68501085
Tc de 8.48 mayor que Talfa!de 2.262 (valor crítico de t de una cola), se rechaza Ho.
USO DE MINITAB




Stat > Basic statistics > 2 Sample t Samples in different columns
Quitar selecciçon de Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Two-Sample T-Test and CI: Proceso 1, Proceso 2
Two-sample T for Proceso 1 vs Proceso 2
N
Mean StDev SE Mean
Proceso 1 6 25.617 0.950
0.39
Proceso 2 6 21.700 0.613
0.25
Difference = mu (Proceso 1) - mu (Proceso 2)
Estimate for difference: 3.91667
97.5% CI for difference: (2.64695, 5.18638)
T-Test of difference = 0 (vs not =): T-Value = 8.49
DF = 8
Boxplot of Proceso 1, Proceso 2
27
26
Data
25
24
23
22
21
Proceso 1
Página 110
Proceso 2
P-Value = 0.000
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Prueba de dos medias pareadas con t
Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de
comparación. En una prueba de comparación pareada, la reducción en la variabilidad
experimental puede permitir la detección de pequeños movimientos en los datos. A pesar
de que los grados de libertad sean reducidos, porque ahora el tamaño de muestra
corresponde al número de comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo de inspección
para determinar si existe alguna diferencia significativa entre los equipos.
Las hipótesis de prueba en torno a la igualdad 1 y 2 pueden realizarse efectuando una
prueba t de una muestra en  D . Específicamente, probar
H 0 : 1   2 contra
H1 : 1   2 es equivalente a probar
H0 : D  0
H1 :  D   0
El estadístico de prueba apropiado es
t0 
D
SD
n
donde
D
D
n
j
y SD 
D
 D
2
j
n 1
Rechazaríamos H 0 :  D  0 si t 0  t 2,n 1 o si t 0  t 2,n 1 , las alternativas de un lado se
tratarían de manera similar.
Ejemplo 5:
Un fabricante desea comparar el proceso de armado común para uno de sus productos
con un método propuesto que supuestamente reduce el tiempo de armado. Se
seleccionaron ocho trabajadores de la planta de armado y se les pidió que armaran las
unidades con ambos procesos. Los siguientes son los tiempos observados en minutos.
Trabajador
1
2
3
4
Proceso
actual
38
32
41
35
Proceso nuevo
30
32
34
37
Di
8
0
7
-2
Página 111
(Di-D)^2
10.5625
0
49
4
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
5
6
7
8
42
32
45
37
P. Reyes / julio 2013
35
26
38
32
Dpromedio
7
6
7
5
4.75
49
36
49
25
27.8203125
En   .05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso
actual es mayor que el del método propuesto por más de dos minutos?
H0 : D  2
H1 :  D  2
D
D
j
= 4.75
n
t0 
D
SD
n
=
SD 
D
 D
2
j
n 1
= 3.69
4.75  2
= 2.107
3.69 8
t ,n 1  t.05, 7  1.895 , debido a que 2.107 > 1.895 rechazamos H0, y aceptamos la H1: el
tiempo de armado para el proceso actual es mayor en dos minutos que el método
propuesto.
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para Análisis elija la opción: Prueba t para dos muestras
emparejadas
Seleccionar las columnas de datos y las celdas de resultados
Prueba t para medias de dos muestras
emparejadas
Media
Varianza
Observaciones
Coeficiente de correlación de Pearson
Diferencia hipotética de las medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
Proceso actual Proceso nuevo
37.75
33
22.21428571 15.14285714
8
8
0.646487248
0
7
3.637357075
0.004158105
2.364624251
0.00831621
2.841244247
Página 112
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
De la tabla concluimos que Tc de 3.63 > Talfa/2 de 2.364 (valor crítico de t una cola), por lo
cual rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05 y se rechaza
Ho, las medias son diferentes.
USO DE MINITAB



Stat > Basic statistics > Paired t Samples in different columns
En Options: Confidence level 95%, Test Mean = 0.0; Alternative = Not equal
En Graphs: Boxplot of data OK
Paired T-Test and CI: Proceso actual, Proceso nuevo
Paired T for Proceso actual - Proceso nuevo
Proceso actual
Proceso nuevo
Difference
N
8
8
8
Mean
37.7500
33.0000
4.75000
StDev
4.7132
3.8914
3.69362
SE Mean
1.6664
1.3758
1.30589
95% CI for mean difference: (1.66205, 7.83795)
T-Test of mean difference = 0 (vs not = 0): T-Value = 3.64
0.008
P-Value =
De la tabla concluimos que Tc de 3.64 > Talfa/2 de 2.364 (valor crítico de t en dos colas),
por lo cual rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05, el
cero no se encuentra en el intervalo de confianza IC y se rechaza Ho, las medias son
diferentes.
Pruebas de hipótesis sobre dos proporciones
En las pruebas de hipótesis sobre proporciones tratamos de probar:
H 0 : p1  p 2
H 1 : p1  p 2
Considérese que se toman dos muestras aleatorias de tamaño n1 y n2 de dos poblaciones,
y sea X1 y X2 el número de observaciones que pertenecen a la clase de interés en la
muestra 1 y 2 respectivamente.
Una estimación del parámetro común p es:
Página 113
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
X1  X 2
n1  n2
pˆ 
La estadística de prueba para H 0 : p1  p2 es entonces:
pˆ 1  pˆ 2
Z0 
pˆ 1 
1
1
pˆ (1  pˆ )   
 n1 n2 
X1
n1
pˆ 2 
X2
n2
Si
Z 0  Z  2 o Z 0   Z  2 , la hipótesis nula se rechaza.
Ejemplo 6: La fracción de productos defectuosos producidos por dos líneas de producción
se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10
defectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25
defectuosas. ¿Es razonable concluir que la línea de producción 2 produce una fracción
más alta de producto defectuoso que la línea 1? Use   .01.
H 0 : p1  p 2
H 1 : p1  p 2
pˆ 
X1  X 2
10  25
 .015909
=
n1  n2 1000  1200
pˆ 1 
X1
n1
pˆ 2 
X2
n2
Z0 
=
10
 .01
1000
=
25
 .020833
1200
pˆ 1  pˆ 2
1
1
pˆ (1  pˆ )   
 n1 n2 
=
.01  .020833
1 
 1
. .015909(.98409) 


1000 1200 
Página 114
=
-2.02
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Z   Z .01  2.35
Se utiliza el estadístico de prueba Z0 y no se rechaza H 0 : p1  p 2 si Z 0  Z
-2.02 no es menor que –2.35 por lo cual H0 no se rechaza.
USO DE MINITAB





Stat > Basic statistics > 2-Proportions Seleccionar Summarized data
En Trials poner el tamaño de las muestras y en Events lo que se busca.
En Options: Confidence level 99%, Test Difference = 0.0; Alternative = Not equal
Seleccionar Use pooled estimate for p for test
OK
Test and CI for Two Proportions
Sample X N Sample p
1
10 1000 0.010000
2
25 1200 0.020833
Difference = p (1) - p (2)
Estimate for difference: -0.0108333
99% CI for difference: (-0.0241928, 0.00252612)
Test for difference = 0 (vs not = 0): Z = -2.02 P-Value = 0.043
Conclusión: De la tabla Tc de -2.02 > Talfa de -2.35 (valor crítico de t en dos colas), por lo
cual no rechazamos Ho. Por otro lado el valor P de 0.043 es mayor a alfa de 0.01, el cero
Página 115
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
se encuentra en el intervalo de confianza IC y no se rechaza Ho para un alfa de 0.01, las
medias son similares.
Resumen de las pruebas de hipótesis
Pruebas de medias:



Prueba Z para medias (varianza conocida): Prueba si dos medias de muestras son
iguales.
Prueba t para medias (varianza desconocida): Prueba si dos medias de muestras son
iguales. Se tienen dos casos: varianzas iguales y varianzas diferentes
Prueba t pareadas para medias: prueba si dos medias de muestras (por pares) son
iguales.
Pruebas de varianza:
 Prueba F para varianzas: Prueba si dos varianzas de muestras son iguales.
Pruebas de proporciones:
 Prueba Z para proporciones: Prueba si dos proporciones de muestras son iguales.
EJERCICIOS:
1. Determinar a un nivel de confianza del 90% si hay diferencia entre las medias de
tiempos de limpieza de máquina A y máquina B. Se toman muestras para comprobar la
afirmación.
Máquina
A
25.2
17.4
22.8
21.9
19.7
23.0
19.7
23.0
19.7
16.9
21.8
23.6
Máquina
B
18.0
22.9
26.4
24.8
26.9
17.8
24.6
21.0
Página 116
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
2. Los tiempos de terminación del programa para dos departamentos se muestran a
continuación:
Probar a un 90% de nivel de confianza si sus varianzas y promedios son iguales.
Depto. A
300
280
344
385
372
360
288
321
376
290
301
283
Depto. B
276
222
310
338
200
302
317
260
320
312
334
265
3. Los tiempos de terminación para la tarea con un método mejorado y actual son, para el
mismo empleado son los siguientes. Probar a un 90% de nivel de confianza si los métodos
dan los mismos resultados.
Método 1 Método 2 Dif.
6.0
5.4
0.6
5.0
5.2
-0.2
7.0
6.5
0.5
6.2
5.9
0.3
6.0
6.0
0.0
6.4
5.8
0.6
Ho: Dif. Prom = 0
0.3 Dprom
Ha: Dif. Prom. <> 0
0.3347 Sdif
4. Un participante es calificado antes y después de un curso. Probar a un 8% de nivel de
significancia si el curso tuvo impacto.
Antes
5
4
7
3
Después
6
6
7
4
Página 117
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
5
8
5
6
P. Reyes / julio 2013
3
9
7
6
5. A dos grupos de personas se les pidió que indicaran el porcentaje de recortatorio de dos
avisos:
Probar a un 5% si son iguales los dos grupos.
Aviso
A
B
Lo
Lo vieron recordaron
150
63
200
60
6. Se hizo una encuesta para determinar el porcentaje de personas que usaban Internet
en el trabajo: En México se encontró que el 40% de los adultos usa Internet de una
muestra de 240.
En Monterrey el 32% de los adultos usaba Internet de una muestra de 250.
¿Para un nivel de significancia del 10%, es mayor la proporción que usa Internet en México
que en Monterrey?
Página 118
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
7.4 Análisis de varianza de un factor (ANOVA de 1 via)
El análisis de la varianza de un factor (ANOVA) es una metodología para analizar la
variación entre muestras y la variación al interior de las mismas mediante la
determinación de varianzas. Es llamado de una vía porque analiza un variable
independiente o Factor ej: Velocidad. Como tal, es un método estadístico útil para
comparar dos o más medias poblacionales. El ANOVA de un criterio nos permite poner a
prueba hipótesis tales como:
H 0  1   2   3  ....   k
H1 : Al menos dos medias poblacionales son diferentes.
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras
independientes son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,  12   22 .
El estadístico tiene una distribución muestral resultando:
Fc 
sb2
sw2
El valor crítico para la prueba F es:
F (k  1, k (n  1))
Dondelnúmero de grados de libertad para el numerador es k-1 y para el denominador es
k(n-1), siendo  el nivel de significancia.
k = número de muestras.
Por ejemplo:
Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Como los empleados se seleccionan aleatoriamente para cada programa
el diseño se denomina DISEÑO COMPLETAMENTE ALEATORIZADO
Se observa el aprovechamiento de los empleados en los programas:
Página 119
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
TRATAMIENTOS
I
r=1
r=2
r=3
r=4
r=5
Medias
c=1
c=2
c=3
J
Programa 1
Programa 2 Programa 3
85
80
82
72
84
80
83
81
85
80
78
90
**
82
88
80.00
81.00
85.00
Xj
Media de medias o media
total
82.14
TIPOS DE VARIACIÓN Y SUMAS DE CUADRADOS
1. Variación total entre los 14 empleados, su puntuación no fue igual con todos
VARIACIÓN TOTAL RESPECTO A LA MEDIA GENERAL
r
SCT  
i 1
c
 ( Xij  X )
2
j 1
SCT = (85-82.14)2 + (72-82.14)2+(83-82.14)2+.....+(88-82.14)2
SCT = 251.7
2. Variación entre los diferentes tratamientos o Variación entre muestras
o
variación entre programa 1, programa 2 y programa 3
EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA GENERAL
r
SCTR   rj ( X j  X ) 2
j 1
SCTR = 4(79.5 - 81.3333)2 + 5(81 - 81.3333)2 + 5(85 - 81.333)2
SCTR = 65.71
3. Variación dentro de un tratamiento o muestra o programa dado que no todos los
empleados dentro de un mismo programa obtuvieron los mismos puntajes. Se denomina
Variación dentro de los tratamientos.
Página 120
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
VARIACIÓN DENTRO DEL TRATAMIENTO O VARIACIÓN DEL ERROR
CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO
r
SCE  
i 1
c
(X
j 1
SCE = SCT - SCTR =
ij
 X j )2
186
4. GRADOS DE LIBERTAD
Grados de libertad totales = n - 1 = 14-1 = 13
Grados de libertad de los tratamientos = c - 1 = 3 - 1 = 2
Grados de libertad del error = gl. Totales - gl. Tratamientos = 13 - 2 = 11
gl SCT = gl SCTR + gl SCE
gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n -c
5. CUADRADOS MEDIOS (Suma Cuadrados/ Grados libertad)
CMT = Cuadrado medio total = SCT / (n-1) =
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) = 32.9
CME = Cuadrado medio del error = SCE/ gle.=
19.4
16.9
6. ESTADÍSTICO DE PRUEBA Fc Y ESTADÍSTICO F CRÍTICO DE ALFA
Fc = CMTR / CME=
1.946745562
Falfa, gl.numerador, gl.denomin ador  F ,c 1,n c
Cálculo de F con Excel
=DISTR.F.INV(ALFA, GL. TR, GL. ERR) =DISTR.F.INV(0.05, 2, 11) = 3.982297957
Página 121
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
NO RECHAZAR
P. Reyes / julio 2013
ZONA DE
RECHAZO
Distr. F
Como Fc es menor a Falfa no se rechaza Ho y las medias son iguales.
7. VALOR P DE Fc
P = distr.f(Fc, gl. SCTr, gl. SCE) = distr.f(1.946, 2, 11) = 0.18898099
Como P es mayor a alfa no se rechaza Ho
Conclusion: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO, LAS MEDIAS DE LOS
TRATAMIENTOS SON IGUALES
TABLA DE ANOVA
FUENTE DE VARIACIÓN
Entre muestras (tratam.)
Dentro de muestras (err.)
Variación total
SUMA DE
CUADRADOS
SCTR
SCE
SCT
GRADOS DE
LIBERTAD
c-1
n-c
n-1
CMT
CUADRADO
MEDIO
VALOR F
CMTR
CMTR/CME
CME
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
USO DE EXCEL:




En el menú herramientas seleccione la opción Análisis de datos, en funciones para
análisis seleccione Análisis de varianza de un factor.
En Rango de entrada seleccionar la matriz de datos (todas las columnas a la vez).
Alfa = 0.05
En Rango de salida indicar la celda donde se iniciará la presentación de resultados.
Página 122
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
RESUMEN
Grupos
Programa 1
Programa 2
Programa 3
P. Reyes / julio 2013
Análisis de varianza de un factor
Cuenta
Suma
Promedio
Varianza
4
320
80 32.666667
5
405
81
5
5
425
85
17
Grados
ANÁLISIS DE VARIANZA
de
Promedio de
Suma
Variaciones
cuadrados
libertad Cuadrados
Fc
Probabilidad F crítica
Entre
grupos
65.71428571
2 32.85714286 1.9431644
0.18937731 3.98229796
Dentro de
grupos
186
11 16.90909091
Total
251.7142857
13
USO DE MINITAB





Stat > ANOVA > One Way (Unstacked)
en Responses in separate columns Indicar las columnas de datos
En Confidence Level 95%
Seleccionar Comparisons Tukey 5%
OK
One-way ANOVA: Programa 1, Programa 2, Programa 3
Source
Factor
Error
Total
DF
2
11
13
S = 4.112
SS
65.7
186.0
251.7
MS
32.9
16.9
F
1.94
R-Sq = 26.11%
P
0.189
R-Sq(adj) = 12.67%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
Programa 1
Programa 2
Programa 3
N
4
5
5
Mean
80.000
81.000
85.000
StDev
5.715
2.236
4.123
----+---------+---------+---------+----(------------*------------)
(----------*-----------)
(-----------*----------)
----+---------+---------+---------+----77.0
80.5
84.0
87.5
Pooled StDev = 4.112
NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadísticamente
Página 123
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
P. Reyes / julio 2013
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
Programa 1 subtracted from:
Programa 2
Programa 3
Lower
-6.451
-2.451
Center
1.000
5.000
Upper
8.451
12.451
--------+---------+---------+---------+(------------*-----------)
(-----------*------------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Upper
11.025
--------+---------+---------+---------+(-----------*----------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Programa 2 subtracted from:
Programa 3
Lower
-3.025
Center
4.000
NOTA: Si el cero se encuentra en el intervalo de confianza de la diferencia entre medias,
este par de medias no son diferentes.
EJERCICIOS:
1. Cuatro catalizadores que pueden afectar la concentración de un componente en una
mezcla líquida de tres componentes están siendo investigado.
Se obtienen las siguientes concentraciones:
A
58.2
57.2
58.4
55.8
54.9
Catalizador
B
56.3
54.5
57
55.3
C
50.1
54.2
55.4
D
52.9
49.9
50
51.7
2. Para determinar si existe diferencia significativa en el nivel de Matemáticas de 4 grupos
de estudiantes de Ingeniería se realizó un examen aleatorio a 6 individuos por grupo.
Determine cuales son los grupos en los cuales existen diferencias a un 95% de nivel de
confianza.
Página 124
CURSO TALLER DE MÉTODOS ESTADÍSTICOS
A
75
93
78
71
63
76
B
78
91
97
82
85
77
C
55
66
49
64
70
68
P. Reyes / julio 2013
D
64
72
68
77
56
95
3. Las calificaciones en el examen a 18 empleados de tres unidades de negocio
Se muestran a continuación:
Probar si no hay diferencia entre las unidades a un 5% de nivel de significancia.
A
85
75
82
76
71
85
B
71
75
73
74
69
82
C
59
64
62
69
75
67
4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el
mismo servicio a un nivel de significancia del 5%.
A
5.4
7.8
5.3
7.4
8.4
7.3
B
8.7
7.4
9.4
10.1
9.2
9.8
C
11.1
10.3
9.7
10.3
9.2
8.8
D
9.9
12.8
12.1
10.8
11.3
11.5
Página 125