Download ESTADÍSTICA DESCRIPTIVA

Document related concepts
no text concepts found
Transcript
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
CURSO TALLER DE
ESTADÍSTICA Y PROBABILIDAD
Elaboró: Dr. Primitivo Reyes Aguilar
Septiembre de 2006
Mail: [email protected]
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12
Página 1
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
CONTENIDO
MÓDULO 1. ESTADÍSTICA DESCRIPTIVA
2
MÓDULO 2. HERRAMIENTAS ESTADÍSTICAS Y ADMINISTRATIVAS 21
PARA SOLUCIÓN DE PROBLEMAS
MÓDULO 3. PROBABILIDAD Y DISTRIBUCIONES
DE PROBABILIDAD
42
MÓDULO 4. DISTRIBUCIÓN NORMAL
67
MÓDULO 5. ESTADÍSTICA INFERENCIAL
74
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS
MÓDULO 6. TABLAS DE CONTINGENCIA Y ANOVA
107
MÓDULO 7. REGRESIÓN Y CORRELACIÓN LINEAL
117
Página 2
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
MÓDULO 1. ESTADÍSTICA DESCRIPTIVA
La Estadística descriptiva es la rama de las matemáticas que comprende la recopilación,
tabulación, análisis e interpretación de datos cuantitativos y cualitativos, para tomar decisiones que
se requieran a fin de que el comportamiento de los datos se mantenga dentro de los parámetros de
control establecidos.

Población (N)– Es el conjunto de todos los elementos de interés para determinado estudio

Parámetro – Es una característica numérica de la población, se identifica con letras griegas
(Media = µ, Desviación estándar = σ, Proporción = π, Coeficiente de correlación = ρ)

Muestra (n) – Es una parte de la población, debe ser representativa de la misma.

Estadístico – Es una característica numérica de una muestra, se identifica con letras latinas
(Media = X, Desviación estándar = s, Proporción = p, Coeficiente de correlación = r)
La Estadística descriptiva proporciona un criterio para lograr mejoras, debido a que sus técnicas
se pueden usar para describir y comprender la variabilidad. Por ejemplo, consideremos en una
caldera de vapor la presión del combustible alimentado y la eficiencia de la caldera, si utilizamos
instrumentos de medición con la resolución suficiente, encontraremos que existe variabilidad en esos
parámetros, y mediante el uso de técnicas estadísticas podemos realizar mejoras para reducir la
variación en rendimiento de la caldera.
Para poder obtener consecuencias y deducciones válidas de los datos de un estadístico, es muy útil
contar con información sobre los valores que se agrupan hacia el centro y sobre que tan
distanciados o dispersos estén unos respecto a otros. Comenzaremos por definir estas medidas:
La estadística inferencial se refiere a la estimación de parámetros y pruebas de hipótesis acerca
de las características de la población en base a los datos obtenidos con una muestra.
1.1 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS SIMPLES.
Medidas de tendencia central

Media: ( x ) Es el promedio aritmético de todos los valores que componen el conjunto de datos.
Se calcula mediante la siguiente fórmula:
Para una muestra y para una población se tiene respectivamente:
x
xi
n

Página 3
xi
n
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Ejemplo 1: En un equipo de fútbol, una muestra de estaturas de sus integrantes son las
siguientes:
1.70,1.79,1.73,1.67,1.60,1.65,1.79,1.84,1.67,1.82, 1.74. Calcule la media.
x

xi 19

 1.73
n 11
Mediana: ( ~
x ) Los datos de "n" observaciones son ordenados del más pequeño al más grande,
Si el tamaño de la muestra es "non" la mediana es el valor ordenado en la posición (n+1)/2,
Cuando el tamaño de la muestra es "par" la mediana es el promedio de los dos valores que se
encuentran al centro del conjunto de valores. Se puede calcular mediante:
n 2  n 2  1
2
Ejemplo 2: Para el ejemplo anterior ¿cuál es la mediana?
Ordenando los datos de mayor a menor se obtiene:
1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;
Como tenemos 11 datos el número es non por lo que (n+1)/2 = 12/2 = 6, buscando el número
que ocupa la sexta posición en los datos ordenados encontramos el valor de la mediana
~
x  1.73

Media acotada (Truncated Mean): Determinado porcentaje de los valores más altos y bajos de
un conjunto dado de datos son eliminados (tomando números enteros), para los valores
restantes se calcula la media.
Ejemplo 3: Para la siguiente serie de datos calcule la media acotada al 20%:
68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,
Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el más bajo y el
más alto, ordenado los datos obtenemos:
8.4,31.1,33.2,34.3,42.5,54.2,68.7,71.6,72.3,73.4,80.6,82.2,87.9,97.7,97.9, los valores a eliminar
~x ,.20  63.82
son: 8.4 y 97.9; calculando la media de los datos restantes obtenemos
Medidas de dispersión
Para comprender el concepto de varianza, supóngase que tenemos los datos siguientes de los
cuales queremos saber que tan dispersos están respecto a su media:
2, 3, 4, 5, 6
con media = 20/5 = 4
Página 4
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:
(-2) + (-1) + (0) + (1) +(2) = 0
Por lo que tomando diferencias simples no es posible determinar la dispersión de los datos.
Si ahora tomamos esas mismas diferencias al cuadrado y las sumamos se tiene:
4 + 1 + 0 + 1 + 4 = 10
Varianza de los datos
Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados están
de la media

Poblacional (σ2 ) Se obtiene dividiendo el valor anterior entre n = 5, o sea el promedio de la
suma de las diferencias al cuadrado, tomando n datos.
( xi  x ) 2
 
n
2

Poblacional (s2 ) Se obtiene dividiendo el valor anterior entre n - 1 = 4, o sea el promedio de
la suma de las diferencias al cuadrado, tomando n -1 datos.
s2  

( xi  x ) 2
n 1
Desviación estándar: Es la raíz cuadrada de la varianza:
Para el caso de una población  
Para el caso de una muestra

s
( xi  x ) 2
 n
( xi  x ) 2
 n 1
Rango ( R ): es la diferencia positiva entre el valor mayor y el valor menor de un conjunto
de datos. Por ejemplo para el conjunto de datos siguiente:
2.0,2.1,2.4,2.5,2.6,2.8,2.9,2.9,3.0,3.1,3.6,3.8,4.0,4.0
Su rango es R = 4.0 – 2.0 = 2.0

Coeficiente de Variación (CV): Se utiliza para comparar la dispersión de dos conjuntos de
datos que tienen unidades diferentes, ya que representa una medida relativa de dispersión.
s
Coeficiente.de. var iación  CV  (100)
X
Página 5
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Por ejemplo si la media de tiempos de respuesta es de 78.7 y su desviación estándar es 12.14, el
CVt:
12.14
(100)  12.05%
78.7
Por otra parte si la media de temperaturas es de 10 y su desviación estándar de 2, el CVs de las
temperaturas es:
CVt 
CVs 
2
(100)  20%
10
Por tanto la dispersión de las temperaturas es mayor que la de los tiempos de de respuesta, es
posible comparar estas dispersiones con el CV aunque los dos conjuntos de datos sean
completamente disímbolos.
Ejemplo 4: La resistencia al rompimiento de dos muestras de botellas es la siguiente:
Muestra 1:
Muestra 2:
230
190
250
228
245
305
258
240
265
265
240
260
Calcule la desviación estándar para ambas muestras.
Muestra 1:
Muestra 2

x  248

x  248
Suma(Xi - x )2 = 790
Suma(
n-1=5
n-1 = 5
s=
790
= 12.56
5
s=
Xi - x )2 = 7510
7510
= 38.75
5
Rango = 265 – 230 = 35
Rango = 305 – 190 = 115
CV = 12.56/248*100= 5.06%
CV = 38.75/248*100 = 15.625
Aunque la media en ambas muestras es la misma, la desviación estándar (s), rango y coeficiente de
variación, son menores en la muestra 1, por lo cual deducimos que es presenta menor variabilidad.
Ejemplo 5:
Se desea hacer un estudio estadístico de la temperatura del agua, para esto es necesario tomar una
muestra y calcular la media, mediana, media acotada al 15%, desviación estándar, rango y
coeficiente de variación. Se realizan 14 observaciones arrojando los siguientes resultados en ºC:
2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6,2.9, 3.0.
Página 6
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
1) Calcular la media, mediana, desviación estándar, media acotada al 5%, desviación estándar,
rango y coeficiente de variación.
1.2 OTRAS MEDIDAS DE DISPERSIÓN: PERCENTILES, DECILES Y QUARTILES
Cada conjunto de datos ordenado tiene tres cuartiles que lo dividen en cuatro partes iguales. El
primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones y sobre el cual se
encuentra el 75% restante. El segundo cuartil divide a los datos a la mitad similar a la mediana.
Los deciles separan un conjunto de datos ordenado en 10 subconjuntos iguales y los percentiles en
100 partes, la ubicación de un percentil se encuentra en:
L p  (n  1)
Donde:
P
100
Lp es el sitio del percentil deseado en una serie ordenada
n es el número de observaciones
P es el percentil deseado
Por ejemplo para el conjunto de datos siguiente:
3
4
7
9
10
10
12
14
15
17
19
20
21
25
27
27
29
31
31
34
34
34
36
37
38
38
39
43
45
47
48
48
52
53
56
56
59
62
63
64
67
67
69
72
73
74
74
76
79
80
La localización del percentil 35 se halla en:
L35  (50  1)
35
 17.85
100
O sea que el percentil 35 está al 85% del trayecto comprendido entre la observación 17 que es 29 y
la observación 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las
observaciones están por debajo de 30.7 y el 65% restante por encima de 30.7.
De la misma forma los percentiles 25, 50 y 75 proporcionan la localización de los cuartiles Q1, Q2 y
Q3 respectivamente.

Q1: es el número que representa al percentil 25 (hay 25% de los datos por debajo de este).

Q2 o Mediana: es el número que representa al percentil 50 (hay 50% de los datos por
debajo de este).

Q3: es el número que representa al percentil 75 (hay 75% de los datos por debajo de este).
Página 7
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD

P. Reyes / Sep. 2006
Rango o Recorrido intercuartílico: es la diferencia entre Q1 y Q3.
DIAGRAMA DE CAJA
Es la representación gráfica de los datos en forma de caja:
1 10 4
1050
Q3
Q2 Mediana
Weight
Q3 + 1.5 RIC
950
Q1
850
Q1 – 1.5RIC
Rango
Intercuartílico =
RIC = Q3 – Q1
Valores atípicos
Bigotes
Figura 1. Diagrama de caja con sus cuarteles y bigotes
1.3 DISTRIBUCIÓN DE FRECUENCIAS E HISTOGRAMAS
Cuando tenemos una cantidad grande de datos es difícil poder analizarlos, a menos que hagamos
uso de herramientas que nos permitan hacerlo con mayor facilidad y claridad. El histograma es una
de ellas, consiste en un diagrama de barras donde las bases corresponden a los intervalos y las
alturas a las frecuencias. Para construir un histograma es necesario tener un mínimo de 50 a 100
datos. Se tienen las siguientes definiciones:

Distribución de frecuencias: es un resumen tabular de un conjunto de datos que muestra
el número o frecuencia de artículos en cada una de varias clases que no se traslapan.

Frecuencia relativa (f): Es la frecuencia de la clase dividida entre el total n de datos. Se
puede representar en porcentaje.

Distribución de frecuencias porcentuales: es la representación de las frecuencias
relativas porcentuales.

Frecuencia acumulada (F): es la acumulación secuencial de las frecuencias de cada clase.
Página 8
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Ejemplo 6
Construir un histograma con la siguiente serie de datos:
2.41
3.34
4.04
4.46
8.46
9.15
11.59
12.73
13.18
15.47
16.20
16.49
17.11
17.87
18.03
18.69
19.94
20.20
20.31
24.19
28.75
30.36
30.63
31.21
32.44
32.89
33.51
33.76
34.58
35.58
35.93
36.08
36.14
36.80
36.92
37.23
37.31
37.64
38.29
38.65
39.02
39.64
40.41
40.58
40.64
43.61
44.06
44.52
45.01
45.08
45.10
45.37
45.70
45.91
46.50
47.09
47.21
47.56
47.93
48.02
48.31
48.55
48.62
48.98
49.33
49.36
49.95
50.02
50.10
50.10
50.72
51.40
51.41
51.77
52.43
53.22
54.28
54.71
55.08
55.23
55.56
55.87
56.04
56.29
58.18
59.03
59.37
59.61
59.81
60.27
61.30
62.53
62.78
62.98
63.03
64.12
64.29
65.44
66.18
66.56
67.45
67.87
69.09
69.86
70.37
71.05
71.14
72.46
72.77
74.03
74.10
76.26
76.69
77.91
78.24
79.35
80.32
81.21
82.37
82.79
83.31
85.83
88.67
89.28
89.58
94.07
94.47
94.60
94.74
96.78
Paso 1: Contar el número de datos n = 130
Paso 2: Calcular el rango R = Valor mayor – Valor menor, R = 96.78-2.41 = 94.37.
Generalmente los datos no están ordenados por lo cual resulta conveniente ordenarlos de menor a
mayor para tener una mejor visualización. En el ejemplo los datos ya han sido previamente
ordenados.
Paso 3: Seleccionar el número de columnas, mediante
histograma se compone de 11 columnas
n =
130  11.4  11. Por lo cual el
Paso 4: Calcular el tamaño del intervalo de clase ( C ), dividiendo el rango entre el número de
94.37
 8.58  9 , resultando el tamaño del intervalo 9.
columnas: C =
11
 Otra manera de calcular el tamaño del intervalo es el siguiente:
Dividir el valor del rango entre un cierto número de clases (K). La tabla de abajo es una guía que nos
muestra para diferentes cantidades de datos el número recomendado de clases a utilizar.
Número de datos (N)
Menos de 50
50 a 100
100 a 250
Más de 250
Número de clases (K)
5–7
6 – 10
7 – 12
10 – 20
Paso 5: Calcular los limites de clase de cada intervalo: [0-8], [ 9-17], etc., considerando que el
tamaño del intervalo representa la diferencia entre dos límites de clase adyacentes ya sean
inferiores o superiores.
Página 9
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Paso 6: Contar el número de valores que caen en cada intervalo utilizando una hoja de registro, de
esta manera se obtiene la frecuencia para cada intervalo.
Tabla 1.
Columna
1
2
3
4
5
6
7
8
9
10
11
Intervalo
0 -8
9-17
18-26
27-35
36-44
45-53
54-62
63-71
72-80
81-89
90-98
Registro de frecuencias
IIIII
IIIII
IIII
IIIII
I
IIIII
IIIII
I
IIIII
IIIII
II
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
III
IIIII
IIIII
IIIII
III
IIIII
IIIII
III
IIIII
III
5
9
6
11
17
28
18
13
10
8
5
Histograma
30
Frecuencia
25
20
15
Frecuencia
10
5
0
9
18
27
36
45
54
63
72
81
90
99
Clase
Paso 7: Basándose en los datos anteriores construya el histograma.
Diagrama de tallo y hojas
Es otra representación de la información, primero se ordenan los dígitos principales a la izquierda de
una línea vertical. A la derecha de esta línea se registra el último dígito para cada dato conforme se
revisan las observaciones en el orden en que se registraron. Por ejemplo:
Con Minitab: Stat > EDA > Steam and leaf… Indicar columna de datos, increment = 10
Stem-and-leaf of Respuest
Leaf Unit = 1.0
N
= 50
Página 10
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
2
8
16
(11)
23
14
7
3
1
6
7
8
9
10
11
12
13
14
P. Reyes / Sep. 2006
89
233566
01123456
12224556788
002466678
2355899
4678
24
1
1.4 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN PARA DATOS
AGRUPADOS.

La media con datos agrupados: se calcula así:
Xg 
 fM
n
Donde
f es la frecuencia o número de observaciones en cada clase
M es el punto medio de cada clase, se determina como el valor medio entre los límites de clase.
n es el tamaño de la muestra o la suma de todas las frecuencias de las clases
Ejemplo:
Clase
(Presión)
Frecuencia de clase
(días)
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
50
Xg 
M
fM
54.5
64.5
74.5
84.5
94.5
104.5
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
Frecuencia acumulada
F
3
10
28
40
48
50
3935
 78.7
50

Mediana de datos agrupados:
Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este caso la
clase de 70 a 79 con punto central de clase = 74.5.
Página 11
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
n / 2  F 
~
 50 / 2  10 
Mediana  X  Lmd  
(C )  70  
10  78.33 pasajeros
f
18


md


Donde:
Lmd es el límite inferior de la clase de la mediana cuya F es >= n / 2 o sean (70)
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (10)
Fmd es la frecuencia de la clase de la mediana (18)
C es el intervalo de clase de la mediana que es la diferencia entre dos límites de clase (10)

Moda de datos agrupados:
Primero se halla la clase que tenga la frecuencia más alta, en este caso la clase 70 a 79.
 Da 


18  7
Moda  Lmo  
(C )  70  
10  76.47
 (18  12)  (18  7) 
 Db  Da 
Donde:
Lmo es el límite inferior de la clase modal con la frecuencia más alta (70).
Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 – 7 = 11)
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 – 12 = 6)
C es el intervalo de la clase modal ( 80 – 70 = 10 )

s
2
Varianza y desviación estándar de datos agrupados:
 fM

2
 nX 2
n 1
s  s2
Para los datos anteriores se tiene:
Clase
(Presión)
Frecuencia de clase
(días)
M
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
54.5
64.5
74.5
84.5
94.5
104.5
Página 12
fM
M2
fM2
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
2790.25
4160.25
5550.25
7140.25
8930.25
10920.25
8910.75
29121.75
99904.50
85683.00
71442.00
21840.50
316902.50
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
3935
 78.7
50
316902.50  50(78.7) 2
s2 
 147.31 pasajeros
49
s  12.14 pasajeros
Xg 
Con esta información el personal puede tomar sus decisiones
1.5 USOS FRECUENTES DE LA DESVIACIÓN ESTÁNDAR

EL TEOREMA DE TCHEBYSHEV
1
)% de las observaciones se
K2
encuentran dentro de  K desviaciones estándar de la media, con K >= 1.
Establece que para todo conjunto de datos por lo menos (1 
Por ejemplo si K =  3 desviaciones estándar respecto a la media, se tiene que por lo menos el:
(1 
1
1

)%  1  2 %  88.89%
2
K
 3 
De las observaciones estarán dentro de dicho intervalo.
CASO DE LA DISTRIBUCIÓN NORMAL
68.3% de las observaciones se encuentran dentro de  1 desviación estándar de la media
95.5% de las observaciones se encuentran dentro de  2 desviaciones estándar de la media
99.7% de las observaciones se encuentran dentro de  3 desviaciones estándar de la media

SESGO
En la distribución normal si no es simétrica y tiene una cola más amplia del lado derecho, se dice
que existe un sesgo a la derecha y viceversa.
El coeficiente de sesgo o asimetría P se determina como sigue:
Página 13
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P
P. Reyes / Sep. 2006
3( X  Mediana )
s
Si P < 0 los datos están sesgados a la izquierda, si P > 0 están sesgados a la derecha; si P = 0
están distribuidos normalmente.
Para el caso de los datos del ejemplo anterior se tiene:
P
3(78.7  78.33)
 0.03 Los datos están un poco sesgados hacia la derecha.
12.14
Coeficiente de asimetría de Fisher
Otra estimación del sesgo o coeficiente de asimetría se hace a través de momentos estadísticos
(diferencias contra la media) como lo sugiere Fisher:
n
Mj 
(X
i 1
i
 X)j
n
j  1, 2,3, 4
1 n
( Xi  X ) 3

n i 1
M3
o 1 
Para la distribución normal debe ser 0.
3/ 2
M 23 / 2
1 n
2
  ( Xi  X ) 
 n i 1

Se puede considerar que una distribución es simétrica si  1  0 , asimétrica hacia la izquierda con
 1  0 o hacia la derecha  1  0 .
Sesgo  ˆ1 
Por ejemplo:
Ejemplo de una distribución con sesgo negativo o sesgada hacia la izquierda con Sesgo = -1.01
Página 14
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Ejemplo de una distribución con sesgo positivo o sesgada hacia la derecha con Sesgo = 1.08

CURTOSIS
En la distribución normal si no es acampanada y es más picuda o aplanada de lo normal se dice que
tiene una Curtosis diferente de cero que es lo normal, si es mayor es más picuda o más plana al
revés.
Coeficiente de Curtosis de Fisher
Kurtosis   2 
1 n
 ( Xi  X ) 4
n i 1
M4
 3 Para la distribución normal debe ser 0.
-3 o 2 
2
M 22
1 n

  ( Xi  X ) 2 
 n i 1

 2  0 , leptocúrtica si  2  0 más puntiaguda
que la normal o platicúrtica (más plana que la normal ) con  2  0 .
La distribución es mesocúrtica (plana normal) si
Ejemplo de curva más plana que la normal Curtosis = -1.03
Página 15
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Ejemplo de curva más picuda que la normal Curtosis = 0.76
1.6 USO DE MINITAB y EXCEL
Para la obtención de las estadísticas descriptivas con Minitab las instrucciones son:
 Stat > Basic statistics > Display descriptive statistics
Indicar las variables de las cuales se quieren obtener las estadísticas básicas y la variable categórica
si se desean varios grupos.
Seleccionar las gráficas opcionales para los datos: Histograma, diagrama de caja y de puntos.
Seleccionar los estadísticos específicos que se desean obtener:
Página 16
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Los resultados son los siguientes:
Descriptive Statistics: Peso en gr
Variable
Peso en gr
Línea
1
2
N
250
250
N*
0
0
Variable
Peso en gr
Línea
1
2
Q3
4040.0
4121.5
Mean
3999.6
4085.6
SE Mean
3.14
3.32
StDev
49.6
52.5
Minimum
3877.0
3954.0
Q1
3967.8
4048.8
Median
3999.5
4087.0
Maximum
4113.0
4202.0
Diagramas de caja en Minitab:
Capture datos en la hoja de trabajo: 7 8 9 9 11 12 12 13 14 15 16 17 18 19 20 22
Seleccione la opción: Graph> Boxplot
Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
A continuación se muestra el diagrama de caja:
Boxplot of Caja
22.5
20.0
17.5
15.0
Caja
1.
2.
3.
4.
12.5
10.0
7.5
5.0
Página 17
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Histograma en Minitab:
1.
2.
3.
4.
5.
Capture los datos del ejemplo 6 en la hoja de trabajo:
Seleccione la opción: Graph> Histogram (simple)
Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
En Options se puede cambiar el número de celdas con Number of intervals (6 – 8)
A continuación se muestra el Histograma:
Histogram of DATOS
40
Frequency
30
20
10
0
-10
20
50
DATOS
80
110
Prueba de normalidad en Minitab:
Capture los datos del ejemplo 6 en la hoja de trabajo:
Seleccione la opción: Stat > Basic statistics
Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
Seleccione la prueba de Anderson Darling
A continuación se muestra la grafica normal, si P value > 0.05 los datos son normales.
Probability Plot of DATOS
Normal
99.9
Mean
StDev
N
AD
P-Value
99
95
90
Percent
1.
2.
3.
4.
5.
80
70
60
50
40
30
20
10
5
1
0.1
0
30
60
DATOS
90
Página 18
120
50.05
22.50
130
0.380
0.399
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
USO DE EXCEL
1.
2.
3.
4.
5.
En el menú Herramientas seleccione la opción Análisis de datos. Datos de ejemplo 6.
Seleccione la opción Estadística descriptiva.
Seleccione el rango de entrada, estos corresponden a los datos numéricos de la tabla.
Seleccione Resumen de estadísticas.
En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo
que este en blanco (a partir de está celda serán insertados los resultados).
La hoja mostrará las siguientes medidas estadísticas de los datos presentados:
Columna1
Media
Error típico
Mediana
Moda
Desviación
estándar
Varianza de la
muestra
Curtosis
Coeficiente de
asimetría
Rango
Mínimo
Máximo
Suma
Cuenta
50.0537692
1.9738137
49.345
50.1
22.5049388
506.47227
-0.4466339
-0.0352296
94.37
2.41
96.78
6506.99
130
Página 19
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
EJERCICIOS:
1. Las empresas de generación de energía eléctrica están interesadas en los hábitos de consumo de
los clientes para obtener pronósticos exactos de las demandas de energía. Una muestra de
consumidores de 90 hogares con calefacción de gas arrojó lo siguiente (FURNACE.MTW):
BTU.In_1
2.97
4.00
5.20
5.56
5.94
5.98
6.35
6.62
6.72
6.78
6.80
6.85
6.94
7.15
7.16
7.23
7.29
7.62
7.62
7.69
7.73
7.87
7.93
8.00
8.26
8.29
8.37
8.47
8.54
8.58
8.61
8.67
8.69
8.81
9.07
9.27
9.37
9.43
9.52
9.58
9.60
9.76
9.82
9.83
9.83
9.84
9.96
10.04
10.21
10.28
10.28
10.30
10.35
10.36
10.40
10.49
10.50
10.64
10.95
11.09
11.12
11.21
11.29
11.43
11.62
11.70
11.70
12.16
12.19
12.28
12.31
12.62
12.69
12.71
12.91
12.92
13.11
13.38
13.42
13.43
a) Determinar los estadísticos de tendencia y dispersión
b) Construir un diagrama de caja e histograma
c) Realizar una prueba de normalidad de los datos
d) Establecer conclusiones
Página 20
13.47
13.60
13.96
14.24
14.35
15.12
15.24
16.06
16.90
18.26
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
MÓDULO 2. HERRAMIENTAS ESTADÍSTICAS ESTADÍSTICAS Y
ADMINISTRATIVAS PARA SOLUCIÓN DE PROBLEMAS
HERRAMIENTAS ESTADÍSTICAS
2.1 HOJA DE REGISTRO O VERIFICACIÓN
2.2 DIAGRAMA DE PARETO
2.3 LLUVIA DE IDEAS
2.4 DIAGRAMA DE ISHIKAWA
2.5 CARTA DE TENDENCIAS
2.6 DIAGRAMA DE FLUJO
2.7 DIAGRAMA DE DISPERSIÓN
Página 21
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.1 HOJA DE REGISTRO O VERIFICACIÓN
Básicamente es un formato que facilita que una persona pueda tomar datos en una forma ordenada
y de acuerdo al estándar requerido en el análisis que se esté realizando.
Pasos para la elaboración de una hoja de verificación:
1.
2.
3.
4.
Determinar claramente el proceso sujeto a observación.
Definir el período de tiempo durante el cuál serán recolectados los datos (horas a semanas).
Diseñar una forma que sea clara y fácil de usar.
Obtener los datos de una manera consistente y honesta. Dedicar el tiempo necesario.
Ejemplo de hoja de verificación
DIA
DEFECTO
Tamaño erróneo
Forma errónea
Depto. Equivocado
Peso erróneo
Mal Acabado
TOTAL
1
IIIII I
I
IIIII
IIIII IIIII I
II
25
2
IIIII
III
I
IIIII III
III
3
IIIII III
III
I
IIIII III
I
IIIII II
II
I
IIIII IIIII
I
21
21
20
4
TOTAL
26
9
8
37
7
87
Consejos para la elaboración e interpretación de las hojas de verificación
1. Asegúrese de que las observaciones sean representativas.
2. Asegúrese de que el proceso de observación es eficiente de manera que las personas tengan
tiempo suficiente para hacerlo.
3. La población (universo) muestreada debe ser homogénea, en caso contrario, el primer paso es
utilizar la estratificación (agrupación) para el análisis de las muestras/observaciones las cuales
se llevarán a cabo en forma individual.
EJERCICIO: Colectar el intervalo de tiempo en que ingresan personas a un departamento.
Página 22
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.2 DIAGRAMA DE PARETO
Herramienta utilizada para el mejoramiento de la calidad para identificar y separar en forma crítica
las pocas causas que provocan la mayor parte de los problemas de calidad. El principio enuncia que
aproximadamente el 80% de los efectos de un problema se debe a solamente 20% de las causas
involucradas.
El diagrama de Pareto es una gráfica de dos dimensiones que se construye listando las causas de
un problema en el eje horizontal, empezando por la izquierda para colocar a aquellas que tienen un
mayor efecto sobre el problema, de manera que vayan disminuyendo en orden de magnitud. El eje
vertical se dibuja en ambos lados del diagrama: el lado izquierdo representa la magnitud del efecto
provocado por las causas, mientras que el lado derecho refleja el porcentaje acumulado de efecto de
las causas, empezando por la de mayor magnitud.
Pasos para desarrollar el diagrama de Pareto:
1. Seleccione qué clase de problemas se van a analizar.
2. Decida qué datos va a necesitar y cómo clasificarlos. Ejemplo: Por tipo de defecto, localización,
proceso, máquina, trabajador, método.
3. Defina el método de recolección de los datos y el período de duración de la recolección.
4. Diseñe una tabla para el conteo de datos con espacio suficiente para registrarlos.
5. Elabore una tabla de datos para el diagrama de Pareto con la lista de categorías , los totales
individuales, los totales acumulados, la composición porcentual y los porcentajes acumulados
6. Organice las categorías por orden de magnitud decreciente, de izquierda a derecha en un eje
horizontal construyendo un diagrama de barras. El concepto de “otros” debe ubicarse en el
último lugar independientemente de su magnitud.
7. Dibuje dos ejes verticales y uno horizontal.
Ejes verticales:
- Eje izquierdo: Marque este eje con una escala desde 0 hasta el total general
- Eje derecho: Marque este eje con una escala desde 0 hasta 100%
Eje horizontal:
- Divida este eje en un número de intervalos igual al número de categorías clasificadas.
8. Dibuje la curva acumulada (curva de Pareto), Marque los valores acumulados (porcentaje
acumulado) en la parte superior, al lado derecho de los intervalos de cada categoría, y conecte
los puntos con una línea continua.
9. Escriba en el diagrama cualquier información que considere necesaria para el mejor
entendimiento del diagrama de Pareto.
Ejemplo de diagrama de Pareto:
El departamento de ventas de un fabricante de materiales de empaque tiene registrada una lista de
las quejas que se han recibido durante el último mes.
Página 23
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
Tipo de queja
No.
de
quejas
P. Reyes / Sep. 2006
Total
Acumulado
Composición
Porcentual
Porcentaje
Acumulado
A) Entregas fuera de tiempo
25
25
35.71
35.71
B) Calibre fuera de especificaciones
23
48
32.85
68.56
C) Material sucio y maltratado
7
55
10
78.56
D) Material mal embalado
6
61
8.57
87.13
E) Dimensiones fuera de especificaciones
3
64
4.28
91.41
F) Inexactitud en cantidades
2
66
2..85
94.26
G) Mala atención del personal
1
67
1.42
95.68
H) Maltrato del material por transportistas
1
68
1.42
97.7
I) Fallas en documentación
1
69
1.42
98.52
J) Producto con códigos equivocados
1
70
1.4
99.94
99.94
98.52
50
97.7
95.68
94.26
91.41
87.13
N
O
78.56
D
E
Q
U
E
J
A
S
68.56
35.71
25
23
7
6
3
2
1
A
B
C
D
E
F
G
H
I
J
Las quejas A,B y C representan el 78.56%, siendo en estas en las que debemos de enfocarnos primero a resolver.
Página 24
%
A
C
U
M
U
L
A
D
O
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Diagrama de Pareto en Minitab
1. Capture los datos en la columna C1 (tipo de defecto), en la columna C2 (frecuencias)
2. Stat>Quality Tools>Pareto Chart
3. Seleccionar la opción Chart defects table , en el campo labels in seleccione: C1 y en
Frequencies in seleccione: C2. Combine defects after the first 80%. OK
El sistema despliega la gráfica de Pareto:
PARETO CHART
70
100
60
80
Percent
Count
50
40
30
60
40
20
20
10
0
0
Defect
A
B
C
D
E
F
G
Count
Percent
Cum %
25
35.7
35.7
23
32.9
68.6
7
10.0
78.6
6
8.6
87.1
3
4.3
91.4
2
2.9
94.3
1
1.4
95.7
rs
he
Ot
3
4.3
100.0
En la gráfica se observa que aprox. el 80% de los efectos es debido a los defectos A, B y C.
A continuación se muestra un diagrama de Pareto considerando una variable categórica.
Pareto Chart of Flaws by Period
Peel
Period = Day
Scratch
Other
Period = Evening
Smudge
20
15
10
Flaws
Peel
Scratch
Other
Smudge
Count
5
Period = Night
20
Period = Weekend
0
15
10
5
0
Peel
Scratch
Other
Smudge
Flaws
EJERCICIO: Realizar un diagrama de Pareto con las fallas de un equipo.
Página 25
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.3 LLUVIA DE IDEAS DE IDEAS (BRAINSTORMING)
En las sesiones de lluvia de ideas se generan nuevas ideas mediante la participación de todo
el equipo.
Para comenzar con el proceso de tormenta de ideas, en el cual se genera información la gente se
reúne en una sala en la cual se recomienda la disposición de las mesas en forma de “U” para facilitar
el debate. La gente que participa en la sesión deberá de pertenecer a diferentes áreas o tener
puntos de vista diferentes, esto con el objeto de enriquecer la sesión.
El facilitador debe de contar con experiencia en la conducción de sesiones de tormentas de ideas, o
al menos haber tenido experiencias previas.
Para conducir un grupo se lleva a cabo la siguiente metodología:
1. Seleccionar el problema a tratar.
2. Pedir a todos los miembros del equipo generen ideas para la solución del problema, las cuales
se anotan en el pizarrón sin importar que tan buenas o malas sean estas.
3. Ninguna idea es evaluada o criticada antes de considerar todos los pensamientos concernientes
al problema.
4. Aliente todo tipo de ideas, ya que al hacerlo pueden surgir cosas muy interesantes, que motivan
a los participantes a generar más ideas.
5. Apruebe la naturalidad y el buen humor con informalidad, en este punto el objetivo es tener
mayor cantidad de ideas así existirán mayores posibilidades de conseguir mejores ideas.
6. Se les otorga a los participantes la facultad de modificar o mejorar las sugerencias de otros.
7. Una vez que se tengan un gran número de ideas el facilitador procede a agrupar y seleccionar
las mejores ideas por medio del consenso del grupo de trabajo.
8. Las mejores ideas son discutidas y analizadas con el fin del proponer una solución.
La técnica tormenta de ideas puede ser aplicada con gran frecuencia al llevar a cabo otras
herramientas, como por ejemplo, diagramas causa-efecto (Ishikawa), Diagrama de relaciones,
Diagrama de árbol, planes con 5W-1H, Diseño de experimentos, pruebas de confiabilidad, etc.
EJERCICIO: Realizar una lluvia de ideas para solucionar el problema de llegar a tiempo a algún
lugar.
Página 26
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.4 DIAGRAMA CAUSA-EFECTO (ISHIKAWA)
El diagrama causa-efecto, también llamado “espina de pescado” por la semejanza de su forma,
también es conocido por diagrama de Ishikawa.
Es utilizado para explorar e identificar todas las causas posibles y relaciones de un problema (efecto)
o de una condición específica en las características de un proceso.
Los pasos para elaborar el diagrama de causa- efecto son los siguientes:
1. Seleccione el efecto (problema) a analizar. Se puede seleccionar a través de un consenso, un
diagrama de Pareto, otro diagrama o técnica.
2. Realice una lluvia de ideas para identificar las causas posibles que originan el problema.
3. Dibuje el diagrama:
-
Coloque en un cuadro a la derecha la frase que identifique el efecto (característica de
calidad)
- Trace una línea horizontal hacia la izquierda del cuadro que contiene la frase. A esta línea
se le conoce como columna vertebral.
- Coloque líneas inclinadas que incidan en la columna vertebral (causas principales).
- Dibuje líneas horizontales con flechas que incidan en las líneas inclinadas conforme a la
clasificación de las causas (causas secundarias)
- Dibuje líneas inclinadas que incidan en las líneas de las causas secundarias (causas
terciarias)
4. Clasifique las causas derivadas de la lluvia de ideas, de la siguiente manera:
 Causas principales.
 Preguntando después por que suceden obtener Causas secundarias
 Volviendo a preguntar de nuevo las razones obtener Causas terciarias,
 Se continua este proceso de preguntas de ¿por qué?, ¿por qué? hasta agotar las
respuestas.
5. El equipo analiza cada causa estratificada (secundaria o terciaria) y por medio de eliminación y
consenso determina cuales son las causas potenciales relevantes que pueden estar
ocasionando el problema.
6. Elabore y ejecute un programa de verificación de las causas relevantes por medio de un
diagrama 5W-1H para identificar las causas reales o causas raíz.
Ejemplo1
Se detectaron fallas en la soldadura de partes, por lo cual se procedió a realizar una investigación
utilizando el diagrama causa-efecto.
El problema es soldadura defectuosa, siendo el efecto que se va a analizar.
Primero se determinan las causas principales M’s:
 Máquinas
 Mano de obra
 Métodos
1
Tomado de: Alberto Galgano, Los siete instrumentos de la Calidad Total, ediciones Díaz de Santos,1995
Página 27
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD



P. Reyes / Sep. 2006
Materiales
Mediciones
Medio ambiente
Estas constituyen las causas primarias del problema y es necesario desafiarlas para encontrar
causas más específicas secundarias y terciarias.
Se construye el diagrama espina de pescado con las causas primarias (M´s), a partir de estas
causas se agrupan las causas secundarias y terciarias derivadas de la lluvia de ideas.
MEDICIONES
MAQUINAS
MANO DE OBRA
DIMENSIONES
INADECUADAS
FUERA DE
DIMENSIONES
ESPECIFICADS
VELOCIDAD DE
AVANCE
TEMPERATURA
ANGULO
INCORRECTO DE
LA FLAMA
FORMACION
HABILIDAD
PUNTA OXIDADA
FORMA
PUNTA
LIMITES
ERGONOMICOS
SOLDADURA DEFECTUOSA
UNION
SOLDADURA
SUPERFICIE
S CON
POLVO E
IMPUREZAS
LACA DE
PROTECCION
SECUENCIA
SOLDADURA
TIEMPOS DE
ESPERA
TERMINALES
DESOXIDANTE
CORTOS OXIDADOS
ias
ec
un
da
ria
MATERIALES
ca
us
as
ter
cia
r
sp
usa
a
C
les
pa
i
c
rin
s
MÉTODOS
Ca
us
as
s
MEDIO AMBIENTE
En el ejemplo anterior las causas primarias fueron agrupadas en (M’s): mediciones, máquinas,
mano de obra,medio ambiente, métodos y materiales. Es posible realizar este diagrama con causas
primarias diferentes a las M´s, por ejemplo:
Problema: Por que el servicio “ABC”, no satisface los requerimientos del cliente. Las causas
primarias en las que se puede organizar este problema son las siguientes:




Proceso 1
Proceso 2
Proceso 3
Proceso 4
Página 28
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Diagrama de Causa Efecto en Minitab
1. Llenar las columnas C1 a C5 con las diferentes causas correspondientes a los conceptos de
Personal, Máquinas, Materiales, Métodos, Mediciones y Medio ambiente.
2. Stat>Quality Tools>Cause and Effect Diagram
3. Introducir los datos en la pantalla de entrada, indicando el problema en Effect y aceptar con
OK.
AMBIENTE
Polvo
Vibraciones
Humedad
Temperatura
MATLS.
Forma
Dureza
Almacén
PERSONAL
MÉTODO
Salud
Ajuste
Habilidad
Velocidad
Humor
FORMA
Diámetro
Curvatura
ALMACÉN
Tiempo
Ambiente
HABILIDAD
HUMOR
Selección
Horas
Formación Moral
Experiencia Cansancio
MAQUINAS
Mantto.
Deformación
Abrasión
Herramental
Cause-and-Effect Diagram
Measurements
Material
P olv o
Personnel
F orma
S alud
V ibraciones
Dureza
Habilidad
Humedad
Temperatura
A lmacén
Humor
Problema de
soldadura
Herramental
V elocidad
A brasión
Deformación
A juste
M antto.
Methods
Machines
EJERCICIO: Realizar un Diagrama de Causa Efecto para el problema de llegara tiempo al trabajo.
Página 29
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.5 CARTA DE TENDENCIAS
Definición:
• Es una ayuda gráfica para el control de las variaciones de los procesos administrativos y de
manufactura.
Usos:
• Saber el comportamiento de un sistema o proceso durante el tiempo.
• Tomar las acciones correctivas a tiempo si la tendencia afectará en forma negativa.
Ejemplo: Se tienen los datos siguientes de errores de planeación de la producción durante 15
semanas:
Semana
1
2
3
4
5
6
7
% Errores
0.15
0.04
0.08
0.07
0.04
0.05
0.01
Semana
8
9
10
11
12
13
14
15
% Errores
0.03
0.04
0.05
0.07
0.04
0.02
0.03
0.01
USO DE MINITAB
1. Stat> Time Series > Trend Análisis Variable: % de errores
2. Time > Stamp Semana OK
La gráfica se muestra a continuación:
Trend Analysis Plot for % Errores
Linear Trend Model
Yt = 0.0869524 - 0.00478571*t
0.16
Variable
A ctual
F its
0.14
A ccuracy Measures
MA PE
62.6253
MA D
0.0193
MSD
0.0007
% Errores
0.12
0.10
0.08
0.06
0.04
0.02
0.00
1
2
3
4
5
6
7
8
9
Semana
10
11
12
13
14
15
Comportamiento de los datos durante un periodo de tiempo determinado.
EJERCICIO: Hacer una carta de tendencias con datos reales de alguna situación particular.
Página 30
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.6 MAPA DE PROCESOS / DIAGRAMA DE FLUJO
Ventajas de los diagramas de flujo





Proveen una secuencia gráfica de cada uno de los pasos que componen una operación desde el inicio hasta el
final. Permitiendo una mejor visualización y comprensión del proceso.
Los diagramas de flujo pueden minimizar grandes volúmenes de documentación, como la del ISO 9000.
Facilitan el desarrollo de Procedimientos Estándar de Operación.
Al tener un procedimiento de operación estándar se reduce en gran medida la variación y el tiempo de ciclo.
Los diagramas de flujo permiten detectar áreas de mejora en los procesos.
Descripción de símbolos
En la construcción de diagramas de flujo de procesos se utilizan los símbolos descritos a continuación:
Operación de transformación: de la cual resulta un cambio físico o
químico del producto.
Inspección: Verificación de alguna característica mediante un estandar de calidad
prestablecido.
Transporte: Movimiento físico del producto o un componente.
Demora: Indica la necesidad de un periodo de inactividad en espera de operación
inspección o transporte.
Almacenamiento: Mantener un producto en almacenamiento hasta
que continúe su procesamiento o sea vendido.
Pasos para la elaboración de un diagrama de flujo
1.
Describir el proceso a evaluar: Es importante seleccionar un proceso relevante.
2.
Definir todos los pasos que componen el proceso: el equipo de trabajo anota en tarjetas los diferentes
pasos que conforman el proceso, con este método el equipo puede arreglar y ordenar los pasos del proceso.
3.
Conectar las actividades: Cuando los pasos que componen el proceso han sido descritos se construye el
diagrama de flujo, conectando las actividades mediante flechas, cada símbolo debe describir la actividad que
se realiza con pocas palabras.
4.
Comparar el proceso actual con el proceso considerado como “ideal” las siguientes preguntas pueden
servir de guía:
¿Existen pasos demasiado complejos? ¿Existe duplicidad o redundancia? ¿Existen puntos de control para
prevenir errores? ¿deberían de existir? ¿El proceso funciona en la manera en la cual debería de hacerse? ¿Se
puede realizar el proceso de diferente manera?
5.
Mejoras del proceso: Una vez que se contestan las preguntas mediante tormenta de ideas se realizan
mejoras. Definiendo los pasos que agregan valor y los que no agregan se puede llevar a cabo una
simplificación sustancial del proceso. Las mejoras son priorizadas y se llevan a cabo planes de acción.
6.
Implementar el nuevo procedimiento: Una vez realizadas las mejoras se dan a conocer a las personas
involucradas en el proceso y se verifica su efectividad.
Página 31
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
Diagrama de flujo: Una visita a la farmacia2
Operación: despacho de una fórmula.
EVENTO
SÍMBOLO
Abrir la puerta, caminar hacia el área de la farmacia del almacén.
TIEMPO
(min.)
0.8
Esperar para ser atendido.
1
Sacar la fórmula de la billetera o del bolsillo y entregarla al
dependiente.
Esperar hasta cuando el dependiente despache la fórmula y
calcule el valor.
Sacar la tarjeta de crédito de la billetera y entregarla al
dependiente.
Esperar que el dependiente diligencie el desprendible de la
tarjeta de crédito.
Verificar el desprendible
0.4
Firmar el desprendible
0.1
Esperar el desprendible y el medicamento
0.3
Colocar la tarjeta y el desprendible dentro de la billetera
0.2
Recoger el medicamento y caminar de regreso hasta la puerta
0.8
DISTANCIA
(pies)
50
10
0.4
1
0.2
50
Diagrama de Flujo Físico
Pasos para realizarlo:
•Dibuje el esquema físico de su área de trabajo, incluyendo estaciones de trabajo, áreas de espera,
áreas de máquinas, etc.
•Use flechas para delinear el flujo de la parte dentro del área. Cada flecha debe delinear un paso del
proceso.
Ventajas
• Muestra el número de movimientos para completar el proceso.
• Muestra la complejidad del flujo y las curvas.
• Puede añadir tiempo a cada paso, para mostrar cuellos de botella y tiempo sin valor agregado Vs
tiempo con valor agregado.
Edificio A
EJERCICIO: Realizar un diagrama de flujo de un proceso
Edificio B
2
Adaptado de Hamid Noori/Russell Radford, Administración de Operaciones y producción, Ed. Mc.Graw
Hill Pp.282
Página 32
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.7 DIAGRAMAS DE DISPERSIÓN
El diagrama de dispersión es una técnica estadística utilizada para estudiar la relación entre dos
variables. Por ejemplo, entre una característica de calidad y un factor que le afecta.
La ventaja de utilizar este tipo de diagramas es que al hacerlo se tiene una comprensión más
profunda del problema planteado.
La relación entre dos variables se representa mediante una gráfica de dos dimensiones en la que
cada relación está dada por un par de puntos (uno para cada variable).
La variable del eje horizontal x normalmente es la variable causa, y la variable del eje vertical y es la
variable efecto.
La relación entre dos variables puede ser: positiva o negativa. Si es positiva, significa que un
aumento en la variable causa x provocará una aumento en la variable efecto y y si es negativa
significa que una disminución en la variable x provocará una disminución en la variable y.
Por otro lado se puede observar que los puntos en un diagrama de dispersión pueden estar muy
cerca de la línea recta que los atraviesa, o muy dispersos o alejados con respecto a la misma. El
índice que se utiliza para medir ese grado de cercanía de los puntos con respecto a la línea recta es
el índice de correlación r. En total existen cinco grados de correlación: positiva evidente (r = 1),
positiva, negativa evidente (r = -1), negativa y nula (r = 0).
Correlación Negativa
Evidente
25
20
20
15
15
10
Y
Y
Correlación Positiva
Evidente
25
5
0
5
10
15
20
5
Sin Correlación
0
25
X
10
0
0
5
10
25
15
20
25
X
20
15
25
Y
Correlación
Positiva
10
0
0
20
5
10
15
20
25
25
X
20
15
15
10
Y
Y
Correlación
Negativa
5
5
10
5
0
0
5
10
15
20
0
25
0
X
5
10
15
X
Página 33
20
25
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
LAS SIETE NUEVAS HERRAMIENTAS PARA LA MEJORA CONTINUA







Diagrama de afinidad:
o Organiza grandes cantidades de información
Gráfica doble de interrelaciones:
o Muestra los enlaces de causas y efectos entre aspectos relacionados
Diagrama de árbol:
o Diagrama los niveles de destalle para alcanzar un objetivo principal y los objetivos
secundarios relacionados
Diagrama Matricial:
o Muestra las relaciones y correlaciones entre ideas
Matrices de prioridad:
o Asigna prioridades a asuntos, tareas o posibles opciones con base en criterios
conocidos
Gráficas de Programa de Decisión de Procesos (GPDP):
o Revela cadenas de eventos y planes de contingencia
Diagrama de redes y actividades:
o Desarrolla u programa para tareas complejas
APLICACIONES
Las herramientas para la mejora continua se emplean de manera ideal en los casos siguientes:
Dividir un requerimiento general de detalles específicos
Identificar y eliminar las causas raíz de un problema
Programar actividades complejas
Planeación de contingencia
Ayudar a una organización a pasar de la manera antigua de pensar a otras formas más
novedosas de hacerlo
 Realizar una selección final de una lista de opciones
 Evaluar opciones de diseño de producto





Es posible emplear las nuevas herramientas para la mejora continua en varias fases del diagrama de
mejora es posible emplear más de una en cada paso y se deberá elegir la herramienta correcta para
el trabajo.
Página 34
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD
P. Reyes / Sep. 2006
2.8 DIAGRAMA DE AFINIDAD
Es una herramienta que se emplea para organizar grandes cantidades de información agrupando los
aspectos de la misma con base en relaciones clave entre ellos; también se conoce como método KJ.
Cuando se emplea este diagrama, se organizan las ideas o áreas generales de problemas para
adquirir la comprensión de un problema o asunto complejo, así como para identificar las causas
potenciales de un problema. La herramienta ayuda a mejorar el compromiso y el apoyo del equipo.
-
Usar cuando existe un caos, el equipo aporta ideas, se requiere un pensamiento
trascendental o el tema es un aspecto amplio.
PASOS
1. Reunir el equipo y elegir un líder.
a. El equipo deberá consistir en 5 o 6 personas que estén relacionados con el
problema.
2. Establecer el asunto o problema en forma de pregunta.
3. Realizar una tormenta de ideas respecto al problema o aspecto y registrarla en fichas de
trabajo.
a. Sólo una idea por tarjeta
b. Máximo siete palabras por tarjeta
c. Cada tarjeta deberá contener un sustantivo y un verbo
4. Desplegar las tarjetas en una mesa grande o muro.
5. Acomodar las tarjetas en pilas similares o por “familias”.
6. Crear tarjetas de encabezado
7. Dibujar el diagrama de afinidad
a. Trazar un círculo en torno a cada agrupamiento y conectar este con la tarjeta de
encabezado
b. El diagrama queda completo cuando el equipo alcanza el consenso y etiqueta el
diagrama con el nombre del equipo y la fecha
8. Discutir el diagrama de afinidad
Página 35
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
2.9 GRÁFICA DOBLE DE INTERRELACIONES
Una gráfica doble de interrelaciones es una herramienta gráfica que se emplea para organizar
problemas o aspectos complejos y que implican muchas variables, se emplea para estudiar las
relaciones entre los elementos de un problema e identificar las causas raíz o las soluciones, es
similar al diagrama de afinidad en la medida que el proceso de construcción de una gráfica doble
interrelaciones es creativo.
Ayuda a identificar las causas potenciales de un problema. A diferencia del diagrama de causa y
efecto, la gráfica permite que el equipo de solución de problemas observe al mismo tiempo muchos
efectos y trace la relación entre dichos efectos y varias causas.
PASOS
1. Reunir el equipo y elegir un líder.
2. Poner el asunto o problema en forma de pregunta.
a. Es posible elegir dicho asunto o problema de las siguientes fuentes:
- El aspecto clave o la tarjeta de encabezado más crítica de un diagrama de
afinidad.
- La declaración de efecto de un diagrama de causa y efecto
- El aspecto clave de un diagrama de árbol
- Un aspecto clave identificado por el equipo
3. Realizar una tormenta de ideas respecto al problema o aspecto y registrarla en fichas de
trabajo.
- Si la declaración del problema se originó en un diagrama de afinidad, usar las
tarjetas de encabezado de éste y realizar una tormenta de ideas para buscar
ideas adicionales
- Si la declaración del problema se tomó del efecto en un diagrama de causa y
efecto, copiar las causas más básicas de cada uno de los “huesos” del
diagrama en fichas de trabajo
Página 36 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
-
Si la declaración del problema se originó en un diagrama de árbol, usar el nivel
más bajo de detalle de éste
- Si la declaración del problema fue un aspecto clave identificado por el equipo,
es preciso hacer una tormenta de ideas y colocar estas en tarjetas de índice
4. Analizar las relaciones.
5. Revisar la gráfica doble de interrelaciones.
6. Identificar causas y efectos raíz.
a. Una causa raíz es una categoría de la que sale la gran cantidad de flechas.
b. Un efecto raíz es una categoría a la que llega una gran cantidad de flechas.
7. Estudiar la gráfica doble de interrelaciones.
2.10 DIAGRAMA DE ÁRBOL
Un diagrama de árbol (diagrama sistemático) es una técnica que se emplea para buscar la forma
más apropiada y eficaz de alcanzar un objetivo específico. Esta herramienta gráfica de diagrama los
diversos niveles de detalle, estos representan acciones (o tareas) que siguen rutas lógicas para
implantar un objetivo amplio. Al implantar los puntos detallados de acción, se crea un efecto de
dominio que lleva al logro del objetivo principal.
Cuando se trabaja sobre un objetivo amplio, un diagrama de árbol ayuda a orientar tareas
específicas, es posible emplearlo para planear la implantación de una solución detallada en forma
ordenada. El diagrama de árbol funciones para dividir un aspecto u objetivo más complejo.
PASOS
1. Reunir un equipo apropiado.
2. Elegir la declaración de objetivo.
c. Es posible elegir dicho asunto o problema de las siguientes fuentes:
- El aspecto clave o la tarjeta de encabezado más crítica de un diagrama de
afinidad.
- La declaración de efecto de un diagrama de causa y efecto
- El aspecto clave de un diagrama de árbol
- Un aspecto clave identificado por el equipo
Página 37 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
3. Generar los encabezados de primer nivel del árbol.
a. Como punto de inicio, usar los siguientes tres encabezados de primer nivel del árbol
- Si el objetivo es un aspecto clave de un diagrama de afinidad, usar las tarjetas
de encabezado. Si el objetivo es la tarjeta crítica de encabezado, usar las
tarjetas bajo tal encabezado
- Si el objetivo es una causa o efecto raíz de una gráfica doble de interrelaciones,
usar las tarjetas que llevan a ella
- Si el objetivo es un aspecto clave identificado por el equipo, realizar una
tormenta de ideas cuyo enfoque sea la implantación
4. Completar el diagrama de árbol bajo cada encabezado principal.
5. Revisar el diagrama de árbol terminado.
2.11 DIAGRAMA MATRICIAL
PERSONAL
CURSO
Dirección
Supervisión
Ingenieros
Trab. De
Produc.
Trab. De
Mant.
Trab. De
Oficina
Control Estadístico del
proceso
Diseño de productos
Despliegue de funciones
de Calidad
Mejora de Procesos
Eficacia de equipos
Benchmarking
Ingeniería concurrente
Medición
Visión Global
Taller de trabajo
Los diagramas matriciales son herramientas que se emplean para revelar las correlaciones entre
ideas, tares y responsabilidad y que aparecen en diversas formas matriciales, es posible emplear
estas herramientas para organizar y comparar dos o más conjuntos de artículos para mostrar cuales
de ellos están relacionados, asimismo pueden mostrar la fortaleza estadística y la dirección de
influencia de cada relación.
Los diagramas matriciales se emplean para mostrar la relación entre las tareas de un diagrama de
árbol y otras características o funciones, son herramientas de extrema flexibilidad, pueden manejar
cualquier tipo de contenido de información y comparar cualquier número de variables.
Pueden tener cualquiera de las siguientes formas:
Página 38 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
-
P. REYES / SEPT. 2006
Forma de L
Forma de T
Forma de Y
Forma de X
Forma de C
Es posible crear diagramas matriciales para mostrar diversos tipos de relaciones, una forma de
usarlos es desarrollar las nuevas actividades contra lo que en ese momento hace una organización,
para desplegar una solución genérica.
PASOS
1. Reunir a un equipo apropiado.
2. Elegir las consideraciones clave.
a. ¿Qué tipo de información se desea mostrar en la matriz?
3. Elegir la forma apropiada de la matriz.
a. Decidir el tipo de forma que permitirá obtener la mejor información:
- Forma de L: 2 consideraciones clave
- Forma de T: 3 consideraciones clave con relaciones directas e indirectas
- Forma de Y: 3 consideraciones clave con relaciones directas
- Forma de X: 4 consideraciones clave con relaciones directas e indirectas
- Forma de C: 3 consideraciones clave con relaciones simultáneas
4. Definir los símbolos de relación a emplear y crear una leyenda.
5. Concluir la matriz.
2.12 MATRICES DE PRIORIDADES
Las matrices de prioridades son herramientas para tomas decisiones. Utilizando criterios ponderados
y acordados, se emplean tales herramientas para asignar prioridades a aspectos, tareas u opciones
posibles. Se basan en la combinación de un diagrama de árbol y uno matricial.
Pueden ayudar a reducir el número de opciones; de modo que sea posible tomar decisiones con
mayor facilidad, debido a que las matrices de prioridades proporcionan un enfoque lógico a la
elección de un conjunto de opciones, son ideales para elegir un problema para que lo ataque el
equipo y estrechar una lista de soluciones potenciales para un problema.
PASOS
1.
2.
3.
4.
a.
Reunir un equipo apropiado.
Establecer el objetivo principal a alcanzar y las opciones que ayuden a lograrlo.
Generar los criterios por los que se juzgarán las opciones.
Juzgar cada criterio contra todos los demás.
Comparar la importancia de cada uno de ellos contra los demás por medio de la
siguiente escala:
- 10
= Mucho más importante
5
= Más importante
1
= Más importante
- 1 / 5 = Más importante
- 1 / 10 = Más importante
Página 39 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
5. Comparar entre sí las opciones para todos los criterios retenidos.
6. Compara cada opción con base en todos los criterios combinados.
2.13 GRÁFICAS DE PROGRAMAS DE DECISIÓN DE PROCESOS
(GPDP)
Cambiar fecha de
reunión
Reservar sala de
reuniones
Sala de reuniones no
disponible
Reservar otro sitio
Rentar equipo
audiovisual
Planeación de una
reunión
Verificar equipo
audiovisual
Equipo audiovisual no
disponible
Banquete no
disponible
Efectuar los
arreglos de
alimentación
Menú no
disponible
= Seleccionado
= No factible
Reservar otro sitio
Ordenar a otro
proveedor
Solicitar un menú
distinto
Ordenar otro
proveedor de
banquetes
Una gráfica de programa de decisión del proceso (GPDP) es una herramienta dinámica de
planeación que se emplea para diagramar en forma sistemática todas las posibles cadenas de
eventos para alcanzar un objetivo amplio o para implantar una solución compleja.
Se enumeran todos los eventos concebibles y una contramedida apropiada en este flujo cronológico,
se emplea este método cuando existe incertidumbre en un proceso de implantación, cuando el
problema u objetivo es único o desconocido.
Las gráficas de programa de decisión del proceso se clasifican por las herramientas que se emplea:
 GPDP “planeado por adelantado”: anticipan lo “inesperado” antes de la implantación
verdadera. Se efectúa una tormenta de ideas de todas las distintas posibilidades y se
elaboran planes de contingencia con anticipación.
 GPDP en tiempo real: se desarrollan alternativas durante la implantación.
La GPDP se clasifican por el formato gráfico:
 Gráfico: combinación de diagrama de árbol y diagrama de flujo.
 Descripción: lista numerada de eventos y contramedidas.
Se emplea una GPDP para describir de manera sistemática una solución u objetivo complejos, otro
propósito es probar teorías durante la implantación de una solución compleja.
Página 40 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
PASOS
1.
2.
3.
4.
5.
6.
7.
P. REYES / SEPT. 2006
Reunir el equipo apropiado.
Elegir el flujo básico de implantación.
Elegir el formato de la gráfica.
Establecer el objetivo principal.
Enumerar los pasos del proceso.
Determinar contramedidas.
Evaluar las contramedidas.
- Evaluar las contramedidas y marcarlas en la forma siguiente
= Seleccionada
= No factible
2.14 DIAGRAMA DE REDES DE ACTIVIDADES
Un diagrama de redes de actividades (también conocido como diagrama de flechas) es una técnica
de administración de redes de uso generalizado para la planeación e implantación de tareas
complejas, e particular las mas comunes que cuentas con subtareas conocidas. Es una combinación
de la Técnica de Revisión y Evaluación y Programas (PERT) y el Método de Ruta Crítica (CPM).
Se emplea el diagrama de redes de actividades para desplegar soluciones complejas con programas
muy estrictos de tiempo. Identifica los pasos y subtareas y muestra el flujo de rutas simultáneas de
implantación
1
día
1
día
1
día
3
día
2
día
3
día
2
día
5
día
PASOS
1. Reunir el equipo apropiado.
a. Los miembros del equipo deberán conocer a fondo las tareas y subtareas
2. Identificar todas las tareas que requiere el proyecto.
3. Determinar la secuencia de actividades.
4. Calcular el tiempo que se requiere cada actividad.
5. Calcular la ruta crítica del proyecto.
6. Calcular la fecha más tardía de inicio y más temprana de conclusión de cada subtarea.
7. Calcular la holgura total.
8. Diseñar el diagrama de redes de actividades.
Página 41 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
MÓDULO 3. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD
3.1 INTRODUCCIÓN
La probabilidad se refiere al estudio de la aleatoriedad y la incertidumbre en cuaqlquier situación
donde podría ocurrir uno de varios resultados posibles. En algunos casos se utiliza de manera
informal como por ejemplo: hay un 50% de probabilidad de que llueva.
DEFINICIONES




Probabilidad: es la posibilidad numérica de ocurra un evento. Se mide con valores
comprendidos entre 0 y 1, entre mayor sea la probabilidad, más se acercará a uno.
Experimento: es toda acción bien definida que conlleva a un resultado único bien definido
como el lanzamiento de un dado. Es el proceso que produce un evento.
Espacio muestral: es el conjunto de todos los resultados posibles de un experimento. Para
un dado es SS = (1,2,3,4,5,6)
Evento: es cualquier colección de resultados contenidos en el espacio muestral. Es simple
si sólo tiene un resultado y compuesto si tiene varios resultados.
Definición Clásica de Probabilidad. Modelo de frecuencia relativa
La probabilidad de un evento (E), puede ser calculada mediante la relación de el número de
respuestas en favor de E, y el numero total de resultados posibles en un experimento.
P E  
# Favorable E
# Total resultados
1
 .16
6
1
Ejemplo 2: La probabilidad de lanzar una moneda y que caiga cara es:  .5
2
Ejemplo 3: La probabilidad de sacar 1,2,3,4,5, o 6 al lanzar un dado es:
Ejemplo 1: La probabilidad de que salga 2 al lanzar un dado es:
1 1 1 1 1 1
     1
6 6 6 6 6 6


La probabilidad de un evento está comprendida siempre entre 0 y 1. La suma de las
probabilidades de todos los eventos posibles (E) en un espacio muestral S = 1
Un espacio muestral (S): Es el conjunto Universal; conjunto de todos los “n” elementos
relacionados = # Total de resultados posibles.
Probabilidad Compuesta
Es la probabilidad compuesta por dos eventos simples relacionados entre sí.
En la composición existen dos posibilidades: Unión  o Intersección  .
 Unión de A y B
Si A y B son eventos en un espacio muestral (S), la unión de A y B  A  B contiene todos los
elementos de el evento A o B o ambos.
Página 42 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
 Intersección de A y B
Si A y B son eventos en un espacio muestral S, la intersección de A y B  A  B  está compuesta
por todos los elementos que se encuentran en A y B.
Relaciones entre eventos
Existen tres tipos de relaciones para encontrar la probabilidad de un evento: complementarios,
condicionales y mutuamente excluyentes.
1. Eventos complementarios: El complemento de un evento A son todos los elementos en un
espacio muestral (S) que no se encuentran en A. El complemento de A es: A  1  P A
Ejemplo 4: En el evento A (día nublado), P(A) = .3, la probabilidad de tener un día despejado será
1-P(A) = .7
P A  .7 
P(A)=.3
2. Probabilidad condicional: Para que se lleve a cabo un evento A se debe haber realizado el
evento B. La probabilidad condicional de un evento A dado que ha ocurrido el evento B es:
P A B  
P A  B 
, si B  0
P B 
Ejemplo 5:
Si el evento A (lluvia) y B(nublado) = 0.2 y el evento B (nublado) = 0.3, cual es la
probabilidad de que llueva en un día nublado? Nota: no puede llover si no hay nubes
P A B  
P A  B 
=
P B 
0. 2
 0.67
0. 3
A
P(A/B)=.67
B
Ejemplo 6. Las razones de queja en productos se muestran a continuación:
En garantía
Fuera de garantía
Total
Falla eléctrica
18%
12%
30%
RAZÓN DE LA
QUEJA
Falla mecánica
13%
22%
35%
Página 43 de 123
Falla apariencia
32%
3%
35%
Total
63%
37%
100%
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Si A es el evento de que la queja es por apariencia y que B representa que la queja ocurrió en el
periodo de garantía. Se puede calcular P(Z | B) = P(A y B) / P(B)
P(A | B) = 0.32 / 0.63 = 0.51
Si C es el evento fuera de garantía y D falla mecánica:
P(C|D) = P(C y D) / P(D) = 0.22 / 0.35 = 0.628
 Se dice que dos eventos A y B son independientes si: P(A/B) = P(A) o P(B/A) = P(B).
La probabilidad de la ocurrencia de uno no está afectada por la ocurrencia del otro. De otra
manera los eventos son dependientes.
Un ejemplo de evento independiente es: ¿Cuál es la probabilidad de que llueva en lunes?
El ejemplo de evento dependiente es el ejemplo 5.
3. Eventos mutuamente excluyentes.
Cuando un evento A no contiene elementos en común con un evento B, se dice que estos son
mutuamente excluyentes.
A
B
Eventos mutuamente excluyentes.
Ejemplo 7. Al lanzar un dado: a) cual es la probabilidad de que salga 2 o 3? B) Calcule P A  B ?
a)
P A  B 
1 1 1
   .33
6 6 3
b) P A  B = 0, ya que al ser conjuntos mutuamente excluyentes la intersección no existe, es
imposible que salga 2 y 3 al mismo tiempo.
Ley aditiva:
 Cuando dos eventos no son mutuamente excluyentes:
P A  B  P A  PB  P A  B

Cuando los eventos son mutuamente excluyentes:
P A  B  P A  PB
Ley multiplicativa:
 Si los eventos A y B son dependientes:
Página 44 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
P A  B  P A  PB A

Si los eventos A y B son independientes:
P A  B  P A  PB
Ejemplo 8: Se selecciona una muestra aleatoria n = 2 de un lote de 100 unidades, se sabe que 98
de los 100 artículos están en buen estado. La muestra se selecciona de manera tal que el primer
artículo se observa y se regresa antes de seleccionar el segundo artículo (con reemplazo), a)
calcule la probabilidad de que ambos artículos estén en buen estado, b) si la muestra se toma sin
reemplazo, calcule la probabilidad de que ambos artículos estén en buen estado.
A: El primer artículo está en buen estado.
B: El segundo artículo está en buen estado.
a) Al ser eventos independientes el primero del segundo:
 98   98 
P A  B  P A  PB = 

  .9604
 100   100 
A
P(A) =.98
B
P(B) =.98
b) Si la muestra se toma “sin reemplazo” de modo que el primer artículo no se regresa antes de
seleccionar el segundo entonces:
 98   97 
P A  B  P A  PB A = 
     .9602
 100   99 
Se observa que los eventos son dependientes ya que para que para obtener el evento B, se tiene
que haber cumplido antes el evento A.
B
P(B/A)=.97
A
P(A) =.98
Página 45 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. Tres componentes forman un sistema. Como los componentes del subsistema 2-3 están
conectados en paralelo, trabaja si por lo menos uno de ellos funciona. Para que trabaje el sistema
debe trabajar el componente 1 y el subsistema 2-3.
a) ¿Qué resultados contiene un evento A donde funcionan exactamente dos de los tres
componentes?
b) ¿Qué resultados están contenidos en el evento B en el que por lo menos funcionan dos los
componentes?
c) ¿Qué resultados están contenidos en el evento C donde funciona el sistema?
d) Listar los resultados de C’, A o C, A y C, B o C y B y C.
2
1
3
2. En una planta los trabajadores trabajan 3 turnos. En los últimos años ocurrieron 200 accidentes.
Algunos se relacionan con condiciones inseguras y otros a condiciones de trabajo, como se muestra
a continuación:
Turno
Diurno
Vespertino
Nocturno
Total
Condiciones inseguras Condiciones de trabajo
10%
35%
8%
20%
5%
22%
23%
77%
Página 46 de 123
Total
45%
28%
27%
100%
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Si se elige al azar uno de los 200 informes de accidentes de un archivo y se determina el turno y tipo
de accidente:
a) ¿Cuáles son los eventos simples?
b) ¿Cuál es la probabilidad de que el accidente seleccionado se atribuya a condiciones inseguras?
c) ¿Cuál es la probabilidad de que no haya ocurrido en el turno diurno?
3. La ruta que usa un automovilista tiene dos semáforos. La probabilidad de que pare en el primero
es de 0.4, la probabilidad de que pare en el segundo es de 0.5 y la probabilidad de que pare por lo
menos en uno es de 0.6. ¿Cuál es la probabilidad de que se detenga
a) En ambos semáforos?
b) En el primero pero no en el segundo?
c) Exactamente en un semáforo?
4. Una empresa construye tres plantas eléctricas en tres lugares diferentes. Se Ai el evento en el
que se termina la planta i en la fecha del contrato. Utilizar las notaciones de unión, intersección y
complemento para describir cada uno de los siguientes eventos, en términos de A1, A2 y A3,
mostrar en diagramas de Venn.
a) Por lo menos una planta se termina en la fecha del contrato.
b) Todas las plantas se terminan en la fecha del contrato
c) Sólo se termina la planta del sitio 1 en la fecha del contrato
d) Exactamente se termina una planta en la fecha del contrato
e) Se termina ya sea la planta del lugar 1 o las otras dos en la fecha del contrato.
Página 47 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
3.2 TÉCNICAS DE CONTEO
Supóngase que una persona tiene dos modos de ir de una ciudad A a otra ciudad B; y una vez
llegada a B, tiene tres maneras de llegar a otra ciudad C. ¿De cuántos modos podrá realizar el viaje
de A a C pasando por B?
a pie
CIUDAD A
en avión
en carro
CIUDAD B
en bicicleta
CIUDAD C
en trasatlántico
Evidentemente, si empezó a pie podrá tomar avión, carro o trasatlántico; y si empezó en bicicleta,
también podrá tomar avión, carro o trasatlántico.
Utilizando literales (las iniciales) el viajero tuvo las siguientes oportunidades: pa, pc, pt; ba, bc, bt.
Que son 6; cada primera oportunidad contó con tres posibilidades.
Se tiene: 2 oportunidades X 3 posibilidades = 6 posibilidades.
PRINCIPIO DE CONTEO: Si un evento puede hacerse de a1 maneras diferentes, y cuando se ha
hecho, puede hacerse un segundo evento (independiente del primero) de a2 modos diferentes y
luego un tercer evento de a3 maneras también diferentes, y así sucesivamente, entonces el número
de maneras diferentes en que los eventos se pueden realizar , en el orden indicado es de:
a1  a2  a3 ....an
Ejemplo 9: ¿De cuantos modos podrá vestirse un joven que tiene 3 camisas diferentes, 4
pantalones y dos pares de calzado?
Solución: Primer evento (camisas) a1 = 3
Segundo evento ( pantalones) a2 = 4
Tercer evento (zapatos) a3 = 2
a1  a2  a3  3  4  2  24 modos diferentes.
PERMUTACIONES: Una permutación es un arreglo ordenado de una parte de los elementos, o de
todos los elementos de un conjunto.
Ejemplo 10: Dado el conjunto de las letras o, p, i, escribir todas las permutaciones empleando las
tres letras cada vez.
Solución: opi, oip, ipo, iop, pio, poi : son seis permutaciones posibles.
Ejemplo 11: ¿Y tomando dos letras solamente cada vez?
Página 48 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Solución: op, oi, io, ip, pi, po: son seis permutaciones.
En la mayoría de los casos resulta muy complicado hacer las permutaciones manualmente
por lo cual utilizamos la siguiente fórmula:

Prn 
n!
n  r  !
donde:
n = número total de elementos del conjunto
P = Permutaciones
r = número de elementos que se toman a la vez.
! = factorial.
Nota: 0! = 1
Ejemplo 12: ¿Se toman 3 números de lotería de un total de 50, de cuantas formas se pueden tomar
los números?
50 !
50 !

 (50  49  48)  117,600
50  3 ! 47 !
P350 
COMBINACIONES: Es el número de subconjuntos de r elementos que se puede formar de un
conjunto de n elementos, sin importar el orden de los elementos. Para determinar el número de
combinaciones posibles utilizamos:
Crn 
n!
n  r  ! r !
Ejemplo 13: Un entrenador de basket ball tiene 9 jugadores igualmente hábiles, ¿cuántas quintetas
podrá formar?
C59 
9!
 126
4 ! 5 !
Ejemplo 14: Se extraen 5 cartas de una baraja de 52 cartas. Hallar la probabilidad de extraer (a) 4
ases, (b) 4 ases y un rey (c) 3 dieces y dos jotas,
 4 C4  48 C1  = 1
 52 C5 
54145
 C  C 
b) P (4 ases y 1 rey) = 4 4 4 1 
a) P(4 ases) =
1
649740
52 C5
 C  C 
1
c) P (3 dieces y 2 jotas) = 4 3 4 2 
108290
52 C5
Página 49 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
TEOREMA DE BAYES
Mediante el teorema de Bayes podemos calcular la probabilidad de que ocurra un determinado
evento, cuando no tenemos datos inmediatos del mismo mediante la información que tenemos de
otros eventos.
Cuando existen dos eventos posibles A y B, la probabilidad de que ocurra Z se describe mediante el
“teorema de probabilidad total” el cual es:
P(Z )  P A PZ APB PZ B
Mediante el teorema anterior se deduce el teorema de Bayes:
P A Z  
P A  PZ A
P A  PZ APB   PZ B 
Ejemplo 8: En cierta universidad 20% de los hombres y 1% de las mujeres miden más de 1.80m de
altura. Asimismo 40% de los estudiantes son mujeres. Si se selecciona un estudiante al azar y se
observa que mide más de 1.80m ¿Cual es la probabilidad de que sea mujer?
Z > 1.80 m
A = Hombre
B = Mujer
P (A) = .60
P (B) = .40
P (Z/A) = .20
P (Z/B) = .01
HOMBRE
< 1.80
> 1.80
MUJER
.80
.99
.20
.01
=Z
Para encontrar la probabilidad de que sea mujer dado que mide más de 1.80,
Utilizando el teorema de Bayes:
P B Z  
PB   PZ B 
P A PZ APB  PZ B 
P(B/Z) = (.4 x .01)/ (.6 x .20 +.4 x .01) = .032.
Hombre
Mujer
Podemos visualizar P(B/Z) en el siguiente diagrama:
Por lo tanto la probabilidad de que sea mujer dado
que mide más de 1.80 es .032 = 3.2 %
Página 50 de 123
Z > .80
P(A/Z)
P(B/Z) = .032
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. Una planta emplea 20 trabajadores en el turno diurno, 15 en el segundo y 10 en la noche. Se
seleccionan 6 para hacerles entrevistas exhaustivas. Suponer que cada uno tiene la misma
probabilidad de ser seleccionado de una urna de nombres.
a) ¿Cuántas selecciones dan como resultado seis trabajadores del turno diurno?
b) ¿Cuál es la probabilidad de que los 6 trabajadores sean seleccionados del mismo turno?
c) ¿Cuál es la probabilidad de que por lo menos dos turnos diferentes estén representados en la
selección?
d) ¿Cuál es la probabilidad de que por lo menos uno de los turnos no esté representado en la
muestra de trabajadores?
2. Una caldera tiene 5 válvulas de alivio idénticas. La probabilidad de que que en algún momento se
abra una de ellas es de 0.95. Si su operación es independiente, calcular la probabilidad de que por lo
menos se abra una de ellas. Y la probabilidad de que por lo menos no se abra una de ellas.
3. Dos bombas conectadas en paralelo fallan en determinado día, sin que haya dependencia mutua.
La probabilidad de que solo falle la bomba más vieja es de 0.10 y de que falle la bomba más nueva
es de 0.05. ¿Cuál es la probabilidad de que fallen ambas bombas al mismo tiempo?
4. Un sistema de componentes conectados como se muestra en la figura. Los componentes 1 y 2 en
paralelo hacen que el subsistema funcione con uno uno solo, el sistema funciona solo si tambiñen
trabajan los componentes 3 y 4. Si los componentes son independientes y la probabilidad de que
cada componente funcione es de 0.9, calcular la probabilidad de que funcione el sistema.
1
1
3
4
Página 51 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
3.4 DISTRIBUCIONES DE PROBABILIDAD
Variable aleatoria: Para un determinado espacio muestral SS una variable aleatoria (VA) es
cualquier regla que relaciona un número con cada resultado en SS.
Variable aleatoria de Bernoulli: Es cualquier variable aleatoria con valores 0 y 1.
Variable aleatoria discreta: Es una variable aleatoria cuyos posibles valores son enteros.
Variable aleatoria continua: Es una variable aleatoria cuyos valores posibles son los reales.
Distribución de probabilidad o función de masa de probabilidad: Establece en una tabla,
fórmula o gráfica como se distribuye la probabilidad P(y) asociada a los posibles valores de la
variable aleatoria y.
Debe cumplir con las reglas siguientes:
1. 0 <= P(y) <= 1
2. Suma (P(y)) = 1
y
P(Y=y)
0
1/4
1
1/2
2
1/4
Su fórmula es la siguiente:
3 
P( y )  P(Y  y )   (.5)3 y (.5) y
 y
Valor esperado:
Función de distribución acumulativa para Y=#de caras
Función de distribución acumulativa:
FX ( x)  P( X  x)
0  F ( x)  1
F(x)
Con propiedades:
0.9
0.7
0.5
Lim x  F ( x)  1
Lim x  F ( x)  0
0.3
-0.2
Página 52 de 123
0
0.3
0.8
1y
1.3
1.8
2
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Valor esperado de una distribución de probabilidad discreta
La media o valor esperado de una variable aleatoria discreta X , denotada como E(X), es
 X  E ( X )   xf X ( x)  xP( X  x)
x
x
La media es el centro de la masa del rango de los valores de X.
Varianza de una distribución de probabilidad discreta
Sea Y una variable aleatoria discreta con distribución de probabilidades P(X=x). Entonces , la
varianza de Y es:
 X 2  E[( X   X ) 2 ]   ( x   X ) 2 P( X  x)
x
DISTRIBUCIONES DISCRETAS
DISTRIBUCIÓN UNIFORME
La variable aleatoria toma un numero finito de n valores, cada uno con igual probabilidad.
f ( x)  P( X  x) 
Con n = 10 se tiene:
1
n
Su media y varianza son las siguientes:
 
2
X
(n  1)
2
n2 1
0.15
0.13
12
0.11
prob
X 
0.09
0.07
0.05
0
2
4
6
x
Página 53 de 123
8
1e+001
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
DISTRIBUCIÓN HIPERGEOMÉTRICA
Se aplica cuando la muestra (n) es una proporción relativamente grande en relación con la población
(n > 0.1N). El muestreo se hace sin reemplazo
P(x,N,n,D) es la probabilidad de exactamente x éxitos en una muestra de n elementos tomados de
una población de tamaño N que contiene D éxitos. La función de densidad de distribución
hipergeométrica:
P( x)
C xDCnNxD
CnN
C xn 
Con
n!
x!(n  x)!
La media y la varianza de la distribución hipergeométrica son:

nD
N
 nD  D  N  n 
 2   1  

 N  N  N  1 
Ejemplo: De un grupo de 20 productos, 10 se seleccionan al azar para prueba. ¿Cuál es la
probabilidad de que 10 productos seleccionados contengan 5 productos buenos? Los productos
defectivos son 5 en el lote.
N = 20, n = 10, D = 5, (N-D) = 15, x = 5
P(x=5) = 0.0183 = 1.83%
 5!  15! 



5!0!  5!10! 

P(5) 
 0.0183
20!
10!10!
USO DE EXCEL:
N = Tamaño de Población, n = Tamaño de muestra, D= éxitos en la población; x = éxitos en la
muestra.
 En Fx Estadísticas seleccionar
 =distr.hipergeom(x, n, D, N)
USO DE MINITAB:
 Calc > Probability distributions > Hypergeometric
 Probability (densidad) o Cumulative probability (acumulada)
 N, D, n y en Input constant introducir x.
EJERCICIO:
1. Se compran 10 transformadores y se toma una muestra de 4. Si se encuentra uno o más
defectuosos se rechaza el lote de 10.
a) Si el lote tiene un defectuoso, ¿Cuál es la probabilidad de que se acepte el lote?
b) Cuál es la probabilidad de aceptar el lote si contiene 3 defectuosos.
Página 54 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
DISTRIBUCIÓN BINOMAL
Ensayo Bernoulli. Es un experimento aleatorio que solo tiene dos resultados. Éxito o fracaso.
Donde la probabilidad de éxito se denota por p
Suponga se realizan n experimentos Bernoulli independientes. Suponga que la variable X de interés
es el numero de éxitos. X toma valores 0,1,2,...,n
La distribución binomial se utiliza para modelar datos discretos y se aplica para poblaciones grandes
(N>50) y muestras pequeñas (n<0.1N). El muestreo binomial es con reemplazamiento.
Es apropiada cuando la proporción defectiva es mayor o igual a 0.1.
La binomial es una aproximación de la hipergeométrica
La distribución normal se paroxima a la binomial cuando np > 5
La variable aleatoria x tiene una distribución binomial como sigue:
n
f ( x)  P( X  x)    p x (1  p) n x
 x
x  0,1,..., n
Con media y varianza:
E ( X )   X  np
V ( X )   X2  np(1  p)
Ejemplo: Un equipo requiere a lo más 10% de servicios en garantía. Para comprobarlo se compran
20 de estos equipos y se someten a pruebas aceleradas de uso para simular el uso durante el
periodo de garantía. Obtener la probabilidad para P(x<=4).
Rechazar la afirmación de que falla menos del 10% si se encuentra que X>=5.
P(X>=5) = 1- P(X<=4) =1 - distr.binom(4,20,0.1,1) = 1 – 0.9568 = 0.0432 lo cual es bajo.
USO DE EXCEL:
x = éxitos en la muestra, p = probabilidad de éxito, n = tamaño de muestra.
 En Fx Estadísticas seleccionar
 =distr.binom(x, n, p, 0 o 1 dependiendo si es puntual o acumulada)
USO DE MINITAB:
 Calc > Probability distributions > Binomial
 Probability (densidad) o Cumulative probability (acumulada)
 n = number of trials, p = probability of success y en Input constant introducir x.
Página 55 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. Un panel solar tiene una vida útil de 5 años con una probabilidad de 0.95. Se toman 20 páneles
solares y se registró la vida útil.
a) ¿Cuál es la probabilidad de que exactamente 18 tengan su vida útil de 5 años?
b) ¿Cuál es la probabilidad de que cuando mucho 10 tengan esa vida útil?
c) ¿Si solo 10 paneles tienen una vida útil de 5 años, que debería pensarse sobre el valor verdadero
de P?
2. 20% de los teléfonos se reparan cuando todavía está vigente la garantía. De estos el 60% se
reparan mientras que el 40% se reemplazan. Si una empresa compra 10 de estos teléfonos, ¿Cuál
es la probabilidad de que exactamente sean reemplazados 2 en periodo de garantía?.
3. Suponga que solo 25% de los automovilistas se detienen por completo en un alto con luz roja
intermitente cuando no está visible otro automóvil. ¿Cuál es la probabilidad de que de 20
automovilistas seleccionados al azar se detengan:
a) A lo sumo 6 se detengan por completo
b) Exactamente 6 se detengan por completo?
c) Al menos 6 se detengan por completo?
d) Cuántos de los siguientes 20 automovilistas se espera que se detengan por completo?
4. De todas las plantas sólo el 5% descargan residuos por sobre la norma. Si se muestrean 20
plantas ¿Cuál es la probabilidad de que estén fuera de la ley:
a) Menos que una planta?
b) Menos de dos plantas
c) Exactamente 3
d) Más de una
Página 56 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
DISTRIBUCIÓN BINOMIAL NEGATIVA
Se basa en los mismos principios de la distribución binomial.
1. El experimento consiste de una secuencia de ensayos independientes.
2. Cada ensayo produce un éxito o un fracaso.
3. La probabilidad de éxito es constante de un ensayo a otro, P(éxito en el ensayo i) = p
4. El experimento continua hasta completar r ensayos.
La variable de interés es X = número de fracasos que preceden al r-ésimo éxito. X se llama variable
aleatoria binomial negativa, ya que en contraste con la distribución binomial, el número de éxitos
es fijo y el número de ensayos aleatorio.
Su función de distribución es:
 x  r  1 r
 p (1  p) x
nb( x; r; p) 
 r 1 
con X = 0, 1, 2, …..
Ejemplo: Se quieren reclutar 5 personas para participar en un nuevo programa. Si p = 0.2 la
probabilidad de que las personas quieran participar. ¿Cuál es la probabilidad de que se les deba
preguntar a 15 personas antes de encontrar a 5 que estén de acuerdo en participar?. Es decir si
S=(de acuerdo en participar),
¿Cuál es la probabilidad de que ocurran X=10 fracasos antes del r=quinto éxito?.
r = 5, p = 0.2 y x = 10, se tiene:
14 
nb(10;5;0.2)   0.2 5 0.810  0.034
4 
La probabilidad de que a lo sumo ocurran 10 fracasos (F) se les pregunte a lo sumo a 10 personas
es:
10
10  x  4 
0.8 x  0.164
P( X  10)   nb( x,5,0.02)  0.2 5  X 0 
4
x 0


Su media y varianza son las siguientes:
r (1  p )
p
r (1  p )
V ( x )
p2
E ( x )
USO DE EXCEL:
=NEGBINOMDIST(10,5,0.2) y SUMA (X=0 hasta 10) =NEGBINOMDIST(X,5,0.2)
Página 57 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Otra forma:
Sea y el número de intentos hasta que el r-ésimo éxito es observado.
 y  1  r y r
 p q
p ( y ) 
 y  r
r

p
rq
2  2
p
P = probabilidad de éxito en un solo intento
Q = 1-p
Y = Número de intentos hasta que se obtienen los r éxitos
P(15) = combinat(14, 10) 0.2^5*0.8^10 = 0.0343941
Ejemplo: Un fabricante utiliza fusibles en un sistema eléctrico comprados en lotes grandes. Se
prueban secuecialmente hasta que se observa el primero con falla. Asumiendo que el lote contiene
10% de fusibles defectivos.
a) ¿Cuál es la probabilidad de que el primer fusible defectuoso sea uno de los primeros 5 probados?
P= 0.1 q= 0.9
P(y) = p*(q^y-1) = (.1)*(0.9^y-1)
Para y = 1 hasta 5:
P(y<=5) = p(1) + p(2) +………+ p(5) = 0.41..
b) Encontrar la media, varianza y desviación estándar para y el número de fusibles probados hasta
que el primer fusible con falla es observado.
Media = 1/p = 1/0.1 = 10
Varianza = q/p^2 = 0.9/(0.1^2) = 90
Sigma = 9.49
Página 58 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
DISTRIBUCIÓN DE POISSON
La distribución de Poisson se utiliza para modelar datos discretos como aproximación a la Binomial
dada la dificultad que existía de encontrar tablas Binomiales adecuadas cuando n es grande y p
pequeña. La distribución de probabilidad de Poisson proporciona buenas aproximaciones cuando np
<= 5.
Se aproxima a la binomial cuando p es igual o menor a 0.1, y el tamaño de muestra es grande (n >
16) por tanto np > 1.6.
Una Variable aleatoria X tiene distribución Poisson si toma probabilidades con.
e   x
f ( x) 
x!
x  0,1,...
Con media y varianza:
  np
    np
Ejemplo 1. Suponga que una compañía de seguros asegura las vidas de 5000 hombres de 42 años
de edad. Si los estudios actuariales muestran que la probabilidad de que un hombre muera en cierto
año es 0.001, entonces la probabilidad de que la empresa pague exactamente 4 indeminizaciones
y= 4 en un cierto año es:
P( y  4)  p(4) 
5000!
(0.001) 4 (0.999) 4996
4!*4996!
El valor de esta expresión no aparece en tablas y su cálculo era difícil, no así con Excel.
Aproximando con la distribución de Poisson, se toma la tasa media de sucesos = np =
(5000)*(0.001)= 5, teniendo:
P( y  4) 
4 e  
4!
5 4 e 5

 0.1745
4!
Ejemplo 2. Una planta tiene 20 máquinas, si la probabilidad de que falla una en cierto día es 0.05.
Encuentre la probabilidad de que durante un día determinado fallen dos máquinas.
np = 20 *0.05 = 1.0
12 e1
P( y  2) 
 0.184
2!
Si se calcula con la distribución Binomial se tiene:
Página 59 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P( y  2)  p(2) 
P. REYES / SEPT. 2006
20!
(0.05) 2 (0.95)18  0.188
2!*18!
La aproximación es mejor conforme se aproxima a np = 5.
La distribución de Poisson además de ser útil como aproximación de las probabilidades Binomiales,
constituye un buen modelo para experimentos donde Y representa el número de veces que ha
ocurrido un evento en una unidad dada de tiempo o de espacio. Por ejemplo:
Número de llamadas recibidas en un conmutador durante un día, conociendo el promedio por día.
Número de reclamaciones contra una empresa de seguros por semana, conociendo el prom. Sem.
Número de llegadas a una estación de servicio durante un minuto dado, conociendo el prom./min.
Número de ventas hechas por un agente de ventas en un día, conociendo el promedio por día.
Sólo se requiere que los eventos sean independientes.
USO DE EXCEL:
x = éxitos en la muestra, np = media.
 En Fx Estadísticas seleccionar
 =Poisson(x, np, 0 o 1 dependiendo si es puntual o acumulada)
USO DE MINITAB:
 Calc > Probability distributions > Poisson
 Probability (densidad) o Cumulative probability (acumulada)
 n*p = mean y en Input constant introducir x.
Página 60 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. El 20% de los choferes son mujeres, si se seleccionan 20 al azar para una encuesta:
Usando la distribución binomial y la distribución de Poisson
a) ¿Cuál es la probabilidad de que dos choferes sean mujeres ?
b) ¿Cuál es la probabilidad de que al menos cuatro sean mujeres?
2. Se tienen 8 recepcionistas, estan ocupadas en promedio el 30% del tiempo, si 3 clientes llaman
¿la prob. De que estén ocupadas es mayor al 50%?
3. Un proveedor de partes de bicicleta tiene 3% de defectos. Se compran 150 partes y si la
probabilidad de que 3 o más partes sean defectuosas excede al 50%, no se hace la compra.
¿Qué sucede en este caso?.
4. En una universidad las llamadas entran cada 2 minutos
a) ¿Cuál es la cantidad esperada de llamadas en una hora?
b) ¿Cuál es la probabilidad de 3 llamadas en los sig. 5 minutos?
c) ¿Cuál es la probabilidad de no llamadas en los sig. 5 minutos?
d) ¿cuál es la prob. de recibir 10 llamadas en los sig. 15 minutos?
5. Un proceso de manufactura produce 1.2 defectos por cada 100 unidades producidas,
¿Cuál es la probabilidad de que las siguientes 500 unidades presenten X=3 defectos?
6. 40 trabajadores tienen nuevas computadoras, 26 con MMX. Si se seleccionan 10 al azar, ¿Cuál
es la prob. De que 3 tengan la tecnología MMX?.
7. De un grupo de 20 productos, se toman 10 al azar,
¿Cuál es la probabilidad de contengan las 5 mejores unidades?
8. De 9 empleados diurnos sólo 6 están calificados para hacer su trabajo, si se seleccionan
aleatoriamente 5 de los 9 empleados, Cuál es la probabilidad de que:
a) Los 5 estén calificados
b) 4 esten calificados
c) Por lo menos 3 estén calificados
Página 61 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
Se diferencian de las distribuciones de probabilidad discretas en que su función de distribcuón
acumulativa (F(yo)) para una variable aleatoria y es igual a la probabilidad F(yo) = P(y<=y0).
Si F(y) es la función de distribución acumulada para una variable aleatoria continua entonces su
función de densidad f(y) para y es:
f(y) = dF(y) / dy
Sus propiedades son que:
1. f(y) >= 0
2. Integral desde menos infinito a más infinito de f(y) d(y) = F(  ) = 1
f(y)
F(yo)
yo
Función de distribución acumulativa
y
Entre las distribuciones continuas más comunes se encuentran la distribución normal y la
distribución exponencial.
Página 62 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
DISTRIBUCIÓN EXPONENCIAL
Se usa para modelar artículos con una tasa de falla constante y está relacionada con la distribución
de Poisson. Si una variable aleatoria x se distribuye exponencialmente, entonces el recíproco de x,
y = 1/x sigue una distribución de Poisson y viceversa.
La función de densidad de probabilidad exponencial es: Para x >= 0
f ( x)
1

e

x

 e  x
Donde Lambda es la tasa de falla y theta es la media.
La función de densidad de la distribución exponencial
El modelo exponencial, con un solo parámetro, es el más simple de todos los modelos de
distribución del tiempo de vida. Las ecuaciones clave para la exponencial se muestran:
CDF : F (t )  1  e
 t
CONFIABILIDAD : R(t )  e

PDF : f (t )  e t
MEDIANA :
0.0025

0.0020

= 0.002, MEDIA = 500
= 0.001, MEDIA = 1,000
0.0015

0.693

1
2
= 0.003, MEDIA = 333
0.0030
1
ln 2
VARIANZA :
Función de Densidad de Probabilidad Exponencial
0.0035
f(t)
MEDIA : m 
t
0.0010
0.0005
0.0000
0
500
1,000
Tiempo
1,500
TASA DE FALLA : h (t )  
Si el número de ocurrencias tiene Distribución de Poisson, el lapso entre ocurrencias tiene
distribución exponencial. Su función de distribución acumulada es la siguiente:
Página 63 de 123
2,000
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
P( X  x)  1  e t
Cuando X = 0 la distribución de Poisson se convierte en el segundo término de la distribución
exponencial.
Probabilidad de que el tiempo entre la ocurrencia de dos eventos cualquiera sea <= t
F(x)
t
Aquí se desea saber de que no transcurra más de cierto tiempo entre dos llegadas, sabiendo que se
tiene una tasa de llegadas .
Ejemplo: El tiempo de respuesta de un departamento es de 5 minutos promedio y se distribuye
exponencialmente. La probabilidad de que el tiempo de respuesta a lo sumo de 10 minutos se
determina como sigue:
P(X<=10) = F(10; 1/5) = 1- exp(-0.2*10) = 0.865
La probabilidad entre el tiempo de respuesta de 5 y 10 minutos es:
P(5<=X<=10) = F(10;1/5) – F(5; 1/5) = 0.233
USO DE EXCEL:
Lamda = 1/ media.
 En Fx Estadísticas seleccionar
 =distr.exp(x, lamda,1) = distr.exp(10,0.2,1) = 0.865
USO DE MINITAB:
 Calc > Probability distributions > Exponential
 Probability (densidad) o Cumulative probability (acumulada)
 Indicar Threshold = 0 y en Scale indicar la media 5
 En Input constant indicar la X del tiempo.
Exponential with mean = 5
x P( X <= x )
10
0.864665
La Distribución Exponencial es usada como el modelo, para la parte de vida útil de la curva de la
bañera, i.e., la tasa de falla es constante. Los sistemas complejos con muchos componentes y
múltiples modos de falla tendrán tiempos de falla que tiendan a la distribución exponencial
Desde una perspectiva de confiabilidad, es la distribución más conservadora para predicción.
Las fallas ocurren en los sistemas con una distribución denominada Curva de la Bañera:
Página 64 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
Fallas diseño
P. REYES / SEPT. 2006
  tasa.de. falla.  cons tan te
Fallas infantiles
Fallas aleatorias
Senectud
Fallas por desgaste
La zona de tasa de fallas constantes, es modelada con La Distribución exponencial, muy aplicada a
la Confiabilidad, que es la probabilidad de que un equipo o componente sobreviva sin falla hasta un
periodo t bajo condiciones normales de operación:
R(t) = Confiabilidad de un sistema o componente
R(t )  e t
Donde  es la tasa media de falla y su inverso es el tiempo medio entre fallas (MTBF), o sea:

1
MTBF
Ejemplo: El MTBF de un foco es de 10 semanas, por tanto = 0.1 fallas/semana y la probabilidad de
que el foco no falle o continúe en operación hasta las 15 semanas es:
R(15)  e0.1*15  0.223
y la probabilidad de que falle dentro de las 15 semanas es:
P(15)  1  e0.1*15  0.777
Página 65 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. Sea X el tiempo entre dos solicitudes de servicio sucesivas a un departamento, si X tiene una
distribución exponencial con media = 10, calcular:
a) El tiempo esperado entre dos solicitudes sucesivas.
b) La desviación estándar de esas llegadas
c) P(X<=15)
d) P(8<=X<=14)
2. Las falla de los ventiladores de un equipo tiene un tiempo promedio de 25,000 Horas, ¿cuál es la
probabilidad de que
a) Un ventilador seleccionado al azar dure por lo menos 20,000 horas?
b) A lo sumo 30,000 horas?
c) Entre 20,000 y 30,000 horas?
3. Un fabricante de equipos electrónicos ofrece un año de garantía. Si el equipo falla en ese periodo
por cualquier razón se reemplaza. El tiempo hasta una falla está modelado por la distribución
exponencial:
f(x) = 0.125 exp(-0.125*x)
a) ¿Qué porcentaje de los equipos fallarán dentro del periodo de garantía?
b) El costo de fabricación del equipo es de $500 y la ganancia es de $250 ¿Cuál es el efecto de la
garantía por reemplazo sobre la ganancia?
4. El tiempo entre fallas de un componente de equipo es importante para proveer de equipos de
respaldo. Un generador eléctrico tiene una vida promedio de 10 días.
a) ¿Cuál es la probabilidad de que falle dentro de los siguientes 14 días?
b) ¿Cuál es la probabilidad de que opere por más de 20 días?
Página 66 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
MÓDULO 3. LA DISTRIBUCIÓN NORMAL
La distribución normal es una de las distribuciones más usadas e importantes. Se ha desenvuelto
como una herramienta indispensable en cualquier rama de la ciencia, la industria y el comercio.
Muchos eventos reales y naturales tienen una distribución de frecuencias cuya forma es muy
parecida a la distribución normal.
La distribución normal es llamada también campana de Gauss por su forma acampanada.
Y


X
La Función de Distribución de Probabilidad (PDF) normal tiene forma de una campana con simetría
sobre su media definida por la siguiente ecuación:
f (t ) 
 1  t   2 
1
exp  
 
 2
 2    
Función de Densidad de Probabilidad Normal
0.0140
0.0120
 = 500
 = 30
 = 50
 = 70
f(t)
0.0100
0.0080
0.0060
0.0040
0.0020
0.0000
200
400
600
Tiempo
Página 67 de 123
800
1000
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
La desviación estándar
sigma representa la
distancia de la media al
punto de inflexión de la
curva normal
X
x-3
x-2
x-
x
x+
x+2
x+3
z
-3
-2
-1
0
1
2
3
Propiedades de la distribución normal estándar






La distribución normal o Distribución Gaussiana tiene forma de campana y es la más conocida.
La distribución normal estándar tiene media  = 0 y desviación estándar  = 1. Su Media =
Mediana = Moda
El área bajo la curva o la probabilidad desde menos infinito a más infinito vale 1.
La distribución normal es simétrica, es decir cada mitad de curva tiene un área de 0.5.
La escala horizontal de la curva se mide en desviaciones estándar.
La forma y la posición de una distribución normal dependen de los parámetros  ,  , en
consecuencia hay un número infinito de distribuciones normales.
Existe una relación del porcentaje de población a la desviación estándar. En la figura observamos
por ejemplo que el área bajo la curva para  1 tiene un porcentaje de 68.26%,  2 = 95.46% y
 3  99.73%
-3s -2s -1s
+1s +2s +3s
68.26%
95.46%
99.73%
Página 68 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
La distribución de probabilidad f (Z) es una distribución normal estándar con media 0 y desviación
estándar 1; esto es Z se distribuye normalmente con media cero y desviación estándar = 1
Z~N(0,1): La gráfica de densidad de probabilidad se muestra en la figura.
F(z)
  1
Z
0
La distribución f (Z) se encuentra tabulada en la tabla de distribución normal estándar o se puede
determinar con Excel. En esta tabla podemos determinar los valores de Z o la probabilidad de
determinado valor Z.
Nota: Excel proporciona el valor del área bajo la curva desde menos infinito hasta un valor dado de
Z.
1.0
F(z)=pr(Z z)
0.5
.01
Z
-4
-3
-2
-1
0
Forma de la Distribución Normal acumulada
1
2
3
4
Población
Muestra
La población incluye todos los datos,
la muestra es una porción de la población.







x-3s
x-2s
x-s
x
x+s
x+2s
x+3s
Página 69 de 123
X
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
El valor de z
Determina el número de desviaciones estándar  entre algún valor X y la media de la población 
Para calcular el valor de Z usamos la siguiente fórmula.
Z
X 

Calculo de Probabilidades normales
1. Identificar la variable de interés.
2. Identificar los parámetros de la variable (su media y desv. estándar).
3. ¿Cual es la pregunta sobre el área bajo la curva de probabilidad normal?
4. Convertir los valores a la distribución normal estándar (estandarización Z = (X-Media)/S) .
5. Encuentre la probabilidad en tabla de la normal estándar o por Excel.
Ejemplo 1: El gerente de personal de una gran compañía requiere que los solicitantes a un puesto
efectúen cierta prueba y alcancen una calificación de 500. Si las calificaciones de la prueba se
distribuyen normalmente con media   485 y desviación estándar   30 ¿Qué porcentaje de los
solicitantes pasará la prueba?
Calculando el valor de Z obtenemos:
Z
X 
= 500  485  0.5

30
Buscamos el valor correspondiente Z en las tablas de distribución normal estándar o por medio de
Excel (=distr.norm.estand(0.05). Z0.5 = 0.69146 = 69.146%. siendo esta la probabilidad de que la
calificación sea menor a 500 P (X<500). Dado que el porcentaje pedido es P( X  500) la solución
es 1-.69146 =0.3085 , 30.85% de los participantes pasarán la prueba.
485
30.85%
Z.05
Ejemplo 2:
Encuentre las probabilidades siguientes usando la tabla Z.
a) P(-1.23 < Z > 0)
Z
-1.23
0
Página 70 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Solución: Buscamos el valor Z1..23 en las tablas siendo este =0.89065. restando 0.89065-0.5 =
0.3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la misma de –1.23 a 0 por
simetría. Por lo tanto la probabilidad es 0.3905
USO DE EXCEL

Para calcular la probabilidad dado un valor Z procedemos de la siguiente manera:
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand. OK

Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de clic en
aceptar y aparecerá la probabilidad buscada f(z)= 0.903199
 Para calcular Z dada una probabilidad f(z)
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand.inv OK
De clic en aceptar. Procedemos de la misma manera que en el caso anterior, pero en esta
ocasión seleccionamos la probabilidad 0.93319
El valor Z = 1.4999

Cuando no tenemos valores de Z ni probabilidad.
Ejemplo 3 : Suponga que una distribución normal dada tiene una media de 20 y una desviación
estándar de 4. Calcule la probabilidad P (X > 24).
En la barra de herramientas seleccione el icono de funciones fx>Estadísticas>Distr.Norm.Estand.
OK
El sistema muestra la siguiente ventana, en la cual llenamos los siguientes datos:
Página 71 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
El resultado de la fórmula = 0.8413. , dado que esta es la probabilidad P(X  24), la probabilidad
buscada es:
P (X > 24) = 1-.8413= .1587
USO DE MINITAB
Para cálculos utilizando el paquete Minitab, usar:
1. Calc >Probability Distributions >Normal
DISTRIBUCIÓN NORMAL ESTÁNDAR (con Z):
2. Indicar Cumulative Distribution o inverse Cumulative Distribution (dando valores de Z se
obtienen valores de área) o Inverse Cumulative Distribution (dando áreas proporciona los
valores de Z).
3. Dejar los parámetros de Mean Mu=0 y Estándar deviation Sigma = 1.
4. En Input constant indicar el valor de Z (cumulative) para obtener el área bajo la curva o
proporcionar el área bajo la curva (Inverse cumulative) para obtener el valor de Z. OK
5. Si se especifica una columna Cx para almacenamiento de los resultados, estos no se
muestran automáticamente, para verlos es necesario ejecutar la opción >Manip >Display
Data
DISTRIBUCIÓN NORMAL (con datos reales y X):
6. Indicar Cumulative Distribution o inverse Cumulative Distribution (dando valores de X
se obtienen valores de área) o Inverse Cumulative Distribution (dando áreas proporciona los
valores de X).
7. Introducir los valores de los parámetros de la media en Mean y la sigma en Estándar
deviation.
8. En Input constant indicar el valor de X (cumulative) para obtener el área bajo la curva o
proporcionar el área bajo la curva (Inverse cumulative) para obtener el valor de X. OK
9. Si se especifica una columna Cx para almacenamiento de los resultados, estos no se
muestran automáticamente, para verlos es necesario ejecutar la opción >Manip o Data
>Display Data
Página 72 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. ¿Qué porcentaje del área bajo la curva normal estándar está incluido dentro de los siguientes
rangos?
a) P(1.2 <= Z <= 2.2):
b) P(-2.1 <= Z <= -0.4)
c) P( -1.3 <= Z <= 2.7)
d) P( Z >= 2.4)
e) P( Z<-2.9) + P(Z>3.1)
f) P(Z>= 1.9)
2. El tiempo de vida de las baterías del conejito tiene una distribución aproximada a la normal con
una media de 85.36 horas y una desviación estándar de 3.77 horas.
a) ¿Qué porcentaje de las baterías se espera que duren 80 horas o menos?
b) ¿Cuál es la probabilidad de que una batería dure entre 86.0 y 87.0 horas?
c) ¿Cuál es la probabilidad de que una batería dure más de 88 horas?
3. Considere una media de peso de estudiantes de 75 Kgs. con una desviación estándar de 10Kgs.
a) ¿Cuál es la probabilidad de que un estudiante pese más de 85Kgs.?
b) ¿Cuál es la probabilidad de que un estudiante pese menos de 50Kgs.?
c) ¿Cuál es la probabilidad de que pese entre 60 y 80 Kgs.?.
d) ¿Cuál es la probabilidad de que pese entre 55 y 70 Kgs.?
e) ¿Cuál es la probabilidad de que pese entre 85 y 100Kgs.?
4. Una máquina llenadota de refresco se ajusta para servir 10 onzas de líquido por vaso, si la
desviación estándar es de 0.12 onzas. ¿Cuál es la probabilidad o porcentaje de las veces de que la
máquina sirva:
a.
b.
c.
d.
e.
10.2 onzas o más?
Entre 10.1 y 10.3 onzas?
Entre 9.7 y 10.3 onzas?
Menos de 9.8 onzas?
Entre 9.8 y 9.9 onzas?
Página 73 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
MÓDULO 5. ESTADÍSTICA INFERENCIAL
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS
5.1 INTRODUCCIÓN
La inferencia estadística es el proceso mediante el cual se utiliza la información de los datos de una
muestra para extraer conclusiones acerca de la población de la que se seleccionó la muestra. Las
técnicas de inferencia estadística se dividen en dos áreas principales: Estimación de intervalos de
confianza y Pruebas de hipótesis.
En cada prueba estadística, se comparan algunos valores observados contra algunos esperados u
otro valor observado comparando estimaciones de parámetros (media, desviación estándar,
varianza). Estas estimaciones de los verdaderos parámetros son obtenidos usando una muestra de
datos y calculando los estadísticos.
La capacidad para detectar una diferencia entre lo que es observado y lo que es esperado depende
del desarrollo de la muestra de datos. Incrementando el tamaño de la muestra mejora la estimación
y la confianza en las conclusiones estadísticas.
5.2 INTERVALOS DE CONFIANZA
Las medias o desviaciones estándar calculadas de una muestra se denominan estadísticos, podrían
ser consideradas como un punto estimado de la media y desviación estándar real de la población o
de los parámetros.
Cuando no deseamos obtener números sencillos como la media basada en una muestra, utilizamos
los intervalos de confianza, los cuales nos dan un margen con algún tipo de error.

Para obtener un intervalo de confianza usamos:

Punto estimado + error estimado

Para calcular el error estimado:

Desviación estándar  multiplicador de CI (nivel de confianza) deseado.
P(Z<= - Zexcel ) = alfa/2
P(Z>= + Zexcel ) = alfa/2
Intervalo de confianza donde
se encuentra el parámetro con
un NC =1-a
Página 74 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Ejemplo 1. Obtenemos una muestra donde la media x = 100, la desviación estándar s = 10,
Encontrar el intervalo de confianza al 95% en el cual se encuentra la media para una distribución
normal.
100 + (10) X 1.96 => (80.4, 119.6)
1.96 = Z0.025
95% de nivel de confianza significa que sólo tenemos un 5% de probabilidad de obtener un
punto fuera de ese intervalo. Esto es el 5% total, o 2.5% mayor o menor. En la tabla Z
vemos que para un área de 0.025, corresponde a una Z de 1.960.

C.I.
99
95
90
85
80
Multiplicador
2.576
1.960
1.645
1.439
1.282
Para tamaños de muestra > 30, la distribución de referencia es la Normal, para muestras de menor
tamaño, debe usarse la distribución t. El IC que no es simétrico es el de la varianza:
 para .n 30  X  Z a
2
 para .n 30  X  ta
 a2
2

, n 1
2

n

n
2
( n  1) s 2

( n  1) s 2
2
1
  p  Za
2
a
2
, n 1
p (1  p )
n
DISTRIBUCIONES MUESTRALES UTILIZADAS
T
Página 75 de 123
CHI CUADRADA
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
USO DE EXCEL
Los estadísticos de prueba con alfa se determinan como sigue:
Zalfa/2 = distr.norm.estand.inv(alfa/2)
talfa/2 = distr.t.inv(alfa, gl) donde gl = grados de libertad = n-1
Chi cuadrada de alfa/2 = prueba.chi.inv(alfa/2, gl)
Falfa/2 = distr.f.inv(alfa/2, gl. Numerador, gl. Denominador)
USO DE MINITAB



Calc > Probability distributions > Normal, t , Chi-Square, F, etc.
Seleccionar Inverse Cumulative Distribution; si los pide dar los grados de libertad = n-1
En input constant poner el valor de alfa/2 o alfa
Para determinar los intervalos de confianza en Minitab se tiene: intervalo de confianza para la media



stat > basic statistics > 1-sample z o 1-sample t
variable -- indicar la columna de los datos en samples in columns o summarized data
(indicando en sample size el tamaño de muestra y en mean la media). para el caso de la
prueba z además se indica en standard deviation la desviación estándar.
en options: indicar el confidence level -- 90, 95 o 99% (igual a 1-alfa). OK
Intervalo de confianza para una proporción






stat > basic statistics > 1-proportion
seleccionar summarized data
number of trials = n tamaño de la muestra
number of events = d éxitos encontrados en la muestra
en options: indicar el confidence interval -- 90, 95 o 99%..
seleccionar use test and interval based in normal distribution
Tamaño de muestra
Para determinar el tamaño de muestra necesario para el intervalo de confianza o la prueba hipótesis
con base a un error máximo y un nivel de confianza deseado se utilizan las siguientes fórmulas:
n
Za2 / 2 2
( X   )2
n
Za2 / 2 ( )(1   )
( p   )2
Página 76 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
Ejemplos para la media con distribución normal z
z 1. el peso promedio de una muestra de 50 bultos de productos xmedia = 652.58 kgs., con s =
217.43 kgs. determinar el intervalo de confianza al nc del 95% y al 99% donde se encuentra la media
del proceso (poblacional). alfa = 1 - NC
2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de
laboratorio oscila entre 0.93 y 1.73 onzas. ¿cuál es el valor de z?.
3. 100 latas de 16 onzas de salsa de tomate tienen una media de xmedia = 15.2 onzas con una s =
0.96 onzas. ¿a un nivel de confianza del 95%, las latas parecen estar llenas con 16 onzas?.
4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con s = 3.63. se rechaza la
solución si el peso promedio de todo el lote no excede las 18 onzas. ¿cuál es la decisión a un 90%
de nivel de confianza?.
Ejemplos para la media (con distribución t) y varianza (con distribución chi cuadrada)
5. 20 cajas de producto pesaron 102 grs. con s = 8.5 grs. ¿cuál es el intervalo donde se encuentra la
media y varianza del lote para un 90% de nivel de confianza?. grados libertad=20 -1 =19
6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. con una s = 9.56. ¿cuál es la
estimación del intervalo de confianza para la media y varianza a un nivel de confianza del 95 y del
98% del peso de productos del lote completo?.
7. Los pesos de 25 paquetes enviados a través de ups tuvieron una media de 3.7 libras y una
desviación estándar de 1.2 libras. hallar el intervalo de confianza del 95% para estimar el peso
promedio y la varianza de todos los paquetes. los pesos de los paquetes se distribuyen
normalmente.
Ejemplos para proporciones con distribución z
8. De 814 encuestados 562 contestaron en forma afirmativa. ¿cuál es el intervalo de confianza para
un 90% de nivel de confianza?
9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados ¿se puede
concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de confianza. ?
Página 77 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
5.3 PRUEBAS DE HIPÓTESIS DE UNA POBLACIÓN
Una hipótesis es una afirmación a comprobar, por ejemplo:
Un proveedor de bebidas afirma que sus botellas contienen 16 onzas; un productor de software dice
que su rechazo promedio es de 3%; etc.
La hipótesis planteada que contiene el signo de igualdad se denomina hipótesis nula ho (=, >=, <=) y
su complemento es la hipótesis alterna ha. se puede iniciar planteando cualquiera de las dos
por
ejemplo si se indica …probar si las ventas son mayores que $1000 o …..las ventas son menores a
$1000, se inicia planteando ha y como complemento se plantea ho (ventas<=1000 o ventas>=1000).
Ho :  ,  2 ,  , ,  parametro de la hipotesis
Ha :  ,  2 ,  , ,  parametro de la hipotesis
Las conclusiones al final siempre son contra la Ho.
Los términos surgen de las investigaciones agrícolas quienes probaban la efectividad de fertilizantes,
lo nulo era sin efecto
Las hipótesis nulas no se rechazan o si se rechazan (aceptándose la ha) con base en datos
muestrales y un valor alfa.
Prueba estadística: es un procedimiento para probar una afirmación o creencia sobre el proceso.
Hipótesis nula (Ho) - usualmente es una afirmación representando una situación “status quo”.
generalmente deseamos rechazar la hipótesis nula.
puede ser por ejemplo ho: , , = 5
sólo puede ser rechazada o no rechazada
Hipótesis alterna (Ha) - es lo que aceptamos si podemos rechazar la hipótesis nula. Ha es lo que
queremos probar es el complemento de Ho.
Por ejemplo  5 para prueba de dos colas
< 5 para prueba de cola izquierda
 > 5 para prueba de cola derecha
Esta hipótesis se acepta cuando se rechaza Ho
Estadístico de prueba: Calculado con datos de la muestra (Z, t, X2 or F).
Región de Rechazo: Indica los valores de la prueba estadística para que podamos rechazar la
Hipótesis nula (Ho). Esta región esta basada en un riesgo a deseado, normalmente 0.05 o 5%.
Las pruebas de hipótesis pueden ser de dos colas, de cola derecha o de cola izquierda,
dependiendo del signo de la hipótesis alterna, a continuación se esquematizan cada una de ellas.
Página 78 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Pruebas de Hipótesis de dos colas:
Ho: a = b
Ha: a  b
Región de
Rechazo
Región de
Rechazo
-Za
Za
0
Pruebas de Hipótesis de cola derecha:
Ho: a  b
Ha: a > b
Región de
Rechazo
Pruebas de Hipótesis cola izquierda:
Ho: a  b
Ha: a < b
0
Za
Región de
Rechazo
-Za
0
Za
“PROCEDIMIENTO PARA REALIZAR PRUEBAS DE HIPÓTESIS”
1.
2.
3.
4.
Definir el Problema ( Problema Práctico).
Señalar los Objetivos ( Problema Estadístico).
Determinar tipo de datos: Atributo o Variable.
Si son datos Variables: Prueba de Normalidad.
5. Establecer las Hipótesis: Hipótesis Nula (Ho lleva signo =, <=, >=), Hipótesis Alterna (Ha
lleva signo >, < o <>).
6. Seleccionar el nivel de significancia Alfa (normalmente 0.05 o 5%) o el nivel de
confianza 1 - alfa.
7.
8.
9.
10.
Establecer el tamaño de la muestra,  10 .
Desarrollar el Plan de Muestreo.
Seleccionar Muestras y Obtener Datos.
Decidir la prueba estadística apropiada y calcular el estadístico de prueba (Z, t, X2 o F)
a partir de los datos.
11. Obtener el estadístico correspondiente de tablas o Excel.
12. Determinar la probabilidad P de que el estadístico de prueba calculado ocurra al azar.
13. Comparar el estadístico calculado con el de tablas y ver si cae en la región de rechazo o
ver si la probabilidad es menor a alfa, rechace Ho y acepte Ha. En caso contrario no
rechace Ho.
14. Con los resultados interprete una conclusión estadística para la solución práctica.
Página 79 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Las fórmulas para calcular el estadístico de prueba en base a la muestra son las siguientes:
X 
Z 
;Una.media; n  30;   conocida
/ n
X 
t
;Una.media; n  30;   desconocida
S/ n
S2
F  12 ; DF  n1  1, n2  1; prueba.dos. var ianzas
S2
t
X1  X 2
; dos.medias;  ' s  desconocidas. pero. 
1
1
Sp /

n1
n2
Sp 
t
( n1  1) s12  ( n2  1) s22
; DF  n1  n2  2
n1  n2  2
X1  X 2
s12
s2
 2
n1
n2
; dos.medias;  ' s  desconocidas.diferentes
DF  formula.especial
Para el caso de muestras pareadas se calculan las diferencias d individuales como sigue:
t
d
; Pares.de.medias; d i . para.cada. par
Sd / n
X2 
X2 
( n  1) S 2
2
; DF  ( n  1); prueba.una.v ar ianza
(O  E ) 2
 E ; DF  (r  1)(c  1); bondad .ajuste
Ejemplos de Prueba de hipótesis Estadística
Paso 1. Para una muestra grande (n >30) probar la hipótesis de una media  . Establecer alfa.
Ho:    o
Ha:   0
Paso 2. Calcular el estadístico de prueba
  0
Z calc 
s
n
Paso 3. Establecer la región de rechazo, para prueba de 2 colas:  Z a 2  Z a 2
Página 80 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Región de
Región de
Rechazo
Rechazo
0
-Za
Za
Paso 4. Si el valor del estadístico de prueba cae en la región de rechazo rechazaremos Ho de otra
manera no podemos rechazar Ho.
Paso 5. Calcular el intervalo de confianza IC para un nivel de confianza de 1-alfa, si la media de la
hipótesis se encuentra dentro del intervalo, no rechazar Ho y viceversa.
Paso 6. Calcular el valor de Probabilidad P para el estadístico calculado a partir de la muestra Zc o
Tc por medio de:
Para Zc: P = distr.norm.estand.inv(-Zc)
Para Tc: P = distr.t.inv(Tc, grados de libertad, 1 o 2 colas)
Para Chi2: P = Prueba.chi.inv(Chi c, grados de libertad)
Si el valor de P es menor o igual a alfa se rechaza Ho y se acepta Ha (en el caso de dos colas el
valor de P total es del doble del calculado).
USO DE MINITAB PARA PRUEBA DE HIPÓTESIS DE LA MEDIA




Stat > basic statistics > 1-sample z o 1-sample t
Variable -- indicar la columna de los datos en simples in columns o summarized data
(indicando en simple size el tamaño de muestra y en mean la media). para el caso de la
prueba z además se indica en standard deviation la desviación estándar.
Indicar en test mean la media de la hipótesis a probar.
Indicar el signo de la hipótesis alterna: less than, not equal, greater than
OK
Página 81 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Prueba de Hipótesis para muestras grandes usando Z:
¿Parecería ser correcta la afirmación de que se mantiene el precio promedio de las computadoras en $2,100?
Probarlo a un 5% de nivel de significancia
Se inicia con el planteamiento de la hipótesis nula
Datos
Minoristas
n
64
media mu =
2100
Precio prom.
X
2251
Desv. Estándar
s
812
(Alfa =
0.05
(Alfa/2 =
0.025
Paso 1. Establecimiento de hipótesis
Ho: uC = 2100
Ha: uC <> 2100
Por tanto se trata de una prueba de dos colas
Paso 2. Cálculo del estadístico de prueba Zc
Zc 
X   HIPOTESIS. NULA
s
n
151
101.5
= > Zc =
1.48768473
Error estándar
Como el valor de Zc es positivo se comparará contra de Zexcel (1-alfa/2) positivo
Paso 3. Determinar la Ze de Excel o de tablas para el valor de probabilidad (Alfa / 2):
Ze ( 0.025 ) =
1.95996398
DIST.NORM.STAND.INV.(
0.025
)
Paso 4. Comparando los valores Zc calculado contra Zexcel se tiene
P(Z<= - Zexcel ) = alfa/2
Zexcel (
P(Z>= + Zexcel ) = alfa/2
0.025 )
-1.95996398
Zexcel (
1.959963985
Zc =
0.025 )
1.487684729
Valor p para Zc es igual a
P(-Zc) =
0.06841765
p > Alfa / 2
Como Zc es menor que Zexcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para RECHAZAR Ho
Se concluye que el precio promedio no es diferente de $2,100
Paso 5. Como el valor P = 0.068 correspondiente a la Z calculada Zc es mayor
que el valor de Alfa / 2 = 0.025, también nos da el criterio
para NO RECHAZAR la Ho
Paso 6. El Intervalo de confianza para la media poblacional
al nivel de confianza 1-Alfa
IC. para.estimar.  X  Za
s
2
n
Error estándar
Z alfa/2
(1-Alfa =
Porciento)
101.5
1.95996398
Intervalo de confianza
El intervalo de confianza incluye a la media de la hipótesis
por tanto no se rechaza la Ho.
2052.063656 <=
Página 82 de 123
0.95
2251
<=

2449.936344 )
198.936344
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Ejemplo de Prueba de Hipótesis para muestras pequeñas usando t:
Se piensa que las ventas promedio de $5,775 se han incrementado gracias a la campaña publicitaria
Probar esta afirmación a un nivel de significancia alfa de 1%
Se inicia con el planteamiento de la hipótesis Alterna
Datos
Semanas
Ventas prom
Desv. Estándar
n
X
s
15
6012
977
media mu =
5775
(Alfa =
(Alfa/2 =
0.01
0.005
(1-Alfa =
(1-Alfa/2 =
0.99
0.995
Paso 1. Establecimiento de hipótesis
Ho: uC <=
5775
Ha: uV >
5775
Se trata de una prueba de cola derecha
Paso 2. Cálculo del estadístico de prueba tc
tc 
X   HIPOTESIS
s
n
237
. NULA
252.260315
= > tc =
0.93950568
Error estándar
Como el valor de tc es positivo se comparará contra de t excel (1- alfa) positivo
NOTA:En excel poner 2alfa
para obtener t de alfa
Paso 3. Determinar la te de Excel o de tablas para
Alfa
0.01
te (
0.99 2.62449406
DIST.T.INV(
gl = 14
Paso 4. Comparando los valores tc calculado contra t excel se tiene
0.02 , gl. 14 )
P(t >= + t excel ) = alfa
texcel (
2.62449406
tc =
0.02 gl. 14)
0.93950568
Valor p para tc es igual a
P(tc) =
0.368130427
p > Alfa
Como tc es menor que texcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
Se concluye que la publicidad no ha tenido efecto en las ventas
Paso 5. Como el valor de P para Zc es 0.368 mayor a Alfa = 0.05 no se rechaza Ho
Paso 6. El Intervalo de confianza para la media poblacional al nivel
(1-Alfa =
IC. para.estimar.  X  ta
Como el intervalo de confianza
s
n
Porciento)
Error estándar 252.260315
t alfa
2.62449406
Intervalo de confianza
contiene a la media de la Hipótesis no se rechaza Ho
99
5349.9443
Página 83 de 123
6012
<=
 <=

6674.0557 )
662.0557002
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Ejemplo de Prueba de hipótesis para una proporción:
Prob.
DATOS:
18.17
7.17
2.08
4.17
18.02
8.73
4.12
8.15
5.15
17.15
21.12
17.18
6.12
2.12
9.99
10
5.12
5.12
12.12
18.17
4.12
27.18
2.17
8.15
3.02
0.65
11.12
3.32
4.83
10.12
8.73
2.17
6.42
12.18
8.84
17.17
11.17
17.89
11.12
8.92
8.42
7.12
9.17
2.63
21.22
18.42
4.82
5.55
11.11
17.83
El gerente de mercado considera que el 50% de sus clientes gasta menos de $10 en cada visita a la tienda.
¿Estás de acuerdo con esta afirmación a un nivel de significancia del 5%?
Se inicia con el planteamiento de la hipótesis nula
Datos
Clientes
n
50
Proporción media =
0.5
30 gastaron
p
0.6
menos de$10
(Alfa =
0.05
(1-Alfa =
0.95
(Alfa/2 =
0.025
(1-Alfa/2 =
0.975
Paso 1. Establecimiento de hipótesis
Ho :  c  0.5
Ha :  c  0.5
Se trata de una prueba de dos colas
Paso 2. Cálculo del estadístico de prueba Zc
Zc 
p   HIPOTESIS. NULA
 HIP. NULA (1   HIP. NULA )
0.1
0.07071068
n
= > Zc =
1.41421356
Error estándar
Como el valor de Zc es positivo se comparará contra de Zexcel (alfa/2) positivo
Paso 3. Determinar la Ze de Excel o de tablas para
Ze ( (1-Alfa/2 =
(1-Alfa/2 =
1.95996398
0.975
DIST.NORM.STAND.INV.(
0.975 )
Paso 4. Comparando los valores Zc calculado contra Zexcel se tiene
P(Z <= - Zexcel ) = alfa/2
Zexcel (
P(Z>= Zexcel ) = alfa/2
0.025 )
-1.95996398
Zexcel (
1.95996398
Zc =
0.975 )
1.41421356
Valor p para Zc es igual a
P(-Zc) =
0.07926984
p > Alfa /2
Como Zc es menor que Zexcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho y se concluye
que el porcentaje que compra menos de $10 no difiere del 50% de clientes
Paso 5. Como el valor P de Zc es 0.079 mayor a Alfa/2 no se rechaza Ho
Paso 6. El Intervalo de confianza para la media poblacional al nivel
(1-Alfa =
IC . para.estimar.  p  Z a
2
p(1  p)
n
Porciento)
Error estándar 0.07071068
Z alfa/2
1.41421356
Intervalo de confianza
Como la media de p = 0.6 se encuentra
dentro del intervalo, no se rechaza Ho
95
(
Página 84 de 123
0.5
0.6
<=
 

0.7
0.1
)
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
USO DE MINITAB PARA LA PRUEBA DE HIPÓTESIS DE UNA PROPORCIÓN
 Stat > Basic Statistics > 1-Proportion
 Seleccionar Summarized Data
 Number of trials = n tamaño de la muestra
 Number of events = D éxitos encontrados en la muestra
En Options:
 Indicar el Confidence Interval -- 90, 95 o 99%
 Indicar la Test Proportion Proporción de la hipótesis
 Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than
Seleccionar Use test and interval based in normal distribution
OK
EJERCICIOS
1. Se midió la temperatura de fusión de un aceite vegetal hidrogenado en n=16 muestras y se
encontró una media de 94.32. Si la temperatura de fusión sigue una distribución normal con sigma =
1.20.
a) Probar a un 95% de nivel de confianza de que la media se ha mantenido en 95.
2. La duración promedio de cierto foco es de 750 horas. El cliente cambiaría de marca sólo que se
demuestre que de manera concluyente que la vida de los focos es menor que la anunciada. Se elige
una muestra aleatoria de 20 focos, se determina su duración y se obtiene una vida media de 738.44
con una desviación estándar de 38.20.
a) ¿Cuál sería la conclusión a un 95% de nivel de confianza?
3. Después de ciertas horas de trabajo se determinó el desgaste de flechas en 0.0001” para cada
una de las n=8 máquinas que tienen plomo y cobre como material de soporte, y se obtuvo como
resultado que la media fue de 3.72 con desviación estándar de 1.25.
a) Se desea probar si el desgaste es mayor a 3.5 a un 95% de nivel de confianza.
3. Las lecturas de radiación de Radón tomadas en 12 lugares fueron como sigue:
105.6, 90.9, 91.2, 96.9, 96.5, 91.3, 100.1, 105, 99.6, 107.7, 103.3 y 92.4.
a) A un alfa de 5%, ¿indican las lecturas que difieren de 100?.
4. Se prueban 100 baterías de Ni-H para celdas de prueba y se determina que 14 de ellas se
ampoyan en sus placas fallando. Para un 5% de nivel de significancia.
a) ¿Proporciona lo anterior una evidencia de que más del 10% de las baterías fallan?
Página 85 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
5. Para un cierto servicio los tiempos de respuesta son de 3 horas, probar la afirmación para un
98% de nivel de confianza.
Una muestra de datos arrojó los resultados siguientes:
1.92
2.16
3.63
3.16
4.02
3.14
2.2
2.34
3.05
2.38
6. Las horas tomadas para mantenimiento son las siguientes. Probar a un 5% si el tiempo es > 2
Hrs.
Tiempos
1.9
1.7
2.8
2.4
2.6
2.5
2.8
3.2
1.6
2.5
7. Un estudio encontró que 40% de los usuarios de Internet recibieron más de 10 mensajes diarios
Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% ¿Cuál es la conclusión?
8. Un estudio indicó que el 64% de los consumidores de supermercado creen en las marcas propias.
El fabricante de una salsa de tomate preguntó a 100 compradores donde 52 prefieren marca propia,
probar si el porcentaje de preferencias es menor al 64%, para un 5% de nivel de significancia
Página 86 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
5.6 PRUEBAS DE HIPÓTESIS PARA DOS POBLACIONES
Supongamos que tenemos muestras de dos calderas que producen el mismo rendimiento. Se desea
ver si hay diferencia significativa en el rendimiento de “Caldera A y Caldera B”.
Caldera A
89.7
81.4
84.5
84.8
87.3
79.7
85.1
81.7
83.7
84.5
Caldera B
84.7
86.1
83.2
91.9
86.3
79.3
82.6
89.1
83.7
88.5
Estadísticas Descriptivas
Variable
Caldera N
Rendimiento
A
10
B
10
Media
84.24
85.54
Desv.Std
2.90
3.65
Pregunta Práctica: ¿Existe diferencia entre las Calderas?
Pregunta Estadística ¿La media de la caldera B (85.54) es significativamente diferente de la media
de la Caldera A (84.24)? o su diferencia se da por casualidad en una variación de día a día.
Ho: Hipótesis Nula: No existe diferencia entre las Calderas.
Ha: Hipótesis Alterna: Las medias de las Calderas son diferentes.
H 0 :  a  b
H a :  a  b
Se busca demostrar que los valores observados al parecer no corresponden al mismo proceso, se
trata de rechazar Ho.
Reactor
Caldera A
A
Reactor
B
Caldera B
B
A
B B B B BB
AA
AAAA
A
BB
A
B
Página 87 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
¿Representan las Calderas dos procesos diferentes?
¿Representan las mismas condiciones como un solo proceso?
Lo anterior se contesta con pruebas de hipótesis para dos poblaciones como se explica a
continuación.
PRUEBAS PARA LA IGUALDAD DE DOS VARIANZAS.
Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las
poblaciones de interés, por ejemplo X1 y X2, donde 1, 12 ,  2 ,  22 , se desconocen. Deseamos
probar hipótesis relativas a la igualdad de las dos varianzas, H 0 :  12   22 . Considérese que se
disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño n2 de la población 2,
y sean S12 yS 22 las varianzas de muestra. Para probar la alternativa de dos lados
H 0 :  12   22
H 1 :  12   22
Utilizamos el hecho de que la estadística
S2
Fc  12
S2
Se distribuye como F, con n1-1 y n2 –1 grados de libertad.
Rechazaríamos H0 si
F0  Fa 2, n1 1, n2 1 o si F0  F1a 2,n1 1,n2 1
Donde Fa 2,n1 1,n2 1 y F1a 2,n1 1,n2 1 son los puntos porcentuales a 2 superior e inferior de la
distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona sólo los puntos de la cola
superior de F, por lo que para determinar F1a 2,n1 1,n2 1 debemos emplear
F1a 2,n1 1,n2 1 =
1
Fa 2,n2 1,n1 1
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un lado. La
hipótesis alternativa de un lado es:
H 0 :  12   22
H 1 :  12   22
Si F0  Fa ,n1 1,n2 1 , rechazaríamos H 0 :  12   22 .
Página 88 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Ejemplo 1: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos tipos
diferentes.
Tipo 1
Tipo 2
63
64
81
72
57
83
66
59
82
65
82
56
68
63
59
74
75
82
73
82
Pruebe la hipótesis de que las dos varianzas sean iguales. Use a  .05
H 0 :  12   22
H 1 :  12   22
X 1  70.6
X 2  70
S12  88.71
S 22  100.44
F0 
S12 88.71
 .877
=
S 22 100.44
Fa 2,n1 1,n2 1 = F.025,9,9= 4.03 F1a 2,n1 1,n2 1 =.248
0.877 no es mayor que 4.03, por lo cual no se rechaza la hipótesis nula
H 0 :  12   22 .
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción : Prueba F para varianzas de dos muestras.
Seleccionar las columnas de datos con rótulos y el nivel Alfa/2 de 0.025.
Prueba F para varianzas de dos muestras
Tipo 1
Tipo 2
Media
70.6
70
Varianza
88.7111111 100.444444
Observaciones
10
10
Grados de libertad
9
9
F
0.88318584
P(F<=f) una cola
0.42811371
Valor crítico para F (una cola)
0.24838585
Página 89 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
De la tabla deducimos que F1-alfa/2 = 0.248 es menor que Fc de 0.883 y el valor de P value = 0.428
es mayor a alfa/2 de 0.025 por lo cual no rechazamos H0. y las varianzas son iguales.
USO DE MINITAB




Stat > Basic statistics > 2 Variances Samples in different columns
Seleccionar las columnas de datos
En Options: Confidence level 97.5%, Test Mean = 0.0; Alternative = Not equal
OK
Test for Equal Variances: Tipo 1, Tipo 2
97.5% Bonferroni confidence intervals for standard deviations
Tipo 1
Tipo 2
N
10
10
Lower
5.89483
6.27256
StDev
9.4187
10.0222
Upper
20.8295
22.1643
F-Test (normal distribution)
Test statistic = 0.88, p-value = 0.856
Conclusión: Como Fc de 0.88 es mayor a F1-alfa/2 de 0.248 y Pvalue de 0.856 es mayor a Alfa de
0.05, no se rechaza Ho, las varianzas son similares.
PRUEBAS DE HIPÓTESIS SOBRE LA IGUALDAD DE DOS MEDIAS.
a) Varianzas conocidas
Supóngase
que hay dos poblaciones de interés X1 y X2, Suponemos que X1 tiene media desconocida
2
2
1 y varianza conocida  1 y que X2 tiene media desconocida  2 y varianza conocida  2 .
Estaremos interesados en la prueba de la hipótesis de que las medias 1 y  2 sean iguales.
Considérense primero las hipótesis alternativas de dos colas:
H 0 : 1   2
H1 : 1   2
Donde: H0 = Hipótesis nula; H1 = Hipótesis alternativa; 1 = media de la población 1;  2 = media de
la población 2.
El procedimiento para probar H 0 : 1   2 es calcular la estadística de prueba Zc mediante la
siguiente fórmula:
Zc 
X1  X 2
 21
n1

 22
n2
Página 90 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Donde:
X 1 = media de la muestra 1; X 2 = media de la muestra 2;  2 1 = varianza de la población 1;
 2 2 = varianza de la población 2; n1 = tamaño de la muestra 1; n 2 = tamaño de la muestra 2
La hipótesis nula H0 se rechaza aceptándose a su vez H1 o Ha en los tres casos siguientes:
a) Z 0  Z a 2 o Z 0   Z a 2
Donde: Z0 = Valor calculado del estadístico de prueba; Z a 2 = distr.norm.estand(alfa/2).
b) Si el cero no se encuentra en el intervalo de confianza de la diferencia de las medias.
c) Si el valor P de probabilidad para el estadístico de prueba Zc es menor al valor del nivel de
significancia Alfa. P = 2*distr.norm.estand.inv(Zc)
Las hipótesis alternativas de un lado se analizan de manera similar. Para probar
H 0 : 1   2
H1 : 1   2
Se calcula la estadística de prueba Zc , y se rechaza H 0 : 1   2 si Z 0  Za .
Para probar las otras hipótesis alternativas de un lado
H 0 : 1   2
H1 : 1   2
Se utiliza la estadística de prueba Zc y se rechaza H 0 : 1   2 si Z 0  Za
Ejemplo 2:
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El
proceso de llenado puede suponerse normal, con desviaciones estándar de  1  .015 y
 2  .018 . Se cree que ambas máquinas llenan hasta el mismo volumen neto, sin importar que
este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de cada máquina.
¿Piensa usted que el llenado es similar? Utilizando a  .05 . o nivel de confianza de 95%.
Máquina
1
16.03
16.04
16.05
Máquina
2
16.02
15.97
15.96
Página 91 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
16.05
16.02
16.01
15.96
15.98
16.02
15.99
P. REYES / SEPT. 2006
16.01
15.99
16.03
16.04
16.02
16.01
16.00
H 0 : 1   2
H1 : 1   2
Calculando las medias de cada máquina obtenemos X 1  16.015, X 2  16.005 .
Zc 
X1  X 2
 21
n1

 22
n2
=
16.015  16.005
.015 2 .018 2

10
10
 1.34
Z a 2 = Z.025 = distr.norm.estand.inv(0.975) = 1.96
El uso de la tabla es el siguiente: 1-.025 =.975 buscando el valor de Z correspondiente a .975
encontramos Z = 1.96
Utilizando el criterio de decisión Zc  Z a 2 para rechazar la hipótesis nula H0, nos damos cuenta de
que 1.34 no es mayor que 1.96. por lo cual no rechazamos H 0. No existe suficiente evidencia
estadística para pensar que las medias son diferentes.
Cuando rechazamos la hipótesis nula se considera que la prueba es potente, si no se rechaza la
hipótesis nula el criterio de decisión es débil, ya que generalmente se busca rechazar H 0.
P(z <= - Z excel ) = alfa/2
P(z >= Z excel ) = alfa/2
-Zalfa/2=-1.96
Zc = 1.34
Zalfa/2=1.96
Como Zc es menor que Z alfa/2, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
Página 92 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
USO DE EXCEL


Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción : Prueba z para medias de dos muestras.
Prueba z para medias de dos muestras
Máquina 1 Máquina 2
Media
16.015
16.005
Varianza (conocida)
0.000225
0.000324
Observaciones
10
10
Diferencia hipotética de las medias
0
z
1.34962722
P(Z<=z) una cola
0.08856779
Valor crítico de z (una cola)
1.95996398
Valor crítico de z (dos colas)
0.17713559
Valor crítico de z (dos colas)
2.24140273
Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.349 < Zalfa/2 de 1.96; el valor P
de 0.177 es mayor a Alfa = 0.05.
USO DE MINITAB




Stat > Basic statistics > 2 Sample t seleccionar Summarized data
Seleccionar Assume equal variantes
En Options: Confidence level 95%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Página 93 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Two-Sample T-Test and CI
Sample
1
2
N
10
10
Mean
16.0150
16.0050
StDev
0.0150
0.0180
SE Mean
0.0047
0.0057
Difference = mu (1) - mu (2)
Estimate for difference: 0.010000
95% CI for difference: (-0.005567, 0.025567)
T-Test of difference = 0 (vs not =): T-Value = 1.35
= 18
Both use Pooled StDev = 0.0166
P-Value = 0.194
DF
Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.35 < Zalfa/2 de 1.96; el valor P
de 0.194 es mayor a Alfa = 0.05 y el cero se encuentra en el IC para la diferencia de medias de
(-0.005567, 0.025567).
b) Varianzas desconocidas:
Consideraremos ahora pruebas de hipótesis respecto a la igualdad de las medias 1 ,  2 de dos
distribuciones normales donde no se conocen las varianzas  12 y 22 . Tenemos dos casos en el
primero las varianzas son iguales y en el segundo las varianzas son desiguales, a continuación
analizaremos cada uno de ellos.
Caso 1 varianzas iguales
Sean X1 y X2 dos poblaciones normales independientes con medias desconocidas 1 y 2 , y
varianzas conocidas pero iguales  12   22   2 . Deseamos probar:
H 0 : 1   2
H1 : 1   2
Sean X1, X2, S12 , S 22 , las medias y las varianzas de las muestras, respectivamente. Puesto que tanto
2
S12 como S 22 estiman la varianza común  , podemos combinarlas para producir una sola
estimación, mediante la siguiente fórmula:
Página 94 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
Sp 
P. REYES / SEPT. 2006
n1  1S12  n2  1S 22
n1  n2  2
Para probar H 0 : 1   2 calcúlese la estadística de prueba
X1  X 2
1
1
Sp

n1 n2
Si t 0  ta 2,n1  n2 2 o si t 0  ta 2,n1  n2  2 , rechazamos H 0 : 1   2
t0 
Las alternativas de un lado se tratan de modo similar. Para probar:
H 0 : 1   2
H 1 : 1   2
Calcúlese la estadística de prueba t0 y rechácese H 0 : 1   2 si:
t 0  ta ,n1  n2  2
Para la otra alternativa de un lado,
H 0 : 1   2
H 1 : 1   2
Calcúlese la estadística de prueba y rechácese H 0 : 1   2 si:
t 0  t a ,n1  n2  2
Ejemplo 3: Se está investigando la resistencia en ohms de dos alambres, con la siguiente
información de muestras.
Alambre 1
0.14
0.141
0.139
0.14
0.138
0.144
Alambre 2
0.135
0.138
0.14
0.139
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse respecto a la
resistencia media de los alambres?
Página 95 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
H 0 : 1   2
H1 : 1   2
Calculando la media y la desviación estándar de la muestra:
x1  .140
x 2  .138
S1  .0021
S 2  .0022
Sp 
t0 
n1  1S12  n2  1S 22
n1  n2  2
= .0021
X1  X 2
= 1.72
1
1
Sp

n1 n2
Buscamos en la tabla de distribución t el valor ta 2,n1 n2, 2 = t.025,8 =2.306
Utilizando el criterio de rechazo t 0  ta 2,n1  n2 2 , 1.72 no es mayor que 2.306, por lo tanto no
rechazamos H0.
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción: Prueba t para dos muestras suponiendo
varianzas iguales.
Seleccionar las columnas de datos y las celdas de resultados.
Página 96 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Prueba t para dos muestras
suponiendo varianzas iguales
Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipotética de las
medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
Alambre 1 Alambre 2
0.14033333
0.138
4.2667E-06 4.6667E-06
6
4
4.4167E-06
0
8
1.72002633
0.06187033
2.30600413
0.12374065
2.75152359
Conclusión: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que 2.306
(=distr.t.inv(0.05,8) por lo cual no rechazamos Ho. Asimismo P value de 0.123 es mayor a alfa/2 de
0.025 y no se rechaza Ho, las medias son similares.
USO DE MINITAB




Stat > Basic statistics > 2 Sample t Samples in different columns
Seleccionar Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Two-Sample T-Test and CI: Alambre 1, Alambre 2
Two-sample T for Alambre 1 vs Alambre 2
Alambre 1
Alambre 2
N
6
4
Mean
0.14033
0.13800
StDev
0.00207
0.00216
SE Mean
0.00084
0.0011
Difference = mu (Alambre 1) - mu (Alambre 2)
Estimate for difference: 0.002333
97.5% CI for difference: (-0.001399, 0.006066)
T-Test of difference = 0 (vs not =): T-Value = 1.72
= 8
Both use Pooled StDev = 0.0021
P-Value = 0.124
DF
Conclusión: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que 2.306
por lo cual no rechazamos Ho. Asimismo P value de 0.124 es mayor a alfa/2 de 0.025 y el cero se
encuentra en el intervalo de confianza por lo que no se rechaza Ho, las medias son similares.
Página 97 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Caso 2 Varianzas diferentes
Cuando las varianzas  12 y 22 son diferentes utilizamos el estadístico de prueba:
t0 
X1  X 2
S12 S 22

n1 n2
Para el cálculo de los grados de libertad utilizamos:
2
 S12 S 22 



n1 n2 


2
S12 n1 2  S 22 n2 2
n1  1
n2  1
El procedimiento para llevar a cabo la prueba de hipótesis es el mismo que el caso 1, varianzas
iguales excepto que se emplean t0 como estadística de prueba y n1 + n2 -2 se sustituye por  en la
determinación de los grados de libertad para la prueba.
Ejemplo 4: Se están investigando dos métodos para producir gasolina a partir de petróleo crudo. Se
supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes datos de
rendimiento se han obtenido de la planta piloto.
Proceso 1
24.2
26.6
25.7
24.8
25.9
26.5
Proceso 2
21
22.1
21.8
20.9
22.4
22
¿Hay alguna razón para creer que el Proceso 1 tiene un rendimiento medio mayor?
H 0 : 1   2
H1 : 1   2
Calculamos la media y la varianza para ambos procesos:
x1  25.62
x 2  21.70
S12  .9017
S 22  .3760
Página 98 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
t0 
X1  X 2
S12 S 22

n1 n2
=
P. REYES / SEPT. 2006
25.62  21.70
 8.48
.9017 .376

6
6
2
2
 S12 S 22 
.
9017
.
376








n1 n2 
6
6 


 2  9.32  9

2 =
.9017 62  .376 62
S12 n1 2  S 22 n2 2
7
7
n1  1
n2  1
Buscando el valor en la tabla t encontramos t.05,9 = 1,833, mediante el criterio de rechazo para una
cola t0>t.05,9 , 8.48>2.262, por lo tanto rechazamos la hipótesis nula, y aceptamos la hipótesis alterna,
el proceso 1 tiene mayor rendimiento que el proceso 2.
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción: Prueba t para dos muestras suponiendo
varianzas desiguales.
Seleccionar las columnas de datos y las celdas de resultados.
Prueba t para dos muestras
suponiendo varianzas desiguales
Media
Varianza
Observaciones
Diferencia hipotética de las
medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
Proceso 1 Proceso 2
25.6166667
21.7
0.90166667
0.376
6
6
0
9
8.48757168
6.878E-06
2.26215716
1.3756E-05
2.68501085
Tc de 8.48 mayor que Talfa!de 2.262 (valor crítico de t de una cola), se rechaza Ho.
USO DE MINITAB




Stat > Basic statistics > 2 Sample t Samples in different columns
Quitar selecciçon de Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Página 99 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Two-Sample T-Test and CI: Proceso 1, Proceso 2
Two-sample T for Proceso 1 vs Proceso 2
N
Mean StDev SE Mean
Proceso 1 6 25.617 0.950
0.39
Proceso 2 6 21.700 0.613
0.25
Difference = mu (Proceso 1) - mu (Proceso 2)
Estimate for difference: 3.91667
97.5% CI for difference: (2.64695, 5.18638)
T-Test of difference = 0 (vs not =): T-Value = 8.49
= 8
P-Value = 0.000
DF
Boxplot of Proceso 1, Proceso 2
27
26
Data
25
24
23
22
21
Proceso 1
Proceso 2
PRUEBA DE DOS MEDIAS PAREADAS CON T
Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de comparación. En
una prueba de comparación pareada, la reducción en la variabilidad experimental puede permitir la
detección de pequeños movimientos en los datos. A pesar de que los grados de libertad sean
reducidos, porque ahora el tamaño de muestra corresponde al número de comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo de inspección para
determinar si existe alguna diferencia significativa entre los equipos.
Las hipótesis de prueba en torno a la igualdad 1 y 2 pueden realizarse efectuando una prueba t de
una muestra en  D . Específicamente, probar H 0 : 1   2 contra H1 : 1   2 es equivalente a
probar
H0 : D  0
H1 :  D   0
El estadístico de prueba apropiado es
t0 
D
SD
n
donde
D
D
n
j
y
SD 
D
Página 100 de 123
 D
2
j
n 1
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Rechazaríamos H 0 :  D  0 si t 0  ta 2,n 1 o si t 0  ta 2,n 1 , las alternativas de un lado se
tratarían de manera similar.
Ejemplo 5:
Un fabricante desea comparar el proceso de armado común para uno de sus productos con un
método propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho
trabajadores de la planta de armado y se les pidió que armaran las unidades con ambos procesos.
Los siguientes son los tiempos observados en minutos.
Proceso
actual
38
32
41
35
42
32
45
37
Trabajador
1
2
3
4
5
6
7
8
Proceso
nuevo
30
32
34
37
35
26
38
32
Dpromedio
Di
8
0
7
-2
7
6
7
5
4.75
(Di-D)^2
10.5625
0
49
4
49
36
49
25
27.8203125
En a  .05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso actual es
mayor que el del método propuesto por más de dos minutos?
H0 : D  2
H1 :  D  2
D
D
= 4.75
j
n
t0 
D
SD
n
=
SD 
D
 D
2
j
n 1
= 3.69
4.75  2
= 2.107
3.69 8
ta ,n 1  t.05, 7  1.895 , debido a que 2.107 > 1.895 rechazamos H0, y aceptamos la H1: el tiempo de
armado para el proceso actual es mayor en dos minutos que el método propuesto.
Página 101 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
USO DE EXCEL



Seleccionar Análisis de datos en el menú herramientas.
En funciones para Análisis elija la opción: Prueba t para dos muestras emparejadas
Seleccionar las columnas de datos y las celdas de resultados
Prueba t para medias de dos
muestras emparejadas
Media
Varianza
Observaciones
Coeficiente de correlación de
Pearson
Diferencia hipotética de las medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
Proceso
Proceso
actual
nuevo
37.75
33
22.21428571 15.14285714
8
8
0.646487248
0
7
3.637357075
0.004158105
2.364624251
0.00831621
2.841244247
De la tabla concluimos que Tc de 3.63 > Talfa/2 de 2.364 (valor crítico de t una cola), por lo cual
rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05 y se rechaza Ho, las
medias son diferentes.
USO DE MINITAB



Stat > Basic statistics > Paired t Samples in different columns
En Options: Confidence level 95%, Test Mean = 0.0; Alternative = Not equal
En Graphs: Boxplot of data OK
Paired T-Test and CI: Proceso actual, Proceso nuevo
Paired T for Proceso actual - Proceso nuevo
Proceso actual
Proceso nuevo
Difference
N
8
8
8
Mean
37.7500
33.0000
4.75000
StDev
4.7132
3.8914
3.69362
SE Mean
1.6664
1.3758
1.30589
95% CI for mean difference: (1.66205, 7.83795)
T-Test of mean difference = 0 (vs not = 0): T-Value = 3.64
0.008
P-Value =
De la tabla concluimos que Tc de 3.64 > Talfa/2 de 2.364 (valor crítico de t en dos colas), por lo cual
rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05, el cero no se encuentra
en el intervalo de confianza IC y se rechaza Ho, las medias son diferentes.
Página 102 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
PRUEBAS DE HIPÓTESIS SOBRE DOS PROPORCIONES
En las pruebas de hipótesis sobre proporciones tratamos de probar:
H 0 : p1  p 2
H 1 : p1  p 2
Considérese que se toman dos muestras aleatorias de tamaño n1 y n2 de dos poblaciones, y sea X1
y X2 el número de observaciones que pertenecen a la clase de interés en la muestra 1 y 2
respectivamente.
Una estimación del parámetro común p es:
X1  X 2
n1  n2
pˆ 
La estadística de prueba para H 0 : p1  p2 es entonces:
pˆ 1  pˆ 2
Z0 
pˆ 1 
1
1
pˆ (1  pˆ )   
 n1 n2 
X1
n1
pˆ 2 
X2
n2
Si
Z 0  Z a 2 o Z 0   Z a 2 , la hipótesis nula se rechaza.
Ejemplo 6: La fracción de productos defectuosos producidos por dos líneas de producción se está
analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que
una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿ Es razonable concluir
que la línea de producción 2 produce una fracción más alta de producto defectuoso que la línea 1?
Use a  .01.
H 0 : p1  p 2
H 1 : p1  p 2
X  X2
10  25
 .015909
=
pˆ  1
n1  n2 1000  1200
pˆ 1 
X1
n1
pˆ 2 
X2
n2
=
10
 .01
1000
Página 103 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
=
P. REYES / SEPT. 2006
25
 .020833
1200
Z0 
pˆ 1  pˆ 2
1
1
pˆ (1  pˆ )   
 n1 n2 
=
.01  .020833
1 
 1
. .015909(.98409) 


1000 1200 
=
-2.02
Z a  Z .01  2.35
Se utiliza el estadístico de prueba Z0 y no se rechaza H 0 : p1  p 2 si Z 0  Za
-2.02 no es menor que –2.35 por lo cual H0 no se rechaza.
USO DE MINITAB





Stat > Basic statistics > 2-Proportions Seleccionar Summarized data
En Trials poner el tamaño de las muestras y en Events lo que se busca.
En Options: Confidence level 99%, Test Difference = 0.0; Alternative = Not equal
Seleccionar Use pooled estimate for p for test
OK
Test and CI for Two Proportions
Sample
X
N Sample p
1
10 1000 0.010000
2
25 1200 0.020833
Difference = p (1) - p (2)
Estimate for difference: -0.0108333
99% CI for difference: (-0.0241928, 0.00252612)
Test for difference = 0 (vs not = 0): Z = -2.02
Página 104 de 123
P-Value = 0.043
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Conclusión: De la tabla Tc de -2.02 > Talfa de -2.35 (valor crítico de t en dos colas), por lo cual no
rechazamos Ho. Por otro lado el valor P de 0.043 es mayor a alfa de 0.01, el cero se encuentra en el
intervalo de confianza IC y no se rechaza Ho para un alfa de 0.01, las medias son similares.
RESUMEN DE LAS PRUEBAS DE HIPÓTESIS
Pruebas de medias:



Prueba Z para medias (varianza conocida): Prueba si dos medias de muestras son iguales.
Prueba t para medias (varianza desconocida): Prueba si dos medias de muestras son iguales.
Se tienen dos casos: varianzas iguales y varianzas diferentes
Prueba t pareadas para medias: prueba si dos medias de muestras (por pares) son iguales.
Pruebas de varianza:
 Prueba F para varianzas: Prueba si dos varianzas de muestras son iguales.
Pruebas de proporciones:
 Prueba Z para proporciones: Prueba si dos proporciones de muestras son iguales.
EJERCICIOS:
1. Determinar a un nivel de confianza del 90% si hay diferencia entre las medias de tiempos de
limpieza de máquina A y máquina B. Se toman muestras para comprobar la afirmación.
Máquina A Máquina B
25.2
18.0
17.4
22.9
22.8
26.4
21.9
24.8
19.7
26.9
23.0
17.8
19.7
24.6
23.0
21.0
19.7
16.9
21.8
23.6
2. Los tiempos de terminación del programa para dos departamentos se muestran a continuación:
Probar a un 90% de nivel de confianza si sus varianzas y promedios son iguales.
Depto. A
300
280
344
385
372
Depto. B
276
222
310
338
200
Página 105 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
360
288
321
376
290
301
283
P. REYES / SEPT. 2006
302
317
260
320
312
334
265
3. Los tiempos de terminación para la tarea con un método mejorado y actual son, para el mismo
empleado son los siguientes. Probar a un 90% de nivel de confianza si los métodos dan los mismos
resultados.
Método 1 Método 2
6.0
5.4
5.0
5.2
7.0
6.5
6.2
5.9
6.0
6.0
6.4
5.8
Ho: Dif. Prom = 0
Ha: Dif. Prom. <> 0
Dif.
0.6
-0.2
0.5
0.3
0.0
0.6
0.3 Dprom
0.3347 Sdif
4. Un participante es calificado antes y después de un curso. Probar a un 8% de nivel de
significancia si el curso tuvo impacto.
Antes
5
4
7
3
5
8
5
6
Después
6
6
7
4
3
9
7
6
5. A dos grupos de personas se les pidió que indicaran el porcentaje de recortatorio de dos avisos:
Probar a un 5% si son iguales los dos grupos.
Aviso
A
B
Lo vieron Lo recordaron
150
63
200
60
6. Se hizo una encuesta para determinar el porcentaje de personas que usaban Internet en el
trabajo: En México se encontró que el 40% de los adultos usa Internet de una muestra de 240.
En Monterrey el 32% de los adultos usaba Internet de una muestra de 250.
¿Para un nivel de significancia del 10%, es mayor la proporción que usa Internet en México que en
Monterrey?
Página 106 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
MÓDULO 6. TABLAS DE CONTINGENCIA Y ANOVA
6.1 TABLAS DE CONTINGENCIA
2
La tabla ji- cuadrada (  2 ) se utiliza principalmente :


Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la
información.
Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia).
Para todos los casos,
Ho: No hay diferencia o no hay dependencia entre variables
H1: Hay diferencia o si hay dependencia entre variables
Pasos para realizar la tabla de contingencias  2
1) Plantear las hipótesis:
Ho  p1  p2  p3 ...  pk
H1: al menos dos proporciones son diferentes.
2) Construir una tabla que contenga los valores observados.
3) Sumar los totales de los renglones y columnas de los valores observados.
4) Debajo de cada valor observado poner el valor esperado utilizando la fórmula:
Eij 
total de i  ésimo renglón  total de j  ésima columna 
n
4) Calcular el valor del estadístico de prueba  2 usando la fórmula:
Oij  Eij 
2  
Eij
donde:
Oij = Valor observado de la celda i,j.
Eij = Valor esperado de la celda i,j
5)
6) Determinar los grados de libertad mediante:
gl  r  1c  1
donde
r = número de renglones
c = número de columnas
7) Calcular el valor crítico en la tabla  2
8) Criterio de decisión: si el valor crítico < valor del estadístico de prueba rechazamos Ho
Ejemplo: Al final de un semestre, las calificaciones de matemáticas fueron tabuladas en la siguiente
tabla de contingencia de 3 2 para estudiar la relación entre la asistencia a clase y la calificación
obtenida.
Página 107 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
No
Ausencias Aprobado aprobado
0-3
135
110
4-6
36
4
7 - 45
9
6
Con a  0.05 , ¿indican los datos que son distintas las proporciones de estudiantes que pasaron en
las tres categorías de ausencias?
H0 : p1 = p2 = p3
H1 : al menos dos proporciones son diferentes.
Nùmero de ausencias Aprobado No aprobado
0-3
135
110
( )
( )
4-6
36
4
( )
( )
7-45
9
6
( )
( )
Total
180
120
Total
245
( )
40
( )
15
( )
300
Los valores Oij = 135, 110... corresponden a los valores observados, los valores esperados se
colocan en las celdas con paréntesis, para calcular los utilizamos la fórmula:
Eij 
total de i  ésimo renglón  total de j  ésima columna 
n
Nùmero de ausencias Aprobado No aprobado
0-3
135
110
(147)
(98)
4-6
36
4
(24)
(16)
7-45
9
6
(9)
(6)
Total
180
120
Total
245
40
15
300
Calculamos el valor del estadístico de prueba  2 usando la fórmula:
2  
O
ij
 Eij 
Eij
La tabla siguiente nos ayuda a organizar los cálculos para el estadístico.
Página 108 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
Celda
(1,1)
(1,2)
(2,1)
(2,2)
(3,1)
(3,2)
Oij
Eij
135
110
36
4
9
6
147
98
24
16
9
6
P. REYES / SEPT. 2006
(Oij-Eij)^2
144
144
144
144
0
0
(Oij -Eij)^2/Eij
0.98
1.47
6.00
9.00
0.00
0.00
17.45
Tabla. Cálculos para el estadístico Chi cuadrada
Para determinar el valor crítico del estadístico de prueba procedemos de la siguiente manera:
Determinar los grados de libertad usando la fórmula: gl  r  1c  1 ,
gl = (3-1)(2-1) = 2
El valor critico del estadístico ji-cuadrada para a  0.05 y g.l. = 2 se denota  02.05 (2) , En la
tabla ji- cuadrada encontramos que vale 5.991, el valor del estadístico de prueba es  2 =17.44.
Conclusión: Como este estadístico está localizado en la región de rechazo (a la derecha del valor
crítico) , rechazamos Ho por lo cual aceptamos la hipótesis alternativa H1: al menos dos proporciones
son diferentes. La tasa de aprobación si depende de las asistencias.
USO DE EXCEL: para determinar el valor crítico  2
1. Posicionarse en una celda vacía
2. Accesar el menú de funciones con Fx
3. Seleccionar ESTADÍSTICAS, PRUEBA. CHI.INV. Dar valores de probabilidad (0.05) y grados de
libertad, (# de renglones -1) * (# de columnas - 1) para el caso de tablas de proporciones.
USO DE MINITAB
1. Stat > Tables > Chi square test
2. Indicar las columnas conteniendo la tabla (C2 Aprobado y C3 No aprobado)
3. OK
Chi-Square Test: Aprobado, No aprobado
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Aprobado No aprobado Total
1
135
110
245
147.00
98.00
0.980
1.469
2
36
4
40
24.00
16.00
6.000
9.000
3
9
6
15
9.00
6.00
0.000
0.000
Total
180
120
300
Chi-Sq = 17.449, DF = 2, P-Value = 0.000
Conclusión: Como el estadístico calculado Chi cuadrado es mayor al Chi de alfa y el valor P es
menor a Alfa, se rechaza Ho indicando que si hay dependencia de los aprobados y asistencias.
Página 109 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Ejercicio 1. Se trata de ver si el número de reclamaciones depende de la cuadrilla para un 5% de
nivel de significancia. Ho: Los rechazos son independientes de la cuadrilla.
Ha: los rechazos dependen de la cuadrilla
Cuadrilla
1
2
3
OK
200
150
210
Rech
35
24
40
Ejercicio 2. Los datos de 3 proveedores en relación a partes defectuosas es como sigue:
Probar a un 5% de significancia si los defectos dependen del tipo de proveedor.
Proveedor
A
B
C
Buenos
90
170
135
Con Def
menores
Con def
graves
3
18
6
7
7
9
Página 110 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
6.2 ANALISIS DE VARIANZA DE UN FACTOR (ANOVA 1 VIA)
El análisis de la varianza de un factor (ANOVA) es una metodología para analizar la variación entre
muestras y la variación al interior de las mismas mediante la determinación de varianzas. Es llamado
de una vía porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un método
estadístico útil para comparar dos o más medias poblacionales. El ANOVA de un criterio nos permite
poner a prueba hipótesis tales como:
H 0  1   2   3  ....   k
H1 : Al menos dos medias poblacionales son diferentes.
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,  12   22 .
El estadístico tiene una distribución muestral resultando:
Fc 
sb2
sw2
El valor crítico para la prueba F es:
Fa (k  1, k (n  1))
Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo a el nivel de significancia.
k = número de muestras.
Por ejemplo:
Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Como los empleados se seleccionan aleatoriamente para cada programa
el diseño se denomina DISEÑO COMPLETAMENTE ALEATORIZADO
Se observa el aprovechamiento de los empleados en los programas:
Página 111 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
TRATAMIENTOS
I
r=1
r=2
r=3
r=4
r=5
Medias
c=3
c=2
J
Programa
Programa 1 2
Programa 3
85
80
82
72
84
80
83
81
85
80
78
90
**
82
88
80.00
81.00
85.00
Xj
Media de medias o media
total
82.14
c=1
TIPOS DE VARIACIÓN Y SUMAS DE CUADRADOS
1. Variación total entre los 14 empleados, su puntuación no fue igual con todos
VARIACIÓN TOTAL RESPECTO A LA MEDIA GENERAL
r
SCT  
i 1
c
 ( Xij  X )
2
j 1
SCT = (85-82.14)2 + (72-82.14)2+(83-82.14)2+.....+(88-82.14)2
SCT = 251.7
2. Variación entre los diferentes tratamientos o Variación entre muestras o variación entre programa
1, programa 2 y programa 3
EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA GENERAL
r
SCTR   rj ( X j  X ) 2
j 1
SCTR = 4(79.5 - 81.3333)2 + 5(81 - 81.3333)2 + 5(85 - 81.333)2
SCTR = 65.71
3. Variación dentro de un tratamiento o muestra o programa dado que no todos los empleados
dentro de un mismo programa obtuvieron los mismos puntajes. Se denomina Variación dentro de los
tratamientos.
VARIACIÓN DENTRO DEL TRATAMIENTO O VARIACIÓN DEL ERROR
CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO
r
SCE  
i 1
c
(X
j 1
ij
 X j )2
SCE = SCT - SCTR = 186
Página 112 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
4. GRADOS DE LIBERTAD
Grados de libertad totales = n - 1 = 14-1 = 13
Grados de libertad de los tratamientos = c - 1 = 3 - 1 = 2
Grados de libertad del error = gl. Totales - gl. Tratamientos = 13 - 2 = 11
gl SCT = gl SCTR + gl SCE
gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n -c
5. CUADRADOS MEDIOS (Suma Cuadrados/ Grados libertad)
CMT = Cuadrado medio total = SCT / (n-1) =
19.4
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) =
32.9
CME = Cuadrado medio del error = SCE/ gle.=
16.9
6. ESTADÍSTICO DE PRUEBA Fc Y ESTADÍSTICO F CRÍTICO DE ALFA
Fc = CMTR / CME=
1.946745562
Falfa, gl.numerador, gl.denomin ador  Fa ,c 1,n c
Cálculo de F con Excel
=DISTR.F.INV(ALFA, GL. TR, GL. ERR) =DISTR.F.INV(0.05, 2, 11) = 3.982297957
NO RECHAZAR
ZONA DE
RECHAZO
Distr. F
Como Fc es menor a Falfa no se rechaza Ho y las medias son iguales.
7. VALOR P DE Fc
P = distr.f(Fc, gl. SCTr, gl. SCE) = distr.f(1.946, 2, 11) = 0.18898099
Como P es mayor a alfa no se rechaza Ho
CONCLUSION: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO, LAS MEDIAS DE LOS
TRATAMIENTOS SON IGUALES
TABLA DE ANOVA
FUENTE DE VARIACIÓN
Entre muestras (tratam.)
Dentro de muestras (err.)
Variación total
SUMA DE
GRADOS DE CUADRADO
CUADRADOS LIBERTAD
MEDIO
VALOR F
SCTR
c-1
CMTR
CMTR/CME
SCE
n-c
CME
SCT n-1
CMT
Página 113 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
USO DE EXCEL:




En el menú herramientas seleccione la opción Análisis de datos, en funciones para análisis
seleccione Análisis de varianza de un factor.
En Rango de entrada seleccionar la matriz de datos (todas las columnas a la vez).
Alfa = 0.05
En Rango de salida indicar la celda donde se iniciará la presentación de resultados.
RESUMEN
Grupos
Programa 1
Programa 2
Programa 3
Análisis de varianza de un factor
Cuenta
Suma
Promedio
Varianza
4
320
80 32.666667
5
405
81
5
5
425
85
17
Grados
de
Promedio de
ANÁLISIS DE VARIANZA
Suma
Variaciones
cuadrados
libertad
Cuadrados
Fc
Probabilidad
F crítica
Entre grupos
65.71428571
2 32.85714286 1.9431644 0.18937731 3.98229796
Dentro de
grupos
186
11 16.90909091
Total
251.7142857
13
USO DE MINITAB





Stat > ANOVA > One Way (Unstacked)
en Responses in separate columns Indicar las columnas de datos
En Confidence Level 95%
Seleccionar Comparisons Tukey 5%
OK
One-way ANOVA: Programa 1, Programa 2, Programa 3
Source
Factor
Error
Total
DF
2
11
13
S = 4.112
SS
65.7
186.0
251.7
MS
32.9
16.9
F
1.94
R-Sq = 26.11%
P
0.189
R-Sq(adj) = 12.67%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
Programa 1
Programa 2
Programa 3
N
4
5
5
Mean
80.000
81.000
85.000
StDev
5.715
2.236
4.123
----+---------+---------+---------+----(------------*------------)
(----------*-----------)
(-----------*----------)
----+---------+---------+---------+----77.0
80.5
84.0
87.5
Página 114 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Pooled StDev = 4.112
NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadísticamente
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
Programa 1 subtracted from:
Programa 2
Programa 3
Lower
-6.451
-2.451
Center
1.000
5.000
Upper
8.451
12.451
--------+---------+---------+---------+(------------*-----------)
(-----------*------------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Upper
11.025
--------+---------+---------+---------+(-----------*----------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Programa 2 subtracted from:
Programa 3
Lower
-3.025
Center
4.000
NOTA: Si el cero se encuentra en el intervalo de confianza de la diferencia entre medias, este par de
medias no son diferentes.
Página 115 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. Cuatro catalizadores que pueden afectar la concentración de un componente en una mezcla
líquida de tres componentes están siendo investigado.
Se obtienen las siguientes concentraciones:
Catalizador
A
B
C
D
58.2
56.3
50.1
52.9
57.2
54.5
54.2
49.9
58.4
57
55.4
50
55.8
55.3
51.7
54.9
2. Para determinar si existe diferencia significativa en el nivel de Matemáticas de 4 grupos de
estudiantes de Ingeniería se realizó un examen aleatorio a 6 individuos por grupo. Determine
cuales son los grupos en los cuales existen diferencias a un 95% de nivel de confianza.
A
75
93
78
71
63
76
B
78
91
97
82
85
77
C
55
66
49
64
70
68
D
64
72
68
77
56
95
3. Las calificaciones en el examen a 18 empleados de tres unidades de negocio
Se muestran a continuación:
Probar si no hay diferencia entre las unidades a un 5% de nivel de significancia.
A
85
75
82
76
71
85
B
71
75
73
74
69
82
C
59
64
62
69
75
67
4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo
servicio a un nivel de significancia del 5%.
A
5.4
7.8
5.3
7.4
8.4
7.3
B
8.7
7.4
9.4
10.1
9.2
9.8
C
11.1
10.3
9.7
10.3
9.2
8.8
D
9.9
12.8
12.1
10.8
11.3
11.5
Página 116 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
MÓDULO 7. REGRESIÓN Y CORRELACIÓN LINEAL
Son dos herramientas para investigar la dependencia de una variable dependiente Y en función de
una variable independiente X. Y = f(X)
Y = Variable dependiente que se desea explicar o predecir, también se llama regresor o respuesta
X = Variable independiente, también se llama variable explicativa, regresor o predictor
Regresión lineal - La relación entre X y Y se representa por medio de una línea recta
Regresión curvilinea - La relación entre X y Y se representa por medio de una curva.
Y
*
**
*
*
*
*
*
*
*
*
*
*
b1
* *
*
*
* *
*
*
*
*
*
*
*
b0
Correlación positiva
Correlación negativa
X
Sin correlación
La ecuación de la recta es la siguiente:
Y   0   1 X  e .........Con.base.en.la. población
Y  b0  b1 X  e...........Con.base.en.datos.de.la.muestra
´*
Y  b0  b1 X ................Modelo.de.regresión .estimada
El término de error es la diferencia entre los valores reales observados Yi y los valores estimados
por la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual se utiliza el método de
mínimos cuadrados.
Y
*
Error  Re siduo  (Yi  Yi )
*
*
X
Se trata de minimizar la suma de todos los errores o residuos:
Página 117 de 123
*
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Las fórmulas resultado de la minimización de lo cuadrados del error se aplicarán en el siguiente
ejemplo por claridad. Se tienen los siguientes supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión poblacional
2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad)
en caso contrario se tiene (Heteroscedasticidad)
3. Los errores o residuos son independientes: No se muestra algun patrón definido.
El coeficiente de Correlación r desarrollado por Carl Pearson es un indicador de la fuerza de la
relación entre las variables X y Y, puede asumir valores entre -1 y 1 para correlación negativa y
positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presión tiene una
correlación positiva con el rendimiento de una caldera, se deben buscar soluciones al problema
mediante acciones asociadas con la variable presión; de lo contrario, sería necesario buscar la
solución por otro lado.
Se identifican tres medidas de desviación como sigue:
Y
Yest = 4.4 + 1.08 X
Yi = 23
Desviación no
explicada
Error = (Yi - Yest) =
1.32
*
Variación total
(YiYmedia)=5.13
Desviació explicada
(Yest-Ymedia) = 3.81
Ymedia =17.87
X = 16
Página 118 de 123
X
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
Ejemplo: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo está
relacionado con su número. Calcular el coeficiente de correlación y graficar. Los datos de tiempo
tomados para n = 25 servicios se muestran a continuación:
X Servicios
2
8
11
10
8
4
2
2
9
8
4
11
12
2
4
4
20
1
10
15
15
16
17
6
5
206
SX
X promedio
Y Tiempo
9.95
24.45
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
34.93
46.59
44.88
54.12
56.63
22.13
21.15
725.82
SY
Y Promedio
(Xi-X)*(Yi-Y)
119.076672
1.099872
7.499472
10.502272
0.963072
51.612672
91.433472
121.260672
-3.558928
0.367872
50.679872
21.989472
48.568672
108.406272
31.303072
47.245472
470.014272
135.625472
10.379072
118.686672
107.127072
194.676672
241.751472
15.462272
25.540272
2,027.7132
Sxy
(Xi-X)^2
38.9376
0.0576
7.6176
3.0976
0.0576
17.9776
38.9376
38.9376
0.5776
0.0576
17.9776
7.6176
14.1376
38.9376
17.9776
17.9776
138.2976
52.4176
3.0976
45.6976
45.6976
60.2176
76.7376
5.0176
10.4976
698.5600
Sxx
(Yi-Y)^2
364.1533
21.0021
7.3832
35.6075
16.1026
148.1771
214.7045
377.6337
21.9286
2.3495
142.8694
63.4763
166.8541
301.8142
54.5057
124.1620
1,597.3771
350.9178
34.7770
308.2553
251.1337
629.3676
761.6054
47.6486
62.1385
6,105.9447
Syy = SST
SXi-X)*(Yi-Y)
S(Xi-X)^2
S(Yi-Y)^2
Sxy
Sxx
Syy
Yest
10.9199
28.3362
37.0443
34.1416
28.3362
16.7253
10.9199
10.9199
31.2389
28.3362
16.7253
37.0443
39.9470
10.9199
16.7253
16.7253
63.1686
8.0172
34.1416
48.6551
48.6551
51.5578
54.4605
22.5307
19.6280
Error
0.9408
15.1022
28.0292
0.7369
10.9969
0.0181
11.9721
1.7422
47.4563
0.6991
0.1258
0.0020
4.0121
0.5477
24.2523
1.3564
34.0052
5.2111
0.6216
4.2646
14.2512
6.5649
4.7068
0.1606
2.3164
220.0926
SSE
Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería
y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se
minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de cuadrados
siguientes se muestran a continuación:
Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94
Las ecuaciones para el cálculo manual son las siguientes:
Página 119 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
b1  ̂1 
b0  ˆ0 
 ( Xi  X )(Yi  Y )  S
S
 ( Xi  X )
XY
2
Y
i
 ˆ1  X i
n
P. REYES / SEPT. 2006
= 2.902704421
XX
 Y  ˆX = 5.114515575
Las sumas de cuadrados son:
SST   (Yi  Y ) 2  6,105.9447
SSE   (Yi  Yˆi ) 2  (Yi  (bo  b1* X i )) 2  220.0926
SSR  SST  SSE  5,885.8521
El coeficiente de determinación r2 y el coeficiente de correlación r se calculan a continuación:
r2  1
SSE ( SST  SSE ) SSR


= 0.9639
SST
SST
SST
El coeficiente de determinación indica el porcentaje de la variación total que es explicada por la
regresión.
r  r 2 = 0.9816
El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea recta
indicando el nivel de influencia de una variable en la otra. El factor de correlación r es un número
entre –1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r = 0 indicaría
correlación nula.
El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia estadística para
afirmar que el tiempo de atención esta relacionado con el número de servicios atendidos.
USO DE EXCEL
1.
2.
3.
4.
5.
En el menú Herramientas seleccione la opción Análisis de datos. Datos de ejemplo 6.
Seleccione la opción Regresión.
Seleccione el rango de entrada, estos corresponden a los datos numéricos de la tabla.
Seleccione Resumen de estadísticas.
En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que
este en blanco ( a partir de está celda serán insertados los resultados).
Resumen
Estadísticas de la regresión
Coeficiente de correlación
múltiple
0.981811778
Página 120 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
Coeficiente de
determinación R^2
R^2 ajustado
Error típico
Observaciones
P. REYES / SEPT. 2006
0.963954368
0.962387167
3.093419627
25
ANÁLISIS DE VARIANZA
Suma de
Promedio de
Grados de
libertad
Valor crítico
Cuadrados
cuadrados
F
de F
1 5885.852069 5885.852069 615.0800898 4.24118E-18
23 220.0926348 9.569244992
24 6105.944704
Regresión
Residuos
Total
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
5.114515575 1.145804127 4.463691004 0.000177215 2.744239161
2.902704421 0.117040719 24.80080825 4.24118E-18 2.660587249
Intercepción
XServicios
X Servicios Curva de regresión ajustada
80.00
70.00
Y Tiempo
60.00
Y Tiempo
50.00
Pronóstico Y Tiempo
40.00
30.00
Lineal (Pronóstico Y
Tiempo)
20.00
10.00
0.00
0
5
10
15
20
25
X Servicios
En la gráfica observamos que al aumentar el número de servicios el tiempo de atención aumenta.
USO DE MINITAB
Para determinar la función de regresión y correlación en Minitab se siguen los pasos siguientes
(después de cargar los datos correspondientes a X y a Y en las columnas C1 y C2):

Stat >Regresión ... Indicar la columna de Respuestas Y y la de predictores X y aceptar con
OK. Observar el valor del coeficiente de correlación y de determinación.
Para obtener la línea de mejor ajuste de la regresión, se procede como sigue en Minitab:
 Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X,
seleccionar si se quiere ajustar con los datos con una línea, una función cuadrática o cúbica
Página 121 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
y aceptar con OK. Observar el mayor valor del coeficiente de correlación que indica el mejor
ajuste.
En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X.
En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals
La gráfica de residuos debe apegarse a la recta y tener siempre un valor P value >0.05.



Fitted Line Plot
Y Tiempo = 5.115 + 2.903 X Servicios
Regression
95% CI
95% PI
70
60
S
R-Sq
R-Sq(adj)
Y Tiempo
50
3.09342
96.4%
96.2%
40
30
20
10
0
0
5
10
X Servicios
15
20
Regression Analysis: Y Tiempo versus X Servicios
The regression equation is
Y Tiempo = 5.115 + 2.903 X Servicios
S = 3.09342
R-Sq = 96.4%
R-Sq(adj) = 96.2%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
1 5885.85 5885.85 615.08 0.000
Error
23
220.09
9.57
Total
24 6105.94
La regresión tiene una r^2 de 96.4% y la influencia de una variable X en Y es significativo.
Los intervalos de confianza para la media y el intervalo de predicción para un punto específico X
son los siguientes:
1 ( Xi  X ) 2
Sy  Se

n
SCx
*
IC. para. y!x  Y est  tSy
1 ( Xi  X ) 2
Syi  Se 1  
n
SCx
*
IP . para .Yx  Y est  tSyi
Página 122 de 123
TALLER DE ESTADÍSTICA Y PROBABILIDAD
P. REYES / SEPT. 2006
EJERCICIOS:
1. La energia consumida en un proceso depende del ajuste de máquinas que se
realice, realizar una regresión cuadrática con los datos siguientes y responder las preguntas.
Cons_energía
Y
21.6
4
1.8
1
1
0.8
3.8
7.4
4.3
36.2
Ajuste
Máq.
X
11.15
15.7
18.9
19.4
21.4
21.7
25.3
26.4
26.7
29.1
a) Trazar un diagrama de dispersión
b) Obtener la ecuación de regresión lineal y cuadrática y comparar
c) Estimar el consumo de energía para un ajuste de máquina de 20 con regresión cuadrática
d) Obtener los intervalos de predicción y de confianza para
un ajuste de máquina de 20
e) Obtener el coeficiente de correlación y de determinación
2. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas en una línea
aérea. Las quejas son por cada 100000 pasajeros.
Aerolinea
A
B
C
D
E
F
G
H
%puntos
Quejas
X
81.8
76.6
76.6
75.7
73.8
72.2
70.8
68.5
Y
0.21
0.58
0.85
0.68
0.74
0.93
0.72
1.22
a) Trazar un diagrama de dispersión
b) Obtener la ecuación de regresión lineal
c) Estimar las quejas para un porcentaje de puntualidad de 80%
d) Obtener los interalos de predicción y de confianza para una altura de 63"
e) Obtener el coeficiente de correlación y de detemrinación
Página 123 de 123