Download Material de Estudio

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

Document related concepts

no text concepts found

Transcript

Alejandro Valenzuela
MÉTODOS CUANTITATIVOS
Instituto Sonorense de Administración Pública
Maestría en Administración Pública
Alejandro Valenzuela. Métodos Cuantitativos
2
INDICE
I.
Estadística descriptiva
5
1. Introducción a la estadística descriptiva
2. Distribuciones de frecuencia
3. Distribuciones de frecuencia acumulada
4. Medidas de tendencia central (media, mediana y moda)
5. Medidas de dispersión (rango, varianza, desviación estándar y coeficiente de variación)
II. Probabilidad
19
1. Introducción
2. Conjuntos
3. Espacio muestral y probabilidad de un evento
4. Técnicas de conteo
a) permutaciones
b) combinaciones
5. Enfoques en el cálculo de probabilidades
a) Probabilidad clásica u objetiva
b) Probabilidad en frecuencia relativa
c) Probabilidad subjetiva
6. Reglas para el cálculo de probabilidades
a) Regla de la suma
i) Eventos mutuamente excluyentes
ii) Eventos no excluyentes
b) Probabilidad condicional
c) Regla de la multiplicación
i) Eventos dependientes
ii) Eventos independientes
7. Teorema de Bayes
III. Distribuciones de probabilidad, muestreo y estimación de parámetros
1. Distribuciones discretas
2
46
Alejandro Valenzuela. Métodos Cuantitativos
3
a) Distribución binomial
b) Distribución de Poisson
2. Distribuciones continuas
a) Distribución normal
b) Distribución normal estandarizada
c) Distribución t de student
i) Estimación de parámetros
ii) Muestreo
d) Distribución exponencial
3. La distribución de Chi-cuadrada
IV. Teoría de colas
V.
98
1.
Planteamiento general del modelo
2.
Definiciones
3.
Sistemas elementales de colas
4.
Modelos de colas con un solo canal y con A y S aleatorios
5.
Modelos de colas con canales múltiples
6.
Modelos de colas en la práctica
Modelo de pronóstico
107
1. Técnica del promedio móvil
2. Suavización exponencial
3. Análisis de regresión
a) El modelo
b) La estimación de los parámetros
c) Interpretación del modelo de regresión
i) Coeficiente de determinación (R2)
ii) Evaluación de los coeficientes de regresión parcial
iii) Análisis de varianza
d) Usos específicos del modelo de regresión. Proyección de tendencia
3
Alejandro Valenzuela. Métodos Cuantitativos
4
I. ESTADISTICA DESCRIPTIVA
1. Introducción a la Estadística Descriptiva
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de
una población, altura de los estudiantes de una escuela, temperatura en los meses de verano,
etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.
Las variables pueden ser de dos tipos:
Variables cualitativas: no se pueden medir numéricamente (por ejemplo: nacionalidad,
color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos
anuales).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de
hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser 3.45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la
velocidad de un vehículo puede ser 80.3 km./h., 94.57 km./h... etc.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes
conceptos:
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia.
Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si
estudiamos el precio de la vivienda, cada vivienda es un individuo.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten
información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el precio de la
vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.
4
Alejandro Valenzuela. Métodos Cuantitativos
5
Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la
vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de
la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo
(muestra) que se entienda que es suficientemente representativo.
2. Distribución de frecuencia
La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda
la información que se ha recogido sobre la variable que se estudia.
CUADRO 1. FORMULACIÓN DE FRECUENCIAS
VARIABLE
(valor)
FRECUENCIAS ABSOLUTAS
FRECUENCIAS RELATIVAS
SIMPLE
SIMPLE
ACUMULADA
ACUMULADA
X1
n1
n1
f1 
n1
n
f1
X2
n2
n1 + n2
f2 
n2
n
f1 + f2
...
...
...
...
Xn-1
nn-1
n1 + n2 +..+ nn-1
f n 1 
Xn
nn
n1 + n2 +..+ nn-1 +nn
fn 
n n 1
n
nn
n
...
f1 + f2 +..+fn-1
f1 + f2 +..+fn-1 +fn
X = valores que puede tomar la variable.
n = número de veces que se repite cada valor.
f = el porcentaje que la repetición de cada valor supone sobre el total
Veamos un ejemplo:
Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (en cms):
5
Alejandro Valenzuela. Métodos Cuantitativos
6
CUADRO 2. ESTATURAS DE UN GRUPO DE ALUMNOS
A
1
2
3
4
5
6
E
1.25
1.28
1.27
1.21
1.22
1.29
A
7
8
9
10
11
12
E
1.3
1.24
1.27
1.29
1.23
1.26
A
13
14
15
16
17
18
E
1.3
1.21
1.28
1.3
1.22
1.25
A
19
20
21
22
23
24
E
1.2
1.28
1.21
1.29
1.26
1.22
A
25
26
27
28
29
30
E
1.28
1.27
1.26
1.23
1.22
1.21
La variable de interés es la estatura. Ordenamos está variable en orden creciente y
presentamos esta información estructurada obteniendo. Se pone cada estatura y se observa
cuántos individuos la comparten. Ese es la frecuencia simple. Para cada estatura se suman
los que tienen menos que esa y el resultado es la frecuencia acumulada. Las expresiones
proporcionales de esas cantidades constituyen las frecuencias relativas. Así se obtiene la
siguiente tabla de frecuencia:
CUADRO 3. ESTATURAS ORGANIZADAS EN FRECUENCIAS
Var FRECUENCIAS ABSOLUTAS
Valor
SIMPLE
ACUMULADA
1.2
1
1
1.21
4
5
1.22
4
9
1.23
2
11
1.24
1
12
1.25
2
14
1.26
3
17
1.27
3
20
1.28
4
24
1.29
3
27
1.3
3
30
FRECUENCIAS RELATIVAS
SIMPLE
ACUMULADA
3.3
3.3
13.3
16.7
13.3
30.0
6.7
36.7
3.3
40.0
6.7
46.7
10.0
56.7
10.0
66.7
13.3
80.0
10.0
90.0
10.0
100.0
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy
pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera
obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos
de síntesis. (Tal como se verá en la siguiente lección).
3. Distribuciones de frecuencia acumulada
Supongamos que medimos la estatura de un grupo de personas y obtenemos los siguientes
resultados en centímetros:
6
Alejandro Valenzuela. Métodos Cuantitativos
7
CUADRO 4. ESTATURAS DE UN GRUPO DE PERSONAS
Emp
Est
Emp
Est
7
8
9
10
11
12
1.4
1.64
1.77
1.49
1.53
1.16
13
14
15
16
17
18
1.6
1.81
1.98
1.2
1.42
1.45
Emp
19
20
21
22
23
24
Est
1.2
1.98
1.21
1.59
1.86
1.52
Emp
25
26
27
28
29
30
Est
1.48
1.37
1.16
1.73
1.62
1.01
Nótese que cada habitante tiene una estatura diferente. Si presentáramos esta información
en una tabla de frecuencia obtendríamos una tabla de 30 líneas, cada uno de ellos con una
frecuencia absoluta de 1 y con una frecuencia relativa del 3.3%. Esta tabla nos aportaría
escasa información.
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información
queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e
informativa:
CUADRO 5. ORGANIZACIÓN POR INTERVALOS DE ESTATURAS
ESTATURA FRECUENCIAS ABSOLUTAS
Cms
Simple
Acumulada
FRECUENCIAS RELATIVAS
Simple
Acumulada
1.01 – 1.10
1.11 – 1.20
1.21 – 1.30
1.31 – 1.40
1.41 – 1.50
1.51 – 1.60
1.61 – 1.70
1.71 – 1.80
1.81 – 1.90
1.91 – 2.00
3.30%
10.00%
10.00%
6.60%
20.00%
13.30%
10.00%
10.00%
6.60%
10.00%
1
3
3
2
6
4
3
3
2
3
1
4
7
9
15
19
22
25
27
30
3.30%
13.30%
23.30%
30.00%
50.00%
63.30%
73.30%
83.30%
90.00%
100.00%
El número de tramos en los que se agrupa la información es una decisión que debe tomar el
analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero
puede que menos representativa e informativa sea la tabla.
7
Alejandro Valenzuela. Métodos Cuantitativos
8
4. Medidas de tendencia central
Las medidas de posición nos facilitan información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de datos.
Las medidas de posición son de dos tipos:
a) Medidas de tendencia central: informan sobre los valores medios de la
serie de datos.
b) Medidas de posición no centrales: informan de como se distribuye el
resto de los valores de la serie.
Este apartado está destinado a las medidas de tendencia central y el próximo a las medidas
de posición no centrales.
Las principales medidas de tendencia central son las siguientes:
Media aritmética: es el valor medio ponderado de la serie de datos. Si los datos no están
organizados, simplemente se obtiene la suma de los valores que adopta la variable y se
divide entre el número de observaciones
X
X i
n
Si los datos están organizados en frecuencias (no confundir con intervalos), la media
aritmética se calcula multiplicando cada valor por el número de veces que se repite. La
suma de todos estos productos se divide por el total de datos de la muestra:
X
( X 1 )(n1 )  ...  ( X n )(nn ) ni X i

n
n
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie,
por lo que no se pierde ninguna información.
8
Alejandro Valenzuela. Métodos Cuantitativos
9
Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores
extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían
condicionar en gran medida el valor de la media, perdiendo ésta representatividad
la media aritmética de las estaturas de un grupo de alumnos (cuadro 3), se calculan de la
siguiente manera. Como los datos están organizados en frecuencias:
X
(1.20)(1)  (1.21)( 4)...  (1.30)(3)
 1.235
30
Por lo tanto, la estatura media de este grupo de alumnos es de 1.253 cm.
Mediana: es el valor de la serie de datos que se sitúa justamente en el centro
de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio
no utiliza en su cálculo toda la información de la serie de datos (no pondera cada
valor por el número de veces que se ha repetido).
La mediana las estaturas de los alumnos es 1.26 cm, ya que por debajo está el 50% de los
valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias
relativas acumuladas.
Moda: es el valor que más se repite en la muestra.
En los datos del cuadro 3 hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el
1,28, por lo tanto esta seria cuenta con 3 modas.
5. Medidas de dispersión
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o
menos concentrados, o más o menos dispersos.
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las
siguientes (utiliando como ejemplo los datos del cuadro 3):
9
Alejandro Valenzuela. Métodos Cuantitativos 10
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el
valor más elevado y el valor más bajo.
La diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el
rango de esta muestra es 10 cm.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula
dividiendo por el tamaño de la muestra el valor de la sumatoria de las diferencias al
cuadrado entre cada valor y la media. Si los datos están agrupados, cada diferencia de la
media se multiplicadas por el número de veces que se ha repetido cada valor. La fórmula
es:
( X i  X ) 2
S 
n
2
Y si los datos están agrupados:
( X i  X ) 2 ( n i )
S 
n
2
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras
mayor sea la varianza, más dispersos están.
Recordemos que la media de esta muestra es 1.253. Como son datos agrupados, aplicamos
la fórmula:
S2 
(1.20  1.253) 2 (1)  (1.21  1.253) 2 (4)  ...  (1.30  1.253) 2 (3)
 0.001
30
3.- Desviación estándar: Se calcula como raíz cuadrada de la varianza.
( X i  X ) 2
S
n
10
Alejandro Valenzuela. Métodos Cuantitativos 11
Tomemos la raíz cuadrada de la varianza anterior
S  0.001  0.032
4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación
estándar y la media.
CV 
S
X
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel
de dispersión de dos muestras. Esto no ocurre con la desviación estándar, ya que viene
expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el
nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra
serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene
vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son
ambos porcentajes, por lo que sí se pueden comparar.
Según el ejemplo, se calcula el cociente entre la desviación estándar y la media de la
muestra:
CV 
0.032
 0.0255
1.253
Bibliografía
Daniels (1981).Capítulo 1.
Levin (1979). Capítulos 1 al 4.
Stevenson (1985). Capítulos 1 y 2
Mansfield (1986). Capítulos 1 y 2
Lora (1987). Capítulo 3, punto 2.2
11
Alejandro Valenzuela. Métodos Cuantitativos 12
II. PROBABILIDAD
1. Introducción
La teoría de la probabilidad sienta las bases de la inferencia estadística.
La probabilidad tiene dos campos: el de las interpretaciones de la probabilidad y el del
cálculo de probabilidades.
La interpretación de la probabilidad tiene, a su vez, dos vertientes: la objetiva o clásica y la
subjetiva.
Muchos hechos de la vida práctica tienen que ver con la probabilidad. Es la base de la
inferencia porque, en esencia, se trata de la ocurrencia de fenómenos aleatorios sobre los que
se hacen deducciones. Esto es, más que con fenómenos que ocurrirán, la probabilidad tiene
que ver con sucesos que pueden ocurrir (eventos).
La probabilidad es una herramienta para la toma de decisiones ya que éstas se basan,
generalmente, en la incertidumbre.
El punto central es la cuantificación de la probabilidad.
2. Conjuntos
La teoría de conjuntos es ampliamente usada en teoría de la probabilidad porque permite
circunscribir el ámbito a que se refiere el análisis.
Un conjunto es una colección bien definida de objetos. Se describe un conjunto, digamos A,
según las dos siguientes alternativas:
12
Alejandro Valenzuela. Métodos Cuantitativos 13
a) A = {1, 2, 3, 4, 5, 6}
b) A = {x | x = los lados de un dado}
Los ELEMENTOS de un conjunto son todos sus componentes.
n  A (n pertenece al conjunto A)
m  A (m no pertenece al conjunto A)
El CONJUNTO UNIVERSAL, U, es el más extenso por el cual hay interés en un análisis
dado y coincide con la definición de población. Debe quedar claro que la población está
delimitada según el interés de cada análisis.
El CONJUNTO VACIO carece de elementos.
Un SUBCONJUNTO está formado por elementos que pertenecen a un conjunto mas grande.
Si todos los elementos de A pertenecen a B, entonces A es un subconjunto de B. Si al menos
un elemento de B no está en A, entonces A es un SUBCONJUNTO PROPIO de B.
La INTERSECCION de dos conjuntos es el conjunto que contiene todos los elementos que
están tanto en A como en B. Por ejemplo, si A ={1,2,3,4,5} y B = {4,5,6,7,8,9}, la
intersección es {4,5}:
A  B  4,5
Dos conjuntos son DISJUNTOS o MUTUAMENTE EXCLUYENTES si no tienen ningún
elemento en común. En este caso, la intersección de ambos es el conjunto vacío:
A B  
La UNION de dos conjuntos está formada por todos los elementos de ambos conjuntos. Por
ejemplo, si
13
Alejandro Valenzuela. Métodos Cuantitativos 14
A ={hombres de Hermosillo} y B ={mujeres de Hermosillo}
A  B  {población de Hermosillo}
Si hay una intersección, es decir, si no son disjuntos:
A  B  A  B  ( A  B)
Si A es un subconjunto propio del conjunto universal, todos los elementos que no están en A
forman el complemento de A:
AC = {U - A}
Así mismo U = {A + AC}
3. Espacio muestral y probabilidad de un evento
Experimento
es un proceso o actividad que conduce a uno o varios resultados u
observaciones. Por ejemplo, lanzar un dado, tirar una moneda al aire o sacar una carta de una
baraja son experimentos. La principal característica de un experimento es que es aleatorio.
Un Resultado es un Punto Muestral. Un punto muestral o un conjunto de puntos muestrales
son un Evento.
Eventos compuestos. Son eventos que provienen de la combinación de resultados. Por
ejemplo, si un dado se lanza tres veces, un evento posible es 1,1,1 o 1,1,2 etc. En este caso
habrá 36 puntos muestrales que se combinan en eventos de tres en tres puntos. Tirar una
moneda al aire tiene dos resultados; tirar dos monedas tiene 4 puntos; preguntar a alguien si
pertenece a un partido, el espacio muestral tiene dos puntos.
14
Alejandro Valenzuela. Métodos Cuantitativos 15
Espacio muestral. Es la colección de todos los posibles puntos muestrales o resultados de un
experimento.
El siguiente cuadro muestra el espacio muestral del experimento de sacar una carta de una
baraja. Una baraja tiene 52 cartas Cada punto indica los puntos muestrales.
Todos los subconjuntos posibles representan los eventos del experimento.
A
2
3
4
5
6
7
8
9
10
J
Q
K
























































Los eventos pueden ser complementarios, mutuamente excluyentes y exhaustivos.
Eventos complementarios son todos los otros resultados de un espacio muestral. Por
ejemplo, "sacar un as" tiene como complemento "no sacar un as".
Los eventos son mutuamente excluyentes son aquellos que no pueden ocurrir al mismo
tiempo. Si el experimento consiste en sacar una sola cata de una baraja, los eventos "sacar un
as" y "sacar un rey" son excluyentes.
Los eventos son exhaustivos si ningún otro resultado puede haber en un experimento. El
evento "sacar un basto o un diamante o un corazón o una espada" es exhaustivo porque no hay
ningún otro resultado posible.
Cuando los resultados de un experimento son mutuamente excluyentes cada punto muestral,
es decir, cada resultado, es igual a un evento, es decir, a un suceso.
15
Alejandro Valenzuela. Métodos Cuantitativos 16
La probabilidad de ocurrencia de un evento A se asigna con un valor entre 0 y 1:
O  P(A)  1
Dado que los espacios muestrales (EM) son todos los posibles resultados de un experimento,
P(EM) = 1
De aquí se deduce que:
P(AC) = 1 - P(A)
Esto es, la probabilidad que ocurra un evento tiene como complemento la probabilidad de que
no ocurra. La probabilidad del complemento se establece automáticamente una vez establecida
la probabilidad de un evento. Por ejemplo, Si la probabilidad de sacar cara al tirar una moneda
es de 0.5 entonces el complemento, la probabilidad de que no aparezca, es de 0.5. Por ejemplo,
P(A) =
P() =
1
52
13
52
y P(A)C =
y P(') =
51
52
39
52
Existen tres axiomas de probabilidad:
a) Dado un experimento con sucesos mutuamente excluyentes (eventos simples) E1, E2,...,En,
la probabilidad de cada evento es positiva:
P(Ei)  0
b) La suma de probabilidades todos los eventos posibles mutuamente excluyentes es la
unidad:
P(E1) + P(E2) +...+P(En) = 1
16
Alejandro Valenzuela. Métodos Cuantitativos 17
c) La probabilidad de que ocurra uno de dos sucesos mutuamente excluyentes es igual a la
suma de sus probabilidades:
P(Ei ó Ej) = P(Ei) + P(Ej)
4. Técnicas de conteo
En muchos casos contar el número de sucesos puede ser complicado y para ellos se deben usar
técnicas matemáticas.
Si hay k operaciones y si la primera se puede hacer de n1 maneras y, si no importa la forma en
que se hizo la primera, la segunda se puede hacer de n2 maneras y así sucesivamente,
entonces la secuencia de k operaciones se pueden hacer de (n1)(n2)...(nk) maneras. Por
ejemplo, si se tienen 3 camisas, 2 pantalones y 2 pares de zapatos, hay (3)(2)(2)=12 maneras
de combinarlos.
a) permutaciones
Las permutaciones son uno de los diferentes arreglos u ordenaciones que se pueden hacer con
todos o con parte de los elementos de un conjunto. El número de permutaciones de n objetos
diferentes tomados los n a la vez, es n! (n factorial). Esto se puede expresar como:
Pn = n!
Por ejemplo si se tienen tres objetos: A, B y C, el número de arreglos que se pueden hacer,
tomándolos todos a la vez, son 3! = 6:
ABC
ACB
BAC
BCA
CAB
CBA
17
Alejandro Valenzuela. Métodos Cuantitativos 18
Si los arreglos se hacen en grupos menores que n, es decir, si se toman a la vez partes de
tamaño r, entonces el número de permutaciones está dado por
nPr =
n!
(n - r)!
En las permutaciones sí importa el orden: los elementos A y B, se pueden ordenar como AB,
que es diferente a BA.
Ejemplo: Si se tienen 10 elementos que se van a agrupar en subgrupos de 4 elementos,
entonces el número de permutaciones son:
10!
10.9.8.7.6.5.4.3.2.1

 5,040
( 10 - 4 )!
6.5.4.3.2.1
nPr =
Es decir, podríamos formar 5,040 subgrupos diferentes de 4 elementos, a partir de los 10
elementos.
b) combinaciones
Es un arreglo de n objetos tomados en subconjuntos de tamaño r en donde no importa el
orden en que se arreglen. Esto es, si se tiene A y B,
AB = BA.
Las combinaciones están dadas por
nCr =
n!
r! (n - r)!
Ejemplo: Las combinaciones de 10 elementos agrupándolos en subgrupos de 4 elementos:
nCr =
10!
10.9.8.7.6.5.4.3.2.1

 210
r!( 10 - 4 )!
(4.3.2.1)(6.5.4.3.2.1)
18
Alejandro Valenzuela. Métodos Cuantitativos 19
Es decir, podríamos formar 210 subgrupos diferentes de 4 elementos, a partir de los 10
elementos.
Las combinaciones son el número de permutaciones dividido entre r!:
nCr 
n Pr
r!
5. Enfoques en el cálculo de probabilidades
La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y
100%). El valor cero corresponde al suceso imposible y el valor uno corresponde al suceso
seguro.
¿Cómo se mide la probabilidad? Uno de los métodos más utilizados es la Regla de Laplace,
que establece que la probabilidad de un suceso como el cociente entre casos favorables y
casos posibles. La probabilidad de que suceda el evento A es:
P( A) 
Número de Casos Favorables
Número de Casos Posibles
Existen tres enfoques para asignar probabilidades: el enfoque de la probabilidad objetiva
(llamada también clásica o a priori), el enfoque de la frecuencia relativa (o a posteriori) , y el
enfoque de la probabilidad subjetiva.
a) Probabilidad clásica u objetiva o a priori
Si en un experimento pueden producirse N resultados igualmente probables y mutuamente
excluyentes, y si dentro de estos N resultados al evento E puede ocurrir NE veces, la
probabilidad del evento E está dada por:
19
Alejandro Valenzuela. Métodos Cuantitativos 20
P(E) =
NE
N
Si los resultados no son mutuamente excluyentes, entonces la probabilidad de un evento es
igual a la razón entre el número de resultados asociados al evento y el número de resultados
posibles.
Para aplicarla el experimento aleatorio tiene que cumplir dos requisitos: Primero, que el
número de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos
resultados, al aplicar la regla "casos favorables / casos posibles" el cociente siempre sería
cero. Y segundo, todos los sucesos tienen que tener la misma probabilidad. Si al lanzar
un dado, algunas caras tuvieran mayor probabilidad de salir que otras, no podríamos aplicar
esta regla.
Se le llama a priori porque no requiere de experimentos para su cálculo ya que trata de
situaciones que tienen la misma probabilidad de ocurrencia.
Si se realiza un muestreo bajo este enfoque, se supone que todos los individuos de la
población tienen la misma probabilidad de formar parte de la muestra.
El enfoque apriorístico o de razón suficiente supone que todos los resultados tienen la misma
probabilidad de ocurrencia porque se parte de otro supuesto: la simetría de los sucesos.
Este enfoque presenta una limitación importante: el de los sucesos que no son simétricos.
b) Probabilidad empírica o de frecuencia relativa
Hay muchos casos en los que los resultados no tienen la misma probabilidad de ocurrir. En
estos casos, la probabilidad de un evento debe ser estimada a través de experimentos. El
estimador obtenido es la probabilidad que se asigna y es generalizable sólo bajo las mismas
circunstancias en que fue estimada.
20
Alejandro Valenzuela. Métodos Cuantitativos 21
Un evento E que se produce en n repeticiones de un experimento tiene una probabilidad P(E)
que, cuando n tiende a infinito, es igual al número de veces que ocurre el evento dividido entre
n ensayos del experimento:
P(E) =
nE
n
Por ejemplo, alguien puede desear verificar que la probabilidad de que el suceso "aparición de
cara" al lanzar una moneda sea de 0.5. Para ello, deberá repetir el experimento n veces.
Supongamos que lanza la moneda 100 veces y obtiene los resultados del siguiente cuadro. La
última columna se obtiene dividiendo la frecuencia acumulada entre el número de repeticiones
del experimento.
REPETICIÓN
DEL
EXPERIMENTO
10
20
30
40
50
60
70
80
90
100
APARICIÓN
DE
CARA
6
2
6
5
6
6
7
5
3
5
F R E
C
U
ACUMULADA
6
8
14
19
25
31
38
43
46
51
E
N
C I A
RELATIVA
ACUMULADA
0.60
0.40
0.47
0.48
0.50
0.52
0.54
0.54
0.51
0.51
La probabilidad así calculada es un estimador de la verdadera probabilidad. En el caso
anterior, mostrada en el cuadro, se conoce la probabilidad a priori, pero en muchas situaciones
prácticas la probabilidad no se conoce. En tal caso:
i)
La probabilidad es sólo un estimador de la verdadera frecuencia de ocurrencia de un
evento.
ii)
Conforme mayor sea el número de ensayos, mejor seré el estimador. Cuando el
número de ensayos crece el estimador presenta regularidad estadística (el estimador
está más cerca del verdadero valor).
21
Alejandro Valenzuela. Métodos Cuantitativos 22
Si n es el número de ensayos y nE es el número de veces que ocurre el evento A (nE  n)
P(A) =
nE
n
EJEMPLO: ¿Cuál es la probabilidad de que los políticos confiesen sus verdaderas
intenciones? Para saberlo, se toma una muestra grande (entre más grande mejor) y se le
somete a cada uno al detector de mentiras. Supongamos los siguientes resultados: de los
primeros 10 políticos sometidos a la prueba, 6 dicen la verdad. Por tanto, si la muestra fuera de
10, la probabilidad buscada sería de 0.60. Si tomamos otros 10 y de los 20 solo 8 dicen la
verdad, entonces la probabilidad habrá bajado a 0.40... Supongamos que acumulamos 500
pruebas a políticos y de ellos, el número acumulado de los que dijeron la verdad es de 25,
entonces tenemos una estimación más firme la respuesta. Podemos afirmar que
aproximadamente el 5% de los políticos confiesan sus verdaderas intenciones.
El enfoque empírico de la probabilidad tiene cuatro características:

Se requiere de una gran cantidad de ensayos. Cuando el número de ensayos tiende a
infinito, el estimador tiende a ser igual al verdadero parámetro.

Se debe asumir regularidad estadística.

La probabilidad de un evento está dada por la frecuencia relativa acumulada

Por consiguiente, está basado en la experiencia.
Probabilidad subjetiva
Es la probabilidad que se le asigna a un evento cuando no se puede establecer ni a priori ni por
experimentos. Su probabilidad depende del grado de crédito que se le asigne a la probabilidad
de ocurrencia de un evento.
22
Alejandro Valenzuela. Métodos Cuantitativos 23
En muchas situaciones la probabilidad no puede ser asignada por los métodos clásico o
empírico porque no se deriva de hechos. En estos casos la probabilidad es subjetiva porque es
una evaluación personal de un evento. Es, por tanto, el resultado de un esfuerzo por cuantificar
nuestros sentimientos o creencias acerca de los sucesos.
Las limitaciones de este enfoque son:
i)
Es difícil sostener el pronóstico si es cuestionado.
ii)
El prejuicio puede ser un factor importante.
Los conocimientos, la experiencia, la preparación y el profesionalismo, pueden ayudar a
vencer esas dificultades. En ese sentido, la probabilidad subjetiva es parecida a la empírica
salvo por el hecho de que no es posible recolectar datos.
Sin embargo, si existe alguna experiencia respecto a la frecuencia relativa de un suceso (una
probabilidad empírica), entonces la probabilidad puede ser asignada.
6. Reglas para el cálculo de probabilidades
Dados los enfoques de probabilidad, hay un conjunto de reglas para el cálculo de
probabilidades que se resumen en el siguiente esquema:
 Regla de la suma. Se aplica en dos casos:
Para eventos no mutuamente excluyentes
Para eventos mutuamente excluyentes.
 Probabilidad condicional y probabilidad conjunta (la Regla de la multiplicación)
23
Alejandro Valenzuela. Métodos Cuantitativos 24
a) Regla de la suma

Eventos mutuamente excluyentes. La probabilidad de ocurrencia de alguno de los eventos
es igual a la suma de las probabilidades individuales. Son probabilidades del tipo A o B.
P( A  B)  P( A)  P( B)
Por ejemplo, la probabilidad de elegir un as o un rey en una baraja de 52 cartas es:
P( A  R) 

4
4

 0.15
52 52
Eventos que no son mutuamente excluyentes. Estos eventos tienen una intersección. La
probabilidad del evento A o el evento B es la suma de sus probabilidades menos la
probabilidad de que ambos ocurran al mismo tiempo:
P( A  B)  P( A)  P( B)  P( A  B)
Por ejemplo, la probabilidad de elegir un corazón o un as en una baraja de 52 cartas
(sabiendo que 13 cartas son de corazones y 4 son ases, pero de los 4 ases uno es de
corazones):
P( A  R) 
13 4
1


 0.31
52 52 52
b) Probabilidad condicional y probabilidad conjunta
La probabilidad condicional y la regla de la multiplicación son complementarias. La
probabilidad condicional, P(A | B), es la probabilidad de que ocurra un evento dado que otro
ha ocurrido. La probabilidad conjunta, P(AB), se obtiene con la regla de la multiplicación
sobre la base de la probabilidad conjunta. Las formulas son las siguientes. La primera es la
probabilidad condicional y la segunda es la probabilidad conjunta.
24
Alejandro Valenzuela. Métodos Cuantitativos 25
P( A | B) =
P(A  B)
P(B)
P(A  B)  P(B)  P( A | B )
Veremos primero la probabilidad condicional y luego la probabilidad conjunta y la regla de la
multiplicación.
Hay sucesos cuya probabilidad depende de la ocurrencia de otro evento. Si el “número de
casos posibles” de la regla de Laplace (el denominador) es el conjunto universal, las
probabilidades son incondicionales. Pero si es un subconjunto propio del conjunto
universal, entonces se trata de probabilidades condicionales, es decir, la aparición de un
evento dependerá del subconjunto mencionado. Por ejemplo, un meteorólogo puede estar
interesado en los días lluviosos en el año. Si estima las probabilidades dentro de los 365
días del año, la probabilidad será incondicional porque todos los días del año son el
conjunto universal. Pero si el meteorólogo está interesado en calcular la probabilidad de
lluvia tomando en consideración sólo los días nublados, entonces estará buscando la
probabilidad condicional al hecho de que los días estén nublados. Los días nublados son un
subconjunto de todos los días del periodo, y los días lluviosos son eventos que forman parte
del subconjunto de días nublados. Esto es, la probabilidad condicional se expresa como la
probabilidad de que ocurra el evento A dado que B ha ocurrido.
La probabilidad conjunta es la parte P(A  B) , es decir, probabilidades del tipo A y B
donde A y B ocurren simultáneamente.
EJEMPLO 1. Hay 25 solicitudes para un puesto. El cuadro siguiente organiza la información
sobre los solicitantes bajo las siguientes simbologías: A1: Hombres; A2: Mujeres; B1: Con
licenciatura, B2: Con maestría
B1
B2
T
A1
7
3
10
A2
10
5
15
T
17
8
25
25
Alejandro Valenzuela. Métodos Cuantitativos 26
¿Cuál es la probabilidad de que se elija a una mujer si la selección se hace entre los que tienen
maestría?
Lo que se busca es P(A2|B2). Siguiendo la fórmula:
Primero, encontramos la probabilidad conjunta: la probabilidad de A2 y la probabilidad de B2:
P( A2  B 2 ) 
( A  B) 5

 0.20
TT
25
Segundo, obtenemos la probabilidad del subconjunto de interés, es decir, la probabilidad de
B2:
P( B2 ) 
TB2
8

 0.32
TT 25
Tercero, obtenemos la probabilidad condicional, es decir, la probabilidad de A2 dada la
probabilidad de B2:
P( A2 | B2 ) =
P(A2  B2 ) 0.20

 0.625
P(B2 )
0.32
Es decir, la probabilidad de elegir a una mujer que tenga maestría es de 62.5 por ciento.
EJEMPLO 2. En una colonia de Hermosillo, AGUAH ha investigado sobre los hábitos de
pago y sobre los ingresos de una colonia con 2000 casas-habitación. Los resultados son los
siguientes:

A1 = Los que pagan a tiempo: 1250

A2 = Los que tienen algún retraso: 750

X1 = Los que tienen ingreso igual o mayor que 10 SM: 200

X2 = Los que tienen ingreso menor que 10 SM: 1800

La información adicional se añade en el siguiente cuadro:
26
Alejandro Valenzuela. Métodos Cuantitativos 27
CUADRO 1. INFORMACIÓN GENERAL
A1
A2
X1
150
50
X2
1100
700
T
1250
750
T
200
1800
2000
¿Cuál es la probabilidad de elegir a alguien con ingresos iguales o mayores a 10 SM si la
elección se hace entre los que pagan a tiempo?
El siguiente cuadro muestra las probabilidades conjuntas. Se obtiene dividiendo cada casilla
del cuadro anterior entre el total total, es decir, entre 2000.
CUADRO 2. PROBABILIDADES CONJUNTAS
A1
A2
T
X1
0.075
0.025
0.10
X2
0.550
0.350
0.90
T
0.625
0.375
1.00
Las probabilidades condicionales se obtienen dividiendo cada una de las casillas del cuadro
anterior entre el total de cada columna (es decir, entre 0.625 o 0.375, según sea el caso o la
condición).
Nos replanteamos la pregunta inicial:

¿Cuál es la probabilidad de elegir a alguien con ingresos iguales o mayores a 10 SM si la
elección se hace entre los que pagan a tiempo?:
P( X 1 | A1 ) =
P(X 1  A1 ) 0.075

 0.12
P(A1 )
0.625
Las demás probabilidades condicionales son:
P( X 1 | A2 ) =
P(X 1  A2 ) 0.025

 0.067
P(A2 )
0.375
27
Alejandro Valenzuela. Métodos Cuantitativos 28
P( X 2 | A1 ) =
P(X 2  A1 ) 0.550

 0.88
P(A1 )
0.625
P( X 2 | A2 ) =
P(X 2  A2 ) 0.350

 0.933
P(A2 )
0.375
P( A1 | X 1 ) =
P(A1  X 1 ) 0.075

 0.75
P(X 1 )
0.10
P( A1 | X 2 ) =
P(A1  X 2 ) 0.550

 0.611
P(X 2 )
0.90
P( A2 | X 1 ) =
P(A2  X 1 ) 0.025

 0.25
P(X 1 )
0.10
P( A2 | X 2 ) =
P(A2  X 2 ) 0.350

 0.389
P(X 2 )
0.90
c) Regla de la multiplicación
En muchas situaciones prácticas se requiere calcular la probabilidad de que dos eventos
resulten simultáneamente en un experimento. Desde la fórmula de la probabilidad condicional
se despeja, como ya lo vimos al inicio de la sección anterior, la parte de la probabilidad
conjunta, P(A  B):
P(A  B)  P(B)  P( A | B )
Muchas veces no es posible circunscribir la elección al grupo de interés, que es lo que se hace
con la probabilidad condicional. Por ejemplo, un gerente puede querer que la persona
contratada sea una mujer con maestría. Para esto bastará con que circunscriba la elección solo
28
Alejandro Valenzuela. Métodos Cuantitativos 29
entre los que tienen maestría para obtener la probabilidad de que sea mujer. O puede
circunscribir la elección a las mujeres y luego evaluar la probabilidad de que tenga maestría.
Se puede saber cuál es la probabilidad condicional, pero si no se puede circunscribir el
conjunto de interés, la elección tendrá que hacerse al azar.
Eventos dependientes:
Todo el desarrollo del apartado anterior y de este apartado hasta este punto está construido
bajo el supuesto de que los eventos son dependientes.
De la fórmula de la probabilidad condicional, despéjese P(A  B) y se tiene:
P( A  B)  P( B)  P( A | B)
Del ejemplo 1 del apartado anterior, la probabilidad de B2 es de 0.32 y la probabilidad de A2
dado que B2 es de 0.625. Por tanto:
P(A  B)  (0.32)  (0.625)  0.20
Nótese que la probabilidad condicional y la probabilidad conjunta son complementarios. Si se
tiene una, se puede calcular la otra, y viceversa.
Eventos independientes
Muchos eventos no están condicionados por la ocurrencia de otro y se dice que son
estadísticamente independientes. En este caso las probabilidades condicionadas se reducen a la
probabilidad del evento en cuestión, es decir:
P( A | B) = P(A)
29
Alejandro Valenzuela. Métodos Cuantitativos 30
En este caso, la probabilidad conjunta, expresada por
P(A  B) = P( B)  P( A | B)
Se reduce, para eventos independientes, a:
P(A  B) = P(A)  P(B)
Por ejemplo, ¿Cuál es la probabilidad de que la Sra. Pérez de a luz una niña (evento A)
durante un día de lluvia (evento B)? Como ambos eventos son independientes uno del otro, la
probabilidad del evento conjunto es igual al producto de las probabilidades de ambos eventos.
7. Teorema de Bayes
El Teorema de Bayes calcula la probabilidad a posteriori y sigue el proceso inverso al teorema
de la probabilidad total.
Teorema de la probabilidad total: a partir de las probabilidades del suceso A
(probabilidad de que llueva o de que haga buen tiempo) deducimos la probabilidad
del suceso B (que ocurra un accidente).
Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un
accidente) deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía
buen tiempo?).
Nótese que el Teorema de Bayes es una probabilidad condicional. Pero las probabilidades
condicionales definen la condición y luego se calcula la probabilidad del evento de
interés. Si de pronto el evento de interés se convierte en la condición, entonces se aplica el
teorema de Bayes. Podemos resumirlo de la siguiente manera:
1) Supongamos la siguiente probabilidad condicional:
P( B | A) 
P( A  B )
P( A)
30
Alejandro Valenzuela. Métodos Cuantitativos 31
Aquí, B = evento de interés; A = condición; P(AB) = probabilidad conjunta; P(A) es
la probabilidad a priori y P(B|A) = probabilidad condicional.
2)
Si de pronto la condición se convierte en el evento de interés y el evento de interés se
convierte en la condición, entonces tenemos que preguntarnos cuál es la probabilidad
de lo que antes era la condición. Entramos así al terreno del teorema de Bayes. En
lugar de P(B |A) tendremos P(A |B). Es decir, dado que B de hecho ha acontecido,
¿Cuál es la probabilidad de A?
P( A | B ) 
3)
P( A  B )
P( B )
De la fórmula de la probabilidad condicional (punto 1) despejemos la probabilidad
conjunta. (Nótese que la probabilidad conjunta es el numerador de las expresiones de
los puntos 1 y 2, pero hay que despejarla de la expresión del punto 1 (la probabilidad
condicional porque no es lo mismo):
P( A  B )  P( A)  P( B | A)
Esta probabilidad conjunta es el numerador del teorema de Bayes.
4) Como en el teorema de Bayes nos preguntamos por la probabilidad del evento A,
también tendremos que preguntarnos por la probabilidad de que no suceda, es decir,
que suceda el complemento de A.
P( A C  B )  P( AC )  P( B | A C )
5) Si en lugar de A y AC la llamamos Ai para indicar que puede tomar ambos valores (o
todos los posibles valores, cuando el evento de interés forma parte de un problema de
más de dos categorías), entonces las dos expresiones anteriores se pueden presentar en
una sola:
P( Ai  B)  P( Ai )  P( B | Ai )
6) Las expresiones de los puntos 4 y 5 son la probabilidad de B tanto si ocurre A como si
no ocurre. Por tanto, la P(B) del punto 2 es:
31
Alejandro Valenzuela. Métodos Cuantitativos 32
P( B)  P( Ai )  P( B | Ai )
Esta probabilidad es el denominador del teorema de Bayes.
7) Así, la fórmula de Bayes del punto 2 puede ser escrita también de la siguiente manera:
P( Ai | B) 
P( Ai )  P( B | Ai )
P( Ai )  P( B | Ai )
Clarifiquemos el punto con algunos ejemplos.
EJEMPLO 1. En el caso del estudio sobre ingresos y hábitos de pago hecho por AGUAH en
una colonia de Hermosillo, la probabilidad de elegir a alguien con ingresos iguales o mayores
a 10 SM si la elección se hace entre los que pagan a tiempo, es decir, la elección de un rico
(X1) con la condición de que sea pagador (A1), es:
P( X 1 | A1 ) =
P(X 1  A1 ) 0.075

 0.12
P(A1 )
0.625
Note que aquí la condición es que pague a tiempo y el evento de interés es que sea rico. Si
el evento de interés se convierte en la condición, es decir, si se va a elegir un rico, entonces la
condición se convierte en el evento de interés, es decir, ¿Cuál es la probabilidad de elegir a
alguien que pague a tiempo? Esa probabilidad se obtiene por el teorema de Bayes y está dada
por:
P( A1 | X 1 ) =
P(X 1  A1 ) 0.075

 0.75
P(X 1 )
0.10
Nótese que P(X1A1) = P(A1). P(X1|A1) que se obtiene simplemente despejando el
numerador en la probabilidad condicional. Lo verificamos multiplicando P(A1)=0.625 y
P(X1|A1)=0.12 que da 0.75.
Nótese también que P(X1) = P(A1). P(X1|A1) + P(A2). P(X1|A2) = 0.075 + 0.025 = 0.10.
Desde luego, los dos sumandos anteriores se pueden expresar también como lo dice el
denominador de la fórmula de Bayes: p(Ai) P(X1|Ai).
Las probabilidades a priori son P(A1) y P(A2)
Las probabilidades condicionales son P(X1|A1) y P(X1|A2)
Las probabilidades conjuntas son P(X1A1) y P(X1A2)
32
Alejandro Valenzuela. Métodos Cuantitativos 33
Si ponemos esta información en un cuadro, quedará:
Probabilidad a Priori
Probabilidad Condicional
Probabilidad Conjunta
P(Ai)
P(X1|Ai)
P(AiX1) = P(Ai).P(X1|Ai)
P(A1)
0.625
0.12
0.075
P(A2)
0.375
0.067
0.025
SUMA = 0.10
Nótese que el resultado que obtuvimos anteriormente resulta de dividir la probabilidad
conjunta, que es 0.075, entre la suma de las probabilidades conjuntas, que es 0.10.
EJEMPLO 2. En el grupo de la sexta generación del ISAP hay 12 mujeres y 12 hombres. Del
total de 24 estudiantes, 8 (3 hombres y 5 mujeres) tienen licenciatura en derecho o en
administración (L1) y el resto, 16 estudiantes (9 hombres y 7 mujeres), tienen otra licenciatura
(L2).
DATOS
H
M
T
L1
3
5
8
L2
9
7
16
T
12
12
24
L2
0.38
0.29
0.67
T
0.50
0.50
1.00
PROBABILIDADES CONJUNTAS
H
M
T
L1
0.13
0.21
0.33
Elegimos antes la condición: en este caso es el nivel de escolaridad. Una vez elegida la
condición, el evento de interés es el sexo. Las probabilidades de elegir hombre o mujer,
condicionadas a la profesión, son:
P( H | L1 ) 
P( H  L1 ) 0.13

 0.394
P( L1 )
0.33
P( H | L2 ) 
P( H  L2 ) 0.38

 0.567
P( L2 )
0.67
P( M | L1 ) 
P( M  L1 ) 0.21

 0.6363
P( L1 )
0.33
33
Alejandro Valenzuela. Métodos Cuantitativos 34
P( M | L2 ) 
P( M  L2 ) 0.29

 0.4328
P( L2 )
0.67
Si la condición se transforma en el evento de interés y viceversa, entonces se aplica el
Teorema de Bayes. Supongamos que ahora se quiere elegir a una mujer. La profesión era antes
la condición, ahora es el evento de interés porque dado que tiene que ser mujer, la pregunta
pertinente es, por ejemplo, ¿Cuál es la probabilidad de elegir una mujer que sea abogada o
administradora? Esto es:
P( L1 | M ) 
P( L1 )  P( M | L1 )
P( Li )  P( M | Li )
La Li significa que se i = 1, se trata de abogados o administradores; si i = 2, se trata de otras
profesiones.
Nótese que esta fórmula podría escribirse también de la siguiente manera:
P( L1 | M ) 
P( L1  M )
P( L1  M )
0.21
0.21



 0.42
P( L1  M )  P( L2  M )
P( M )
0.21  0.29 0.50
Nótese que no es circunstancial que la probabilidad conjunta de numerador (el 0.21) es el
resultado de multiplicar la probabilidad a priori de L1 (que es 0.33) y la probabilidad de
elegir una mujer entre los abogados o administradores, es decir, P(M | L1) = 0.6363.
Nótese también que el denominador es la suma de las probabilidades conjuntas de M (con
L1 y L2), lo que es, además, la probabilidad a priori de M (es decir, 0.50).
Podemos organizar lo anterior de la siguiente manera:
P R O B A B I L I D A D E S
A PRIORI
CONDICIONAL CONJUNTA
P(Li)
(Li | M)
P(Li).P(M | Li)
0.33
0.64
0.21
0.67
0.43
0.29
SUMA ==>
0.50
34
Alejandro Valenzuela. Métodos Cuantitativos 35
La primera columna muestra las probabilidades a priori del evento de interés y de su
complemento. La segunda muestra las probabilidades condicionales del evento de interés, y
la tercera muestra el producto de las dos anteriores (las probabilidades conjuntas). Al final
de la tercera columna aparece la suma de las probabilidades conjuntas, que sirve de
denominador al teorema de Bayes. Note que el resultado anterior es el cociente de 0.21 y
0.50, que arroja 0.42, el resultado ya obtenido.
EJEMPLO 3: El parte meteorológico ha anunciado tres posibilidades para el fin de semana:
Que llueva (A1): probabilidad del 50%.
Que nieve (A2): probabilidad del 30%
Que haya niebla (A3): probabilidad del 20%
La probabilidad de que ocurra un accidente, B, bajo cada uno de los siguientes escenarios, es la
siguiente:
a) Si llueve, B1: probabilidad de accidente del 10%.
b) Si nieva, B2: probabilidad de accidente del 20%
c) Si hay niebla, B3: probabilidad de accidente del 5%.
Resulta que efectivamente ocurre un accidente y, como no estábamos en la ciudad, no sabemos que
tiempo hizo (llovió, nevó o hubo niebla). El teorema de Bayes nos permite calcular estas
probabilidades:
Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se
denominan "probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el
20%).
Una vez que incorporamos la información de que ha ocurrido un accidente, las
probabilidades del suceso A cambian: son probabilidades condicionadas (A | B), que se
denominan "probabilidades a posteriori".
Vamos a aplicar la fórmula:
35
Alejandro Valenzuela. Métodos Cuantitativos 36
P( Ai | B) 
P( Ai )  P( B | Ai )
P( Ai )  P( B | Ai )
Supóngase que ha sucedido un accidente (B)
Probabilidad a Priori
Probabilidad Condicional
Probabilidad Conjunta
P(Ai)
P(B|Ai)
P(AiB) = P(Ai).P(B|Ai)
P(A1)
0.50
0.10
0.05
P(A2)
0.30
0.20
0.06
P(A3)
0.20
0.05
0.01
SUMA = 0.12
Probabilidad de que estuviera lloviendo:
P( A1 | B ) 
0.05
 0.417
0.12
La probabilidad de que efectivamente estuviera lloviendo el día del accidente (probabilidad a
posteriori) es del 41.66%.
Probabilidad de que estuviera nevando P(A2|B):
P( A2 | B ) 
0.06
 0.50
0.12
La probabilidad de que efectivamente estuviera nevando el día del accidente (probabilidad a
posteriori) es del 50%.
Probabilidad de que hubiera niebla:
P( A3 | B ) 
0.01
 0.083
0.12
La probabilidad de que efectivamente hubiera niebla el día del accidente (probabilidad a posteriori)
es del 8.33%.
36
Alejandro Valenzuela. Métodos Cuantitativos 37
Resumamos de nuevo el algoritmo: 1) Se determinan las probabilidades a priori; 2) se multiplican
por las probabilidades condicionales correspondientes; 3) se obtienen todas las probabilidades
conjuntas; 4) Se suman las probabilidades conjuntas y esa suma constituye el denominador, y 5) Se
divide cada una de las probabilidades conjuntas entra la suma de las probabilidades conjuntas.
EJEMPLO 4. La Cámara de Diputados va a votar el proyecto de reforma fiscal que enviará
al congreso el Presidente Felipe Calderón. La Cámara de Diputados tiene 500 diputados
con la siguiente composición:
CUADRO 1. DISTRIBUCIÓN DE DIPUTADOS
PARTIDO
PAN (A1)
PRD (A2)
PRI (A3)
OTROS (A4)
TOTAL
DIPUTADOS
206
127
106
61
500
PROPORCIÓN
0.412
0.254
0.212
0.122
1.000
La columna de PROPORCIÓN muestra las probabilidades de a priori, o incondicionales,
es decir, la probabilidad que habría de elegir al azar un diputado que sea de un partido en
particular considerando que son 500 diputados.
Si llamamos B al evento “oponerse”, se sabe que algunos diputados se oponen al proyecto
de reformas estructurales. Los números de los opositores y sus probabilidades
condicionales (que se opongan dado que pertenecen a un partido en particular) son:
CUADRO 2. OPOSITORES POR PARTIDO
PARTIDO
PAN (A1)
PRD (A2)
PRI (A3)
OTROS (A4)
TOTAL
DIPUTADOS
206
127
106
61
500
SE OPONEN
10
100
69
32
211
P(B | Ai)
0.05
0.79
0.65
0.52
0.42
La probabilidad conjunta (la última columna del cuadro siguiente), que es el producto de
la probabilidad de que un diputado sea de un partido específico por la probabilidad de que
37
Alejandro Valenzuela. Métodos Cuantitativos 38
se oponga dado que es de ese partido específico (el producto de las proporciones del cuadro
1 y las probabilidades condicionales del cuadro 2), son:
CUADRO 3. TEOREMA DE BAYES
P(B | Ai)
P(Ai)
A PRIORI
CONDICIONAL
PAN (A1)
0.412
0.05
PRD (A2)
0.254
0.79
PRI (A3)
0.212
0.65
OTROS (A4)
0.122
0.52
SUMA DE PROBABILIDADES CONJUNTAS==>
PARTIDO
P(Ai).P(B | Ai)
CONJUNTAS
0.02
0.20
0.14
0.06
0.42
Nótese que B, el acto de oponerse, era el evento condicionado a la pertenencia de un
partido (el partido era la condición). Supongamos que se quiere elegir a un opositor al
proyecto, ¿Cuál es la probabilidad de que dicho opositor sea de un partido determinado? Es
decir, la condición (pertenecer a un partido) se convierte en el evento de interés.
P( Ai | B) 
P( Ai )  P( B | Ai )
P( Ai )  P( B | Ai )
Nótese los renglones 2, 3, 4 y 5 de la última columna del cuadro 3 son el numerador y que
el renglón 6 es el denominador.

¿Cuál es la probabilidad de que dicho opositor sea del PAN?
P( A1 | B ) 

¿Cuál es la probabilidad de que dicho opositor sea del PRD?
P( A2 | B ) 

0.02
 0.047
0.42
0.20
 0.476
0.42
¿Cuál es la probabilidad de que dicho opositor sea del PRI?
38
Alejandro Valenzuela. Métodos Cuantitativos 39
P( A3 | B ) 

0.14
 0.333
0.42
¿Cuál es la probabilidad de que dicho opositor sea de la chiquillada?
P( Ai | B ) 
0.06
 0.143
0.42
Bibliografía
Daniels (1981).Capítulo 2.
Stevenson (1985). Capítulos 3
Mansfield (1986). Capítulos 3
39
Alejandro Valenzuela. Métodos Cuantitativos 40
III. DISTRIBUCIONES DE PROBABILIDAD
Este tema es una continuación de la teoría de la probabilidad y sus elementos básicos de
análisis son las variables aleatorias, sus probabilidades y cómo se distribuyen éstas. Si la
probabilidad de un espacio muestral es 1, la distribución de probabilidad indica cómo se
distribuye el 1 entre los distintos valores que la variable aleatoria puede asumir.
Así pues, la distribución de probabilidad o función de probabilidad es cualquier regla o
mecanismo que sirva para determinar la probabilidad de que la variable X tome algún valor
particular x, es decir:
f ( x)  P( X  x)
Las características de una función de probabilidad son:
P(X = x)  0 y  P(X = x) = 1
La función de distribución acumulada (de que X asuma valores menores o iguales a x) es:
f ( x)  P( X  x)
El hecho de que las variables aleatorias pueden ser discretas o continuas da lugar a que las
distribuciones de probabilidad sean también continuas o discretas.
Al estudiar distribuciones de probabilidad, uno debe tratar de concentrarse en las siguientes
cuestiones:
a) Qué supuestos o restricciones básicas requiere cada distribución de probabilidad? y
b) Cómo puede ser usada para obtener solución a los problemas?
40
Alejandro Valenzuela. Métodos Cuantitativos 41
1. Distribuciones de probabilidad discretas
Las distribuciones de probabilidad discretas son las que tratan de variables aleatorias que se
miden por números enteros.
Las distribuciones de probabilidad discretas más importantes son la binomial y la de Poisson
aunque existen otras como la multinomial, la hipergeométrica, etc.
a) La distribución binomial
El término binomial es usado para designar situaciones en las cuales los resultados de
variables aleatorias pueden ser agrupados solamente en dos clases o categorías a las que se les
puede asignar arbitrariamente un número como cero y uno.
Los dos posibles resultados de un experimento (llamados ensayos de Bernoulli) son
mutuamente excluyentes (no pueden aparecer al mismo tiempo) y exhaustivos (no hay otros
resultados posibles).
Un ensayo de Bernoulli se realiza una sola vez y tiene únicamente dos posibles resultados (éxito.
E, o fracaso, F).
La distribución binomial se aplica cuando se realizan un número n de veces el experimento de
Bernoulli, siendo cada ensayo independiente del anterior.
Las variables con resultados múltiples (más de dos) también pueden ser tratados como
binomiales si sólo uno de los resultados es el de interés (los dos resultados serían el de interés
y todos los demás). Por ejemplo, en un examen de elección múltiple sólo interesa saber si se
marcó la respuesta correcta o alguna de las incorrectas.
41
Alejandro Valenzuela. Métodos Cuantitativos 42
Convencionalmente, la probabilidad de un éxito se denomina p: P(E) = p.
Y la probabilidad de un fracaso se denomina q: P(F) = 1p = q
Desde luego que P(E) + P(F) = 1
La distribución binomial es útil para determinar la probabilidad de un número de éxitos (x) en
un número dado de observaciones o ensayos de un experimento (n).
Supuestos y características de la distribución binomial:

Hay n idénticas observaciones o ensayos (una muestra es de tamaño n observaciones
donde cada individuo fue elegido bajo las mismas condiciones que los demás).

Cada ensayo tiene dos posibles resultados (E o F) mutuamente excluyentes y exhaustivos.

La probabilidad de un éxito permanece constante de un ensayo a otro.

Los ensayos y sus resultados son independientes.

La distribución binomial es una familia de distribuciones que depende de los parámetros n
y p.

Sin tomar en cuenta el valor de n, la distribución es simétrica respecto a n cuando la
probabilidad de éxito, p, es igual a 0.5 y es asimétrica en cualquier otro caso.

Si p > 0.5, la distribución es asimétrica a la derecha, es decir, tiene el máximo a la derecha
del centro.

Si p < 0.5, la distribución es asimétrica a la izquierda, es decir, tiene el máximo a la
izquierda del centro.

La distribución binomial se puede aplicar cuando los n ensayos se puede tomar de un
número infinito de ensayos posibles y cuando la muestra se toma de una población infinita
donde no importa si hay o no remplazamiento, o de una población finita.

En el caso de que la población de donde se tome la muestra sea finita, importan dos casos:
si los ensayos se hacen con remplazamiento o sin remplazamiento.

La distribución binomial es útil si la población es grande en relación al tamaño de muestra
(una relación de al menos 10 a 1 se considera adecuada) y cuando p no está muy cercana a
cero o a uno.

La Media de la distribución binomial es  = n.p
42
Alejandro Valenzuela. Métodos Cuantitativos 43

La desviación estándar es  = npq
El problema se puede plantear de la siguiente manera: ¿Cuál es la probabilidad de encontrar x
número de éxitos cuando un experimento se ensaya n veces? Supongamos que se conoce la
probabilidad de un éxito (p) y, con ella, la probabilidad de fracaso (q); que definimos la
cantidad de éxitos que se proponga encontrar (x) cuando el experimento se repite n veces. El
resultado lo proporciona la siguiente fórmula:
P( x  k )  ( n C x )  ( p x q n  x )
Nótese que la primera expresión del lado derecho es el número de combinaciones que se
pueden hacer con n elementos tomando grupos de tamaño x.
EJEMPLO 1. Se tira un peso 10 veces: ¿cuantas águilas salen? Si no ha salido ninguna la
variable toma el valor 0; si han salido dos águilas la variable toma el valor 2; si todas han
sido águilas la variable toma el valor 10. ¿Cuál es la probabilidad de obtener 6 águilas al
lanzar una moneda 10 veces?
En este caso: x = 6; n = 10 y p = 0.5. Esta última es una probabilidad a priori porque la probabilidad
de águila al lanzar una moneda es 50%.
Sustituyendo:



10!
  0.5 6 (1  0.5)106
P( x  6)  
 6!(10  6)! 

Luego,
P (X = 6) = 0.2051
Es decir, la probabilidad de obtener 6 caras al lanzar 10 veces una moneda es del 20.5%.
La media es np = (10)(0.5) = 5
La desviación estándar es
npq  (10)(0.5)(0.5)  1.58
43
Alejandro Valenzuela. Métodos Cuantitativos 44
La probabilidad encontrada se puede obtener directamente de la Tabla de Distribución Binomial
contenida en los apéndices de todos los libros de estadística. En dicha tabla se busca en la primera
columna el número de repeticiones del experimento, n, que es de 10 en este caso. Para cada n hay
(en la segunda columna) una lista de los valores que puede tomar X, es decir, x que en este caso es
de 6. Se elige ese renglón. Luego, en el primer renglón, se elige el valor de p correspondiente.
Donde se cruzan el renglón de x y la columna de p aparece un número. Ese número es la
probabilidad buscada. Si se consulta la tabla verá que ese número es 0.2051.
EJEMPLO 2. En las pasadas elecciones la votación por el PRD fue de 8 por ciento de un
padrón de 200,000 votantes. Se desea formar un Consejo Municipal eligiendo al azar a 15
personas. Para el presidente municipal, el posible voto en contra de sus iniciativas es
aceptable, pero no quisiera tener una oposición más grande que esa proporción. Por tanto,
desea saber cuál es la probabilidad de que haya 5 perredistas en el consejo. Se puede aplicar la
distribución binomial porque se trata de un problema con dos categorías: ser o no ser del PRD.
DATOS:
Tamaño de muestra n = 15 (personas a elegir)
Número de éxitos x = 5 (número de perredistas en el consejo)
Probabilidad de éxito p = 0.08 (la votación por el PRD)
Probabilidad de fracaso q = 0.92 (el complemento)
Primero se obtiene el número de combinaciones, tomando 15 en grupos de 5 es:




15!
P( x  5)  
  0.08 5 (0.92) 10  0.00427
 5! (15  5)! 
Es decir, la probabilidad de que haya 5 miembros del PRD en el consejo es de 0.427 por
ciento.
La media es n•p = (15)(0.05) = 1.2
44
Alejandro Valenzuela. Métodos Cuantitativos 45
Esta media indica que a la larga, para cualquier número de muestras de tamaño 15, el número de
perredistas estará en alrededor de 1.2.
La desviación estándar es
npq  (15)(0.08)(0.92)  1.05
Como esta es una distribución asimétrica a la izquierda, la probabilidad mayor corresponde
a un número menor que 5. Entre más pocos se esperen, más cerca de la realidad se estará. Si,
por ejemplo, la Presidenta hubiera querido la probabilidad de solo 3 del PRD (k = 3), todo lo
demás igual, la probabilidad sería de 8.56% (verifique sustituyendo 3 por 5 y 12 por 10 en la
fórmula anterior).
En las tablas se busca la n correspondiente, que es 15; se busca la x que es 5, y se busca la
probabilidad de un éxito, que en este caso es de 0.08. Esta última probabilidad puede no estar
listada. En la tabla consultada estaba 0.05 y 0.10, a lo que corresponden probabilidades de
0.0006 y 0.0105. El valor encontrado, 0.00427, está entre esos dos valores. Un promedio de
los dos valores encontrados en tablas da un valor de 0.00555, que es aproximado a la
probabilidad encontrada por medio de la fórmula. El valor no es exacto porque p es muy bajo.
Cuando se busque en tablas valores de p mayores que 0.5, en lugar de p se busca q para n-x
en lugar de x.
La distribución binomial acumulada
Es la suma de las probabilidades hasta, a partir de, o en un intervalo de x. Esto es, se buscan
las probabilidades individuales y se suman. Continuando el ejemplo anterior, si se quiere saber
la probabilidad de elegir a 5 o menos consejeros del PRD, se obtienen las probabilidades de
cada uno de los valores que toma X, que en este caso son 0, 1, 2, 3, 4 y 5, y se suman
(considérese que 0! = 1):




15!
  0.08 0 (1  0.08)15  0.286297
P( x  0)  
 0!(15  0)! 
45
Alejandro Valenzuela. Métodos Cuantitativos 46


 15! 
  0.081 (1  0.08)14  0.373431
P( x  1)  
 1!(15  1)! 








15!
  0.08 2 (1  0.08)13  0.227306
P( x  2)  
 2!(15  2)! 


15!
  0.083 (1  0.08)12  0.085652
P( x  3)  
 3!(15  0)! 


15!
  0.08 4 (1  0.08)11  0.022344
P( x  4)  
 4!(15  4)! 



15! 
  0.085 (1  0.08)155  0.00427
P( x  5)  
5
!
(
15

5
)!


La suma de estas probabilidades es 0.999305. Esto significa que la probabilidad de elegir a 5
o menos perredistas para el consejo municipal es de 99.93%, lo que quiere decir que la
probabilidad de elegir a más de 5 es de 0.0695%.
Existen también tablas de la binomial acumulada. Se busca exactamente igual que la
probabilidad binomial individual.
b) La distribución de Poisson
La distribución de Poisson describe la distribución de ocurrencias (discretas) sobre un intervalo o
campo continuo como el tiempo y el espacio. La unidad sobre la que se mide es continua, pero
la variable aleatoria, el número de ocurrencias, es discreto.
Algunos ejemplos del tipo de problemas donde se aplica son llamadas telefónicas recibidas
por unidad de tiempo, el número de errores tipográficos en una página, etc.
46
Alejandro Valenzuela. Métodos Cuantitativos 47
En este tipo de distribución los fracasos no son contabilizados. Por ejemplo, el número de
llamadas no recibidas o el número de errores no cometidos no entran en la contabilidad.
La distribución de Poisson es un tipo de distribución binomial. Cuando en una distribución
binomial n es muy grande (un número elevado de experimentos) y la probabilidad de éxito,
p, es reducida, entonces se aplica la distribución de Poisson. En particular:
p < 0.10
p • n < 10 (la media)
Las características de la distribución de Poisson son las siguientes:

La probabilidad de ocurrencia son las mismas a través de todo el campo de observación.
Por ejemplo una hora de llamadas telefónicas debe ser una medida similar a cualquier otra
hora dentro del horario de actividades. También, una página de un libro deberá ser igual a
cualquier otra página.

La probabilidad de más de una ocurrencia en un intervalo muy pequeño es
aproximadamente cero.

El número de ocurrencias en un intervalo es independiente de número de ocurrencias en
otro intervalo.

La distribución de Poisson se describe por un sólo parámetro, la media. Si se sabe que
una variable aleatoria sigue la distribución de Poisson y si se sabe el número promedio de
ocurrencias (la media) por unidad, entonces se puede determinar la probabilidad de uno o
todos los posibles resultados. Para determinar esta probabilidad existe, al igual que en la
distribución binomial, una fórmula y unas tablas.
La probabilidad de que X tome un valor específico, está dada por la siguiente fórmula:
P(X  x) =
x
x!
e
-
47
Alejandro Valenzuela. Métodos Cuantitativos 48
Aquí:

 (p•n) es la media o número de ocurrencias esperadas por unidad

x es el número específico de ocurrencias.

e es el número 2.78183...1
La probabilidad acumulada por debajo o por encima de un valor específico de X o en un
intervalo, se obtiene por el mismo procedimiento que en la distribución binomial: se busca la
probabilidad individual de cada valor dentro del rango de interés y luego se suman, aunque
hay también tablas de Poisson acumuladas.
Las tablas de la distribución de Poisson tiene valores sólo de X y de  dado que esta
distribución es función sólo de la media. Con base en la segunda característica de la
distribución de Poisson (que la probabilidad de más de una ocurrencia en un intervalo muy
pequeño es aproximadamente cero) y dado que la media de un intervalo pequeño debe ser
también pequeña, el número de X para cada rango de medias crece con el tamaño de la media.
Así para medias menores de 0.1 se enlistan sólo hasta 3 valores de X; para medias de 0.1
hasta 1.0 se enlistan 7 y así sucesivamente.
El número e es un número trascendente, es decir, que no es
raíz de ningún polinomio. Es, además, el único número cuyo
logaritmo natural es 1. Está, también, dado por el siguiente
límite:
1
1

e  lim 1  
x 
x

x
El logarítmo de un número es aquel al cual hay que elevar otro
número (llamado base) para obtenerlo. Por ejemplo, si
Y  b x , entonces el ln Y  x ln b . Pero si Lnb = 1, ln Y  x
El único número que cumple la condición es el número e.
48
Alejandro Valenzuela. Métodos Cuantitativos 49
Para encontrar el valor individual de una probabilidad basta con buscar el valor de la media en
el primer renglón y el valor de la X en la primera columna. La probabilidad está dada en la
intersección de ambas. Nótese que la máxima probabilidad se presenta cuando X =..
Existen tablas que presentan la probabilidad acumulada y sus valores se presentan sumando
los valores anteriores por columna (es decir para cada media particular). La probabilidad de
intervalo se encuentra restando al valor de la probabilidad del límite superior la probabilidad
del límite inferior.
EJEMPLO 1. Si se sabe que al dispensador de turnos de la farmacia del ISSSTESON ubicada
en el Hospital Chávez llegan en promedio 5 usuarios cada 10 minutos, ¿Cuál es la
probabilidad de que en un espacio específico de 10 minutos elegido al azar lleguen 7
usuarios?
7
P( 7 ) =
5 -5
e  0.1044
7!
Verificar este valor en la tabla para  = 5 y x = 7.
EJEMPLO 2. Se sabe que en Hermosillo un 7% de los carros son de procedencia extranjera.
Según Tránsito Municipal, cada hora pasan 100 carros por el crucero de Hermosillo Flash. Si
uno se para en ese crucero durante una hora, ¿Cuál es la probabilidad de observar 3 autos de
procedencia extranjera? Y ¿Cuál es la probabilidad de observar 10?
 = (0.07)(100) = 7
x=3
P( 3 ) =
7 3 -7
e  0.0521
3!
Verificar este valor en la tabla para  = 7 y x = 3.
49
Alejandro Valenzuela. Métodos Cuantitativos 50
EJEMPLO 3. Cada día se revisan 1000 vehículos en el Precos de Pótam, los soldados
encuentran 20 que transportan algún tipo de droga. ¿Cuál es la probabilidad de que un día
específico descubran 15 vehículos con droga?
 = (20/1000) = 0.02
x = 20
P( 3 ) =
0.02 20 -0.02 1.2 x10 34
0
e 
20!
2.4 x1018
Para una media tan pequeña, la probabilidad de encontrar un número tan grande como 20 es
prácticamente cero. No es que sea imposible (porque muy bien un día a los narcos se les
podría ocurrir enviar un convoy de 20 carros cargados), pero la probabilidad de que eso suceda
y además encontrarlos un día específico es muy, pero muy reducida. Vea usted en la tabla de
Poisson que para  = 0.02, en x = 3 la probabilidad se hace cero.
Aproximación de la binomial a la Poisson
Bajo ciertas circunstancias, la distribución de Poisson puede usarse como una aproximación a
la binomial. Esta aproximación se usa cuando n es grande y p está muy próxima a cero o a
uno. Generalmente es difícil trabajar la binomial con n mayor que 20 por la limitación de las
tablas y por lo engorroso que se vuelve la fórmula. La aproximación, en cambio, facilita las
cosas porque basta con determinar la media.
Por ejemplo, si n = 300 y p = 0.02, la probabilidad de encontrar exactamente 4 éxitos puede
hacerse por dos procedimientos: por la fórmula o por la aproximación a la binomial.
Por el uso de la formula binomial (las tablas no se pueden usar porque para n =20 tomaría
varias páginas):




300!
  0.02 4 (1  0.08) 3004  0.1338
P( x  4)  
 4!(300  4)! 
50
Alejandro Valenzuela. Métodos Cuantitativos 51
Por aproximación a la distribución de Poisson (que se basa solo en la media): como en la
binomial, la media está dada por n•p, entonces se calcula multiplicando (300)(0.02) = 6, y a
partir de este resultado se puede emplear la fórmula de Poisson:
P( X  4) 
4 -6
6 e
 0.1338
4!
Si aplicáramos la aproximación al ejemplo del consejo municipal donde se busca la
probabilidad de que haya 5 miembros del PRD (donde n = 15 y p = 0.08, con lo que la media
es  = 1.2), encontraríamos que la probabilidad, por la regla de Poisson, es:
P( X  5) 
1.2 5 1.2
e  0.0062
5!
Aplicando la regla binomial encontramos que esta probabilidad es de 0.0043. La diferencia se
debe a que n (15 en este caso) no es suficientemente grande. Conforme n crece y p disminuye,
ambos métodos tienden a convergir.
También, una vez que se obtiene la media, se pueden usar las tablas de la distribución de
Poisson: buscando para  = 6 y para x = 4 se encuentra 0.1339, siendo ambos, el de la fórmula
y el de las tablas, muy aproximados al valor resultante de la binomial.
2. Distribución de variables continuas
Cuando las variables aleatorias asumen valores continuos, lo que se busca es determinar la
probabilidad de que X asuma valores dentro de un intervalo (porque un valor puntual tiene una
probabilidad prácticamente de cero: ¿Cual es la probabilidad de que un cliente llegue a la caja
a las 11:05:56? Pues si no es cero, le falta muy poco para serlo. Por tanto:
51
Alejandro Valenzuela. Métodos Cuantitativos 52
P(X  x)
P(X  x)
P(x1  X  x2)
Una variable aleatoria continua puede asumir una cantidad infinita de valores dentro de un
intervalo. Por ello es imposible hablar de un resultado específico en variables continuas. La
probabilidad está dada por el porcentaje del área entre dos puntos (respecto al área total, que es
1).
De las distribuciones continuas, veremos aquí solamente la normal (y una variante de ella, que
es la t de student) y la exponencial. Ambas, incluyendo la variante, se usaran profusamente en
este curso.
a) Distribución normal
La distribución normal es la más usada de las distribuciones de probabilidad de variables
aleatorias continuas en las que los valores que están más cerca de la media tienen mayor
probabilidad de ocurrir que los que están más alejados.
Esa característica, y el hecho de que es continua, es lo que da a la gráfica de esta distribución
la forma de campana de Gauss. El área que está bajo la campana es la probabilidad total, por
tanto, tiene un valor de 1. Cualquier sub-área en esa campana, es decir, la probabilidad de que
una variable asuma un valor entre dos puntos (entre x1 y x1) es igual a la proporción de esa
sub-área en el área total.
La distribución normal se basa en dos parámetros: la media y la desviación estándar, por lo
que es una familia de distribuciones habiendo una para cada par de valores de la media y la
desviación estándar. El área entre cualquier punto y la media está en función sólo del número
de desviaciones estándar en que el punto esté alejado de la media, lo cual constituye la clave
para la medición de las probabilidades bajo este enfoque.
52
Alejandro Valenzuela. Métodos Cuantitativos 53
En resumen, las características de la distribución normal son las siguientes:
1)
Tiene forma de campana lo que implica que es unimodal y la moda y la media son
iguales.
2)
Es simétrica al rededor de la media de la distribución. Por tanto, la probabilidad de
observar un valor por encima o por debajo de la media es igual a 50 por ciento.
3)
Se extiende de menos infinito a más infinito, lo que implica que la curva es asintótica.
4)
Hay una distribución normal para cada valor de la media y la desviación estándar.
5)
El área total bajo la curva normal es el 100 por ciento.
6)
La proporción del área bajo la curva entre dos puntos es igual a la probabilidad de que
una variable aleatoria normalmente distribuida asuma un valor entre esos dos puntos.
7)
Dado que el rango de la distribución va de menos a más infinito, la probabilidad de que
una variable aleatoria asuma un valor específico dado es aproximadamente igual a cero.
Por ello las probabilidades están dadas siempre en un intervalo.
8)
El área bajo la curva entre la media y cualquier otro punto es función sólo del número de
desviaciones estándar en que el punto esté alejado de la media.
9)
Si una variable aleatoria está normalmente distribuida, la distancia de la media a una
desviación estándar a la izquierda y a la derecha abarca el 68 por ciento del área; dos es el
95 por ciento; tres el 99.7 por ciento...
La fórmula de la distribución normal de probabilidad es:
-( x-  )2
1
f(x)=
e 2 2
 2
Los símbolos significan:
 = 3.1416
e = 2.7183
 = desviación estándar
 = media de la distribución
53
Alejandro Valenzuela. Métodos Cuantitativos 54
Si se define una media y una desviación estándar y se valora la fórmula para valores crecientes
de X, la gráfica de la distribución describe una campana. La probabilidad de que X se
encuentra entre dos valores de los definidos para X se encuentra integrando la fórmula para los
valores correspondientes.
Por ejemplo, si el IQ de una población se distribuye normalmente con media 100 y desviación
estándar de 10, la proporción de individuos con IQ mayor que 125 se encuentra integrando la
fórmula de la normal valuada en los valores mayores de 125 para encontrar el área bajo la
curva que se encuentra a partir de ese valor. Sin embargo, este procedimiento es muy
complicado y para alivio de todos nosotros se ha desarrollado un método más práctico que
consiste en la estandarización de la variable normalmente distribuida y que se conoce como
distribución normal estandarizada.
b) La distribución normal estandarizada
Recuérdese que si una variable aleatoria está normalmente distribuida la distancia de la media
a una desviación estándar a la izquierda y a la derecha abarca el 68 por ciento del área; dos es
el 95 por ciento; tres el 99.7 por ciento. Este conocimiento sienta las bases para un manejo más
fácil de los problemas ya que permite trabajar con valores relativos más que con valores
absolutos.
Lo que se hace es convertir las desviaciones de la media de la variable X en múltiplos de la
desviación estándar. Es decir, se obtienen la desviación de la media, (Xi – X ), y se divide
entre la desviación estándar. La media se desvía de sí misma en cero, por eso es que la
media de la distribución normal estandarizada es cero. La nueva escala es conocida como
distribución normal estandarizada y se simboliza por z. Algebraicamente esto puede ser
representado como:
z=
x-

54
Alejandro Valenzuela. Métodos Cuantitativos 55
En esta fórmula: z = número de desviaciones estándar;  = la media;  = desviación estándar y
x = el valor específico de la variable X.
Por ejemplo, si la media es de 100 y la desviación estándar de 10, el valor medio de z es
cero (siempre es cero). Si se toma un número a la derecha de 100, por ejemplo 120, z tendrá
un valor de 2 porque (120 –100)/10 = 2. Un número a la izquierda de la media de X (es
decir, a la izquierda de 100, en este caso) tendrá un valor negativo. Por ejemplo, 80
asumiría en la nueva escala un valor de –2. Así, z tendrá valores positivos para valore
mayores que  y negativos para valores menores.
Gráficamente, este ejemplo se representaría como en la siguiente gráfica
70
-3
80
-2
90
-1
100
0
110
1
120
2
130
3
Si se tiene la media y la desviación estándar, cualquier valor de X puede ser estandarizado.
Se trata, en última instancia, de convertir la diferencia entre la media y cualquier otro valor
de la distribución en una diferencia relativa medida en término de número de desviaciones
estándar desde la media. La media es cero porque la desviación consigo misma es cero.
Desde luego, se puede trabajar en sentido inverso yendo de z a los valores reales de x
verificando el hecho de que x =   z. (Se suma si z es positivo y se resta si es negativo).
55
Alejandro Valenzuela. Métodos Cuantitativos 56
La estandarización de la normal permite manejar una ilimitada familia de distribuciones
normales con una distribución única para todos los problemas, lo que a su vez permite el uso
de las tablas.
La distribución normal estandarizada tiene una media cero y varianza 1. La tabla de la
distribución normal proporciona las probabilidades para cada valor de la variable normal z. El
procedimiento consiste en transformar la variable real en variable estandarizada donde la
media sirve como punto de referencia y la desviación estándar como escala graduada que mide
la distancia de la media. Las tablas se leen en unidades de z y proporciona el área bajo la curva
entre la media y cualquier valor de z.
El principio de la simetría facilita el uso de las tablas porque se puede trabajar solo con
números positivos ya que la distancia entre  y –1 es igual a la distancia entre  y +1.
Es necesario familiarizarse con el uso de las tablas. En la columna de la derecha están los
valores de z con un decimal. En el primer renglón se encuentran los decimales subsiguientes.
Por ejemplo, si z tiene un valor de 2.45, se busca en la primera columna el número 2.4 y en el
primer renglón el 0.05 restante. El número que está en el cuerpo de la tabla, según las
coordenadas anteriores, es 0.4929, que es el valor del área bajo la curva entre cero y 2.45.
Supongamos que en un problema la media es de 200 y la desviación estándar de 30.
CASO 1. Para áreas simétricas en torno a la media. ¿Cuál es la probabilidad de encontrar un
valor de X que esté entre 154.7 y 245.3? Este es el caso de una probabilidad que se encuentra
entre dos valores estandarizados iguales, pero con distinto signo. Como se puede ver, –z1 = –
1.51 y z2 = 1.51. Como se trata encontrar un área bajo la curva simétrica en torno a la media,
se busca el valor positivo de z y se multiplica por 2. El valor del área para z = 1.51 es 0.4345,
que multiplicado por 2 da 0.869. Es decir, la probabilidad de encontrar un valor de X entre
154.7 y 245.3 es de 86.9%
56
Alejandro Valenzuela. Métodos Cuantitativos 57
CASO 2. Para áreas asimétricas en torno a la media. ¿Cuál es la probabilidad de encontrar un
valor de X que esté entre 170 y 245.3? Para encontrar la probabilidad de que x asuma un valor
que ya estandarizado entre dos valores –z1 y +z2 desiguales, se encuentra el valor positivo de
cada una, incluso del valor negativo de z y se suman. Se trata de encontrar el área bajo la curva
normal que se encuentra entre los valores de z –1 y 1.51. El área entre cero y –1, está dado
por el valor de z = 1.00 que es 0.3413. El área entre cero y 1.51 es 0.4345 (como ya lo
habíamos encontrado en el caso 1). La probabilidad buscada es, sumando ambas, 0.7758.
Es decir, la probabilidad de encontrar un valor de X que se encuentre entre 170 y 245.3 es
de 77.58%
CASO 3. Encontrar la probabilidad de un valor de X en cualquier intervalo a la derecha de la
media. ¿Cuál es la probabilidad de encontrar un valor de X entre 230 y 245.3? Se trata del área
entre 1 y 1.51, que son los correspondientes valores de z. Se busca el área correspondiente al
valor de z que sea mayor (en este caso el área para z = 1.51 es 0.4345) y se le resta el área
correspondiente al valor menor (que para z = 1 es 0.3415). La diferencia es 0.093. Esto es, la
probabilidad de encontrar un valor de X que esté entre 230 y 245.3 es de 9.3%
CASO 4. Encontrar la probabilidad de un valor de X en cualquier intervalo a la izquierda de la
media. ¿Cuál es la probabilidad de encontrar un valor de X entre 154.7 y 170? Con una media
de 200, los valores correspondientes de z son negativos: –1.51 y –1.00. Se procede
exactamente igual que en el caso anterior, tomando los valores positivos de z. La probabilidad
buscada es también en este caso de 9.3%
CASO 5. Encontrar la probabilidad de un valor de X MAYOR que… a la derecha de la media.
¿Cuál es la probabilidad de encontrar un valor de X mayor que 245.3? Como el área bajo la
curva mide 1, hacia cada lado de la media queda el 0.5 del área. Por tanto, el área
correspondiente a z = 1.51 (que es el valor de z para 245.3 con  = 200 y  = 30) se le resta a
0.5 (0.5 –0.4345 = 0.0655). Es decir, la probabilidad de encontrar un valor de X mayor que
245.3 es de 6.55%
57
Alejandro Valenzuela. Métodos Cuantitativos 58
CASO 6. Encontrar la probabilidad de un valor de X MENOR que… a la izquierda de la
media. ¿Cuál es la probabilidad de encontrar un valor de X menor que 154.7? Como el área
entre la media y un valor de z = –1.51 es 0.4345, entonces (al restarlo a 0.5, de manera
idéntica al caso anterior) se tiene que la probabilidad de encontrar un valor de X menor que
154.3 es también 6.55%
CASO 7. Probabilidad de valores mayor que o menores que. Se busca el valor de z para ese
valor límite (sea positivo o negativo) y al área que resulte se le suma el 0.5000 del área de la
curva que está a un lado de la media.
c) La distribución t de Student
Esta es una distribución muestral porque parte del reconocimiento de que es imposible o
inconveniente hacer un estudio sobre toda la población. Como alternativa se toma una muestra
y se busca que los resultados muestrales puedan ser generalizados a toda la población. Por
ejemplo, si de una muestra obtenemos una media, la distribución t nos ayuda a saber si esa
media se puede tomar por la verdadera media.
Una consecuencia de lo anterior es que no se conoce la varianza de la población, lo que hace
imposible el uso de la distribución normal. En tal caso se debe usar la distribución t de
Student, que es muy semejante a la distribución normal pero con la ventaja de que se usa la
varianza muestral.
El uso de la t de student implica que la población bajo estudio se distribuye de forma normal.
Por ello, la t de student también describe una curva en forma de campana y el área bajo esa
curva es también 1.
Con la distribución t no buscamos calcular la probabilidad con la que una estimación se acerca
al verdadero parámetro. Primero se define la probabilidad y luego vemos si el número que nos
da la muestra se puede tomar como el verdadero número.
58
Alejandro Valenzuela. Métodos Cuantitativos 59
Primero, la decisión se expresa en hipótesis: nula (el estimador y el parámetro son distintos) y
alternativa (el estimador y el parámetro son iguales).
Segundo, con base en los grados de libertad de nuestra muestra y la probabilidad de error que
hemos admitido, buscamos en la tabla el valor crítico de t o t crítica (t).
Segundo, con el valor del parámetro y la desviación estándar arrojados por la muestra,
obtenemos una t a la que le llamamos la t calculada (tc).
Tercero, si tc sobrepasa t se rechaza la hipótesis nula. Si no la sobrepasa, no se rechaza la
hipótesis nula.
Dicho de otra manera, ¿De qué tamaño debe ser t para que la media obtenida pueda ser
considerada como un buen estimador del parámetro? Pues suficiente para que sea más grande
que la t crítica.
Supongamos que se busca saber sobre la media de una población. Como no se puede estudiar
toda la población, se toma una muestra y se espera que arroje una media igual a la de la
población. Una sola muestra puede arrojar una media muy alejada de la muestra, pero a la
larga, si se toman M muestras de tamaño m, la mayoría de las medias muestrales (el
estimador) serán similares a la media poblacional (el parámetro). Tomar muchas muestras
puede ser tan imposible como tomar a toda la población. El investigador desea tomar una sola
muestra y con ella estimar los parámetros. Desde luego que una muestra arrojará resultados
más confiables conforme mejor levantadas estén (el punto del muestreo se verá más adelante).
Suponiendo una cierta media poblacional (), la distribución t de student se calcula por
medio de una fórmula muy similar a la de la distribución normal. Por ejemplo, si se trata de
estimar la media de una población, se supone que todas las posibles medias muestrales siguen
la distribución t:
t=
xi  
S xi
En esta fórmula, la desviación estándar muestral es:
S xi 
S
n
59
Alejandro Valenzuela. Métodos Cuantitativos 60
Estas fórmulas muestran que, dada una determinada desviación estándar (que tampoco
sabemos de qué tamaño es), un incremento en el tamaño de muestra implicaría una
disminución de la desviación estándar. Estás últimas fórmulas son importantes a la hora de
evaluar la validez de los parámetros.
Diferencias de la distribución t con la normal estandarizada:

La media de la distribución sigue siendo cero, pero la desviación estándar es mayor que
uno.

Mientras que la normal estandarizada es única, la distribución t es una familia de
distribuciones. Existe una para cada nivel de grados de libertad concentrándose los
valores al rededor de la media conforme aumentan los grados de libertad.
(Una explicación intuitiva de los grados de libertad es la siguiente: imagínese que hay un
cierto criterio para acomodar a 5 alumnos en un salón. El primero que entra tiene 5 opciones, 4
el segundo, 3 el tercero, 2 el cuarto y el último que entra no puede seguir ningún criterio para
acomodarse ya que debe sentarse en la única silla libre. El criterio resultó válido para n-1 que
en este caso es 5 –1 = 4).
La distribución t se emplea en muestras tomadas de poblaciones normalmente distribuidas.
Sin embargo, se puede aplicar el teorema del límite central y tomar muestras grandes con lo
que la t se aproxima más a la normal.
(El Teorema Central del Límite: conforme crece el tamaño de muestra, la distribución muestral se
aproximará a la distribución normal).
Las tablas de la distribución t son diferentes a las tablas de la distribución normal
estandarizada porque tiene los valores de t en el cuerpo de la tabla. En la columna de la
izquierda está el tamaño de muestra y en el primer renglón aparece el nivel de significancia.
El nivel de significancia es, dicho coloquialmente, el nivel máximo de error que podemos
admitir en nuestra predicción. Por ejemplo, si estamos estimando la media de una
60
Alejandro Valenzuela. Métodos Cuantitativos 61
característica de la población (el peso, la estatura, las calificaciones, los defectos de un
proceso, etc.), quisiéramos que nuestra estimación sea lo más precisa posible. No es lo mismo
decir la media estimada X igual a la verdadera media  con una probabilidad de 99% (es decir
con un error de 1%) que decir que son iguales con una probabilidad de 80% (es decir, con una
error de 20%). Entre más pequeña sea la probabilidad de error, más difícil es que la t calculada
sobrepase a la t crítica, pero más fuerte es nuestra predicción.
Uso de la tabla. El primer renglón de la tabla presenta en el renglón de arriba los valores de 
(el nivel de significancia, que mide la probabilidad de cometer el error de estimación). Muchas
veces el nivel de significancia se divide entre dos (/2) porque la distribución de t es bilateral
distribuyendo el error entre las dos colas de la campana. En otras ocasiones, en el primer
renglón se muestra la probabilidad de acertar, es decir 1-. En la primera columna se muestran
los grados de libertad y en el cuerpo de la tabla se muestran los valores críticos de t.
Dejaremos el uso específico de esta distribución para el apartado de estimación de parámetros.
EJEMPLO. Si al estimar un parámetro nuestro error permitido es de 0.05% distribuido a cada
lado de la distribución, ¿Cuál es la t crítica si el tamaño de muestra es de 18?

Grados de libertad = 17

Nivel de significancia = 0.10

T de tablas = 1.33
Si queremos un nivel de significancia más pequeño (mayor seguridad en nuestras
afirmaciones) entonces, para los mismos grados de libertad, el tamaño de la t crítica
aumenta y en ese caso es más difícil que la sobrepase la t calculada.
Vea en la siguiente gráfica cómo, al reducir el nivel de significancia (al hacer más fuerte la
predicción) más grande es la t crítica, con lo que será más difícil que sea excedida por la t
calculada. En la siguiente gráfica se presentan niveles distintos de t crítica para los mismos
grados de libertad pero para niveles decrecientes de .
61
Alejandro Valenzuela. Métodos Cuantitativos 62
Valores de t crítica
para 17 gl y niveles
decrecientes de
significancia
t0.10=1.33
t0.05=1.74
t0.025=2.11
Del mismo modo, la t crítica disminuye cuando aumenta el tamaño de muestra. Esto hace más
fuertes las predicciones porque (de acuerdo al teorema central del límite) a mayor tamaño de
muestra más cerca estamos del estudio de toda la población.
i) Estimación de parámetros
Como la distribución t de student es una distribución muestral, su uso principal es en la
estimación de parámetros. Cuando tomamos una muestra y obtenemos, por ejemplo, la
media de cualquier característica, lo que estamos haciendo es una estimación puntual de
la media. Sin embargo, ese número no es el verdadero número, sino que suponemos que lo
es. ¿Qué tan seguros podemos estar de eso?
Ya sabemos que a mayor tamaño de muestra, más cerca está el estimador del parámetro.
Pero seguros, seguros, lo que se llama seguros, de que sean iguales no podemos estar.
Más modestamente, lo que sí podemos buscar es estar seguros de que el estimador esté lo
más cerca posible del parámetro. Lo más cerca posible quiere decir dos cosas:
62
Alejandro Valenzuela. Métodos Cuantitativos 63
Primera, que debe haber un número mínimo y un número máximo que nosotros
consideramos como los límites máximos de lo que consideramos “lo mas cerca posible”.
Segundo, esperamos que el estimador obtenido de la muestra caiga dentro de esos límites.
Pero, atendiendo a la distribución de probabilidad, esperamos también que si tomáramos
100 muestras de tamaño N, si no todas, al menos un número muy grande de esas 100
arrojen estimadores que estén dentro de aquellos límites.
En conclusión, lo que esperamos es que con el verdadero parámetro, digamos por
ejemplo la media (μ), se encuentre dentro del intervalo A-B (llamado intervalo de
confianza), con una cierta probabilidad cercana a 1 (o, lo que es lo mismo, con un error, no
mayor que α). Es decir:
P(A  μ  B) = 1- α
Nótese que A es el límite inferior y B es el límite superior.
Como α es el nivel de significancia (o la probabilidad de equivocarse), 1- α
a la
probabilidad de acertar.
Nótese lo siguiente. Si el intervalo fuera muy, pero muy amplio, la probabilidad de que
contenga al parámetro es muy grande (1- α es muy cercano a 1), pero nuestros resultados,
nuestras estimaciones, serían menos confiables y precisas. Por otro lado, si el intervalo
fuera muy chico, la probabilidad de que contenga al parámetro disminuye, pero la
confiabilidad y la precisión crecerían. Resumiendo:
Mayor intervalomayor probabilidadmenor precisiónmenor confiabilidad. Y al revés.
Preguntas:
 ¿Qué determina los límites del intervalo? Es decir, ¿Qué determina el valor de A y B?,
 ¿Qué determina la amplitud del intervalo?
63
Alejandro Valenzuela. Métodos Cuantitativos 64
Hay tres elementos que intervienen:
 El tamaño de muestra.
 El estimador del parámetro (en ejemplo, la media estimada), y
 La desviación estándar (S)
El tamaño de muestra es muy importante porque, como ya sabemos, conforme mayor es la
muestra más cerca estará el estimador del parámetro.
De lo que hemos visto hasta aquí, recordemos lo siguiente:
 Que muchas veces no podemos hacer un censo y por eso tomamos una muestra.
 Que cualquier distribución de probabilidad, si la muestra es suficientemente grande,
se aproxima a la distribución normal y se podría estandarizar.
 Que por lo general no conocemos la varianza ni la desviación estándar y que por
consiguiente:
 Podemos usar la distribución t de Student.
La fórmula de la distribución t de Student contiene todos los elementos que hasta aquí se
han mencionado como necesarios para construir el intervalo de confianza. Tiene el
verdadero parámetro (en este caso μ), tiene al estimado (digamos X ) y contiene la
desviación estándar (que a su vez contiene al tamaño de muestra).
La distribución t nos proporciona la probabilidad de que un cierto valor de X se encuentre
en área determinada dentro de la campana de Gauss. Recuérdese que la probabilidad de
error (es decir, ) mide la probabilidad de error, es decir, fuera del área cuya probabilidad se
busca.
Como esta distribución es simétrica al rededor de una media de cero, la mitad del error (/2)
se ubica en la cola izquierda de la campana y la otra mitad en la cola derecha, de tal manera
que uno podría reescribir la fórmula de la distribución t del apartado 2.c para la media
muestral como sigue:
64
Alejandro Valenzuela. Métodos Cuantitativos 65
 t
2

x
 t
Sx
2
(Donde t es la t de tablas para cada nivel de grados de libertad o t crítica). Como SX está
dividiendo, lo podemos pasar multiplicando a ambos lados:
 t 2 ( S X )  x    t 2 ( S X )
Pasamos a X hacia cada lado de la ecuación (pasa restando dado que tiene signo positivo):
 x  t 2 ( S X )      x  t 2 ( S X )
Le cambiamos de signo a todos los elementos para que μ tenga signo positivo (esto
cambiará también el sentido de las desigualdades):
x  t 2 ( S X )    x  t 2 ( S X )
Como el término que tiene el signo negativo es más pequeño que el del signo positivo,
simplemente volteamos la expresión:
x  t 2 ( S X )    x  t 2 ( S X )
Puede verse aquí que:
A = x  t 2 ( S X )
Nótese que los extremos están dados por x  t / 2 ( S x )
B = x  t 2 ( S X )
Recordemos que:
S xi 
S
n
Por tanto, el intervalo queda ahora:
65
Alejandro Valenzuela. Métodos Cuantitativos 66
x  t 2 (
S
S
)    x  t 2 (
)
n
n
Observe esta última expresión. Observe en particular la parte t 2 (
S
) , que aparece
n
en ambos lados del intervalo. Dicha expresión disminuye:
 Si aumenta el tamaño de muestra. Como la raíz de n está en el denominador, si
crece el tamaño de muestra, cualquiera que sea la desviación estándar, lo que está
entre paréntesis disminuye y por tanto toda la expresión.
 Si disminuye la t de tablas. La t de tablas disminuye, dado el nivel de significancia,
α, si aumenta el tamaño de muestra. Vea usted la tabla de la distribución t y tome un
nivel de significancia: conforme aumente n disminuirá el valor de t.
Al disminuir la expresión t 2 ( S ) , disminuye la parte que se le suma y se le resta a X y
n
el intervalo de confianza se hace más chico. Como usted recordará, si se mantiene constante
la probabilidad (lo que se hace manteniendo constante a α), la disminución del intervalo
aumentará la precisión la confiabilidad.
Si yo tomo una muestra de estudiantes de la Universidad de Sonora y afirmo que la
calificación promedio está entre 40 y 90 con una probabilidad de 99%, estoy diciendo la
verdad, pero con muy poca precisión. Pero si con base en el muestreo afirmo que el
promedio está entre 75 y 80, entonces estoy privilegiando la precisión. Como es fácil
observar, la probabilidad de atinarle no puede ser tan alta como en el escenario anterior... O
puede ser alta, pero si el tamaño de la muestra aumenta lo suficiente como para combinar
precisión y confiabilidad.
Si nos preguntamos si la verdadera media está dentro del intervalo con cierta probabilidad,
entonces tenemos el intervalo de confianza para la media:
S
S 

P  x  t 2 (
)    x  t 2 (
)  1
n
n 

66
Alejandro Valenzuela. Métodos Cuantitativos 67
Como la expresión entre paréntesis (la desviación estándar entre la raíz cuadrada de la
muestra) solo es para dejar constancia de que la varianza muestral disminuye con el tamaño
de muestra, entonces para efectos operativos se puede usar la siguiente expresión, que
contiene la desviación estándar obtenida de la muestra:


P x  t 2 ( S X )    x  t 2 ( S X )  1  
EJEMPLO 4. Si tomamos una muestra de tamaño 7, con una desviación estándar de 20 y
con una media de 100, la t crítica para α = 0.05 (y 6 grados de libertad) es de 2.447. Por
tanto, el intervalo es:
P(51.06  μ  148.94) = 95%
Esto significa que si la muestra está bien seleccionada, con una probabilidad de 95% la
verdadera media estará entre 51.06 y 149.4.
Supongamos ahora que la muestra es de 30 observaciones que arroja una media de 100
(igual que la anterior), pero una desviación estándar de 15. Para 29 grados de libertad un
nivel de significancia de 0.05, la t crítica es de 2.045. En este caso, el intervalo de
confianza es:
P(69.325  μ  130.675) = 95%
Nótese cómo el intervalo se ha reducido y, dada la misma probabilidad, la precisión y la
confiabilidad han aumentado ya que con un 95% de probabilidad la verdadera media estará
entre 69 y 139.
Por consiguiente:

Si el intervalo no incluye al estimador del parámetro, no se puede rechazar la hipótesis
nula de que el estimador y el parámetro son diferentes
67
Alejandro Valenzuela. Métodos Cuantitativos 68

Si el intervalo incluye al cero no se puede rechazar la hipótesis nula de que el parámetro
es distinto de cero.

Lo más importante para una buena estimación es la muestra.
ii) Muestreo
Los parámetros de una población son, principalmente, la media, la moda, la mediana, el
rango, la varianza, la desviación estándar, entre otros. Como no siempre es posible obtener
esos parámetros directamente de la población, se estiman por medio de muestras. Los
estimadores de los parámetros son mejores conforme mejor sea la muestra.
La siguiente es una explicación intuitiva, no formal, de los conceptos necesarios para
explicar la relación entre el tamaño de muestra, la significancia estadística y la
confiabilidad de las estimaciones. Por tanto, el muestreo es el tema de arranque de este
tema.
La muestra es un subconjunto de la población que debe reunir ciertas características como la
pertinencia, el tamaño y el método de selección de los elementos que la componen.
 Ventajas del muestreo
Esas ventajas del muestreo se pueden resumir en los siguientes puntos:
 Costo: la muestra es más barata que el censo.
 Precisión: el tamaño de la muestra permite estudiar las características con mayor
precisión y cuidado.
 Tiempo: la muestra es una forma más rápida de proveer información.
 Cantidad de información: la muestra puede estudiar más detalles que con el censo.
 Seguridad: la manipulación en muchos casos resulta destructiva y, en este sentido, un
censo es imposible.
68
Alejandro Valenzuela. Métodos Cuantitativos 69
 La población
La inspección de toda la población se llama censo. Como levantar un censo no siempre es
posible, se toma una muestra. Pero para hacerlo, es necesario conocer la población para poder
identificar claramente las unidades muestrales.
Al tomar una muestra se debe saber sobre la población:
 Sus características generales
 Si es finita o infinita.
 Si es finita, saber si es grande o pequeña.
 Si se conoce o no la varianza o no.
 Muestreo aleatorio
En el muestreo aleatorio o probabilístico cada elemento de la población tiene una oportunidad
conocida de ser seleccionada como parte de la muestra, lo que significa que la probabilidad de
que un elemento sea seleccionado puede ser determinado de antemano.
La oportunidad de cada elemento no tiene porque ser igual en todos los tipos de muestreo
aleatorio. Se requiere sólo para un tipo especial de muestreo aleatorio llamado muestreo
aleatorio simple.
 Muestreo aleatorio simple
Se le conoce también como irrestricto. Hay dos criterios básicos para elegir una muestra
aleatoria simple:
i) Cada elemento de la población tiene igual oportunidad de ser elegido y la probabilidad
de elección debe estar determinada. Lo de la determinación se refiere no sólo a que la
probabilidad es igual para todos los elementos, sino principalmente a que el
encuestador debe conocer el valor numérico de esa probabilidad para cada elemento.
69
Alejandro Valenzuela. Métodos Cuantitativos 70
ii) Cada combinación muestral tiene igual probabilidad de ocurrencia.
Aquí se combinan dos elementos: un muestreo aleatorio simple requiere no sólo de la igualdad
de oportunidades para sus elementos, sino de la igualdad de oportunidades para todas las
muestras posibles.
EJEMPLO: Elegir de entre 10 personas un comité de 3 donde cada persona y cada muestra de
tamaño 3 tengan la misma probabilidad de ser elegidos. Si el muestreo se hace con
remplazamiento, el número de muestras posibles es 103 = 1000, pero esto generalmente no se
hace. Si el muestreo se hace sin remplazamiento, el número de muestras posibles de tamaño
3 está dado por:
10
C3 =
10!
 120
3! (10 - 3)!
En el primer caso cada muestra de tamaño 3 tiene una probabilidad de un 1/120 de ser
elegida y cada individuo tiene una probabilidad de 3/10 de ser elegido. Esto es, la
combinación de cada uno de los individuos con alguno de los otros 9 les da oportunidad de
participar en 36 de las 120 muestras posibles (=3/10). Tomemos el ejemplo de la probabilidad
del individuo 1 en combinación con los otros 9:
1,2,3
1,2,7
1,3,4
1,3,8
1,4,6
1,4,10
1,5,9
1,6,9
1,7,10
1,2,4
1,2,8
1,3,5
1,3,9
1,4,7
1,5,6
1,5,10
1,6,10
1,8,9
1,2,5
1,2,9
1,3,6
1,4,10
1,4,8
1,5,7
1,6,7
1,7,8
1,8,10
1,2,6
1,2,10
1,3,7
1,4,5
1,4,9
1,5,8
1,6,8
1,7,9
1,9,10
Es decir, la probabilidad del individuo 1 es de 36/120 o lo que es lo mismo de 3/10 que ya se
había establecido al principio.
70
Alejandro Valenzuela. Métodos Cuantitativos 71
 Muestreo sistemático
El muestreo sistemático consiste en tomar para la muestra los elementos que aparecen cada
determinado espacio de una población ordenada en forma de secuencia o lista. Se determina
en forma arbitraria el espacio entre elemento y elemento muestral. El arranque de la muestra
debe ser aleatorio. Se usa frecuentemente en poblaciones no numeradas como por ejemplo el
directorio telefónico, el paso de carros en una esquina, el cruce de gente por algún punto, etc.
El muestreo sistemático no debe ser aplicado a poblaciones que registran tendencias cíclicas
entre espacios muestrales.
 Muestreo estratificado
El principio de este tipo de muestreos consiste en dividir a la población en grupos o estratos.
Los estratos deben ser diferentes unos de otros y homogéneos en sí mismos. Una vez que se
hace esto se toman submuestras en cada estrato y al final se combinan para formar una
muestra única.
Un ejemplo de este tipo de muestreos sería dividir a la población en estratos de ingresos: altos,
medios y bajos, donde las categorías están claramente especificadas.
Una extensión de este método es el muestreo estratificado proporcional, que se aplica
cuando los diferentes estratos participan con diferentes proporciones en la población. El
ejemplo de los estratos de ingresos es bueno porque las proporciones de pobres, de clase
media y de ricos difieren entre sí.
 Muestreo por racimos (Clusters)
A diferencia del muestreo estratificado, donde cada estrato es lo más diferente posible a
cualquier otro y lo más homogéneo en sí mismo, en el muestreo por racimos se divide a la
71
Alejandro Valenzuela. Métodos Cuantitativos 72
población en clusters cuyas características son las contrarias: cada uno es lo más parecidos
posibles a los otros y lo más heterogéneos en sí mismo.
Por ejemplo, si el objetivo es estudiar los niveles de ingreso en las ciudades de tamaño medio,
se elige una muestra aleatoria de ciudades medias y en seguida se obtienen muestras aleatorias
en cada ciudad elegida en la muestra. Estas últimas se combinan para formar la muestra total.
Así, cada ciudad (o cluster) es homogéneo con respecto a los otros, pero a la vez cada una es
heterogénea porque cada una contiene todos los niveles de ingreso.
Las ventajas del muestreo por clusters son: 1) reduce costos porque no se tiene que muestrear
en toda la población; 2) permite muestrear sin necesidad de tener una lista completa de todos
los elementos muestrales de la población ya que basta tener la lista sólo de los clusters
elegidos, y 3) permite comprimir grandes áreas geográficas.
 Muestreo no aleatorio
El muestreo no aleatorio o no probabilístico las unidades incluidas no se eligen al azar
(chance). Su elección se basa en el juicio del investigador ya que él debe sentir que sirven
como una buena representación de la población.
 Muestreo por cuotas
Se realiza cuando la muestra debe ser de cierto tamaño y el investigador o encuestador tiene
libertad de elegir. Por ejemplo, si se encarga a un encuestador entrevistar a 10 personas
elegidas arbitrariamente, él puede decidir pararse en una esquina y elegir a las primeras 10
personas que pasen o elegir una cualquiera y a la siguiente cuando termine el cuestionario de
la anterior.
Este tipo de muestreos se emplea en estudios de mercado porque es menos costosa que un
muestreo aleatorio.
72
Alejandro Valenzuela. Métodos Cuantitativos 73
 Muestreo conveniente
Se emplea cuando ciertos elementos de la población son más convenientes y pueden ser
tomados más fácilmente. Por ejemplo, si una tienda entrega un cupón para ser llenado, puede
considerar en una muestra a las personas que lo han regresado, lo que indicaría un interés de
esa gente por el tópico de la pregunta.
 Muestreo por juicio
El investigador decide, a su juicio, los elementos que entran en la muestra. Se usa en estudios
de pequeña escala como estudios piloto. Por ejemplo, si se va a diseñar un cuestionario para
ser aplicado a una muestra aleatoria, el diseñador puede querer estar seguro que las preguntas
son pertinentes o entendibles. Para ello, decide aplicarlo a un conjunto de personas que él
selecciona de acuerdo a su propio criterio.
d) Distribución exponencial
La distribución exponencial trata de probabilidades de tiempo o espacio entre ocurrencias en
un rango continuo. Hay una estrecha relación entre la distribución exponencial y la de Poisson
(recuerde que la probabilidad de Poisson mide la probabilidad de ocurrencias en un
intervalo). Si un proceso Poisson tiene una media de  ocurrencias en un intervalo, el tiempo
o espacio entre ocurrencias tendrá una media de  
1

, la cual sigue una distribución
exponencial.
La relación entre las distribuciones de Poisson se puede ilustrar con el siguiente ejemplo, si en
la distribución de Poisson el promedio de llamadas a un teléfono en una hora es de 6, entonces
el tiempo promedio entre llamadas es de 10 minutos, es decir, 0.166667. En este sentido se
puede preguntar cuál es la probabilidad de que la segunda llamada tarde más de 15 minutos.
La fórmula de la distribución exponencial se presenta de dos maneras: si x es el valor de un
punto dado del intervalo (tiempo o espacio), entonces una de las formas de la distribución
exponencial mide la probabilidad de que un evento particular:
73
Alejandro Valenzuela. Métodos Cuantitativos 74

Suceda después de x:
f(x)= e-x

Suceda antes de x:
f(x)= 1 - e-x
La gráfica de esta distribución es una línea continua decreciente a la derecha.
f(x)
P (T  t )  1  e   x
P (T  t )  e  x
x
X
Una característica de esta distribución es que la desviación estándar y la media son iguales.
EJEMPLO. Si en un restaurante se atienden 120 órdenes por hora:
a) ¿Cuál es la probabilidad de que una orden en particular tarde más de 3 minutos en
llegar? Primero tenemos que convertir el promedio en minutos. Si el promedio por
74
Alejandro Valenzuela. Métodos Cuantitativos 75
hora es de 120, el promedio por minuto es de 2. Por tanto,  = 2. Por tanto, el tiempo
entre órdenes es de 0.5 minutos Esto es  = 1/ = 1/2 = 0.5. Además, x = 3:
f(x) = e-x  2.71828( 3)( 0.5)  0.2231
b) ¿Cuál es la probabilidad de que una orden en particular tarde menos de 3 minutos en
llegar?:
f(x) = 1 - e-x  1  0.0001  0.7769
3. Distribución de Chi-cuadrada
La Chi-cuadrada es una prueba no paramétrica en el sentido de que no es necesario suponer
una distribución de probabilidad y los datos pueden no medirse por intervalos.
La potencia de la prueba (probabilidad de rechazar una hipótesis nula cuando es realmente
falsa) no es tan fuerte, pero si se aplica una prueba paramétrica cuando no se puede, no es
posible generalizar los resultados y las comparaciones.
Hay varias pruebas no paramétricas. Una de ellas es la Chi-cuadrada, que es apropiada cuando
los datos analizados se organizan en más de una categoría o para hacer comparaciones entre
dos o más muestras. Es considerada como una prueba no paramétrica que mide la
discrepancia entre proporciones (en qué medida las diferencias existentes entre ambas, de
haberlas, se deben al azar o no), la dependencia entre variables (tablas de contingencia) y
el ajuste de los datos a una distribución teórica (bondad de ajuste).
Veamos estos tres usos a través de un conjunto de ejemplos ilustrativos.
75
Alejandro Valenzuela. Métodos Cuantitativos 76
a) Características de la distribución 2
Se aplica a todo fenómeno en las que las variables puedan adquirir al menos dos categorías. La
información sobre las variables y las categorías (que puede venir de una muestra u otras
fuentes de observación) se llama “valor observado”. Siempre es posible tener una expectativa
sobre esos valores. A ellos se les llama “valores esperados”.
Se parte de hipótesis de trabajo. La hipótesis nula establece que las categorías o variables no
difieren entre sí (esas categorías pueden ser también cambios a través del tiempo). La hipótesis
alternativa establece que sí hay cambios.
En 1900, Karl Pearson, un estadístico inglés que fue uno de los padres de la estadística
moderna, propuso que en una situación de este tipo debe usarse el siguiente procedimiento
para probar la hipótesis nula: Primero, para cada variable determinamos el valor esperado de
la categoría; segundo, obtener información de campo a la que llamaremos valor observado;
tercero, para cada variable, al valor observado de la categoría le restamos el valor esperado,
elevamos al cuadrado el resultado y lo dividimos entre el valor esperado; por último, sumamos
los resultados del tercer paso. Si cada variable puede adquirir, por ejemplo, dos valores y cada
valor admite dos categorías, sumaremos seis números. Es decir:
(Oi  Ei ) 2
i E   2
i
Esta fórmula nos proporciona el estadístico de Chi-Cuadrada
Pearson mostró que si la hipótesis nula es verdadera (esto es, si las categorías entre variables
son iguales), y el tamaño de muestra es suficientemente grande como para que el valor más
pequeño de Ei sea al menor 5, este estadístico de prueba tendrá una distribución de
probabilidad que puede ser aproximada adecuadamente por la 2, una distribución de
probabilidad muy importante.
La distribución 2, que es la distribución de probabilidad de una variable aleatoria 2, se define
de la siguiente manera:
76
Alejandro Valenzuela. Métodos Cuantitativos 77
La distribución 2, con v grados de libertad, es la distribución de probabilidad de la
suma de cuadrados de v variables independientes normal estandarizadas.
Para clarificar esta definición, permítaseme empezar tomando una sola variable normal
estandarizada. (Recuerde que una variable normal estandarizada es ( X   ) /  donde X es
una variable normal con media igual a  y desviación estándar igual a ). En vez de considerar
la distribución de probabilidad de sus valores, permítase considerar la distribución de
probabilidad del cuadrado de sus valores. Si uno sabe que esta variable tiene una distribución
normal estandarizada, debe ser posible imaginar la distribución del cuadrado de sus valores.
Esta distribución es la distribución 2 con un grado de libertad. A continuación suponga que
consideramos dos variables normales estandarizadas independientes. Eleve al cuadrado los
valores de cada variable y súmelos. (Si el primer subíndice indica la variable y el segundo un
valor cualquiera de ella, entonces la suma es: X21j+ X22j). La distribución de esta suma es una
distribución 2 con dos grados de libertad. Finalmente, suponga que consideramos cuatro
variables normal estandarizadas independientes y haga lo mismo: eleve al cuadrado los valores
de cada variable y sumarlos (X21j+ X22j X23j+ X24j). La distribución de esta suma es una
distribución de 2 con cuatro grados de libertad.
Como la distribución t, la distribución de 2 es una familia de distribuciones, cada una de las
cuales está caracterizada por cierto número de grados de libertad. Los grados de libertad están
dados por el número de categorías o número de muestras, c, y por el número de parámetros, p,
que se estimen de acuerdo a la siguiente relación:
gl  ( p  1)( c  1)
La media de la distribución 2 es igual al número de grados de libertad; la varianza es igual al
doble de grados de libertad (si v es los grados de libertad, entonces la varianza es 2v) y la
desviación estándar es igual a la raíz cuadrada del doble de grados de libertad.
77
Alejandro Valenzuela. Métodos Cuantitativos 78
La Chi-cuadrada describe una gráfica más alta conforme menos grados de libertad tenga.
f(x)
ACEPTAR Ho
RECHAZAR Ho
La línea vertical que divide la zona de aceptación de la de rechazo está dada por la 2 crítica
(según  y los grados de libertad). Si la 2 calculada cae en la zona de rechazo de H0 es porque
es más grande que la 2 crítica. La zona de rechazo decrece conforme decrece el nivel de
significancia. Eso hace más difícil rechazar la hipótesis nula, pero si la rechazamos la
probabilidad de error es también menor.
b) Diferencias entre proporciones
El objetivo de esta prueba es saber si el tamaño de una proporción en que se presenta una
característica en una muestra es diferente de la misma proporción en otra muestra. Podría
tratarse de muestreos en la misma población en tiempos distintos o del muestreo en
poblaciones diferentes al mismo tiempo.
EJEMPLO 1. Un sociólogo quiere saber si la orientación política influye en forma en que los
padres educan a sus hijos. En este caso no es posible obtener parámetros ni establecer
intervalos. Por tanto se usa una prueba no paramétrica. Como se puede ver, aquí hay dos
categorías: los padres liberales y los padres conservadores. También está la cuestión de si la
educación de los hijos es permisiva o no lo es.
78
Alejandro Valenzuela. Métodos Cuantitativos 79
Las hipótesis que se plantea el sociólogo son las siguientes:
H0: La frecuencia relativa (proporción) de los liberales que no son rígidos es la misma
que la de los conservadores que no son rígidos.
H1: La frecuencia relativa (proporción) de los liberales que no son rígidos no es la
misma que de los conservadores que no son rígidos.
Como se puede deducir, las frecuencias esperadas (E) se refieren a los términos de la hipótesis
nula y las frecuencias observadas u obtenidas (O) se refieren a los resultados reales obtenidos
al realizar el estudio y pueden variar (o no) de un grupo a otro. Si la diferencia es grande, se
rechaza la hipótesis nula y decimos que la diferencia existe.
Supóngase que el sociólogo obtiene muestras aleatorias de 20 liberales y 20 conservadores y
se les interroga sobre el estilo de crianza de los niños. Suponga que los resultados son los
siguientes (L = liberales; C = conservadores; R = rígidos; N = no rígidos):
VALORES OBSERVADOS
R
N
Total
L
5
15
20
C
10
10
20
Total
15
25
40
Las frecuencias esperadas se obtienen de la siguiente manera:
1) Se obtiene la proporción de R: PR 
Total de R 15

 0.375
Total
40
2) Se obtiene la proporción de N: PN 
25
 1  PR  0.625
40
3) Los números esperados se obtiene multiplicando la proporción entre el total de la categoría:
eRL  (0.375)( 20)  7.5
e RC  (0.375)( 20)  7.5
e NL  (0.625)( 20)  12.5
e NC  (0.625)( 20)  12.5
79
Alejandro Valenzuela. Métodos Cuantitativos 80
VALORES ESPERADOS
R
N
L
7.5
12.5
C
7.5
12.5
Ahora, sustituimos estos datos en la fórmula:
(5  7.5)
(10  7.5)
(15  12.5)
(10  12.5)
(O  E ) 2
2
i i E i   2    7.5  7.5  12.5  12.5
i
2
2 
6.25 6.25 6.25 6.26




7.5
7.5 12.5 12.5
2
2
2
2
 2  0.83  0.83  0.50  0.50    2.66
Como todo estadístico de prueba, la decisión sobre las hipótesis dependen de la comparación
del valor obtenido (en este caso 2.66) y el valor estándar o de tablas. Para encontrar este valor
de tablas se necesitan los grados de libertad del problema planteado. Si el problema tiene dos
categorías (c = 2) y dos parámetros (p = 2), entonces:
gl = (2-1)(2-1) = 1
La tabla de 2 está organizada teniendo en la primera columna los grados de libertad y en el
primer renglón las probabilidades de que un valor cualquiera de 2 exceda el valor que aparece
en el cuerpo de la tabla. Por ejemplo, si un problema tiene 8 grados de libertad y se quiere un
nivel de significancia de 0.10 (es decir, una certeza en la conclusión de al menor 90%)
entonces el valor de 2 es 13.36. Esto quiere decir que la probabilidad de que un valor
cualquiera de 2 exceda ese valor, es del 10%.
Una forma más expedita que la anterior es la siguiente.
a) Se calcula el valor de 2
b) Con los grados de libertad que tenga el problema y el nivel de significancia que elija el
investigador, un valor de tablas, se busca un valor en la tabla.
c) Si el valor calculado de 2 es menor que el valor de tablas, se acepta la hipótesis nula.
80
Alejandro Valenzuela. Métodos Cuantitativos 81
d) Si el valor calculado de 2 es mayor que el valor de tablas, se rechaza la hipótesis nula (y
se acepta la alternativa).
En el caso específico que ocupa al sociólogo, la 2 de tablas (un grado de libertad y un nivel de
significancia de 5%), es de 3.8415. Como este valor es mayor que el calculado (2.66),
entonces no se puede rechazar la hipótesis nula y se debe concluir que los hábitos educativos
de liberales y conservadores son iguales. Dicho de otra manera, las diferencias entre las
frecuencias relativas no son significativas.
EJEMPLO 2. Se quiere estudiar la relación entre la cultura de los padres y la dependencia del
alcohol. Según George Vaillant y Eva Milofsky de la Universidad de Harvard, la cultura es un
importante factor que explica que las personas sean o no alcohólicas. Ellos contrastan las
culturas que prohíben a los niños tomar, pero que dispensan la borrachera en adultos con
aquellas culturas que enseñan a los niños cómo beber con responsabilidad, pero que reprueban
la borrachera en adultos.
Las culturas y sus actitudes son las siguientes:

Cultura irlandesa. Prohíbe la bebida en jóvenes, pero permiten la borrachera en adultos

Cultura mediterránea no musulmana. Lo permiten en niños, pero lo sancionan adultos

Cultura noreuropea-norteamericana. Tiene una posición intermedia entre las dos anteriores
Si la cultura irlandesa se le asigna el número 1, a la noreuropea-norteamenricana el 2 y la
mediterránea-no musulmana el 3, entonces las hipótesis son las siguientes:
H0: La proporción de alcohol-dependientes es igual en las tres culturas: 1 = 2 =3
H1: La proporción de alcohol-dependientes no es igual en las tres culturas: 1 = 2 =3
Para llevar a cabo la investigación, Vaillant y Milofsky tomaron una muestra de 398 personas
de las tres culturas. Si llamamos X a los alcohol-dependientes y Y a los que no lo son, la
muestra se distribuye de la siguiente manera:
81
Alejandro Valenzuela. Métodos Cuantitativos 82
VALORES OBSERVADOS
X
Y
TOTAL
CULTURA 1 CULTURA 2 CULTURA 3
21
44
5
54
149
125
75
193
130
TOTAL
70
328
398
Sea N el total de la muestra (si N1, N2 y N3 son el tamaño de la muestra por cultura, entonces
N = Ni) y sea Xi el total de alcohol-dependientes, entonces la proporción total de
alcohólicos es:
Px 
X i
70

 0.176
N
398
Py  1  PX  0.824
VALORES ESPERADOS
X
Y
TOTAL
CULTURA 1 CULTURA 2 CULTURA 3
13.2
33.9
22.9
61.8
159.1
107.1
75
193
130
TOTAL
70
328
398
A continuación se aplica la fórmula de Chi-cuadrada

i
(Oi  E i ) 2
 2
Ei
2 
(21  13.2) 2 (44  33.9) 2 (5  22.9) 2 (54  61.8) 2 (149  159.1) 2 (125  107.1) 2





13.2
33.9
22.9
61.8
159.1
107.1
2 
60.84 102.01 320.41 60.84 102.01 320.41





13.2
33.9
22.9
61.8
159.1
107.1
 2  4.609  3.009  13.990  0.984  0.641  2.991 
 2  26.225
Como el número de categorías son 3 (las tres culturas) y el número de parámetros es de 2
(dependientes y no dependientes del alcohol), entonces el número de grados de libertad es de
2. Si el nivel de significancia deseado es de 0.05 (es decir, un error no mayor que 5%), la Chicuadrada de tablas es 5.991. Por tanto, como la 2 calculada es mayor que la 2 de tablas,
82
Alejandro Valenzuela. Métodos Cuantitativos 83
entonces se puede rechazar la hipótesis nula y se acepta la hipótesis alternativa. Dicho de
otra manera, la cultura sí influye en la proporción de borrachos (ya que esa proporción no es
igual entre las culturas).
EJEMPLO 3. En el número de agosto de 1981 de la American Sociological Review, Andrew
Cherlin y Pamela Walters publicaron un estudio de tendencias de actitudes en los roles
sexuales en los Estados Unidos. Basados en muestras aleatorias de hombres en los años 1972,
1975 y 1978, encontraron que la proporción que aprobaban que una mujer casada ganara
dinero (teniendo un esposo capaz de mantenerla) creció de 0.62 en 1972 a 0.70 en 1975 y a
0.73 en 1978.
Las tres muestras suman 1810 hombres. De ellos, la suma de los que aprueban es de 1231 y de
579 los que desaprueban. Por tanto, la proporción de los que aprueban es de 0.68 y de los que
desaprueban 0.32.
Los números OBSERVADOS provienen directamente de los resultados de la encuesta. Los
valores ESPERADOS se obtienen multiplicando el tamaño de la muestra por la proporción
correspondiente (por 0.68 para los que aprueban y por 0.32 para los que desaprueban).
Los datos son los siguientes:
AÑO
1972
1975
1978
MUESTRA
662
588
560
O.A
410
412
409
E.A
450
400
381
F
3.58
0.37
2.09
OD
252
176
151
ED
212
188
179
F
7.61
0.79
4.44
OA = número observado de los que aprueban
OD = número observados de los que desaprueban
EA = número esperado de los que aprueban
ED = número esperado de los que desaprueban
F = es la fórmula
(Oi  E i ) 2
Ei
El valor de Chi-cuadrada está dado, según la fórmula, sumando todos los elementos aquí
etiquetados como F:
83
Alejandro Valenzuela. Métodos Cuantitativos 84
2 
i
(Oi  E i ) 2 = 3.58 + 0.37 +2.09 + 7.61 + 0.79 + 4.44 = 18.88
Ei
Como el problema tiene tres categorías (porque son tres muestras), el número de grados de
libertad es de 2. Si fijamos  en un nivel muy bajo, digamos 0.01, la 2 de tablas es de
9.21034.
Si las hipótesis son, según el patrón usual:
H0: las proporciones no cambian entre muestras
H1: las proporciones sí cambian entre muestras
Como la 2 calculada es mayor que la 2 de tablas, entonces de debe rechazar la hipótesis nula.
Se puede concluir que el cambio que se observa en la proporción de hombre que aprueban que
las mujeres casadas en los Estados Unidos es real, que efectivamente hay un cambio en la
percepción de los roles sexuales. Desde luego, la información no distingue entre razas, niveles
de educación u otras características que podrían introducir un nivel más fino en el análisis.
a) Tablas de contingencia
Una tabla de contingencia indica si dos características o variables son dependientes o están
relacionadas una de otra.
EJEMPLO 4. Si quiere saber si el nivel de ingresos en una población está relacionada con las
preferencias políticas de sus miembros. Las hipótesis son:
H0: Los ingresos y la filiación partidaria son independientes
H1: Los ingresos y la filiación partidaria son dependientes
Para ello se toma una muestra de 300 personas y resulta que 60 de ellas ganan más de 10,000
pesos mensuales mientras que 240 ganan menos de esa cantidad. Resulta que de los 300, 100
son miembros del alguno de los partidos políticos (S) mientras que 200 no tienen filiación
partidaria (N).
84
Alejandro Valenzuela. Métodos Cuantitativos 85
Los valores OBSERVADOS son los siguientes:
INGRESOS
Más de 10 M
Menos de 10 M
TOTAL
S
30
70
100
N
30
170
200
T
60
240
300
¿Cuáles son los valores ESPERADOS?
Véase que del total de individuos en la muestra, 60 ganan más de 10 mil pesos, es decir,
60/300 = 0.2, el 20%, y 240 ganan menos de 10 mil, 0.80 u 80%. De los 100 que sí pertenecen
a algún partido, se espera que (100)(0.2) = 20 ganen más de 10 mil y (100)(0.80) = 80 ganen
menos de 10 mil. De los 200 sin partido, los valores esperados son 40 y 160. Los resultados se
resumen en la siguiente tabla:
Los valores ESPERADOS son los siguientes:
INGRESOS
Más de 10 M
Menos de 10 M
TOTAL
S
20
80
100
N
40
160
200
T
60
240
300
Ahora calculamos la 2:
2 
(30  20) 2 (70  80) 2 (30  40) 2 (170  160) 2



20
80
40
160
 2  5.00  1.25  2.50  0.625
 2  9.375
La regla de decisión es: Rechazar la hipótesis nula (de independencia) si 2 > 2 (donde  es
el nivel de significancia, 2 es la calculada y 2 es la de tablas).
85
Alejandro Valenzuela. Métodos Cuantitativos 86
Los grados de libertad están dados aquí por la misma fórmula, pero p es el número de
renglones y c es el número de columnas de la tabla de contingencia:
gl  ( p  1)( c  1) = (2–1)•(2–1) = 1
Incluso con un nivel de significancia tan bajo como  = 0.01 (1% de error), podemos rechazar
la hipótesis nula porque 2, 1 = 6.6349 es menor que 2 = 9.375. Dicho de otra manera, hay
evidencia que indica que los ingresos mayores a 10 mil pesos son dependientes de la filiación
partidaria.
b) Bondad de ajuste
Se trata de saber si una distribución de frecuencia observada se ajusta a una distribución
teórica. Se trata de una prueba de una sola muestra, pero dividida en c categorías. Los datos se
organizan según esas categorías.
Los grados de libertad para la prueba de bondad de ajuste son: dl = (c–1) –p
Veamos un ejemplo donde el investigador supone que la población bajo estudio se distribuye
en forma normal y busca probar si los datos se ajustan a esa distribución o no.
Se dividen los datos en categorías. Si la muestra es pequeña, divídala entre cinco y el resultado
es el número de categorías. Si es grande tome un número de categorías igual a la raíz cuadrada
del tamaño de muestra.
86
Alejandro Valenzuela. Métodos Cuantitativos 87
EJEMPLO 5. Suponga que la demanda diaria en kilogramos de un bien es como sigue:
DÍA
1
2
3
4
5
6
7
8
9
10
DEMANDA DÍA
18.5
24.4
21.5
19.3
20.7
20.3
19.2
17.8
23.4
25.2
11
12
13
14
15
16
17
18
19
20
DEMANDA DÍA
19.4
20.1
20.8
21.8
22.6
21.3
20.9
18.8
23.4
24.0
21
22
23
24
25
26
27
28
29
30
DEMANDA
21.4
20.8
18.3
19.7
19.5
18.7
25.1
19.9
25.2
18.1
¿Se distribuye la demanda por días en forma normal? Las hipótesis son las siguientes:
H0: La distribución es normal
H1: La distribución no es normal
Asumamos que  = 0.05. Como no se proporciona ni media ni desviación estándar
poblacionales, se calculan de la muestra, aunque eso signifique perder dos grados de libertad.
Media = 21
Desviación estándar = 2.24
Como 30 observaciones es una muestra pequeña (menor a 50), dividiéndola entre 5 nos da 6
categorías. ¿Cómo se establecen los rangos de las categorías?
Primero, se buscan los valores de z. Se divide el área de la curva normal entre las categorías,
en este caso entre 6, cada área con la misma probabilidad (o sea áreas del mismo tamaño,
aunque debe notarse que el mismo tamaño implica diferente distancia entre umbral y umbral).
Habiendo 6 clases, el área total bajo la curva, que es 1, se divide entre 6 y cada clase deberá
tener un sexto de los datos (1/6 = 0.1667). Es decir, si se dividen todas las observaciones en
seis categorías, a cada categoría le correspondería 0.1667 del área bajo la curva.

Se busca el valor de z para un área de 0.1667 a la derecha de la media. Para esa área z =
0.43

Para el área de 0.1667 a la izquierda de la media el valor es, por tanto, z = –0.43. (Hasta
aquí van dos categorías)
87
Alejandro Valenzuela. Métodos Cuantitativos 88

Dos veces el área 0.1667 es igual a 0.334. El valor correspondiente es, a la derecha de la
media: z = 0.97 y, a la izquierda, z = –0.97. (Hasta aquí van cuatro categorías).

Las otras dos categorías se establecen, una, para valores de z mayores que 0.97 y, otra,
para valores de z menores a –0.97 (es decir, en ambas colas de la distribución). Con
estas dos tenemos seis categorías.
-0.97
-0.43
0.43
0.97
Segundo, convertir los valores de z en valores de x para tener los umbrales de los seis rangos
usando la fórmula de la normal estandarizada:
z
XX

X  X  z  
X  X  z  
X  z    X
Como la media es 21 y la desviación estándar es 2.24, entonces:

Para z  0.43
21.96
X  ( 0.43)  (2.24)  21 =
20.04

Para z  0.97
23.17
88
Alejandro Valenzuela. Métodos Cuantitativos 89
X  ( 0.97)  ( 2.24)  21 =
18.83
Sustituyendo los valores de la escala de z por los valores de la escala de X, tenemos la
siguiente gráfica:
3
4
5
2
6
1
18.83
20.04
21
21.96
23.17
Y aquí tenemos los límites de las categorías en el supuesto de que fueran normalmente
distribuidas.
Tercero, contamos los valores que caen en cada rango y con eso tenemos los valores
OBSERVADOS. Los valores ESPERADOS son 5 por categoría porque al tener 30
observaciones y seis categorías, le tocan 5 a cada una. El cuadro siguiente resume los datos:
CATEGORÍA
1
2
3
4
5
6
RANGO
OBSERVACIONES ESPERADAS
< 18.832
6
5
18.83 A 20.04
5
5
20.04 A 21.0
5
5
21.0 A 21.96
4
5
21.96 A 23.17
3
5
23.17 o más
7
5
30
30
(O-E)2/E
0.20
0.00
0.00
0.20
0.80
0.80
2
Observe que 2 =
2.
Como tenemos 6 categorías y dos parámetros (la media y la varianza), entonces tenemos (6-1)
-2 = 3 grados de libertad. Si fijamos  = 0.05, la 2= 7.81. Como la chi-cuadrada calculada
no es mayor que la chi-cuadrada crítica, no podemos rechazar la hipótesis nula y concluimos
que los datos se ajustan a la distribución normal.
89
Alejandro Valenzuela. Métodos Cuantitativos 90
Bibliografía
Daniels (1981).Capítulos 3 y 4
Levin (1979). Capítulo 10
Stevenson (1985). Capítulos 4 al 8
Mansfield (1986). Capítulos 4, 5, 6 y 9
90
Alejandro Valenzuela. Métodos Cuantitativos 91
IV. TEORÍA DE COLAS
1. Planteamiento general del modelo
Un sistema de servicio está formado por las filas que se formen y las estaciones de servicio
para atender a la población que demanda el servicio. El objetivo último de los modelos de
colas es la minimización de costos, lo que se traduce en:
a) La minimización del tiempo de espera de las personas que están en la fila, y
b) La minimización del costo de servicio para la empresa
Ambos costos tienen una relación inversa entre sí. Si el servicio se incrementa, su costo
también aumenta, pero el costo de espera de las personas que buscan el servicio disminuye.
Se trata de escoger el servicio que minimice el costo total. Esas relaciones se pueden
apreciar en la siguiente gráfica:
COSTO
CT
CS
CE
S*
Incremento del servicio ==>
El objetivo del servicio es encontrar el nivel óptimo de servicio, S*, donde se minimiza el
costo total porque se igualan los costos de servicio y los costos de espera.
2. Definiciones
El sistema tiene tres partes: la población que busca el servicio, la fila y el centro de
servicio.
91
Alejandro Valenzuela. Métodos Cuantitativos 92
a) La población que busca el servicio. Las características de la población son
el tamaño, las características de llegada y la conducta de la población.
El Tamaño de la población. La población que demanda el servicio puede ser
finita (como una flota de autos que espera por servicio en un taller o los
secretarios de estado que esperan ser recibidos por el presidente) o infinita
(como los pasajeros que compran boletos de autobús o como los solicitantes de
ayuda en Sedesol).
Características de llegada de la población. La llegada a la fila puede darse
según un patrón organizado o de manera aleatoria. Si es aleatoria, entonces la
población que llega asume una distribución de probabilidad Poisson.
Conducta de la población. Es la actitud de los que se van a añadir a la fila. Las
personas pueden sumarse a la fila o rehusar hacerlo. Esa decisión depende de la
importancia del servicio que van a recibir.
b) La Fila. La longitud de la fila puede ser finita o infinita. En términos teóricos e
instrumentales, es más fácil tratar con una fila infinita. Las filas pueden ser
aleatorias y no aleatorias. Aquí interesan las aleatorias y las llegadas a éstas se
distribuyen como Poisson.
c) La estación del servicio. Sobre las estaciones de servicio interesa su
distribución física, el tipo de disciplina en la fila y la distribución de
probabilidad que se le ajusta. Generalmente la distribución es exponencial.
Distribución física del sistema de filas. El sistema está organizado canales y en
fases:
 Los canales son las estaciones de servicio. Así, el sistema puede ser
unicanal de múlticanal. La tienda de la esquina es unicanal; el supermercado
es multicanal.
92
Alejandro Valenzuela. Métodos Cuantitativos 93
 La fase es el número de estaciones de servicio que tiene que pasar la persona
que busca el servicio. Las cajas de cobro en el supermercado son servicios de
una sola fase (el cliente paga y se va). La obtención de la licencia de manejar
se obtiene en un servicio multifase. En una ventanilla se entregan los papeles,
en otra se paga, en otra se hace el examen médico, en otra hacen la prueba de
manejo y en la última entregan la credencial.
La disciplina de la fila. Se puede dividir en filas por orden de llegada y filas por
prioridad. En los sistemas por orden de llegada hay varias posibilidades. Por
ejemplo, el que llega primero se le atiende primero o el que llega primero se le
atiende al último, etc. Los sistemas de prioridad se clasifican perentorio y no
perentorio. Un ejemplo de fila por prioridad perentoria es la que forman las
personas en un naufragio. Primero los niños, las mujeres y los ancianos; luego el
resto de los pasajeros; sigue la tripulación y, al último, el capitán. La caja rápida
en un supermercado es prioritaria pero no perentoria porque el que va llegando
se forma al último.
3. Sistemas elementales de colas
El más elemental del sistema de colas es aquel donde ni la llegada de la población ni el
tiempo de servicio son aleatorios. Supongamos que son constantes.
Si A es la velocidad promedio de llegada a la fila (número de llegadas por unidad de
tiempo) y S es la velocidad promedio de atención a clientes (número de unidades de tiempo
por persona atendida).
Si
A
 1 no hay cola ni ocio en la estación de servicio
S
Si
A
 1 se acumula la cola y no hay ocio en la estación de servicio
S
Si
A
 1 no hay la cola y hay ocio en la estación de servicio.
S
93
Alejandro Valenzuela. Métodos Cuantitativos 94
4. Modelos de colas con un canal y con A y S aleatorios
a) Condiciones del modelo
El número de llegadas a la fila por unidad de tiempo (A) se distribuye como Poisson
El tiempo de atención (S) se distribuye exponencialmente
La disciplina es que el que llega primero se le atiende primero
La población es infinita
Hay un solo canal y una sola fase
Se genera cierto ocio en la estación de servicio porque A < S
b) Nomenclatura y fórmulas
Además de los conceptos de llegada y atención ya definidos, se tiene:
Ls = Longitud del sistema (la fila más las personas que están siendo atendidas)
Ls 
A
SA
Lq = Longitud de la fila
Lq 
A2
S ( S  A)
Ws = tiempo promedio en el sistema
Ws 
1
SA
Wq = Tiempo promedio de la fila
Wq 
A
S ( S  A)
94
Alejandro Valenzuela. Métodos Cuantitativos 95
Pw = Probabilidad de que la estación esté ocupada (factor de utilización)
Pw 
A
S
CE = Ls*CUE
CUE es el costo unitario de espera y lo asume el público.
CS = Estaciones*CUS
CUS es el costo unitario de servicio y lo asume el que presta el servicio.
CT = CE + CS
EJEMPLO 1. En una fila la gente llega en promedio de 4 personas por hora (A) y en cada
estación de servicio se atiende a 6 personas por hora (S). El costo de mantener la estación
es de 18 pesos por hora. Cada persona en la fila pierde 20 pesos por hora de espera. La tasa
de servicio será de 6 si hay una estación, de 12 si hay dos y así sucesivamente. El siguiente
cuadro muestra los costos promedio por hora de servicio.
MEDIDAS
A
S
Ls
Lq
Ws
Wq
CUE
CUP
CE
CP
CT
E=1
4
6
2.0
1.333
0.500
0.333
20.0
18.0
40.00
18.00
58.00
E=2
4
12
0.5
0.167
0.125
0.042
20.0
18.0
10.00
36.00
46.00
E=3
4
18
0.3
0.063
0.071
0.016
20.0
18.0
5.71
54.00
59.71
En este escenario, como se puede ver, la alternativa que minimiza los costos totales es la
que opera con dos estaciones de servicio. Este escenario reduce el costo para el público
(porque reduce el tiempo de espera en el sistema) aunque aumenta el costo de la empresa.
95
Alejandro Valenzuela. Métodos Cuantitativos 96
Dicho de otra manera: mejorar el servicio beneficia a la clientela, aunque eso tiene un costo
para la empresa.
5. Modelos de colas en la práctica
La teoría de colas implica, primero, seleccionar el modelo matemático adecuado y,
segundo, implantar el modelo de decisión basado en las medidas de desempeño.
La selección del modelo está determinada por la forma en que se distribuyen las llegadas y
los tiempos de salida. Si ambas son aleatorias, entonces se aplican las distribuciones de
Poisson y exponencial. Si no, se aplican modelos denominados de simulación.
El objetivo de los modelos de filas es minimizar los costos totales asociados con la
operación de líneas de espera. Se trata de equilibrar los costos de espera contra los costos
del servicios (ver la gráfica).
El costo de espera no es fácil de estimar, y es más difícil en sistemas operados por personas
(los hay automáticos y semiautomáticos). También influye el tipo de línea de que se trata:
Hay filas en las que uno quiere formarse y otras en las que uno debe formarse. Nomás para
rematar el punto, tampoco es lo mismo hacer una fila en el SAT para pagar impuestos que
en el cine para ver una esperada película... Hay una cosa que se llama la aceptación de la
fila. Sólo para ejemplificar, veamos el siguiente modelo de costo.
El modelo de costo (ver la gráfica) trata de equilibrar el costo de espera y el costo del
servicio. Este modelo, entonces, trata de encontrar la tasa óptima de servicio (S*).
Los supuestos son que hay un solo servidor; se conoce la tasa promedio de llegadas, A; los
costos totales (los costos de operación y los costos de servicio) son función de la tasa de
servicio.
96
Alejandro Valenzuela. Métodos Cuantitativos 97
EJEMPLO 2. Una empresa está buscando modernizar su servicio como estrategia para
ganar mercado. Busca, así, la tasa de servicio que minimice los costos totales. Para ello está
evaluando la introducción de un servicio de atención en 4 modalidades: manual,
semiautomático, automático y completamente automatizado. Cada sistema tiene un costo de
operación por hora de $15, $30, $50 y $100, respectivamente. El beneficio es que el
número de personas que atiende cada sistema es creciente: 18, 25, 30, 45, respectivamente.
El número promedio de personas que llegan a la fila (A) es de 15 por hora. La empresa ha
prometido un reembolso (R) de $50 cada vez que se retrase en la atención (el retraso en la
atención se mide dividiendo 60 minutos entre S y multiplicando el resultado por el número
de personas que están adelante del que se acaba de formar). Este reembolso se considera el
costo unitario de la espera. Las fórmulas usadas son las siguientes:
Pw 
A
S
Ls i 
1
1  Pw
CE  R  Lsi
CT = CS + CE
El siguiente cuadro resume los resultados:
SIST
1
2
3
4
CS
15
30
50
100
A
15
15
15
15
S
18
25
30
45
Pw
0.83
0.60
0.50
0.33
Lsi
6.0
2.5
2.0
1.5
CE
300
125
100
75
CT
315
155
150
175
La tasa óptima de servicio es de 30 porque es el que minimiza el costo total.
Bibliografía: Hamdy A. Taha (2004). Investigación de operaciones. 7ª Edición. Capítulo
17. Editorial Prentice Hall.
97
Alejandro Valenzuela. Métodos Cuantitativos 98
V. MODELOS DE PRONÓSTICO
En muchas actividades, los participantes quisieran predecir los resultados de sus
actividades. Por ejemplo, los políticos quisieran saber los votos que obtendrán, los
comerciantes quisieran saber el volumen de ventas que tendrán, los funcionarios públicos
quisieran saber el número de personas que deberán atender, etc.
Hay muchas técnicas para predecir resultados. Aquí veremos tres de esas técnicas: la de
promedios móviles, la de suavización exponencial y la de regresión.
1. Técnica del promedio móvil
Cuando se tiene una serie de tiempo, es decir, una serie de datos sobre alguna variable
durante cualquier número de periodos, quisiéramos predecir cuál es el valor que sigue. Para
hacer ese pronóstico podemos usar los n valores anteriores, donde n > 1.
Una característica de la técnica del promedio móvil es que el peso de las observaciones que
entran en el pronóstico tienen el mismo peso las más alejadas y las menos alejadas.
Se le llama promedio móvil porque el promedio se va modificando conforme se avanza en
los sucesivos valores pronosticados.
Se supone que cada valor de la serie de tiempo tiene un componente fijo y un componente
aleatorio. El componente aleatorio se distribuye normalmente con media cero y varianza
constante.
yt  b   t
Desde luego que se debe suponer que los datos están correlacionados, es decir, que los
distintos valores de la serie no son independientes entre sí. O dicho de otro modo, el último
número está influido por los anteriores.
98
Alejandro Valenzuela. Métodos Cuantitativos 99
Si la serie tiene Yt observaciones y se quiere predecir la observación Yt+1 y para hacer esa
predicción se quiere hacer uso de n valores anteriores, entonces el promedio móvil será:
y t 1 
y t n 1  y t n  2  ...  y t
n
Supongamos que se tiene una serie de tiempo sobre la demanda mensual de un bien y se
tienen dos años de observaciones. Los datos se muestran en el siguiente cuadro:
MES
DEMANDA
1
46
2
56
3
54
4
43
5
57
6
56
7
67
8
62
9
50
10
56
11
47
12
56
MES
DEMANDA
13
54
14
42
15
64
16
60
17
70
18
66
19
57
20
55
21
52
22
62
23
70
24
72
Si se quiere predecir la observación 25 (que es la observación Yt+1). Para ello se quiere usan
las tres últimas observaciones (la 22, la 23 y la 24)
Yt-n+1 = Y24-3+1 = Y22 = 62
Yt-n+2 = Y24-3+2 = Y23 = 70
Yt-n+3 = Y24-3+3 = Y24 = 72
Entonces:
y t 1 
62  70  72
 68
3
La técnica predice que la demanda durante el mes 25 será de 68 unidades.
Conforme pasa el tiempo, los valores estimados se sustituyen por los reales para realizar los
pronósticos sucesivos. Los números pronosticados se pueden usar para realizar pronósticos
de momentos más alejados del presente, aunque se debe tener en cuenta que el número
pronosticado se basa, a su vez, en otros números pronosticados.
99
Alejandro Valenzuela. Métodos Cuantitativos100
Para hacerlo en hoja de cálculo, entre a Excel, selecciones Herramientas  Análisis de
Datos  Media Móvil
Esa herramienta le proporcionará los números pronosticados y una gráfica donde mostrará
los valores reales y los pronosticados. Los resultados se observan en el siguiente cuadro:
Yt
46
56
54
43
57
56
67
62
50
56
47
56
54
42
64
60
70
66
57
55
52
62
70
72
Y*t
#N/A
#N/A
52
51
51
52
60
62
60
56
51
53
52
51
53
55
65
65
64
59
55
56
61
68
PROMEDIO MÓVIL
80
70
60
50
Valor
MES
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
40
30
Real
Pronóstico
20
10
0
1
3
5
7
9
11 13 15 17 19 21 23
2. Suavización exponencial
Esta técnica es similar a la de promedio móvil, pero busca compensar una deficiencia de
ésta: la de suponer que todas las observaciones tienen el mismo peso en el pronóstico. La
técnica de suavización exponencial asigna un peso mayor a la observación más reciente.
Hay una constante de suavización que está entre cero y uno (0<  < 1). Si se tienen
observaciones hasta Yt, el pronóstico para es:
100
Alejandro Valenzuela. Métodos Cuantitativos101
Yt*1  Yt   (1   )Yt 1   (1   ) 2 Yt  2  ...
Si la fórmula anterior es el pronóstico para Y t *1 , entonces el pronóstico para Yt* es:
Yt*  Yt 1   (1   )Yt  2   (1   ) 2 Yt 3  ...
Es decir, Y t *1 empieza con Y t ; Yt* empieza con Y t 1 … Así, la formula para Y t *1 puede
simplificarse como:
Yt*1  Yt  (1   )Yt*1
La constante de suavización debe ser elegida por quien hace el pronóstico. Un valor mayor
de  implica que las observaciones más recientes tienen mayor peso.
Supongamos que en los datos sobre demanda usados en la técnica anterior, se quiere
estimar el valor de Y25. Supongamos también que  = 0.9 (es decir, que el elemento más
reciente pesa mucho más que los demás):
Y25*  (0.9)72  0.9(0.1)70  0.9(0.1) 2 62  0.9(0.1) 3 52  0.9(0.1) 4 55  0.9(0.1) 5 57
Y25*  (0.9)72  (0.9)( 0.1)70  (0.9)( 0.01)62  (0.9)( 0.001)52  (0.9)( 0.0001)55  (0.9)( 0.00001)57
Y25*  (0.9)72  (0.09)70  (0.009)62  (0.0009)52  (0.00009)55  (0.000009)57
Y25*  64.8  6.3  0.558  0.0468  0.00495  0.000513
Y 25*  71.7098
Este resultado es el mismo si se usa la formula extendida (usada en este caso) o la fórmula
reducida que usa el pronóstico anterior para predecir la observación siguiente. Este último
requiere empezar a pronosticar desde el principio porque el siguiente requiere del último
pronóstico, el último requiere del penúltimo, el penúltimo del antepenúltimo, y así
sucesivamente hasta llegar al principio.
101
Alejandro Valenzuela. Métodos Cuantitativos102
Sin embargo, el pronóstico con la fórmula simplificada arroja el mismo resultado, como se
puede ver en el cuadro de más adelante, construido con dicha fórmula.
Para hacerlo en hoja de cálculo, entre a Excel, selecciones Herramientas  Análisis de
Datos  Suavización Exponencial.
Se supone que esa herramienta le proporcionará los números pronosticados y una gráfica
donde mostrará los valores reales y los pronosticados. Pero yo creo que dicha herramienta
tiene un error de lógica porque pronostica el momento t con el dato pronosticado en el
momento t-1 y, esto es lo ilógico, con el dato real del momento t. Haciendo los cálculos
según la fórmula simplificada, los resultados se observan en el siguiente cuadro:
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Yt
46
56
54
43
57
56
67
62
50
56
47
56
54
42
64
60
70
66
57
55
52
62
70
72
Y*t
#NA
41
55
54
44
56
56
66
62
51
56
48
55
54
43
62
60
69
66
58
55
52
61
69
72
102
Alejandro Valenzuela. Métodos Cuantitativos103
3. Análisis de regresión
El análisis de regresión busca descubrir la forma en que una variable, como Y, depende de
otra, como X. La variable Y se llama dependiente y la variable X se llama independiente.
Uno de los usos del análisis de regresión es la predicción de los valores de Y en términos de
los valores que adopte X.
a) El modelo
 El Análisis de regresión se ocupa de la estimación o predicción del valor promedio (la
media) poblacional de la variable dependiente sobre la base de valores fijos de la
variable explicativa.
 LA MEDIA CONDICIONAL DE Y RESPECTO A X, es decir, E(Y|Xi) es el valor que
se anda buscando. Se lee: el valor esperado de Y dado un valor específico de X.
 EJEMPLO 1. Suponga que hay un país que tiene 60 familias y que queremos saber la
media del consumo dependiendo del ingreso (la media condicional del consumo)
teniendo los siguientes datos: El consumo está explicado por el ingreso. Se trata de un
país con 60 familias distribuidas en 10 categorías de ingreso (que se muestran en el
siguiente cuadro). El número de familias en cada categoría de ingresos es variable y,
dentro de cada categoría, el consumo es también variable. Si X es el ingreso y Y es el
consumo, el siguiente cuadro presenta la información de toda la población.
CUADRO 1
Y / X
80
55
60
65
70
75
100
65
70
74
80
85
88
120
79
84
90
94
98
TOTAL
MEDIA
325
65
462
77
445
89
140
80
93
95
103
108
113
115
707
101
160
102
107
110
116
118
125
180
110
115
120
130
135
140
200
120
136
140
144
145
678
113
750
125
685
137
 Las medias condicionales de Y, dada X, son:
103
220
135
137
140
152
157
160
162
1043
149
240
137
145
155
165
175
189
966
161
260
150
152
175
178
180
185
191
1211
173
Alejandro Valenzuela. Métodos Cuantitativos104










E(Y | X =80) = 65
E(Y | X =100) = 77
E(Y | X =120) = 89
E(Y | X =140) = 101
E(Y | X =160) = 113
E(Y | X =180) = 125
E(Y | X =200) = 137
E(Y | X =220) = 149
E(Y | X =240) = 161
E(Y | X =260) = 173
 La gráfica de la regresión:


Consiste en ubicar en el plano cartesiano las medias condicionales de Y (dados
los valores de X).
La gráfica de esa curva es la siguiente:
200
173
161
149
137
125
113
101
89
77
65
80
100 120 140 160 180 200 220 240 260
Normalmente la variable Y no depende de una sola variable. Por ejemplo, el consumo de
un bien depende del ingreso, pero también de los gustos, del precio de los bienes y de
muchas otras variables. Si llamamos X1, X2… Xn a todas esas variables, entonces los
valores que tome Y dependen de los valores que adopte cada una de las variables X. Dicho
de otra manera, Y es una función de X:
104
Alejandro Valenzuela. Métodos Cuantitativos105
Ecuación 1:
Yi  f ( X 1 ,..., X n )
Una función puede adoptar muchas formas, pero una guía es la siguiente: si el exponente
más alto que tiene una función es 1, entonces se dice que es una función lineal. Si el
exponente más alto es 2, es una cuadrática…2
Primer supuesto: La función de regresión es lineal. Es decir, Y es una función lineal de las
X. Entonces, si es una línea recta, podemos escribir esa función como sigue:
Ecuación 2:
Yi   0  1 X 1  ...   n X n
En este modelo, ß0 y ß1 se llaman parámetros. Esos parámetros son constantes que arrojan
información sobre el tipo de influencia que tiene X sobre Y. Imagínese usted que 1 fuera
en realidad cero. Eso querría decir que X1 no tiene ninguna influencia sobre Y. Suponga,
por el contrario que ß1 no es cero, pero que es negativo. Eso dice que la influencia de X
sobre Y es inversa (es decir, que si X crece, Y decrece y viceversa).
Supongamos que las variables X1 hasta Xn que hemos elegido sí influyen sobre. La
pregunta obligada es: ¿Las variables que hemos elegido son las únicas que explican a Y?
La respuesta es seguramente que no. Hay muchos factores que influyen en algo que o son
incuantificables o sus datos no están disponibles.
Si estuviéramos seguros de que el 100 por ciento del comportamiento de Y está explicado,
digamos, solo por las variables X1 y X2, entonces tendríamos un modelo determinístico.
Pero en la realidad eso es prácticamente imposible porque lo más normal es que sólo
hayamos elegido los factores más importantes a los que les atribuimos el comportamiento
de Y, habiendo otros factores que no hemos podido introducir. En este caso, el modelo es
probabilístico. Todos los elementos explicativos de Y que hemos dejado por fuera se
2
Una función matemática está compuesto por términos, que son las
expresiones separadas por signos de suma y resta). Los términos tiene
tres elementos: la variable, el coeficiente y el exponente. Por ejemplo
si un término es CX2, C es el coeficiente, X es la variable y 2 es el
exponente.
105
Alejandro Valenzuela. Métodos Cuantitativos106
pueden agrupar en una expresión a la que podemos denotar por u y que representa el error
de explicación. Así, el modelo probabilístico es:
Ecuación 3:
Yi   0  1 X 1  ...   n X n  ui
 Función de regresión poblacional.
La ecuación 3 se llama función de regresión poblacional porque explica el
comportamiento de Y dentro de una población. Nótese que los coeficientes de la función
son los parámetros (precisamente esos que sabemos que existen, pero que desconocemos, al
menos todavía).
Como casi nunca podemos tener información de todos los elementos de una población, lo
usual es tomar una muestra y a partir de ella estimar los parámetros de la población. No se
debe olvidar que el verdadero propósito es saber cosas sobre la población y que la muestra
es solo un medio para saberlas. Así tenemos la función de regresión muestral:
Ecuación 4:
Yi  b0  b1 X 1  ...  bn X n  ei  Función de regresión muestral.
Aquí, los coeficientes b1…, bn y el término de error ei son los estimadores de los
parámetros 1…, n y de ui.
Si los valores de X y de Y nos los da la muestra que obtenemos de la población, ¿De dónde
sacamos b0, b1, … , bn?
Se puede ver en la ecuación 4 (la función de regresión muestral) que Y está constituida por
dos partes. Una parte explicada y otra no explicada. A la parte explicada, a la que podemos
llamar también estimada y que simbolizaremos con Ŷ, está dada por los coeficientes y las
variables que hemos elegido. Recuerde que a la verdadera Y no la conocemos y que para
saber algo de ella hacemos dos cosas: primero, elegimos unas variables dentro de las
muchas que seguramente la explican y, segundo, esas variables que elegimos las medimos
por una muestra. Lo que nos da la muestra es la parte explicada de Y:
Ecuación 5:
Yˆi  b0  b1 X 1  ...  bn X n
106
Alejandro Valenzuela. Métodos Cuantitativos107
La otra parte, la no explicada (representada por e) debe tener una característica: debe ser
completamente aleatoria. Si no fuera aleatoria, entonces sería sistemático y en ese caso se
puede incorporar a la parte estimada del modelo.
Segundo supuesto: Los errores se distribuyen en forma normal con media cero y varianza
constante: ui  N(0,  2 ) y también ei  N(0, 2 )
Entonces, la ecuación 4 se puede escribir de la siguiente manera:
Ecuación 6:
Yi  Yˆi  ei
Al respecto, se pueden hacer las dos siguientes y obvias consideraciones: primera, Ŷ será
mejor estimador entre más cerca esté de Y. Segunda, Ŷ estará más cerca de Y entre más
pequeño sea e. Se puede decir que ei mide la desviación de Ŷ respecto de la verdadera Y:
Ecuación 7:
ei  Yi  Yˆi
Viendo las ecuaciones 6 y 7, parece evidente que el objetivo es minimizar los errores, ei.
Pero no importa un error en particular, sino todos los errores en conjunto, se toma la
sumatoria de los errores.
EJEMPLO 2 (para mostrar el asunto de la suma de errores). Supóngase que se toma una
muestra de dos variables bajo el criterio de que X determina a Y. Supóngase también que
el modelo estimado que minimiza los errores es Y= 14.63 +1.63X +ei. Es decir, supóngase
que b0=14.61 y que b1= 1.63. Desde luego que Ŷ = 14.63 +1.63X y ei=Y –Ŷ. Por ejemplo,
si X1 = 10, Ŷ1 = 30.9 Como Y1 = 28, entonces e1= –2.9, y así sucesivamente. El siguiente
cuadro muestra los valores restantes.
CUADRO 2
107
Alejandro Valenzuela. Métodos Cuantitativos108
Y
28
31
35
31
31
39
39
28
33
42
X
10
9
13
9
11
14
16
8
12
15
Ŷ
30.9
29.3
35.8
29.3
32.5
37.4
40.7
27.7
34.2
39.1
e
-2.9
1.7
-0.8
1.7
-1.5
1.6
-1.7
0.4
-1.2
2.9
Una característica del modelo que estamos desarrollando, que se sigue del segundo
supuesto (el de la normalidad) es que la suma de los errores es cero.
Tercer supuesto: Si los errores se distribuyen normalmente, suman cero: ei = 0, de donde
se deduce que la media de los errores es también cero.
En la práctica no es tan grave que la suma de errores no de cero. Por ejemplo, en el cuadro
anterior la suma de errores da 0.02. Lo que sucede es que esa suma siempre va a ser muy
pequeña.
Si la suma de errores será siempre cero o cercana a cero, entonces parecería que basta con
que los errores se distribuyan normalmente para minimizarlos. Pero no, porque muy bien
puede haber dos errores muy grandes, uno con signo positivo y otro con signo negativo,
para que su suma sea cero. Por tanto, habrá que proceder exactamente igual a como se
procedió para obtener la varianza: elevar al cuadrado cada término de error posteriormente
sumar los resultados. Pero como se ve en la ecuación 7, los errores son iguales a la
diferencia entre la Y real y la Y estimada, habrá que elevar al cuadrado también esa
diferencia.
De hecho, como la diferencia entre las Y es una desviación de la Y estimada respecto la
verdadera media, la suma de los errores al cuadrado, divididos por los grados de libertad, es
la varianza del modelo.
b) La estimación de los parámetros
108
Alejandro Valenzuela. Métodos Cuantitativos109
Lo anterior quiere decir que la ecuación 7 debe ser sumada y elevada al cuadrado en sus
tres términos:
Ecuación 8:
ei2  Yi 2  Yˆi 2
El método más común por el cual se estiman los parámetros del modelo de regresión lineal
se llama Método de Cuadrados Mínimos Ordinarios porque el objetivo es minimizar la
suma de cuadrados mostrada en la ecuación 8.
Como la ecuación 8 puede escribirse también como
Yi 2  Yˆi 2  ei2 ,
queda clara la siguiente
nomenclatura:
Y2 = Suma de Cuadrados Totales (SCT)
Ŷ2 = Suma de Cuadrados Explicados (SCE)
e2 = Suma de Cuadrados Residuales (SCR)
Siguiendo la ecuación 4, podemos deducir que: Yˆi 2  (b0  b1    bn X n ) 2 . Por tanto,
podemos escribir la ecuación 8 en forma extensa:
Ecuación 9:
ei2  (Yi  b0  b1 X 1  ...  b1 X 1 ) 2
La minimización de la suma de errores al cuadrado dependerá de los coeficientes de
regresión parcial que elijamos. Dicho de manera formal, la minimización de la suma de
errores al cuadrado (ecuación 9) está en función de los coeficientes de regresión.
El resultado de la minimización se muestra en las siguientes ecuaciones (los interesados en
seguir el desarrollo matemático para deducir las ecuaciones de parámetros de funciones
uniecuacionales, vea el apéndice de este capítulo). Las fórmulas para los parámetros de
109
Alejandro Valenzuela. Métodos Cuantitativos110
funciones con más de una variable independiente (10A, 11A y 11B) se presentan sin
demostración.
Ecuación 10: b0  Y  b1 X
Ecuación 11: b1 
b0  Y  b1 X 1  b2 X 2 Ecuación 10A
y i x i
xi2
b1 
(yi x1 )(x22 )  (yi x2 )(x1 x2 )
Ecuación 11A
(x12 )(x22 )  (x1 x2 ) 2
b2 
(yi x 2 )(x12 )  (yi x1 )(x1 x 2 )
Ecuación 11B
(x12 )(x 22 )  (x1 x 2 ) 2
Donde las minúsculas son desviaciones de la media: yi  Yi  Y y xi  X i  X
Como b0 y b1 son estimaciones de los parámetros, si tomamos n muestras tendremos n
estimadores. Como se busca que el estimador esté lo más cerca posible del parámetro,
entonces el error estándar deberá ser suficientemente pequeña como para que la estimación
sea aceptable. Esta exigencia se basa en el hecho de que los parámetros también se
distribuyen en forma normal.
Cuarto supuesto:  i  N(0, 2 )
Las varianza y las desviaciones estándar de los estimadores son:
Ecuación 12:
Ecuación 13:
Ecuación 14:
Var (b0 ) 
S b0 
X i2
2
n( X i  X ) 2
X i2

n( X i  X ) 2
Var (b1 ) 
2
xi2
110
Alejandro Valenzuela. Métodos Cuantitativos111
Ecuación 15:
S b1 

xi2
EJEMPLO 3. Retomemos los datos del ejemplo 1. La primera y segunda
columnas
muestran los valores Y, X obtenidos de la muestra. Las columnas 3 y 4 muestran las
desviaciones de la media x, y. La quinta columna muestra el producto de las dos anteriores
y la última muestra el cuadrado de las desviaciones de X. En los últimos renglones
aparecen las sumas y las medias correspondientes. Este ejercicio, a diferencia del 1, es que
ya no suponemos b0 y b1, sino que los calculamos según el procedimiento descrito.
CUADRO 3
SUMA
MEDIA
Y
28
31
35
31
31
39
39
28
33
42
X
10
9
13
9
11
14
16
8
12
15
33.7
11.7
y
-5.7
-2.7
1.3
-2.7
-2.7
5.3
5.3
-5.7
-0.7
8.3
x
-1.7
-2.7
1.3
-2.7
-0.7
2.3
4.3
-3.7
0.3
3.3
yx
9.69
7.29
1.69
7.29
1.89
12.19
22.79
21.09
-0.21
27.39
111.1
x2
2.89
7.29
1.69
7.29
0.49
5.29
18.49
13.69
0.09
10.89
68.1
Ŷ
30.9
29.3
35.8
29.3
32.6
37.5
40.7
27.7
34.2
39.1
e
-2.9
1.7
-0.8
1.7
-1.6
1.6
-1.7
0.3
-1.2
2.9
-0.01
Nos desatendemos por lo pronto de la desviación estándar y nos centramos en el cálculo de
los coeficientes de regresión. Aplicando las ecuaciones 10 y 11:
b0 
111.1
 1.63
68.1
b0  33.7  1.63(11.7)  14.63
La línea de regresión (siguiendo la ecuación 5) está dada por:
111
Alejandro Valenzuela. Métodos Cuantitativos112
Yi  14.63  1.63 X i  ei
Los coeficientes de regresión normalmente no se calculan a mano, sobre todo si el
problema o la muestra tiene muchas observaciones (o muchos datos). Si el modelo tiene
una variable independiente, se puede usar el Excel. Si tiene más de una, se usa algún
paquete estadístico que lo haga como el SPSS, el EViews, el Stata, etc.
Supongamos por lo pronto el problema hipotético tratado en los ejercicios 1 y 2. Ese
problema tiene solo una variable independiente y, por tanto, se puede calcular en Excel. El
procedimiento (llamado la corrida del modelo) es el siguiente. Se elige Herramientas 
Análisis de Datos  Regresión. Aparecerá un cuadro donde hay que señalar el rango de Y,
el rango de X y el rango de salida, que es donde aparecerán los resultados y que se muestra
en el siguiente cuadro:
CUADRO 4
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
0.92
0.85
0.83
2.03
10.00
ANÁLISIS DE VARIANZA
gl
Regresión
Residuos
Total
Intercepción (bo)
Variable X1 (b1)
1
8
9
Coeficientes
14.61
1.63
112
sc
181.3
32.8
214.1
Sb
2.94
0.25
mc
181.3
4.1
t
4.96
6.64
F
44.1
F
0.0
Prob
Inf. 95%
0.00
7.82
0.00
1.07
Alejandro Valenzuela. Métodos Cuantitativos113
El modelo tiene tres supuestos adicionales:
Quinto supuesto: Var (ui )   2
Este es el supuesto de homoscedasticidad (por oposición a heteroscedasticidad), es decir,
que las observaciones de X se distribuyen en torno a la media con la misma varianza a lo
largo de todas las observaciones.
Sexto supuesto: Cov(ui , u j )  0
Este es el supuesto de no autocorrelación que dice que la covarianza entre los errores es
cero. Esto es, la variación de un error no está condicionada por la variación en otro error (si
no, no fueran aleatorios, como dice el segundo supuesto). La cantidad con la que un valor
determinado de Ŷ diverja de Y es independiente de otra divergencia. Si no fueran
independientes, la covarianza no sería cero porque variarían juntos.
Séptimo supuesto:
Cov( X i , X j )  0
Este es el supuesto de la no multicolinealidad: la covarianza entre variables
independientes es cero. Esto quiere decir que los valores de X1 no están determinados por
los de X2. Un indicio de multicolinealidad sería un coeficiente de correlación (R) alto,
negativo o positivo.
c) Interpretación del modelo de regresión
Cuando se tienen unos datos sobre las variables se corre un modelo de regresión lineal,
como lo hemos dado ya, el siguiente paso es interpretar ese modelo, es decir, saber si es un
buen modelo o no. Hay tres factores que hay que tener en cuenta al interpretar los
resultados de un modelo de regresión lineal:
Primero, saber qué tanto los datos que tenemos explican el problema (lo que se conoce
como bondad de ajuste). Esto lo mide el coeficiente de determinación múltiple o R2.
113
Alejandro Valenzuela. Métodos Cuantitativos114
Segundo, la evaluación de las partes del modelo. Esas partes son las variables
independientes incluidas. Muchas veces no todas las variables incluidas son pertinentes.
Supóngase que Y  a  b1 X 1  b2 X 2 . Uno se puede preguntar si las dos variables incluidas
ayudan a explicar el comportamiento de Y. Eso depende de una sola cosa: que los
coeficientes sean distintos de cero. Si b1≠ 0, entonces X1 sí tiene un papel en la explicación
de Y. Y lo mismo se puede decir de X2. Esta es una evaluación sobre los coeficientes de
regresión parcial y se hace con la prueba t.
Tercero, la evaluación del modelo en su conjunto, es decir, si el modelo como tal explica el
problema o no. Esto se evalúa por medio del análisis de varianza.
i) El coeficiente de determinación (R2)
El R2 mide la bondad de ajuste de los datos, es decir, qué tanto el modelo explica el
problema. Regrese usted a la ecuación 8 y verá que la suma de cuadrados es un concepto
crucial en el modelo de regresión (recuérdese que el método para obtener los coeficientes
de regresión parcial se llama de cuadrados mínimos ordinarios). El problema a explicar se
puede plantear en términos de sumas de cuadrados. La ecuación 8 plantea que la suma de
cuadrados totales se descompone en dos: la suma de cuadrados explicados y la suma de
cuadrados no explicados:
SCT = SCE + SCR
Lo que es evidente de la expresión anterior es que el modelo es mejor entre mayor es la
SCE y menor la SCR. Por tanto, la pregunta operativa es qué proporción guarda la parte
explicada del problema en relación al total. Dicho de otra manera, de todo lo que se debe
explicar, ¿Qué tanto explica el modelo que se ha utilizado? Eso es precisamente lo que
mide el R2. Es decir,
Ecuación 16:
R2 
SCE
SCT
114
Alejandro Valenzuela. Métodos Cuantitativos115
La ecuación 8 se puede escribir también así: y i2  yˆ i2  ei2 (como desviaciones de la
media).3. De ahí se sigue que la ecuación 16 se puede escribir de la siguiente manera:
R2 
Ecuación 17:
yˆ i2
yi2
Como lo más que puede explicar el modelo es el total, entonces R2 es un número que está
entre cero y uno:
0 ≤ R2 ≤ 1
Siguiendo con los datos de los ejemplos 1 y 2, el siguiente cuadro proporciona los
elementos para el cálculo manual del R2.
CUADRO 5
SUMA
MEDIA
R2 
3
Y
28
31
35
31
31
39
39
28
33
42
X
10
9
13
9
11
14
16
8
12
15
33.7
11.7
y2
Ŷ
ŷ2
e2
32.5
7.3
1.7
7.3
7.3
28.1
28.1
32.5
0.5
68.9
214.1
30.9
29.3
35.8
29.3
32.6
37.5
40.7
27.7
34.2
39.1
7.7
19.4
4.5
19.4
1.3
14.1
49.1
36.4
0.2
28.9
180.9
24.8
-12.1
-2.8
-12.1
6.0
14.0
-21.0
-3.9
0.3
40.0
33.2
33.7
180.9
 0.85
214.1
Ver esta característica del modelo en el Apéndice B.
115
Alejandro Valenzuela. Métodos Cuantitativos116
Note que es justamente este resultado el que nos proporciona la corrida del modelo en
Excel mostrada en el cuadro 4. Este resultado nos dice que el modelo, como está planteado,
explica el 85% del problema.
Es necesario aclarar que se espera una R2 más alta para modelos de series de tiempo que
para los de corte transversal. Los cortes transversales muestran información sobre un
conjunto de elementos o individuos en un momento dado del tiempo. Las series de tiempo,
en cambio, son datos sobre un elemento o individuo a lo largo del tiempo.
Hay un coeficiente muy parecido a R2 que se llama coeficiente de correlación, denotado
por R. Este, a diferencia del coeficiente de determinación, mide el grado de asociación
lineal entre las variables. Se calcula por la siguiente fórmula:
Ecuación 18: r 
x i y i
(xi2 )( yi2 )
Se puede usar con cualquier par de variables, por ejemplo, X1, X2. Este coeficiente es un
número que va de menos uno a uno:
-1 ≤ R ≤ 1
Si R = 0, no existe asociación linean (correlación) entre las variables. Si R = -1, existe una
perfecta correlación negativa entre las variables: si una sube, la otra baja en perfecta
sincronía. Si R = 1, hay perfecta correlación positiva entre las variables (ambas suben o
bajan en perfecta sincronía).
ii) Evaluación de los coeficiente de regresión parcial
Como ya se dijo más atrás, una variable X influye sobre la variable Y si su coeficiente es
distinto de cero.
116
Alejandro Valenzuela. Métodos Cuantitativos117
Digamos de pasada que una vez que se verifica que el coeficiente es distinto de cero, el
tamaño y el signo del coeficiente informan sobre la forma y el tamaño de la influencia de X
sobre Y. Si el signo es positivo, la influencia de X sobre Y será directa. Si, en cambio, es
negativo, la influencia de X sobre Y es inversa.
El tamaño del coeficiente es la pendiente de la función de regresión. Como se sabe, la
pendiente mide el cambio en Y por cada cambio unitario en X. Si Y  mY , entonces
dY  mdY (donde d indica el cambio unitario). Como el coeficiente m es la pendiente de la
función, está dada por:
m
Y
X
Establecida la importancia de que los coeficientes de regresión sean distintos de cero, las
hipótesis de trabajo son las siguientes:
H0: ßi = 0
H1: ßi  0
El mecanismo para evaluar esto es el uso de la prueba t, y se puede usar según tres
aproximaciones equivalentes: primera, el intervalo de confianza; segunda, la prueba de
significancia, y tercera, la regla de dedo.

El Intervalo de confianza
¿Recuerda el intervalo de confianza que se desarrolló en el marco del uso de la distribución
t de Student para la estimación de parámetros? Ese intervalo es:
Si las hipótesis son H0: ßi = 0 y H1: ßi  0, entonces sustituimos  por i y
tenemos así el intervalo que necesitamos:
117
x por bi
y
Alejandro Valenzuela. Métodos Cuantitativos118


P bi  t 2 ( Sbi )   i  bi  t 2 ( Sbi )  1  
Del ejemplo que hemos estado desarrollando, tomemos primero a b1=1.63. No tenemos que
aplicar la ecuación 15 para obtener la desviación estándar de ese coeficiente (aunque lo
podemos hacer) ya que en el cuadro 4, la derecha del coeficiente aparece esa desviación y
ahí podemos ver que es 0.25. Como tenemos 10 observaciones, entonces, para 9 grados de
libertad y =0.05, t0.025 =2.262. Sustituyendo en el intervalo:
P1.63  2.262(0.25)  1  1.63  2.262(0.25)  1  0.05
Por tanto, el intervalo de confianza para 1 bajo la hipótesis nula de que 1=0, es:
P1.0645  1  2.1955  95%
El intervalo de confianza para 0 bajo la misma hipótesis es y el mismo nivel de
significancia es:
P7.96   0  22.26  95%
Como ninguno de los intervalos de confianza incluye al cero, se rechaza la hipótesis nula y
se admite la hipótesis alternativa y se concluye los parámetros son estadísticamente
significativos. Esto es, X sí tiene influencia en el comportamiento de Y. Además, los
intervalos no son tan grandes ¿o sí?

Uso del estadístico de prueba
El estadístico de la prueba t indica también si un coeficiente es diferente de cero o no. Se
basa en la comparación de t calculada con el valor crítico de t (que se obtiene de las tablas).
118
Alejandro Valenzuela. Métodos Cuantitativos119
Si H0: ßi = 0, la ecuación de t, t  bi  ßi , se debe escribir de la siguiente manera:
Sbi
t
bi  0
o, lo que es lo mismo, como:
S bi
Ecuación 19:
t
bi
S bi
La regla de decisión es la siguiente: si t > t rechazar H0. Por tanto, el parámetro es
estadísticamente diferente de cero.
Siguiendo el mismo ejemplo, la prueba para 0 es:
 b0 = 14.61
 S(b0) = 2.94
 t = (14.61/2.94) = 4.97
 t0.025 =2.262
 Decisión: Se rechaza la hipótesis nula.
La prueba para 1 es:
 b1 = 1.63
 S(b1) = 0.25
 t = (1.63/0.25) = 6.52
 t0.025 =2.262
 Decisión: Se rechaza la hipótesis nula.
Tomado los datos del cuadro 4, hubiera bastado buscar en la tabla el valor de la t crítica
para compararla con la t que proporciona el Excel a la derecha del error estándar de los
estimadores.
119
Alejandro Valenzuela. Métodos Cuantitativos120

Regla de dedo
El valor de t calculada es muy pequeño solo cuando el error estándar del estimador es muy
grande. Si el error estándar es por lo mucho igual o menor que la mitad del parámetro,
entonces el valor de t es mayor o igual a 2.
Para un nivel de significancia de 0.05 y para un tamaño de muestra igual o mayor que 7, no
hay en las tablas un valor de t que sea mayor que 2. Por tanto, la regla de dedo es la
siguiente:
Si   0.05, n  7 y t  2, entonces se rechaza H0: ßi = 0
Como la t de b0 es 4.96 y la de b1 es 6.64, la regla de dedo confirma las conclusiones a las
que ya se había llegado con los métodos anteriores.
iii) Análisis de varianza
El análisis de varianza evalúa la significancia global de un modelo de regresión, es decir, si
el modelo en su conjunto aporta una explicación al problema planteado. Se trata de evaluar
las siguientes hipótesis:
H0: ß1 = ß2 =... = ßk = 0
H1: ß1 = ß2 =... = ßk  0
¿Cómo se mide la significancia global de un modelo? Simple y sencillamente por la
relación de la parte explicada en la parte no explicada del problema.
El R2 nos informa qué tanto explica el modelo el problema. Por eso es que el R2 se
obtiene dividiendo la parte explicada entre la explicación total que buscamos.
120
Alejandro Valenzuela. Métodos Cuantitativos121
El análisis de varianza nos informa acerca de qué tan bien explica el modelo el
problema. En este caso, la pregunta claves es qué relación hay entre la parte no
explicada (la suma de cuadrados residuales) y la parte explicada (suma de cuadrados
explicados). Entre más grande sea ese número, mayor explicación global arrojará el
modelo sobre el problema.
Si dichas sumas de cuadrados se dividen entre sus respectivos grados de libertad, se tiene
una relación entre dos variables que se distribuyen de manera muy similar a la Chicuadrada. Esa relación entre dos variables que se pueden distribuir como chi-cuadrada se le
conoce como distribución F, de Fischer.
El estadístico F, al igual que la t, se puede utilizar como estadístico de prueba, es decir,
comparar la F de tablas con la F calculada y tomar como regla de decisión la siguiente: si
Fc > F, se puede rechazar la hipótesis nula y se entiende que los parámetros no son
todos simultáneamente cero.
En el paquete estadístico, la suma de cuadrados totales se denominan “total”, la SCE se
atribuye a la “regresión” y la SCR se denomina “residuos”. Teóricamente, el cuadro de
análisis de varianza se presenta a continuación. Para el cálculo de los grados de libertad, k
es el número de variables, incluyendo la variable dependiente.
CUADRO 6
MODELO
SC
REGRESIÓN SCE
GL
k-1
MC
F
SCE
MCE 
k 1
MCE
F
MCR
MCE 
RESIDUALESSCR
TOTAL
SCT
n-k
n-1
SIGN
1
SCR
nk
Se le llama grados de libertad del numerador (de F) a k-1 y grados de libertad del
denominador a n-k. La suma (k-1) + (n-k) = n-1.
121
Alejandro Valenzuela. Métodos Cuantitativos122
Vea que el cuadro 4 (la corrida del modelo) tiene una sección que se llama Análisis de
Varianza (que reproducimos a continuación). Note también que la suma de cuadrados de
esa sección coincide con las obtenidas en el cuadro 5.
CUADRO 7
ANÁLISIS DE VARIANZA
gl
Regresión
Residuos
Total
1
8
9
sc
181.3
32.8
214.1
mc
181.3
4.1
F
44.1
Como el ejemplo que hemos seguido tiene k = 2 variables y n = 10 observaciones, (2-1) = 1
grado de libertad en el numerador y (10-2) = 8 grados de libertad en el denominador (así se
busca en la tabla de la distribución F) nos da una F0.05 = 5.32.
Como F (44.8) es mayor que F (5.32), se rechaza la hipótesis nula y se acepta que el
modelo arroja globalmente una explicación al problema. De hecho, hay una regla de dedo
que dice que si la F calculada es mayor o igual que 4, se debe rechazar la hipótesis nula
(que los parámetros son globalmente cero).
d) Usos específicos del modelo de regresión
A continuación se proporcionan algunos usos específicos del modelo de regresión apoyados
en ejemplos. Debe establecerse de antemano que los usos generales del modelo son, por un
lado, descubrir la relación estructural que existe entre variables y, por el otro, para hacer
predicciones sobre la variable Y.
i)
Proyección de Tendencia
Con estos modelos se busca establecer si en un determinado periodo de tiempo la variable
de interés muestra una tendencia creciente o decreciente (o constante). La variable
explicativa o independiente es siempre el tiempo. Una vez que se tiene la función de
122
Alejandro Valenzuela. Métodos Cuantitativos123
regresión, se puede predecir el valor de la viable de interés en periodos adyacentes en el
futuro.
EJEMPLO 4. Los siguientes son datos sobre el PIB de México a lo largo de 12 trimestres.
Lo único que se quiere es saber cómo evoluciona el PIB en el tiempo, de tal manera que la
variable independiente es el tiempo. Esto tiene lógica porque en la variable “tiempo” se
agrupan todas aquellas influencias que contribuyen a la evolución del PIB. Determinar la
tendencia del PIB en el tiempo permite pronosticar valores futuros.
CUADRO 8
TRIMESTRE NÚMERO
2002/02
2002/03
2002/04
2003/01
2003/02
2003/03
2003/04
2004/01
2004/02
2004/03
2004/04
2005/01
1
2
3
4
5
6
7
8
9
10
11
12
PIB
6,319
6,169
6,677
6,734
6,902
6,668
7,276
7,307
7,546
7,459
8,227
7,906
Resumen
Estadísticas de la regresión
R
R
0.95
0.90
S
204.82
N
12
2
ANÁLISIS DE VARIANZA
gl
Regresión
SC
1 3917302
Residuos
10
Total
11 4336814
Intercepción
Variable X 1
b
6023
166
419511
S
126.1
17.1
MC
3917302
F
93
41951
t
47.8
9.7
La línea que muestra la tendencia de la Y está dada por la ecuación de Y estimado:
Yˆi  6023.35  165.5 X i . La siguiente gráfica muestra de tendencia del PIB mexicano
durante el periodo considerado.
123
Alejandro Valenzuela. Métodos Cuantitativos124
Y
6023
Tiempo
Si queremos predecir el valor del PIB para el trimestre julio-septiembre de 2006 (el
trimestre 18, según la serie de datos con que contamos), entonces sustituimos 18 en X:
Yˆi  6023.35  165.5(18)  9002
El valor estimado del PIB es 9002, el cual debe estar sobre la línea que muestra la tendencia
del crecimiento a lo largo del tiempo (gráfica anterior).
Bibliografía:
Hamdy A. Taha (2004). Investigación de operaciones.
Damodar Gujarati (1997). Econometría. Tercera edición. Mc Graw-Hill
124
Alejandro Valenzuela. Métodos Cuantitativos125
BIBLIOGRAFÍA
Daniel, Wayne W (1981). Estadística con aplicaciones a las ciencias sociales y a la
educación. Mc Graw Hill Editores. México.
Gujarati, Damodar (1997). (Econometría. Tercera edición. Mc Graw –Hill.
Levin, Jack (1979). Fundamentos de estadística en la investigación social. HARLA
editores.
Levin, Richard I. & Charles A. Kirkpatrick (1986). Enfoques cuantitativos a la
administración. CECSA. México.
125
Alejandro Valenzuela. Métodos Cuantitativos126
Lora, Eduardo (1987). Técnicas de medición económica. Tercer mundo editores.
Stevenson, Williams J. (1985). Business Statistics. Concepts and applications. Harper &
Row Publishers. Second Edition. New York.
Webster, Allen (1992). Applied Statistics for Business and Economics. Irwin Editors.
Boston.
Mansfield, Edwin (1986). Basic Statistics with applications. Norton
Taha, Hamdy A. (2004). Investigación de Operaciones. Sétima edición. Pearson-Prentice
Hall.
126

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download Material de Estudio