Download Material de Estudio
Document related concepts
no text concepts found
Transcript
Alejandro Valenzuela MÉTODOS CUANTITATIVOS Instituto Sonorense de Administración Pública Maestría en Administración Pública Alejandro Valenzuela. Métodos Cuantitativos 2 INDICE I. Estadística descriptiva 5 1. Introducción a la estadística descriptiva 2. Distribuciones de frecuencia 3. Distribuciones de frecuencia acumulada 4. Medidas de tendencia central (media, mediana y moda) 5. Medidas de dispersión (rango, varianza, desviación estándar y coeficiente de variación) II. Probabilidad 19 1. Introducción 2. Conjuntos 3. Espacio muestral y probabilidad de un evento 4. Técnicas de conteo a) permutaciones b) combinaciones 5. Enfoques en el cálculo de probabilidades a) Probabilidad clásica u objetiva b) Probabilidad en frecuencia relativa c) Probabilidad subjetiva 6. Reglas para el cálculo de probabilidades a) Regla de la suma i) Eventos mutuamente excluyentes ii) Eventos no excluyentes b) Probabilidad condicional c) Regla de la multiplicación i) Eventos dependientes ii) Eventos independientes 7. Teorema de Bayes III. Distribuciones de probabilidad, muestreo y estimación de parámetros 1. Distribuciones discretas 2 46 Alejandro Valenzuela. Métodos Cuantitativos 3 a) Distribución binomial b) Distribución de Poisson 2. Distribuciones continuas a) Distribución normal b) Distribución normal estandarizada c) Distribución t de student i) Estimación de parámetros ii) Muestreo d) Distribución exponencial 3. La distribución de Chi-cuadrada IV. Teoría de colas V. 98 1. Planteamiento general del modelo 2. Definiciones 3. Sistemas elementales de colas 4. Modelos de colas con un solo canal y con A y S aleatorios 5. Modelos de colas con canales múltiples 6. Modelos de colas en la práctica Modelo de pronóstico 107 1. Técnica del promedio móvil 2. Suavización exponencial 3. Análisis de regresión a) El modelo b) La estimación de los parámetros c) Interpretación del modelo de regresión i) Coeficiente de determinación (R2) ii) Evaluación de los coeficientes de regresión parcial iii) Análisis de varianza d) Usos específicos del modelo de regresión. Proyección de tendencia 3 Alejandro Valenzuela. Métodos Cuantitativos 4 I. ESTADISTICA DESCRIPTIVA 1. Introducción a la Estadística Descriptiva La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables. Las variables pueden ser de dos tipos: Variables cualitativas: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo). Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales). Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas: Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser 3.45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80.3 km./h., 94.57 km./h... etc. Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos: Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad. 4 Alejandro Valenzuela. Métodos Cuantitativos 5 Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo. 2. Distribución de frecuencia La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. CUADRO 1. FORMULACIÓN DE FRECUENCIAS VARIABLE (valor) FRECUENCIAS ABSOLUTAS FRECUENCIAS RELATIVAS SIMPLE SIMPLE ACUMULADA ACUMULADA X1 n1 n1 f1 n1 n f1 X2 n2 n1 + n2 f2 n2 n f1 + f2 ... ... ... ... Xn-1 nn-1 n1 + n2 +..+ nn-1 f n 1 Xn nn n1 + n2 +..+ nn-1 +nn fn n n 1 n nn n ... f1 + f2 +..+fn-1 f1 + f2 +..+fn-1 +fn X = valores que puede tomar la variable. n = número de veces que se repite cada valor. f = el porcentaje que la repetición de cada valor supone sobre el total Veamos un ejemplo: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (en cms): 5 Alejandro Valenzuela. Métodos Cuantitativos 6 CUADRO 2. ESTATURAS DE UN GRUPO DE ALUMNOS A 1 2 3 4 5 6 E 1.25 1.28 1.27 1.21 1.22 1.29 A 7 8 9 10 11 12 E 1.3 1.24 1.27 1.29 1.23 1.26 A 13 14 15 16 17 18 E 1.3 1.21 1.28 1.3 1.22 1.25 A 19 20 21 22 23 24 E 1.2 1.28 1.21 1.29 1.26 1.22 A 25 26 27 28 29 30 E 1.28 1.27 1.26 1.23 1.22 1.21 La variable de interés es la estatura. Ordenamos está variable en orden creciente y presentamos esta información estructurada obteniendo. Se pone cada estatura y se observa cuántos individuos la comparten. Ese es la frecuencia simple. Para cada estatura se suman los que tienen menos que esa y el resultado es la frecuencia acumulada. Las expresiones proporcionales de esas cantidades constituyen las frecuencias relativas. Así se obtiene la siguiente tabla de frecuencia: CUADRO 3. ESTATURAS ORGANIZADAS EN FRECUENCIAS Var FRECUENCIAS ABSOLUTAS Valor SIMPLE ACUMULADA 1.2 1 1 1.21 4 5 1.22 4 9 1.23 2 11 1.24 1 12 1.25 2 14 1.26 3 17 1.27 3 20 1.28 4 24 1.29 3 27 1.3 3 30 FRECUENCIAS RELATIVAS SIMPLE ACUMULADA 3.3 3.3 13.3 16.7 13.3 30.0 6.7 36.7 3.3 40.0 6.7 46.7 10.0 56.7 10.0 66.7 13.3 80.0 10.0 90.0 10.0 100.0 Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. (Tal como se verá en la siguiente lección). 3. Distribuciones de frecuencia acumulada Supongamos que medimos la estatura de un grupo de personas y obtenemos los siguientes resultados en centímetros: 6 Alejandro Valenzuela. Métodos Cuantitativos 7 CUADRO 4. ESTATURAS DE UN GRUPO DE PERSONAS Emp Est Emp Est 7 8 9 10 11 12 1.4 1.64 1.77 1.49 1.53 1.16 13 14 15 16 17 18 1.6 1.81 1.98 1.2 1.42 1.45 Emp 19 20 21 22 23 24 Est 1.2 1.98 1.21 1.59 1.86 1.52 Emp 25 26 27 28 29 30 Est 1.48 1.37 1.16 1.73 1.62 1.01 Nótese que cada habitante tiene una estatura diferente. Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas, cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3.3%. Esta tabla nos aportaría escasa información. En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e informativa: CUADRO 5. ORGANIZACIÓN POR INTERVALOS DE ESTATURAS ESTATURA FRECUENCIAS ABSOLUTAS Cms Simple Acumulada FRECUENCIAS RELATIVAS Simple Acumulada 1.01 – 1.10 1.11 – 1.20 1.21 – 1.30 1.31 – 1.40 1.41 – 1.50 1.51 – 1.60 1.61 – 1.70 1.71 – 1.80 1.81 – 1.90 1.91 – 2.00 3.30% 10.00% 10.00% 6.60% 20.00% 13.30% 10.00% 10.00% 6.60% 10.00% 1 3 3 2 6 4 3 3 2 3 1 4 7 9 15 19 22 25 27 30 3.30% 13.30% 23.30% 30.00% 50.00% 63.30% 73.30% 83.30% 90.00% 100.00% El número de tramos en los que se agrupa la información es una decisión que debe tomar el analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla. 7 Alejandro Valenzuela. Métodos Cuantitativos 8 4. Medidas de tendencia central Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Las medidas de posición son de dos tipos: a) Medidas de tendencia central: informan sobre los valores medios de la serie de datos. b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie. Este apartado está destinado a las medidas de tendencia central y el próximo a las medidas de posición no centrales. Las principales medidas de tendencia central son las siguientes: Media aritmética: es el valor medio ponderado de la serie de datos. Si los datos no están organizados, simplemente se obtiene la suma de los valores que adopta la variable y se divide entre el número de observaciones X X i n Si los datos están organizados en frecuencias (no confundir con intervalos), la media aritmética se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra: X ( X 1 )(n1 ) ... ( X n )(nn ) ni X i n n Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. 8 Alejandro Valenzuela. Métodos Cuantitativos 9 Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad la media aritmética de las estaturas de un grupo de alumnos (cuadro 3), se calculan de la siguiente manera. Como los datos están organizados en frecuencias: X (1.20)(1) (1.21)( 4)... (1.30)(3) 1.235 30 Por lo tanto, la estatura media de este grupo de alumnos es de 1.253 cm. Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido). La mediana las estaturas de los alumnos es 1.26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas. Moda: es el valor que más se repite en la muestra. En los datos del cuadro 3 hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas. 5. Medidas de dispersión Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos. Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes (utiliando como ejemplo los datos del cuadro 3): 9 Alejandro Valenzuela. Métodos Cuantitativos 10 1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo. La diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es 10 cm. 2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula dividiendo por el tamaño de la muestra el valor de la sumatoria de las diferencias al cuadrado entre cada valor y la media. Si los datos están agrupados, cada diferencia de la media se multiplicadas por el número de veces que se ha repetido cada valor. La fórmula es: ( X i X ) 2 S n 2 Y si los datos están agrupados: ( X i X ) 2 ( n i ) S n 2 La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Recordemos que la media de esta muestra es 1.253. Como son datos agrupados, aplicamos la fórmula: S2 (1.20 1.253) 2 (1) (1.21 1.253) 2 (4) ... (1.30 1.253) 2 (3) 0.001 30 3.- Desviación estándar: Se calcula como raíz cuadrada de la varianza. ( X i X ) 2 S n 10 Alejandro Valenzuela. Métodos Cuantitativos 11 Tomemos la raíz cuadrada de la varianza anterior S 0.001 0.032 4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación estándar y la media. CV S X El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación estándar, ya que viene expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar. Según el ejemplo, se calcula el cociente entre la desviación estándar y la media de la muestra: CV 0.032 0.0255 1.253 Bibliografía Daniels (1981).Capítulo 1. Levin (1979). Capítulos 1 al 4. Stevenson (1985). Capítulos 1 y 2 Mansfield (1986). Capítulos 1 y 2 Lora (1987). Capítulo 3, punto 2.2 11 Alejandro Valenzuela. Métodos Cuantitativos 12 II. PROBABILIDAD 1. Introducción La teoría de la probabilidad sienta las bases de la inferencia estadística. La probabilidad tiene dos campos: el de las interpretaciones de la probabilidad y el del cálculo de probabilidades. La interpretación de la probabilidad tiene, a su vez, dos vertientes: la objetiva o clásica y la subjetiva. Muchos hechos de la vida práctica tienen que ver con la probabilidad. Es la base de la inferencia porque, en esencia, se trata de la ocurrencia de fenómenos aleatorios sobre los que se hacen deducciones. Esto es, más que con fenómenos que ocurrirán, la probabilidad tiene que ver con sucesos que pueden ocurrir (eventos). La probabilidad es una herramienta para la toma de decisiones ya que éstas se basan, generalmente, en la incertidumbre. El punto central es la cuantificación de la probabilidad. 2. Conjuntos La teoría de conjuntos es ampliamente usada en teoría de la probabilidad porque permite circunscribir el ámbito a que se refiere el análisis. Un conjunto es una colección bien definida de objetos. Se describe un conjunto, digamos A, según las dos siguientes alternativas: 12 Alejandro Valenzuela. Métodos Cuantitativos 13 a) A = {1, 2, 3, 4, 5, 6} b) A = {x | x = los lados de un dado} Los ELEMENTOS de un conjunto son todos sus componentes. n A (n pertenece al conjunto A) m A (m no pertenece al conjunto A) El CONJUNTO UNIVERSAL, U, es el más extenso por el cual hay interés en un análisis dado y coincide con la definición de población. Debe quedar claro que la población está delimitada según el interés de cada análisis. El CONJUNTO VACIO carece de elementos. Un SUBCONJUNTO está formado por elementos que pertenecen a un conjunto mas grande. Si todos los elementos de A pertenecen a B, entonces A es un subconjunto de B. Si al menos un elemento de B no está en A, entonces A es un SUBCONJUNTO PROPIO de B. La INTERSECCION de dos conjuntos es el conjunto que contiene todos los elementos que están tanto en A como en B. Por ejemplo, si A ={1,2,3,4,5} y B = {4,5,6,7,8,9}, la intersección es {4,5}: A B 4,5 Dos conjuntos son DISJUNTOS o MUTUAMENTE EXCLUYENTES si no tienen ningún elemento en común. En este caso, la intersección de ambos es el conjunto vacío: A B La UNION de dos conjuntos está formada por todos los elementos de ambos conjuntos. Por ejemplo, si 13 Alejandro Valenzuela. Métodos Cuantitativos 14 A ={hombres de Hermosillo} y B ={mujeres de Hermosillo} A B {población de Hermosillo} Si hay una intersección, es decir, si no son disjuntos: A B A B ( A B) Si A es un subconjunto propio del conjunto universal, todos los elementos que no están en A forman el complemento de A: AC = {U - A} Así mismo U = {A + AC} 3. Espacio muestral y probabilidad de un evento Experimento es un proceso o actividad que conduce a uno o varios resultados u observaciones. Por ejemplo, lanzar un dado, tirar una moneda al aire o sacar una carta de una baraja son experimentos. La principal característica de un experimento es que es aleatorio. Un Resultado es un Punto Muestral. Un punto muestral o un conjunto de puntos muestrales son un Evento. Eventos compuestos. Son eventos que provienen de la combinación de resultados. Por ejemplo, si un dado se lanza tres veces, un evento posible es 1,1,1 o 1,1,2 etc. En este caso habrá 36 puntos muestrales que se combinan en eventos de tres en tres puntos. Tirar una moneda al aire tiene dos resultados; tirar dos monedas tiene 4 puntos; preguntar a alguien si pertenece a un partido, el espacio muestral tiene dos puntos. 14 Alejandro Valenzuela. Métodos Cuantitativos 15 Espacio muestral. Es la colección de todos los posibles puntos muestrales o resultados de un experimento. El siguiente cuadro muestra el espacio muestral del experimento de sacar una carta de una baraja. Una baraja tiene 52 cartas Cada punto indica los puntos muestrales. Todos los subconjuntos posibles representan los eventos del experimento. A 2 3 4 5 6 7 8 9 10 J Q K Los eventos pueden ser complementarios, mutuamente excluyentes y exhaustivos. Eventos complementarios son todos los otros resultados de un espacio muestral. Por ejemplo, "sacar un as" tiene como complemento "no sacar un as". Los eventos son mutuamente excluyentes son aquellos que no pueden ocurrir al mismo tiempo. Si el experimento consiste en sacar una sola cata de una baraja, los eventos "sacar un as" y "sacar un rey" son excluyentes. Los eventos son exhaustivos si ningún otro resultado puede haber en un experimento. El evento "sacar un basto o un diamante o un corazón o una espada" es exhaustivo porque no hay ningún otro resultado posible. Cuando los resultados de un experimento son mutuamente excluyentes cada punto muestral, es decir, cada resultado, es igual a un evento, es decir, a un suceso. 15 Alejandro Valenzuela. Métodos Cuantitativos 16 La probabilidad de ocurrencia de un evento A se asigna con un valor entre 0 y 1: O P(A) 1 Dado que los espacios muestrales (EM) son todos los posibles resultados de un experimento, P(EM) = 1 De aquí se deduce que: P(AC) = 1 - P(A) Esto es, la probabilidad que ocurra un evento tiene como complemento la probabilidad de que no ocurra. La probabilidad del complemento se establece automáticamente una vez establecida la probabilidad de un evento. Por ejemplo, Si la probabilidad de sacar cara al tirar una moneda es de 0.5 entonces el complemento, la probabilidad de que no aparezca, es de 0.5. Por ejemplo, P(A) = P() = 1 52 13 52 y P(A)C = y P(') = 51 52 39 52 Existen tres axiomas de probabilidad: a) Dado un experimento con sucesos mutuamente excluyentes (eventos simples) E1, E2,...,En, la probabilidad de cada evento es positiva: P(Ei) 0 b) La suma de probabilidades todos los eventos posibles mutuamente excluyentes es la unidad: P(E1) + P(E2) +...+P(En) = 1 16 Alejandro Valenzuela. Métodos Cuantitativos 17 c) La probabilidad de que ocurra uno de dos sucesos mutuamente excluyentes es igual a la suma de sus probabilidades: P(Ei ó Ej) = P(Ei) + P(Ej) 4. Técnicas de conteo En muchos casos contar el número de sucesos puede ser complicado y para ellos se deben usar técnicas matemáticas. Si hay k operaciones y si la primera se puede hacer de n1 maneras y, si no importa la forma en que se hizo la primera, la segunda se puede hacer de n2 maneras y así sucesivamente, entonces la secuencia de k operaciones se pueden hacer de (n1)(n2)...(nk) maneras. Por ejemplo, si se tienen 3 camisas, 2 pantalones y 2 pares de zapatos, hay (3)(2)(2)=12 maneras de combinarlos. a) permutaciones Las permutaciones son uno de los diferentes arreglos u ordenaciones que se pueden hacer con todos o con parte de los elementos de un conjunto. El número de permutaciones de n objetos diferentes tomados los n a la vez, es n! (n factorial). Esto se puede expresar como: Pn = n! Por ejemplo si se tienen tres objetos: A, B y C, el número de arreglos que se pueden hacer, tomándolos todos a la vez, son 3! = 6: ABC ACB BAC BCA CAB CBA 17 Alejandro Valenzuela. Métodos Cuantitativos 18 Si los arreglos se hacen en grupos menores que n, es decir, si se toman a la vez partes de tamaño r, entonces el número de permutaciones está dado por nPr = n! (n - r)! En las permutaciones sí importa el orden: los elementos A y B, se pueden ordenar como AB, que es diferente a BA. Ejemplo: Si se tienen 10 elementos que se van a agrupar en subgrupos de 4 elementos, entonces el número de permutaciones son: 10! 10.9.8.7.6.5.4.3.2.1 5,040 ( 10 - 4 )! 6.5.4.3.2.1 nPr = Es decir, podríamos formar 5,040 subgrupos diferentes de 4 elementos, a partir de los 10 elementos. b) combinaciones Es un arreglo de n objetos tomados en subconjuntos de tamaño r en donde no importa el orden en que se arreglen. Esto es, si se tiene A y B, AB = BA. Las combinaciones están dadas por nCr = n! r! (n - r)! Ejemplo: Las combinaciones de 10 elementos agrupándolos en subgrupos de 4 elementos: nCr = 10! 10.9.8.7.6.5.4.3.2.1 210 r!( 10 - 4 )! (4.3.2.1)(6.5.4.3.2.1) 18 Alejandro Valenzuela. Métodos Cuantitativos 19 Es decir, podríamos formar 210 subgrupos diferentes de 4 elementos, a partir de los 10 elementos. Las combinaciones son el número de permutaciones dividido entre r!: nCr n Pr r! 5. Enfoques en el cálculo de probabilidades La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%). El valor cero corresponde al suceso imposible y el valor uno corresponde al suceso seguro. ¿Cómo se mide la probabilidad? Uno de los métodos más utilizados es la Regla de Laplace, que establece que la probabilidad de un suceso como el cociente entre casos favorables y casos posibles. La probabilidad de que suceda el evento A es: P( A) Número de Casos Favorables Número de Casos Posibles Existen tres enfoques para asignar probabilidades: el enfoque de la probabilidad objetiva (llamada también clásica o a priori), el enfoque de la frecuencia relativa (o a posteriori) , y el enfoque de la probabilidad subjetiva. a) Probabilidad clásica u objetiva o a priori Si en un experimento pueden producirse N resultados igualmente probables y mutuamente excluyentes, y si dentro de estos N resultados al evento E puede ocurrir NE veces, la probabilidad del evento E está dada por: 19 Alejandro Valenzuela. Métodos Cuantitativos 20 P(E) = NE N Si los resultados no son mutuamente excluyentes, entonces la probabilidad de un evento es igual a la razón entre el número de resultados asociados al evento y el número de resultados posibles. Para aplicarla el experimento aleatorio tiene que cumplir dos requisitos: Primero, que el número de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos resultados, al aplicar la regla "casos favorables / casos posibles" el cociente siempre sería cero. Y segundo, todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado, algunas caras tuvieran mayor probabilidad de salir que otras, no podríamos aplicar esta regla. Se le llama a priori porque no requiere de experimentos para su cálculo ya que trata de situaciones que tienen la misma probabilidad de ocurrencia. Si se realiza un muestreo bajo este enfoque, se supone que todos los individuos de la población tienen la misma probabilidad de formar parte de la muestra. El enfoque apriorístico o de razón suficiente supone que todos los resultados tienen la misma probabilidad de ocurrencia porque se parte de otro supuesto: la simetría de los sucesos. Este enfoque presenta una limitación importante: el de los sucesos que no son simétricos. b) Probabilidad empírica o de frecuencia relativa Hay muchos casos en los que los resultados no tienen la misma probabilidad de ocurrir. En estos casos, la probabilidad de un evento debe ser estimada a través de experimentos. El estimador obtenido es la probabilidad que se asigna y es generalizable sólo bajo las mismas circunstancias en que fue estimada. 20 Alejandro Valenzuela. Métodos Cuantitativos 21 Un evento E que se produce en n repeticiones de un experimento tiene una probabilidad P(E) que, cuando n tiende a infinito, es igual al número de veces que ocurre el evento dividido entre n ensayos del experimento: P(E) = nE n Por ejemplo, alguien puede desear verificar que la probabilidad de que el suceso "aparición de cara" al lanzar una moneda sea de 0.5. Para ello, deberá repetir el experimento n veces. Supongamos que lanza la moneda 100 veces y obtiene los resultados del siguiente cuadro. La última columna se obtiene dividiendo la frecuencia acumulada entre el número de repeticiones del experimento. REPETICIÓN DEL EXPERIMENTO 10 20 30 40 50 60 70 80 90 100 APARICIÓN DE CARA 6 2 6 5 6 6 7 5 3 5 F R E C U ACUMULADA 6 8 14 19 25 31 38 43 46 51 E N C I A RELATIVA ACUMULADA 0.60 0.40 0.47 0.48 0.50 0.52 0.54 0.54 0.51 0.51 La probabilidad así calculada es un estimador de la verdadera probabilidad. En el caso anterior, mostrada en el cuadro, se conoce la probabilidad a priori, pero en muchas situaciones prácticas la probabilidad no se conoce. En tal caso: i) La probabilidad es sólo un estimador de la verdadera frecuencia de ocurrencia de un evento. ii) Conforme mayor sea el número de ensayos, mejor seré el estimador. Cuando el número de ensayos crece el estimador presenta regularidad estadística (el estimador está más cerca del verdadero valor). 21 Alejandro Valenzuela. Métodos Cuantitativos 22 Si n es el número de ensayos y nE es el número de veces que ocurre el evento A (nE n) P(A) = nE n EJEMPLO: ¿Cuál es la probabilidad de que los políticos confiesen sus verdaderas intenciones? Para saberlo, se toma una muestra grande (entre más grande mejor) y se le somete a cada uno al detector de mentiras. Supongamos los siguientes resultados: de los primeros 10 políticos sometidos a la prueba, 6 dicen la verdad. Por tanto, si la muestra fuera de 10, la probabilidad buscada sería de 0.60. Si tomamos otros 10 y de los 20 solo 8 dicen la verdad, entonces la probabilidad habrá bajado a 0.40... Supongamos que acumulamos 500 pruebas a políticos y de ellos, el número acumulado de los que dijeron la verdad es de 25, entonces tenemos una estimación más firme la respuesta. Podemos afirmar que aproximadamente el 5% de los políticos confiesan sus verdaderas intenciones. El enfoque empírico de la probabilidad tiene cuatro características: Se requiere de una gran cantidad de ensayos. Cuando el número de ensayos tiende a infinito, el estimador tiende a ser igual al verdadero parámetro. Se debe asumir regularidad estadística. La probabilidad de un evento está dada por la frecuencia relativa acumulada Por consiguiente, está basado en la experiencia. Probabilidad subjetiva Es la probabilidad que se le asigna a un evento cuando no se puede establecer ni a priori ni por experimentos. Su probabilidad depende del grado de crédito que se le asigne a la probabilidad de ocurrencia de un evento. 22 Alejandro Valenzuela. Métodos Cuantitativos 23 En muchas situaciones la probabilidad no puede ser asignada por los métodos clásico o empírico porque no se deriva de hechos. En estos casos la probabilidad es subjetiva porque es una evaluación personal de un evento. Es, por tanto, el resultado de un esfuerzo por cuantificar nuestros sentimientos o creencias acerca de los sucesos. Las limitaciones de este enfoque son: i) Es difícil sostener el pronóstico si es cuestionado. ii) El prejuicio puede ser un factor importante. Los conocimientos, la experiencia, la preparación y el profesionalismo, pueden ayudar a vencer esas dificultades. En ese sentido, la probabilidad subjetiva es parecida a la empírica salvo por el hecho de que no es posible recolectar datos. Sin embargo, si existe alguna experiencia respecto a la frecuencia relativa de un suceso (una probabilidad empírica), entonces la probabilidad puede ser asignada. 6. Reglas para el cálculo de probabilidades Dados los enfoques de probabilidad, hay un conjunto de reglas para el cálculo de probabilidades que se resumen en el siguiente esquema: Regla de la suma. Se aplica en dos casos: Para eventos no mutuamente excluyentes Para eventos mutuamente excluyentes. Probabilidad condicional y probabilidad conjunta (la Regla de la multiplicación) 23 Alejandro Valenzuela. Métodos Cuantitativos 24 a) Regla de la suma Eventos mutuamente excluyentes. La probabilidad de ocurrencia de alguno de los eventos es igual a la suma de las probabilidades individuales. Son probabilidades del tipo A o B. P( A B) P( A) P( B) Por ejemplo, la probabilidad de elegir un as o un rey en una baraja de 52 cartas es: P( A R) 4 4 0.15 52 52 Eventos que no son mutuamente excluyentes. Estos eventos tienen una intersección. La probabilidad del evento A o el evento B es la suma de sus probabilidades menos la probabilidad de que ambos ocurran al mismo tiempo: P( A B) P( A) P( B) P( A B) Por ejemplo, la probabilidad de elegir un corazón o un as en una baraja de 52 cartas (sabiendo que 13 cartas son de corazones y 4 son ases, pero de los 4 ases uno es de corazones): P( A R) 13 4 1 0.31 52 52 52 b) Probabilidad condicional y probabilidad conjunta La probabilidad condicional y la regla de la multiplicación son complementarias. La probabilidad condicional, P(A | B), es la probabilidad de que ocurra un evento dado que otro ha ocurrido. La probabilidad conjunta, P(AB), se obtiene con la regla de la multiplicación sobre la base de la probabilidad conjunta. Las formulas son las siguientes. La primera es la probabilidad condicional y la segunda es la probabilidad conjunta. 24 Alejandro Valenzuela. Métodos Cuantitativos 25 P( A | B) = P(A B) P(B) P(A B) P(B) P( A | B ) Veremos primero la probabilidad condicional y luego la probabilidad conjunta y la regla de la multiplicación. Hay sucesos cuya probabilidad depende de la ocurrencia de otro evento. Si el “número de casos posibles” de la regla de Laplace (el denominador) es el conjunto universal, las probabilidades son incondicionales. Pero si es un subconjunto propio del conjunto universal, entonces se trata de probabilidades condicionales, es decir, la aparición de un evento dependerá del subconjunto mencionado. Por ejemplo, un meteorólogo puede estar interesado en los días lluviosos en el año. Si estima las probabilidades dentro de los 365 días del año, la probabilidad será incondicional porque todos los días del año son el conjunto universal. Pero si el meteorólogo está interesado en calcular la probabilidad de lluvia tomando en consideración sólo los días nublados, entonces estará buscando la probabilidad condicional al hecho de que los días estén nublados. Los días nublados son un subconjunto de todos los días del periodo, y los días lluviosos son eventos que forman parte del subconjunto de días nublados. Esto es, la probabilidad condicional se expresa como la probabilidad de que ocurra el evento A dado que B ha ocurrido. La probabilidad conjunta es la parte P(A B) , es decir, probabilidades del tipo A y B donde A y B ocurren simultáneamente. EJEMPLO 1. Hay 25 solicitudes para un puesto. El cuadro siguiente organiza la información sobre los solicitantes bajo las siguientes simbologías: A1: Hombres; A2: Mujeres; B1: Con licenciatura, B2: Con maestría B1 B2 T A1 7 3 10 A2 10 5 15 T 17 8 25 25 Alejandro Valenzuela. Métodos Cuantitativos 26 ¿Cuál es la probabilidad de que se elija a una mujer si la selección se hace entre los que tienen maestría? Lo que se busca es P(A2|B2). Siguiendo la fórmula: Primero, encontramos la probabilidad conjunta: la probabilidad de A2 y la probabilidad de B2: P( A2 B 2 ) ( A B) 5 0.20 TT 25 Segundo, obtenemos la probabilidad del subconjunto de interés, es decir, la probabilidad de B2: P( B2 ) TB2 8 0.32 TT 25 Tercero, obtenemos la probabilidad condicional, es decir, la probabilidad de A2 dada la probabilidad de B2: P( A2 | B2 ) = P(A2 B2 ) 0.20 0.625 P(B2 ) 0.32 Es decir, la probabilidad de elegir a una mujer que tenga maestría es de 62.5 por ciento. EJEMPLO 2. En una colonia de Hermosillo, AGUAH ha investigado sobre los hábitos de pago y sobre los ingresos de una colonia con 2000 casas-habitación. Los resultados son los siguientes: A1 = Los que pagan a tiempo: 1250 A2 = Los que tienen algún retraso: 750 X1 = Los que tienen ingreso igual o mayor que 10 SM: 200 X2 = Los que tienen ingreso menor que 10 SM: 1800 La información adicional se añade en el siguiente cuadro: 26 Alejandro Valenzuela. Métodos Cuantitativos 27 CUADRO 1. INFORMACIÓN GENERAL A1 A2 X1 150 50 X2 1100 700 T 1250 750 T 200 1800 2000 ¿Cuál es la probabilidad de elegir a alguien con ingresos iguales o mayores a 10 SM si la elección se hace entre los que pagan a tiempo? El siguiente cuadro muestra las probabilidades conjuntas. Se obtiene dividiendo cada casilla del cuadro anterior entre el total total, es decir, entre 2000. CUADRO 2. PROBABILIDADES CONJUNTAS A1 A2 T X1 0.075 0.025 0.10 X2 0.550 0.350 0.90 T 0.625 0.375 1.00 Las probabilidades condicionales se obtienen dividiendo cada una de las casillas del cuadro anterior entre el total de cada columna (es decir, entre 0.625 o 0.375, según sea el caso o la condición). Nos replanteamos la pregunta inicial: ¿Cuál es la probabilidad de elegir a alguien con ingresos iguales o mayores a 10 SM si la elección se hace entre los que pagan a tiempo?: P( X 1 | A1 ) = P(X 1 A1 ) 0.075 0.12 P(A1 ) 0.625 Las demás probabilidades condicionales son: P( X 1 | A2 ) = P(X 1 A2 ) 0.025 0.067 P(A2 ) 0.375 27 Alejandro Valenzuela. Métodos Cuantitativos 28 P( X 2 | A1 ) = P(X 2 A1 ) 0.550 0.88 P(A1 ) 0.625 P( X 2 | A2 ) = P(X 2 A2 ) 0.350 0.933 P(A2 ) 0.375 P( A1 | X 1 ) = P(A1 X 1 ) 0.075 0.75 P(X 1 ) 0.10 P( A1 | X 2 ) = P(A1 X 2 ) 0.550 0.611 P(X 2 ) 0.90 P( A2 | X 1 ) = P(A2 X 1 ) 0.025 0.25 P(X 1 ) 0.10 P( A2 | X 2 ) = P(A2 X 2 ) 0.350 0.389 P(X 2 ) 0.90 c) Regla de la multiplicación En muchas situaciones prácticas se requiere calcular la probabilidad de que dos eventos resulten simultáneamente en un experimento. Desde la fórmula de la probabilidad condicional se despeja, como ya lo vimos al inicio de la sección anterior, la parte de la probabilidad conjunta, P(A B): P(A B) P(B) P( A | B ) Muchas veces no es posible circunscribir la elección al grupo de interés, que es lo que se hace con la probabilidad condicional. Por ejemplo, un gerente puede querer que la persona contratada sea una mujer con maestría. Para esto bastará con que circunscriba la elección solo 28 Alejandro Valenzuela. Métodos Cuantitativos 29 entre los que tienen maestría para obtener la probabilidad de que sea mujer. O puede circunscribir la elección a las mujeres y luego evaluar la probabilidad de que tenga maestría. Se puede saber cuál es la probabilidad condicional, pero si no se puede circunscribir el conjunto de interés, la elección tendrá que hacerse al azar. Eventos dependientes: Todo el desarrollo del apartado anterior y de este apartado hasta este punto está construido bajo el supuesto de que los eventos son dependientes. De la fórmula de la probabilidad condicional, despéjese P(A B) y se tiene: P( A B) P( B) P( A | B) Del ejemplo 1 del apartado anterior, la probabilidad de B2 es de 0.32 y la probabilidad de A2 dado que B2 es de 0.625. Por tanto: P(A B) (0.32) (0.625) 0.20 Nótese que la probabilidad condicional y la probabilidad conjunta son complementarios. Si se tiene una, se puede calcular la otra, y viceversa. Eventos independientes Muchos eventos no están condicionados por la ocurrencia de otro y se dice que son estadísticamente independientes. En este caso las probabilidades condicionadas se reducen a la probabilidad del evento en cuestión, es decir: P( A | B) = P(A) 29 Alejandro Valenzuela. Métodos Cuantitativos 30 En este caso, la probabilidad conjunta, expresada por P(A B) = P( B) P( A | B) Se reduce, para eventos independientes, a: P(A B) = P(A) P(B) Por ejemplo, ¿Cuál es la probabilidad de que la Sra. Pérez de a luz una niña (evento A) durante un día de lluvia (evento B)? Como ambos eventos son independientes uno del otro, la probabilidad del evento conjunto es igual al producto de las probabilidades de ambos eventos. 7. Teorema de Bayes El Teorema de Bayes calcula la probabilidad a posteriori y sigue el proceso inverso al teorema de la probabilidad total. Teorema de la probabilidad total: a partir de las probabilidades del suceso A (probabilidad de que llueva o de que haga buen tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente). Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente) deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?). Nótese que el Teorema de Bayes es una probabilidad condicional. Pero las probabilidades condicionales definen la condición y luego se calcula la probabilidad del evento de interés. Si de pronto el evento de interés se convierte en la condición, entonces se aplica el teorema de Bayes. Podemos resumirlo de la siguiente manera: 1) Supongamos la siguiente probabilidad condicional: P( B | A) P( A B ) P( A) 30 Alejandro Valenzuela. Métodos Cuantitativos 31 Aquí, B = evento de interés; A = condición; P(AB) = probabilidad conjunta; P(A) es la probabilidad a priori y P(B|A) = probabilidad condicional. 2) Si de pronto la condición se convierte en el evento de interés y el evento de interés se convierte en la condición, entonces tenemos que preguntarnos cuál es la probabilidad de lo que antes era la condición. Entramos así al terreno del teorema de Bayes. En lugar de P(B |A) tendremos P(A |B). Es decir, dado que B de hecho ha acontecido, ¿Cuál es la probabilidad de A? P( A | B ) 3) P( A B ) P( B ) De la fórmula de la probabilidad condicional (punto 1) despejemos la probabilidad conjunta. (Nótese que la probabilidad conjunta es el numerador de las expresiones de los puntos 1 y 2, pero hay que despejarla de la expresión del punto 1 (la probabilidad condicional porque no es lo mismo): P( A B ) P( A) P( B | A) Esta probabilidad conjunta es el numerador del teorema de Bayes. 4) Como en el teorema de Bayes nos preguntamos por la probabilidad del evento A, también tendremos que preguntarnos por la probabilidad de que no suceda, es decir, que suceda el complemento de A. P( A C B ) P( AC ) P( B | A C ) 5) Si en lugar de A y AC la llamamos Ai para indicar que puede tomar ambos valores (o todos los posibles valores, cuando el evento de interés forma parte de un problema de más de dos categorías), entonces las dos expresiones anteriores se pueden presentar en una sola: P( Ai B) P( Ai ) P( B | Ai ) 6) Las expresiones de los puntos 4 y 5 son la probabilidad de B tanto si ocurre A como si no ocurre. Por tanto, la P(B) del punto 2 es: 31 Alejandro Valenzuela. Métodos Cuantitativos 32 P( B) P( Ai ) P( B | Ai ) Esta probabilidad es el denominador del teorema de Bayes. 7) Así, la fórmula de Bayes del punto 2 puede ser escrita también de la siguiente manera: P( Ai | B) P( Ai ) P( B | Ai ) P( Ai ) P( B | Ai ) Clarifiquemos el punto con algunos ejemplos. EJEMPLO 1. En el caso del estudio sobre ingresos y hábitos de pago hecho por AGUAH en una colonia de Hermosillo, la probabilidad de elegir a alguien con ingresos iguales o mayores a 10 SM si la elección se hace entre los que pagan a tiempo, es decir, la elección de un rico (X1) con la condición de que sea pagador (A1), es: P( X 1 | A1 ) = P(X 1 A1 ) 0.075 0.12 P(A1 ) 0.625 Note que aquí la condición es que pague a tiempo y el evento de interés es que sea rico. Si el evento de interés se convierte en la condición, es decir, si se va a elegir un rico, entonces la condición se convierte en el evento de interés, es decir, ¿Cuál es la probabilidad de elegir a alguien que pague a tiempo? Esa probabilidad se obtiene por el teorema de Bayes y está dada por: P( A1 | X 1 ) = P(X 1 A1 ) 0.075 0.75 P(X 1 ) 0.10 Nótese que P(X1A1) = P(A1). P(X1|A1) que se obtiene simplemente despejando el numerador en la probabilidad condicional. Lo verificamos multiplicando P(A1)=0.625 y P(X1|A1)=0.12 que da 0.75. Nótese también que P(X1) = P(A1). P(X1|A1) + P(A2). P(X1|A2) = 0.075 + 0.025 = 0.10. Desde luego, los dos sumandos anteriores se pueden expresar también como lo dice el denominador de la fórmula de Bayes: p(Ai) P(X1|Ai). Las probabilidades a priori son P(A1) y P(A2) Las probabilidades condicionales son P(X1|A1) y P(X1|A2) Las probabilidades conjuntas son P(X1A1) y P(X1A2) 32 Alejandro Valenzuela. Métodos Cuantitativos 33 Si ponemos esta información en un cuadro, quedará: Probabilidad a Priori Probabilidad Condicional Probabilidad Conjunta P(Ai) P(X1|Ai) P(AiX1) = P(Ai).P(X1|Ai) P(A1) 0.625 0.12 0.075 P(A2) 0.375 0.067 0.025 SUMA = 0.10 Nótese que el resultado que obtuvimos anteriormente resulta de dividir la probabilidad conjunta, que es 0.075, entre la suma de las probabilidades conjuntas, que es 0.10. EJEMPLO 2. En el grupo de la sexta generación del ISAP hay 12 mujeres y 12 hombres. Del total de 24 estudiantes, 8 (3 hombres y 5 mujeres) tienen licenciatura en derecho o en administración (L1) y el resto, 16 estudiantes (9 hombres y 7 mujeres), tienen otra licenciatura (L2). DATOS H M T L1 3 5 8 L2 9 7 16 T 12 12 24 L2 0.38 0.29 0.67 T 0.50 0.50 1.00 PROBABILIDADES CONJUNTAS H M T L1 0.13 0.21 0.33 Elegimos antes la condición: en este caso es el nivel de escolaridad. Una vez elegida la condición, el evento de interés es el sexo. Las probabilidades de elegir hombre o mujer, condicionadas a la profesión, son: P( H | L1 ) P( H L1 ) 0.13 0.394 P( L1 ) 0.33 P( H | L2 ) P( H L2 ) 0.38 0.567 P( L2 ) 0.67 P( M | L1 ) P( M L1 ) 0.21 0.6363 P( L1 ) 0.33 33 Alejandro Valenzuela. Métodos Cuantitativos 34 P( M | L2 ) P( M L2 ) 0.29 0.4328 P( L2 ) 0.67 Si la condición se transforma en el evento de interés y viceversa, entonces se aplica el Teorema de Bayes. Supongamos que ahora se quiere elegir a una mujer. La profesión era antes la condición, ahora es el evento de interés porque dado que tiene que ser mujer, la pregunta pertinente es, por ejemplo, ¿Cuál es la probabilidad de elegir una mujer que sea abogada o administradora? Esto es: P( L1 | M ) P( L1 ) P( M | L1 ) P( Li ) P( M | Li ) La Li significa que se i = 1, se trata de abogados o administradores; si i = 2, se trata de otras profesiones. Nótese que esta fórmula podría escribirse también de la siguiente manera: P( L1 | M ) P( L1 M ) P( L1 M ) 0.21 0.21 0.42 P( L1 M ) P( L2 M ) P( M ) 0.21 0.29 0.50 Nótese que no es circunstancial que la probabilidad conjunta de numerador (el 0.21) es el resultado de multiplicar la probabilidad a priori de L1 (que es 0.33) y la probabilidad de elegir una mujer entre los abogados o administradores, es decir, P(M | L1) = 0.6363. Nótese también que el denominador es la suma de las probabilidades conjuntas de M (con L1 y L2), lo que es, además, la probabilidad a priori de M (es decir, 0.50). Podemos organizar lo anterior de la siguiente manera: P R O B A B I L I D A D E S A PRIORI CONDICIONAL CONJUNTA P(Li) (Li | M) P(Li).P(M | Li) 0.33 0.64 0.21 0.67 0.43 0.29 SUMA ==> 0.50 34 Alejandro Valenzuela. Métodos Cuantitativos 35 La primera columna muestra las probabilidades a priori del evento de interés y de su complemento. La segunda muestra las probabilidades condicionales del evento de interés, y la tercera muestra el producto de las dos anteriores (las probabilidades conjuntas). Al final de la tercera columna aparece la suma de las probabilidades conjuntas, que sirve de denominador al teorema de Bayes. Note que el resultado anterior es el cociente de 0.21 y 0.50, que arroja 0.42, el resultado ya obtenido. EJEMPLO 3: El parte meteorológico ha anunciado tres posibilidades para el fin de semana: Que llueva (A1): probabilidad del 50%. Que nieve (A2): probabilidad del 30% Que haya niebla (A3): probabilidad del 20% La probabilidad de que ocurra un accidente, B, bajo cada uno de los siguientes escenarios, es la siguiente: a) Si llueve, B1: probabilidad de accidente del 10%. b) Si nieva, B2: probabilidad de accidente del 20% c) Si hay niebla, B3: probabilidad de accidente del 5%. Resulta que efectivamente ocurre un accidente y, como no estábamos en la ciudad, no sabemos que tiempo hizo (llovió, nevó o hubo niebla). El teorema de Bayes nos permite calcular estas probabilidades: Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se denominan "probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el 20%). Una vez que incorporamos la información de que ha ocurrido un accidente, las probabilidades del suceso A cambian: son probabilidades condicionadas (A | B), que se denominan "probabilidades a posteriori". Vamos a aplicar la fórmula: 35 Alejandro Valenzuela. Métodos Cuantitativos 36 P( Ai | B) P( Ai ) P( B | Ai ) P( Ai ) P( B | Ai ) Supóngase que ha sucedido un accidente (B) Probabilidad a Priori Probabilidad Condicional Probabilidad Conjunta P(Ai) P(B|Ai) P(AiB) = P(Ai).P(B|Ai) P(A1) 0.50 0.10 0.05 P(A2) 0.30 0.20 0.06 P(A3) 0.20 0.05 0.01 SUMA = 0.12 Probabilidad de que estuviera lloviendo: P( A1 | B ) 0.05 0.417 0.12 La probabilidad de que efectivamente estuviera lloviendo el día del accidente (probabilidad a posteriori) es del 41.66%. Probabilidad de que estuviera nevando P(A2|B): P( A2 | B ) 0.06 0.50 0.12 La probabilidad de que efectivamente estuviera nevando el día del accidente (probabilidad a posteriori) es del 50%. Probabilidad de que hubiera niebla: P( A3 | B ) 0.01 0.083 0.12 La probabilidad de que efectivamente hubiera niebla el día del accidente (probabilidad a posteriori) es del 8.33%. 36 Alejandro Valenzuela. Métodos Cuantitativos 37 Resumamos de nuevo el algoritmo: 1) Se determinan las probabilidades a priori; 2) se multiplican por las probabilidades condicionales correspondientes; 3) se obtienen todas las probabilidades conjuntas; 4) Se suman las probabilidades conjuntas y esa suma constituye el denominador, y 5) Se divide cada una de las probabilidades conjuntas entra la suma de las probabilidades conjuntas. EJEMPLO 4. La Cámara de Diputados va a votar el proyecto de reforma fiscal que enviará al congreso el Presidente Felipe Calderón. La Cámara de Diputados tiene 500 diputados con la siguiente composición: CUADRO 1. DISTRIBUCIÓN DE DIPUTADOS PARTIDO PAN (A1) PRD (A2) PRI (A3) OTROS (A4) TOTAL DIPUTADOS 206 127 106 61 500 PROPORCIÓN 0.412 0.254 0.212 0.122 1.000 La columna de PROPORCIÓN muestra las probabilidades de a priori, o incondicionales, es decir, la probabilidad que habría de elegir al azar un diputado que sea de un partido en particular considerando que son 500 diputados. Si llamamos B al evento “oponerse”, se sabe que algunos diputados se oponen al proyecto de reformas estructurales. Los números de los opositores y sus probabilidades condicionales (que se opongan dado que pertenecen a un partido en particular) son: CUADRO 2. OPOSITORES POR PARTIDO PARTIDO PAN (A1) PRD (A2) PRI (A3) OTROS (A4) TOTAL DIPUTADOS 206 127 106 61 500 SE OPONEN 10 100 69 32 211 P(B | Ai) 0.05 0.79 0.65 0.52 0.42 La probabilidad conjunta (la última columna del cuadro siguiente), que es el producto de la probabilidad de que un diputado sea de un partido específico por la probabilidad de que 37 Alejandro Valenzuela. Métodos Cuantitativos 38 se oponga dado que es de ese partido específico (el producto de las proporciones del cuadro 1 y las probabilidades condicionales del cuadro 2), son: CUADRO 3. TEOREMA DE BAYES P(B | Ai) P(Ai) A PRIORI CONDICIONAL PAN (A1) 0.412 0.05 PRD (A2) 0.254 0.79 PRI (A3) 0.212 0.65 OTROS (A4) 0.122 0.52 SUMA DE PROBABILIDADES CONJUNTAS==> PARTIDO P(Ai).P(B | Ai) CONJUNTAS 0.02 0.20 0.14 0.06 0.42 Nótese que B, el acto de oponerse, era el evento condicionado a la pertenencia de un partido (el partido era la condición). Supongamos que se quiere elegir a un opositor al proyecto, ¿Cuál es la probabilidad de que dicho opositor sea de un partido determinado? Es decir, la condición (pertenecer a un partido) se convierte en el evento de interés. P( Ai | B) P( Ai ) P( B | Ai ) P( Ai ) P( B | Ai ) Nótese los renglones 2, 3, 4 y 5 de la última columna del cuadro 3 son el numerador y que el renglón 6 es el denominador. ¿Cuál es la probabilidad de que dicho opositor sea del PAN? P( A1 | B ) ¿Cuál es la probabilidad de que dicho opositor sea del PRD? P( A2 | B ) 0.02 0.047 0.42 0.20 0.476 0.42 ¿Cuál es la probabilidad de que dicho opositor sea del PRI? 38 Alejandro Valenzuela. Métodos Cuantitativos 39 P( A3 | B ) 0.14 0.333 0.42 ¿Cuál es la probabilidad de que dicho opositor sea de la chiquillada? P( Ai | B ) 0.06 0.143 0.42 Bibliografía Daniels (1981).Capítulo 2. Stevenson (1985). Capítulos 3 Mansfield (1986). Capítulos 3 39 Alejandro Valenzuela. Métodos Cuantitativos 40 III. DISTRIBUCIONES DE PROBABILIDAD Este tema es una continuación de la teoría de la probabilidad y sus elementos básicos de análisis son las variables aleatorias, sus probabilidades y cómo se distribuyen éstas. Si la probabilidad de un espacio muestral es 1, la distribución de probabilidad indica cómo se distribuye el 1 entre los distintos valores que la variable aleatoria puede asumir. Así pues, la distribución de probabilidad o función de probabilidad es cualquier regla o mecanismo que sirva para determinar la probabilidad de que la variable X tome algún valor particular x, es decir: f ( x) P( X x) Las características de una función de probabilidad son: P(X = x) 0 y P(X = x) = 1 La función de distribución acumulada (de que X asuma valores menores o iguales a x) es: f ( x) P( X x) El hecho de que las variables aleatorias pueden ser discretas o continuas da lugar a que las distribuciones de probabilidad sean también continuas o discretas. Al estudiar distribuciones de probabilidad, uno debe tratar de concentrarse en las siguientes cuestiones: a) Qué supuestos o restricciones básicas requiere cada distribución de probabilidad? y b) Cómo puede ser usada para obtener solución a los problemas? 40 Alejandro Valenzuela. Métodos Cuantitativos 41 1. Distribuciones de probabilidad discretas Las distribuciones de probabilidad discretas son las que tratan de variables aleatorias que se miden por números enteros. Las distribuciones de probabilidad discretas más importantes son la binomial y la de Poisson aunque existen otras como la multinomial, la hipergeométrica, etc. a) La distribución binomial El término binomial es usado para designar situaciones en las cuales los resultados de variables aleatorias pueden ser agrupados solamente en dos clases o categorías a las que se les puede asignar arbitrariamente un número como cero y uno. Los dos posibles resultados de un experimento (llamados ensayos de Bernoulli) son mutuamente excluyentes (no pueden aparecer al mismo tiempo) y exhaustivos (no hay otros resultados posibles). Un ensayo de Bernoulli se realiza una sola vez y tiene únicamente dos posibles resultados (éxito. E, o fracaso, F). La distribución binomial se aplica cuando se realizan un número n de veces el experimento de Bernoulli, siendo cada ensayo independiente del anterior. Las variables con resultados múltiples (más de dos) también pueden ser tratados como binomiales si sólo uno de los resultados es el de interés (los dos resultados serían el de interés y todos los demás). Por ejemplo, en un examen de elección múltiple sólo interesa saber si se marcó la respuesta correcta o alguna de las incorrectas. 41 Alejandro Valenzuela. Métodos Cuantitativos 42 Convencionalmente, la probabilidad de un éxito se denomina p: P(E) = p. Y la probabilidad de un fracaso se denomina q: P(F) = 1p = q Desde luego que P(E) + P(F) = 1 La distribución binomial es útil para determinar la probabilidad de un número de éxitos (x) en un número dado de observaciones o ensayos de un experimento (n). Supuestos y características de la distribución binomial: Hay n idénticas observaciones o ensayos (una muestra es de tamaño n observaciones donde cada individuo fue elegido bajo las mismas condiciones que los demás). Cada ensayo tiene dos posibles resultados (E o F) mutuamente excluyentes y exhaustivos. La probabilidad de un éxito permanece constante de un ensayo a otro. Los ensayos y sus resultados son independientes. La distribución binomial es una familia de distribuciones que depende de los parámetros n y p. Sin tomar en cuenta el valor de n, la distribución es simétrica respecto a n cuando la probabilidad de éxito, p, es igual a 0.5 y es asimétrica en cualquier otro caso. Si p > 0.5, la distribución es asimétrica a la derecha, es decir, tiene el máximo a la derecha del centro. Si p < 0.5, la distribución es asimétrica a la izquierda, es decir, tiene el máximo a la izquierda del centro. La distribución binomial se puede aplicar cuando los n ensayos se puede tomar de un número infinito de ensayos posibles y cuando la muestra se toma de una población infinita donde no importa si hay o no remplazamiento, o de una población finita. En el caso de que la población de donde se tome la muestra sea finita, importan dos casos: si los ensayos se hacen con remplazamiento o sin remplazamiento. La distribución binomial es útil si la población es grande en relación al tamaño de muestra (una relación de al menos 10 a 1 se considera adecuada) y cuando p no está muy cercana a cero o a uno. La Media de la distribución binomial es = n.p 42 Alejandro Valenzuela. Métodos Cuantitativos 43 La desviación estándar es = npq El problema se puede plantear de la siguiente manera: ¿Cuál es la probabilidad de encontrar x número de éxitos cuando un experimento se ensaya n veces? Supongamos que se conoce la probabilidad de un éxito (p) y, con ella, la probabilidad de fracaso (q); que definimos la cantidad de éxitos que se proponga encontrar (x) cuando el experimento se repite n veces. El resultado lo proporciona la siguiente fórmula: P( x k ) ( n C x ) ( p x q n x ) Nótese que la primera expresión del lado derecho es el número de combinaciones que se pueden hacer con n elementos tomando grupos de tamaño x. EJEMPLO 1. Se tira un peso 10 veces: ¿cuantas águilas salen? Si no ha salido ninguna la variable toma el valor 0; si han salido dos águilas la variable toma el valor 2; si todas han sido águilas la variable toma el valor 10. ¿Cuál es la probabilidad de obtener 6 águilas al lanzar una moneda 10 veces? En este caso: x = 6; n = 10 y p = 0.5. Esta última es una probabilidad a priori porque la probabilidad de águila al lanzar una moneda es 50%. Sustituyendo: 10! 0.5 6 (1 0.5)106 P( x 6) 6!(10 6)! Luego, P (X = 6) = 0.2051 Es decir, la probabilidad de obtener 6 caras al lanzar 10 veces una moneda es del 20.5%. La media es np = (10)(0.5) = 5 La desviación estándar es npq (10)(0.5)(0.5) 1.58 43 Alejandro Valenzuela. Métodos Cuantitativos 44 La probabilidad encontrada se puede obtener directamente de la Tabla de Distribución Binomial contenida en los apéndices de todos los libros de estadística. En dicha tabla se busca en la primera columna el número de repeticiones del experimento, n, que es de 10 en este caso. Para cada n hay (en la segunda columna) una lista de los valores que puede tomar X, es decir, x que en este caso es de 6. Se elige ese renglón. Luego, en el primer renglón, se elige el valor de p correspondiente. Donde se cruzan el renglón de x y la columna de p aparece un número. Ese número es la probabilidad buscada. Si se consulta la tabla verá que ese número es 0.2051. EJEMPLO 2. En las pasadas elecciones la votación por el PRD fue de 8 por ciento de un padrón de 200,000 votantes. Se desea formar un Consejo Municipal eligiendo al azar a 15 personas. Para el presidente municipal, el posible voto en contra de sus iniciativas es aceptable, pero no quisiera tener una oposición más grande que esa proporción. Por tanto, desea saber cuál es la probabilidad de que haya 5 perredistas en el consejo. Se puede aplicar la distribución binomial porque se trata de un problema con dos categorías: ser o no ser del PRD. DATOS: Tamaño de muestra n = 15 (personas a elegir) Número de éxitos x = 5 (número de perredistas en el consejo) Probabilidad de éxito p = 0.08 (la votación por el PRD) Probabilidad de fracaso q = 0.92 (el complemento) Primero se obtiene el número de combinaciones, tomando 15 en grupos de 5 es: 15! P( x 5) 0.08 5 (0.92) 10 0.00427 5! (15 5)! Es decir, la probabilidad de que haya 5 miembros del PRD en el consejo es de 0.427 por ciento. La media es n•p = (15)(0.05) = 1.2 44 Alejandro Valenzuela. Métodos Cuantitativos 45 Esta media indica que a la larga, para cualquier número de muestras de tamaño 15, el número de perredistas estará en alrededor de 1.2. La desviación estándar es npq (15)(0.08)(0.92) 1.05 Como esta es una distribución asimétrica a la izquierda, la probabilidad mayor corresponde a un número menor que 5. Entre más pocos se esperen, más cerca de la realidad se estará. Si, por ejemplo, la Presidenta hubiera querido la probabilidad de solo 3 del PRD (k = 3), todo lo demás igual, la probabilidad sería de 8.56% (verifique sustituyendo 3 por 5 y 12 por 10 en la fórmula anterior). En las tablas se busca la n correspondiente, que es 15; se busca la x que es 5, y se busca la probabilidad de un éxito, que en este caso es de 0.08. Esta última probabilidad puede no estar listada. En la tabla consultada estaba 0.05 y 0.10, a lo que corresponden probabilidades de 0.0006 y 0.0105. El valor encontrado, 0.00427, está entre esos dos valores. Un promedio de los dos valores encontrados en tablas da un valor de 0.00555, que es aproximado a la probabilidad encontrada por medio de la fórmula. El valor no es exacto porque p es muy bajo. Cuando se busque en tablas valores de p mayores que 0.5, en lugar de p se busca q para n-x en lugar de x. La distribución binomial acumulada Es la suma de las probabilidades hasta, a partir de, o en un intervalo de x. Esto es, se buscan las probabilidades individuales y se suman. Continuando el ejemplo anterior, si se quiere saber la probabilidad de elegir a 5 o menos consejeros del PRD, se obtienen las probabilidades de cada uno de los valores que toma X, que en este caso son 0, 1, 2, 3, 4 y 5, y se suman (considérese que 0! = 1): 15! 0.08 0 (1 0.08)15 0.286297 P( x 0) 0!(15 0)! 45 Alejandro Valenzuela. Métodos Cuantitativos 46 15! 0.081 (1 0.08)14 0.373431 P( x 1) 1!(15 1)! 15! 0.08 2 (1 0.08)13 0.227306 P( x 2) 2!(15 2)! 15! 0.083 (1 0.08)12 0.085652 P( x 3) 3!(15 0)! 15! 0.08 4 (1 0.08)11 0.022344 P( x 4) 4!(15 4)! 15! 0.085 (1 0.08)155 0.00427 P( x 5) 5 ! ( 15 5 )! La suma de estas probabilidades es 0.999305. Esto significa que la probabilidad de elegir a 5 o menos perredistas para el consejo municipal es de 99.93%, lo que quiere decir que la probabilidad de elegir a más de 5 es de 0.0695%. Existen también tablas de la binomial acumulada. Se busca exactamente igual que la probabilidad binomial individual. b) La distribución de Poisson La distribución de Poisson describe la distribución de ocurrencias (discretas) sobre un intervalo o campo continuo como el tiempo y el espacio. La unidad sobre la que se mide es continua, pero la variable aleatoria, el número de ocurrencias, es discreto. Algunos ejemplos del tipo de problemas donde se aplica son llamadas telefónicas recibidas por unidad de tiempo, el número de errores tipográficos en una página, etc. 46 Alejandro Valenzuela. Métodos Cuantitativos 47 En este tipo de distribución los fracasos no son contabilizados. Por ejemplo, el número de llamadas no recibidas o el número de errores no cometidos no entran en la contabilidad. La distribución de Poisson es un tipo de distribución binomial. Cuando en una distribución binomial n es muy grande (un número elevado de experimentos) y la probabilidad de éxito, p, es reducida, entonces se aplica la distribución de Poisson. En particular: p < 0.10 p • n < 10 (la media) Las características de la distribución de Poisson son las siguientes: La probabilidad de ocurrencia son las mismas a través de todo el campo de observación. Por ejemplo una hora de llamadas telefónicas debe ser una medida similar a cualquier otra hora dentro del horario de actividades. También, una página de un libro deberá ser igual a cualquier otra página. La probabilidad de más de una ocurrencia en un intervalo muy pequeño es aproximadamente cero. El número de ocurrencias en un intervalo es independiente de número de ocurrencias en otro intervalo. La distribución de Poisson se describe por un sólo parámetro, la media. Si se sabe que una variable aleatoria sigue la distribución de Poisson y si se sabe el número promedio de ocurrencias (la media) por unidad, entonces se puede determinar la probabilidad de uno o todos los posibles resultados. Para determinar esta probabilidad existe, al igual que en la distribución binomial, una fórmula y unas tablas. La probabilidad de que X tome un valor específico, está dada por la siguiente fórmula: P(X x) = x x! e - 47 Alejandro Valenzuela. Métodos Cuantitativos 48 Aquí: (p•n) es la media o número de ocurrencias esperadas por unidad x es el número específico de ocurrencias. e es el número 2.78183...1 La probabilidad acumulada por debajo o por encima de un valor específico de X o en un intervalo, se obtiene por el mismo procedimiento que en la distribución binomial: se busca la probabilidad individual de cada valor dentro del rango de interés y luego se suman, aunque hay también tablas de Poisson acumuladas. Las tablas de la distribución de Poisson tiene valores sólo de X y de dado que esta distribución es función sólo de la media. Con base en la segunda característica de la distribución de Poisson (que la probabilidad de más de una ocurrencia en un intervalo muy pequeño es aproximadamente cero) y dado que la media de un intervalo pequeño debe ser también pequeña, el número de X para cada rango de medias crece con el tamaño de la media. Así para medias menores de 0.1 se enlistan sólo hasta 3 valores de X; para medias de 0.1 hasta 1.0 se enlistan 7 y así sucesivamente. El número e es un número trascendente, es decir, que no es raíz de ningún polinomio. Es, además, el único número cuyo logaritmo natural es 1. Está, también, dado por el siguiente límite: 1 1 e lim 1 x x x El logarítmo de un número es aquel al cual hay que elevar otro número (llamado base) para obtenerlo. Por ejemplo, si Y b x , entonces el ln Y x ln b . Pero si Lnb = 1, ln Y x El único número que cumple la condición es el número e. 48 Alejandro Valenzuela. Métodos Cuantitativos 49 Para encontrar el valor individual de una probabilidad basta con buscar el valor de la media en el primer renglón y el valor de la X en la primera columna. La probabilidad está dada en la intersección de ambas. Nótese que la máxima probabilidad se presenta cuando X =.. Existen tablas que presentan la probabilidad acumulada y sus valores se presentan sumando los valores anteriores por columna (es decir para cada media particular). La probabilidad de intervalo se encuentra restando al valor de la probabilidad del límite superior la probabilidad del límite inferior. EJEMPLO 1. Si se sabe que al dispensador de turnos de la farmacia del ISSSTESON ubicada en el Hospital Chávez llegan en promedio 5 usuarios cada 10 minutos, ¿Cuál es la probabilidad de que en un espacio específico de 10 minutos elegido al azar lleguen 7 usuarios? 7 P( 7 ) = 5 -5 e 0.1044 7! Verificar este valor en la tabla para = 5 y x = 7. EJEMPLO 2. Se sabe que en Hermosillo un 7% de los carros son de procedencia extranjera. Según Tránsito Municipal, cada hora pasan 100 carros por el crucero de Hermosillo Flash. Si uno se para en ese crucero durante una hora, ¿Cuál es la probabilidad de observar 3 autos de procedencia extranjera? Y ¿Cuál es la probabilidad de observar 10? = (0.07)(100) = 7 x=3 P( 3 ) = 7 3 -7 e 0.0521 3! Verificar este valor en la tabla para = 7 y x = 3. 49 Alejandro Valenzuela. Métodos Cuantitativos 50 EJEMPLO 3. Cada día se revisan 1000 vehículos en el Precos de Pótam, los soldados encuentran 20 que transportan algún tipo de droga. ¿Cuál es la probabilidad de que un día específico descubran 15 vehículos con droga? = (20/1000) = 0.02 x = 20 P( 3 ) = 0.02 20 -0.02 1.2 x10 34 0 e 20! 2.4 x1018 Para una media tan pequeña, la probabilidad de encontrar un número tan grande como 20 es prácticamente cero. No es que sea imposible (porque muy bien un día a los narcos se les podría ocurrir enviar un convoy de 20 carros cargados), pero la probabilidad de que eso suceda y además encontrarlos un día específico es muy, pero muy reducida. Vea usted en la tabla de Poisson que para = 0.02, en x = 3 la probabilidad se hace cero. Aproximación de la binomial a la Poisson Bajo ciertas circunstancias, la distribución de Poisson puede usarse como una aproximación a la binomial. Esta aproximación se usa cuando n es grande y p está muy próxima a cero o a uno. Generalmente es difícil trabajar la binomial con n mayor que 20 por la limitación de las tablas y por lo engorroso que se vuelve la fórmula. La aproximación, en cambio, facilita las cosas porque basta con determinar la media. Por ejemplo, si n = 300 y p = 0.02, la probabilidad de encontrar exactamente 4 éxitos puede hacerse por dos procedimientos: por la fórmula o por la aproximación a la binomial. Por el uso de la formula binomial (las tablas no se pueden usar porque para n =20 tomaría varias páginas): 300! 0.02 4 (1 0.08) 3004 0.1338 P( x 4) 4!(300 4)! 50 Alejandro Valenzuela. Métodos Cuantitativos 51 Por aproximación a la distribución de Poisson (que se basa solo en la media): como en la binomial, la media está dada por n•p, entonces se calcula multiplicando (300)(0.02) = 6, y a partir de este resultado se puede emplear la fórmula de Poisson: P( X 4) 4 -6 6 e 0.1338 4! Si aplicáramos la aproximación al ejemplo del consejo municipal donde se busca la probabilidad de que haya 5 miembros del PRD (donde n = 15 y p = 0.08, con lo que la media es = 1.2), encontraríamos que la probabilidad, por la regla de Poisson, es: P( X 5) 1.2 5 1.2 e 0.0062 5! Aplicando la regla binomial encontramos que esta probabilidad es de 0.0043. La diferencia se debe a que n (15 en este caso) no es suficientemente grande. Conforme n crece y p disminuye, ambos métodos tienden a convergir. También, una vez que se obtiene la media, se pueden usar las tablas de la distribución de Poisson: buscando para = 6 y para x = 4 se encuentra 0.1339, siendo ambos, el de la fórmula y el de las tablas, muy aproximados al valor resultante de la binomial. 2. Distribución de variables continuas Cuando las variables aleatorias asumen valores continuos, lo que se busca es determinar la probabilidad de que X asuma valores dentro de un intervalo (porque un valor puntual tiene una probabilidad prácticamente de cero: ¿Cual es la probabilidad de que un cliente llegue a la caja a las 11:05:56? Pues si no es cero, le falta muy poco para serlo. Por tanto: 51 Alejandro Valenzuela. Métodos Cuantitativos 52 P(X x) P(X x) P(x1 X x2) Una variable aleatoria continua puede asumir una cantidad infinita de valores dentro de un intervalo. Por ello es imposible hablar de un resultado específico en variables continuas. La probabilidad está dada por el porcentaje del área entre dos puntos (respecto al área total, que es 1). De las distribuciones continuas, veremos aquí solamente la normal (y una variante de ella, que es la t de student) y la exponencial. Ambas, incluyendo la variante, se usaran profusamente en este curso. a) Distribución normal La distribución normal es la más usada de las distribuciones de probabilidad de variables aleatorias continuas en las que los valores que están más cerca de la media tienen mayor probabilidad de ocurrir que los que están más alejados. Esa característica, y el hecho de que es continua, es lo que da a la gráfica de esta distribución la forma de campana de Gauss. El área que está bajo la campana es la probabilidad total, por tanto, tiene un valor de 1. Cualquier sub-área en esa campana, es decir, la probabilidad de que una variable asuma un valor entre dos puntos (entre x1 y x1) es igual a la proporción de esa sub-área en el área total. La distribución normal se basa en dos parámetros: la media y la desviación estándar, por lo que es una familia de distribuciones habiendo una para cada par de valores de la media y la desviación estándar. El área entre cualquier punto y la media está en función sólo del número de desviaciones estándar en que el punto esté alejado de la media, lo cual constituye la clave para la medición de las probabilidades bajo este enfoque. 52 Alejandro Valenzuela. Métodos Cuantitativos 53 En resumen, las características de la distribución normal son las siguientes: 1) Tiene forma de campana lo que implica que es unimodal y la moda y la media son iguales. 2) Es simétrica al rededor de la media de la distribución. Por tanto, la probabilidad de observar un valor por encima o por debajo de la media es igual a 50 por ciento. 3) Se extiende de menos infinito a más infinito, lo que implica que la curva es asintótica. 4) Hay una distribución normal para cada valor de la media y la desviación estándar. 5) El área total bajo la curva normal es el 100 por ciento. 6) La proporción del área bajo la curva entre dos puntos es igual a la probabilidad de que una variable aleatoria normalmente distribuida asuma un valor entre esos dos puntos. 7) Dado que el rango de la distribución va de menos a más infinito, la probabilidad de que una variable aleatoria asuma un valor específico dado es aproximadamente igual a cero. Por ello las probabilidades están dadas siempre en un intervalo. 8) El área bajo la curva entre la media y cualquier otro punto es función sólo del número de desviaciones estándar en que el punto esté alejado de la media. 9) Si una variable aleatoria está normalmente distribuida, la distancia de la media a una desviación estándar a la izquierda y a la derecha abarca el 68 por ciento del área; dos es el 95 por ciento; tres el 99.7 por ciento... La fórmula de la distribución normal de probabilidad es: -( x- )2 1 f(x)= e 2 2 2 Los símbolos significan: = 3.1416 e = 2.7183 = desviación estándar = media de la distribución 53 Alejandro Valenzuela. Métodos Cuantitativos 54 Si se define una media y una desviación estándar y se valora la fórmula para valores crecientes de X, la gráfica de la distribución describe una campana. La probabilidad de que X se encuentra entre dos valores de los definidos para X se encuentra integrando la fórmula para los valores correspondientes. Por ejemplo, si el IQ de una población se distribuye normalmente con media 100 y desviación estándar de 10, la proporción de individuos con IQ mayor que 125 se encuentra integrando la fórmula de la normal valuada en los valores mayores de 125 para encontrar el área bajo la curva que se encuentra a partir de ese valor. Sin embargo, este procedimiento es muy complicado y para alivio de todos nosotros se ha desarrollado un método más práctico que consiste en la estandarización de la variable normalmente distribuida y que se conoce como distribución normal estandarizada. b) La distribución normal estandarizada Recuérdese que si una variable aleatoria está normalmente distribuida la distancia de la media a una desviación estándar a la izquierda y a la derecha abarca el 68 por ciento del área; dos es el 95 por ciento; tres el 99.7 por ciento. Este conocimiento sienta las bases para un manejo más fácil de los problemas ya que permite trabajar con valores relativos más que con valores absolutos. Lo que se hace es convertir las desviaciones de la media de la variable X en múltiplos de la desviación estándar. Es decir, se obtienen la desviación de la media, (Xi – X ), y se divide entre la desviación estándar. La media se desvía de sí misma en cero, por eso es que la media de la distribución normal estandarizada es cero. La nueva escala es conocida como distribución normal estandarizada y se simboliza por z. Algebraicamente esto puede ser representado como: z= x- 54 Alejandro Valenzuela. Métodos Cuantitativos 55 En esta fórmula: z = número de desviaciones estándar; = la media; = desviación estándar y x = el valor específico de la variable X. Por ejemplo, si la media es de 100 y la desviación estándar de 10, el valor medio de z es cero (siempre es cero). Si se toma un número a la derecha de 100, por ejemplo 120, z tendrá un valor de 2 porque (120 –100)/10 = 2. Un número a la izquierda de la media de X (es decir, a la izquierda de 100, en este caso) tendrá un valor negativo. Por ejemplo, 80 asumiría en la nueva escala un valor de –2. Así, z tendrá valores positivos para valore mayores que y negativos para valores menores. Gráficamente, este ejemplo se representaría como en la siguiente gráfica 70 -3 80 -2 90 -1 100 0 110 1 120 2 130 3 Si se tiene la media y la desviación estándar, cualquier valor de X puede ser estandarizado. Se trata, en última instancia, de convertir la diferencia entre la media y cualquier otro valor de la distribución en una diferencia relativa medida en término de número de desviaciones estándar desde la media. La media es cero porque la desviación consigo misma es cero. Desde luego, se puede trabajar en sentido inverso yendo de z a los valores reales de x verificando el hecho de que x = z. (Se suma si z es positivo y se resta si es negativo). 55 Alejandro Valenzuela. Métodos Cuantitativos 56 La estandarización de la normal permite manejar una ilimitada familia de distribuciones normales con una distribución única para todos los problemas, lo que a su vez permite el uso de las tablas. La distribución normal estandarizada tiene una media cero y varianza 1. La tabla de la distribución normal proporciona las probabilidades para cada valor de la variable normal z. El procedimiento consiste en transformar la variable real en variable estandarizada donde la media sirve como punto de referencia y la desviación estándar como escala graduada que mide la distancia de la media. Las tablas se leen en unidades de z y proporciona el área bajo la curva entre la media y cualquier valor de z. El principio de la simetría facilita el uso de las tablas porque se puede trabajar solo con números positivos ya que la distancia entre y –1 es igual a la distancia entre y +1. Es necesario familiarizarse con el uso de las tablas. En la columna de la derecha están los valores de z con un decimal. En el primer renglón se encuentran los decimales subsiguientes. Por ejemplo, si z tiene un valor de 2.45, se busca en la primera columna el número 2.4 y en el primer renglón el 0.05 restante. El número que está en el cuerpo de la tabla, según las coordenadas anteriores, es 0.4929, que es el valor del área bajo la curva entre cero y 2.45. Supongamos que en un problema la media es de 200 y la desviación estándar de 30. CASO 1. Para áreas simétricas en torno a la media. ¿Cuál es la probabilidad de encontrar un valor de X que esté entre 154.7 y 245.3? Este es el caso de una probabilidad que se encuentra entre dos valores estandarizados iguales, pero con distinto signo. Como se puede ver, –z1 = – 1.51 y z2 = 1.51. Como se trata encontrar un área bajo la curva simétrica en torno a la media, se busca el valor positivo de z y se multiplica por 2. El valor del área para z = 1.51 es 0.4345, que multiplicado por 2 da 0.869. Es decir, la probabilidad de encontrar un valor de X entre 154.7 y 245.3 es de 86.9% 56 Alejandro Valenzuela. Métodos Cuantitativos 57 CASO 2. Para áreas asimétricas en torno a la media. ¿Cuál es la probabilidad de encontrar un valor de X que esté entre 170 y 245.3? Para encontrar la probabilidad de que x asuma un valor que ya estandarizado entre dos valores –z1 y +z2 desiguales, se encuentra el valor positivo de cada una, incluso del valor negativo de z y se suman. Se trata de encontrar el área bajo la curva normal que se encuentra entre los valores de z –1 y 1.51. El área entre cero y –1, está dado por el valor de z = 1.00 que es 0.3413. El área entre cero y 1.51 es 0.4345 (como ya lo habíamos encontrado en el caso 1). La probabilidad buscada es, sumando ambas, 0.7758. Es decir, la probabilidad de encontrar un valor de X que se encuentre entre 170 y 245.3 es de 77.58% CASO 3. Encontrar la probabilidad de un valor de X en cualquier intervalo a la derecha de la media. ¿Cuál es la probabilidad de encontrar un valor de X entre 230 y 245.3? Se trata del área entre 1 y 1.51, que son los correspondientes valores de z. Se busca el área correspondiente al valor de z que sea mayor (en este caso el área para z = 1.51 es 0.4345) y se le resta el área correspondiente al valor menor (que para z = 1 es 0.3415). La diferencia es 0.093. Esto es, la probabilidad de encontrar un valor de X que esté entre 230 y 245.3 es de 9.3% CASO 4. Encontrar la probabilidad de un valor de X en cualquier intervalo a la izquierda de la media. ¿Cuál es la probabilidad de encontrar un valor de X entre 154.7 y 170? Con una media de 200, los valores correspondientes de z son negativos: –1.51 y –1.00. Se procede exactamente igual que en el caso anterior, tomando los valores positivos de z. La probabilidad buscada es también en este caso de 9.3% CASO 5. Encontrar la probabilidad de un valor de X MAYOR que… a la derecha de la media. ¿Cuál es la probabilidad de encontrar un valor de X mayor que 245.3? Como el área bajo la curva mide 1, hacia cada lado de la media queda el 0.5 del área. Por tanto, el área correspondiente a z = 1.51 (que es el valor de z para 245.3 con = 200 y = 30) se le resta a 0.5 (0.5 –0.4345 = 0.0655). Es decir, la probabilidad de encontrar un valor de X mayor que 245.3 es de 6.55% 57 Alejandro Valenzuela. Métodos Cuantitativos 58 CASO 6. Encontrar la probabilidad de un valor de X MENOR que… a la izquierda de la media. ¿Cuál es la probabilidad de encontrar un valor de X menor que 154.7? Como el área entre la media y un valor de z = –1.51 es 0.4345, entonces (al restarlo a 0.5, de manera idéntica al caso anterior) se tiene que la probabilidad de encontrar un valor de X menor que 154.3 es también 6.55% CASO 7. Probabilidad de valores mayor que o menores que. Se busca el valor de z para ese valor límite (sea positivo o negativo) y al área que resulte se le suma el 0.5000 del área de la curva que está a un lado de la media. c) La distribución t de Student Esta es una distribución muestral porque parte del reconocimiento de que es imposible o inconveniente hacer un estudio sobre toda la población. Como alternativa se toma una muestra y se busca que los resultados muestrales puedan ser generalizados a toda la población. Por ejemplo, si de una muestra obtenemos una media, la distribución t nos ayuda a saber si esa media se puede tomar por la verdadera media. Una consecuencia de lo anterior es que no se conoce la varianza de la población, lo que hace imposible el uso de la distribución normal. En tal caso se debe usar la distribución t de Student, que es muy semejante a la distribución normal pero con la ventaja de que se usa la varianza muestral. El uso de la t de student implica que la población bajo estudio se distribuye de forma normal. Por ello, la t de student también describe una curva en forma de campana y el área bajo esa curva es también 1. Con la distribución t no buscamos calcular la probabilidad con la que una estimación se acerca al verdadero parámetro. Primero se define la probabilidad y luego vemos si el número que nos da la muestra se puede tomar como el verdadero número. 58 Alejandro Valenzuela. Métodos Cuantitativos 59 Primero, la decisión se expresa en hipótesis: nula (el estimador y el parámetro son distintos) y alternativa (el estimador y el parámetro son iguales). Segundo, con base en los grados de libertad de nuestra muestra y la probabilidad de error que hemos admitido, buscamos en la tabla el valor crítico de t o t crítica (t). Segundo, con el valor del parámetro y la desviación estándar arrojados por la muestra, obtenemos una t a la que le llamamos la t calculada (tc). Tercero, si tc sobrepasa t se rechaza la hipótesis nula. Si no la sobrepasa, no se rechaza la hipótesis nula. Dicho de otra manera, ¿De qué tamaño debe ser t para que la media obtenida pueda ser considerada como un buen estimador del parámetro? Pues suficiente para que sea más grande que la t crítica. Supongamos que se busca saber sobre la media de una población. Como no se puede estudiar toda la población, se toma una muestra y se espera que arroje una media igual a la de la población. Una sola muestra puede arrojar una media muy alejada de la muestra, pero a la larga, si se toman M muestras de tamaño m, la mayoría de las medias muestrales (el estimador) serán similares a la media poblacional (el parámetro). Tomar muchas muestras puede ser tan imposible como tomar a toda la población. El investigador desea tomar una sola muestra y con ella estimar los parámetros. Desde luego que una muestra arrojará resultados más confiables conforme mejor levantadas estén (el punto del muestreo se verá más adelante). Suponiendo una cierta media poblacional (), la distribución t de student se calcula por medio de una fórmula muy similar a la de la distribución normal. Por ejemplo, si se trata de estimar la media de una población, se supone que todas las posibles medias muestrales siguen la distribución t: t= xi S xi En esta fórmula, la desviación estándar muestral es: S xi S n 59 Alejandro Valenzuela. Métodos Cuantitativos 60 Estas fórmulas muestran que, dada una determinada desviación estándar (que tampoco sabemos de qué tamaño es), un incremento en el tamaño de muestra implicaría una disminución de la desviación estándar. Estás últimas fórmulas son importantes a la hora de evaluar la validez de los parámetros. Diferencias de la distribución t con la normal estandarizada: La media de la distribución sigue siendo cero, pero la desviación estándar es mayor que uno. Mientras que la normal estandarizada es única, la distribución t es una familia de distribuciones. Existe una para cada nivel de grados de libertad concentrándose los valores al rededor de la media conforme aumentan los grados de libertad. (Una explicación intuitiva de los grados de libertad es la siguiente: imagínese que hay un cierto criterio para acomodar a 5 alumnos en un salón. El primero que entra tiene 5 opciones, 4 el segundo, 3 el tercero, 2 el cuarto y el último que entra no puede seguir ningún criterio para acomodarse ya que debe sentarse en la única silla libre. El criterio resultó válido para n-1 que en este caso es 5 –1 = 4). La distribución t se emplea en muestras tomadas de poblaciones normalmente distribuidas. Sin embargo, se puede aplicar el teorema del límite central y tomar muestras grandes con lo que la t se aproxima más a la normal. (El Teorema Central del Límite: conforme crece el tamaño de muestra, la distribución muestral se aproximará a la distribución normal). Las tablas de la distribución t son diferentes a las tablas de la distribución normal estandarizada porque tiene los valores de t en el cuerpo de la tabla. En la columna de la izquierda está el tamaño de muestra y en el primer renglón aparece el nivel de significancia. El nivel de significancia es, dicho coloquialmente, el nivel máximo de error que podemos admitir en nuestra predicción. Por ejemplo, si estamos estimando la media de una 60 Alejandro Valenzuela. Métodos Cuantitativos 61 característica de la población (el peso, la estatura, las calificaciones, los defectos de un proceso, etc.), quisiéramos que nuestra estimación sea lo más precisa posible. No es lo mismo decir la media estimada X igual a la verdadera media con una probabilidad de 99% (es decir con un error de 1%) que decir que son iguales con una probabilidad de 80% (es decir, con una error de 20%). Entre más pequeña sea la probabilidad de error, más difícil es que la t calculada sobrepase a la t crítica, pero más fuerte es nuestra predicción. Uso de la tabla. El primer renglón de la tabla presenta en el renglón de arriba los valores de (el nivel de significancia, que mide la probabilidad de cometer el error de estimación). Muchas veces el nivel de significancia se divide entre dos (/2) porque la distribución de t es bilateral distribuyendo el error entre las dos colas de la campana. En otras ocasiones, en el primer renglón se muestra la probabilidad de acertar, es decir 1-. En la primera columna se muestran los grados de libertad y en el cuerpo de la tabla se muestran los valores críticos de t. Dejaremos el uso específico de esta distribución para el apartado de estimación de parámetros. EJEMPLO. Si al estimar un parámetro nuestro error permitido es de 0.05% distribuido a cada lado de la distribución, ¿Cuál es la t crítica si el tamaño de muestra es de 18? Grados de libertad = 17 Nivel de significancia = 0.10 T de tablas = 1.33 Si queremos un nivel de significancia más pequeño (mayor seguridad en nuestras afirmaciones) entonces, para los mismos grados de libertad, el tamaño de la t crítica aumenta y en ese caso es más difícil que la sobrepase la t calculada. Vea en la siguiente gráfica cómo, al reducir el nivel de significancia (al hacer más fuerte la predicción) más grande es la t crítica, con lo que será más difícil que sea excedida por la t calculada. En la siguiente gráfica se presentan niveles distintos de t crítica para los mismos grados de libertad pero para niveles decrecientes de . 61 Alejandro Valenzuela. Métodos Cuantitativos 62 Valores de t crítica para 17 gl y niveles decrecientes de significancia t0.10=1.33 t0.05=1.74 t0.025=2.11 Del mismo modo, la t crítica disminuye cuando aumenta el tamaño de muestra. Esto hace más fuertes las predicciones porque (de acuerdo al teorema central del límite) a mayor tamaño de muestra más cerca estamos del estudio de toda la población. i) Estimación de parámetros Como la distribución t de student es una distribución muestral, su uso principal es en la estimación de parámetros. Cuando tomamos una muestra y obtenemos, por ejemplo, la media de cualquier característica, lo que estamos haciendo es una estimación puntual de la media. Sin embargo, ese número no es el verdadero número, sino que suponemos que lo es. ¿Qué tan seguros podemos estar de eso? Ya sabemos que a mayor tamaño de muestra, más cerca está el estimador del parámetro. Pero seguros, seguros, lo que se llama seguros, de que sean iguales no podemos estar. Más modestamente, lo que sí podemos buscar es estar seguros de que el estimador esté lo más cerca posible del parámetro. Lo más cerca posible quiere decir dos cosas: 62 Alejandro Valenzuela. Métodos Cuantitativos 63 Primera, que debe haber un número mínimo y un número máximo que nosotros consideramos como los límites máximos de lo que consideramos “lo mas cerca posible”. Segundo, esperamos que el estimador obtenido de la muestra caiga dentro de esos límites. Pero, atendiendo a la distribución de probabilidad, esperamos también que si tomáramos 100 muestras de tamaño N, si no todas, al menos un número muy grande de esas 100 arrojen estimadores que estén dentro de aquellos límites. En conclusión, lo que esperamos es que con el verdadero parámetro, digamos por ejemplo la media (μ), se encuentre dentro del intervalo A-B (llamado intervalo de confianza), con una cierta probabilidad cercana a 1 (o, lo que es lo mismo, con un error, no mayor que α). Es decir: P(A μ B) = 1- α Nótese que A es el límite inferior y B es el límite superior. Como α es el nivel de significancia (o la probabilidad de equivocarse), 1- α a la probabilidad de acertar. Nótese lo siguiente. Si el intervalo fuera muy, pero muy amplio, la probabilidad de que contenga al parámetro es muy grande (1- α es muy cercano a 1), pero nuestros resultados, nuestras estimaciones, serían menos confiables y precisas. Por otro lado, si el intervalo fuera muy chico, la probabilidad de que contenga al parámetro disminuye, pero la confiabilidad y la precisión crecerían. Resumiendo: Mayor intervalomayor probabilidadmenor precisiónmenor confiabilidad. Y al revés. Preguntas: ¿Qué determina los límites del intervalo? Es decir, ¿Qué determina el valor de A y B?, ¿Qué determina la amplitud del intervalo? 63 Alejandro Valenzuela. Métodos Cuantitativos 64 Hay tres elementos que intervienen: El tamaño de muestra. El estimador del parámetro (en ejemplo, la media estimada), y La desviación estándar (S) El tamaño de muestra es muy importante porque, como ya sabemos, conforme mayor es la muestra más cerca estará el estimador del parámetro. De lo que hemos visto hasta aquí, recordemos lo siguiente: Que muchas veces no podemos hacer un censo y por eso tomamos una muestra. Que cualquier distribución de probabilidad, si la muestra es suficientemente grande, se aproxima a la distribución normal y se podría estandarizar. Que por lo general no conocemos la varianza ni la desviación estándar y que por consiguiente: Podemos usar la distribución t de Student. La fórmula de la distribución t de Student contiene todos los elementos que hasta aquí se han mencionado como necesarios para construir el intervalo de confianza. Tiene el verdadero parámetro (en este caso μ), tiene al estimado (digamos X ) y contiene la desviación estándar (que a su vez contiene al tamaño de muestra). La distribución t nos proporciona la probabilidad de que un cierto valor de X se encuentre en área determinada dentro de la campana de Gauss. Recuérdese que la probabilidad de error (es decir, ) mide la probabilidad de error, es decir, fuera del área cuya probabilidad se busca. Como esta distribución es simétrica al rededor de una media de cero, la mitad del error (/2) se ubica en la cola izquierda de la campana y la otra mitad en la cola derecha, de tal manera que uno podría reescribir la fórmula de la distribución t del apartado 2.c para la media muestral como sigue: 64 Alejandro Valenzuela. Métodos Cuantitativos 65 t 2 x t Sx 2 (Donde t es la t de tablas para cada nivel de grados de libertad o t crítica). Como SX está dividiendo, lo podemos pasar multiplicando a ambos lados: t 2 ( S X ) x t 2 ( S X ) Pasamos a X hacia cada lado de la ecuación (pasa restando dado que tiene signo positivo): x t 2 ( S X ) x t 2 ( S X ) Le cambiamos de signo a todos los elementos para que μ tenga signo positivo (esto cambiará también el sentido de las desigualdades): x t 2 ( S X ) x t 2 ( S X ) Como el término que tiene el signo negativo es más pequeño que el del signo positivo, simplemente volteamos la expresión: x t 2 ( S X ) x t 2 ( S X ) Puede verse aquí que: A = x t 2 ( S X ) Nótese que los extremos están dados por x t / 2 ( S x ) B = x t 2 ( S X ) Recordemos que: S xi S n Por tanto, el intervalo queda ahora: 65 Alejandro Valenzuela. Métodos Cuantitativos 66 x t 2 ( S S ) x t 2 ( ) n n Observe esta última expresión. Observe en particular la parte t 2 ( S ) , que aparece n en ambos lados del intervalo. Dicha expresión disminuye: Si aumenta el tamaño de muestra. Como la raíz de n está en el denominador, si crece el tamaño de muestra, cualquiera que sea la desviación estándar, lo que está entre paréntesis disminuye y por tanto toda la expresión. Si disminuye la t de tablas. La t de tablas disminuye, dado el nivel de significancia, α, si aumenta el tamaño de muestra. Vea usted la tabla de la distribución t y tome un nivel de significancia: conforme aumente n disminuirá el valor de t. Al disminuir la expresión t 2 ( S ) , disminuye la parte que se le suma y se le resta a X y n el intervalo de confianza se hace más chico. Como usted recordará, si se mantiene constante la probabilidad (lo que se hace manteniendo constante a α), la disminución del intervalo aumentará la precisión la confiabilidad. Si yo tomo una muestra de estudiantes de la Universidad de Sonora y afirmo que la calificación promedio está entre 40 y 90 con una probabilidad de 99%, estoy diciendo la verdad, pero con muy poca precisión. Pero si con base en el muestreo afirmo que el promedio está entre 75 y 80, entonces estoy privilegiando la precisión. Como es fácil observar, la probabilidad de atinarle no puede ser tan alta como en el escenario anterior... O puede ser alta, pero si el tamaño de la muestra aumenta lo suficiente como para combinar precisión y confiabilidad. Si nos preguntamos si la verdadera media está dentro del intervalo con cierta probabilidad, entonces tenemos el intervalo de confianza para la media: S S P x t 2 ( ) x t 2 ( ) 1 n n 66 Alejandro Valenzuela. Métodos Cuantitativos 67 Como la expresión entre paréntesis (la desviación estándar entre la raíz cuadrada de la muestra) solo es para dejar constancia de que la varianza muestral disminuye con el tamaño de muestra, entonces para efectos operativos se puede usar la siguiente expresión, que contiene la desviación estándar obtenida de la muestra: P x t 2 ( S X ) x t 2 ( S X ) 1 EJEMPLO 4. Si tomamos una muestra de tamaño 7, con una desviación estándar de 20 y con una media de 100, la t crítica para α = 0.05 (y 6 grados de libertad) es de 2.447. Por tanto, el intervalo es: P(51.06 μ 148.94) = 95% Esto significa que si la muestra está bien seleccionada, con una probabilidad de 95% la verdadera media estará entre 51.06 y 149.4. Supongamos ahora que la muestra es de 30 observaciones que arroja una media de 100 (igual que la anterior), pero una desviación estándar de 15. Para 29 grados de libertad un nivel de significancia de 0.05, la t crítica es de 2.045. En este caso, el intervalo de confianza es: P(69.325 μ 130.675) = 95% Nótese cómo el intervalo se ha reducido y, dada la misma probabilidad, la precisión y la confiabilidad han aumentado ya que con un 95% de probabilidad la verdadera media estará entre 69 y 139. Por consiguiente: Si el intervalo no incluye al estimador del parámetro, no se puede rechazar la hipótesis nula de que el estimador y el parámetro son diferentes 67 Alejandro Valenzuela. Métodos Cuantitativos 68 Si el intervalo incluye al cero no se puede rechazar la hipótesis nula de que el parámetro es distinto de cero. Lo más importante para una buena estimación es la muestra. ii) Muestreo Los parámetros de una población son, principalmente, la media, la moda, la mediana, el rango, la varianza, la desviación estándar, entre otros. Como no siempre es posible obtener esos parámetros directamente de la población, se estiman por medio de muestras. Los estimadores de los parámetros son mejores conforme mejor sea la muestra. La siguiente es una explicación intuitiva, no formal, de los conceptos necesarios para explicar la relación entre el tamaño de muestra, la significancia estadística y la confiabilidad de las estimaciones. Por tanto, el muestreo es el tema de arranque de este tema. La muestra es un subconjunto de la población que debe reunir ciertas características como la pertinencia, el tamaño y el método de selección de los elementos que la componen. Ventajas del muestreo Esas ventajas del muestreo se pueden resumir en los siguientes puntos: Costo: la muestra es más barata que el censo. Precisión: el tamaño de la muestra permite estudiar las características con mayor precisión y cuidado. Tiempo: la muestra es una forma más rápida de proveer información. Cantidad de información: la muestra puede estudiar más detalles que con el censo. Seguridad: la manipulación en muchos casos resulta destructiva y, en este sentido, un censo es imposible. 68 Alejandro Valenzuela. Métodos Cuantitativos 69 La población La inspección de toda la población se llama censo. Como levantar un censo no siempre es posible, se toma una muestra. Pero para hacerlo, es necesario conocer la población para poder identificar claramente las unidades muestrales. Al tomar una muestra se debe saber sobre la población: Sus características generales Si es finita o infinita. Si es finita, saber si es grande o pequeña. Si se conoce o no la varianza o no. Muestreo aleatorio En el muestreo aleatorio o probabilístico cada elemento de la población tiene una oportunidad conocida de ser seleccionada como parte de la muestra, lo que significa que la probabilidad de que un elemento sea seleccionado puede ser determinado de antemano. La oportunidad de cada elemento no tiene porque ser igual en todos los tipos de muestreo aleatorio. Se requiere sólo para un tipo especial de muestreo aleatorio llamado muestreo aleatorio simple. Muestreo aleatorio simple Se le conoce también como irrestricto. Hay dos criterios básicos para elegir una muestra aleatoria simple: i) Cada elemento de la población tiene igual oportunidad de ser elegido y la probabilidad de elección debe estar determinada. Lo de la determinación se refiere no sólo a que la probabilidad es igual para todos los elementos, sino principalmente a que el encuestador debe conocer el valor numérico de esa probabilidad para cada elemento. 69 Alejandro Valenzuela. Métodos Cuantitativos 70 ii) Cada combinación muestral tiene igual probabilidad de ocurrencia. Aquí se combinan dos elementos: un muestreo aleatorio simple requiere no sólo de la igualdad de oportunidades para sus elementos, sino de la igualdad de oportunidades para todas las muestras posibles. EJEMPLO: Elegir de entre 10 personas un comité de 3 donde cada persona y cada muestra de tamaño 3 tengan la misma probabilidad de ser elegidos. Si el muestreo se hace con remplazamiento, el número de muestras posibles es 103 = 1000, pero esto generalmente no se hace. Si el muestreo se hace sin remplazamiento, el número de muestras posibles de tamaño 3 está dado por: 10 C3 = 10! 120 3! (10 - 3)! En el primer caso cada muestra de tamaño 3 tiene una probabilidad de un 1/120 de ser elegida y cada individuo tiene una probabilidad de 3/10 de ser elegido. Esto es, la combinación de cada uno de los individuos con alguno de los otros 9 les da oportunidad de participar en 36 de las 120 muestras posibles (=3/10). Tomemos el ejemplo de la probabilidad del individuo 1 en combinación con los otros 9: 1,2,3 1,2,7 1,3,4 1,3,8 1,4,6 1,4,10 1,5,9 1,6,9 1,7,10 1,2,4 1,2,8 1,3,5 1,3,9 1,4,7 1,5,6 1,5,10 1,6,10 1,8,9 1,2,5 1,2,9 1,3,6 1,4,10 1,4,8 1,5,7 1,6,7 1,7,8 1,8,10 1,2,6 1,2,10 1,3,7 1,4,5 1,4,9 1,5,8 1,6,8 1,7,9 1,9,10 Es decir, la probabilidad del individuo 1 es de 36/120 o lo que es lo mismo de 3/10 que ya se había establecido al principio. 70 Alejandro Valenzuela. Métodos Cuantitativos 71 Muestreo sistemático El muestreo sistemático consiste en tomar para la muestra los elementos que aparecen cada determinado espacio de una población ordenada en forma de secuencia o lista. Se determina en forma arbitraria el espacio entre elemento y elemento muestral. El arranque de la muestra debe ser aleatorio. Se usa frecuentemente en poblaciones no numeradas como por ejemplo el directorio telefónico, el paso de carros en una esquina, el cruce de gente por algún punto, etc. El muestreo sistemático no debe ser aplicado a poblaciones que registran tendencias cíclicas entre espacios muestrales. Muestreo estratificado El principio de este tipo de muestreos consiste en dividir a la población en grupos o estratos. Los estratos deben ser diferentes unos de otros y homogéneos en sí mismos. Una vez que se hace esto se toman submuestras en cada estrato y al final se combinan para formar una muestra única. Un ejemplo de este tipo de muestreos sería dividir a la población en estratos de ingresos: altos, medios y bajos, donde las categorías están claramente especificadas. Una extensión de este método es el muestreo estratificado proporcional, que se aplica cuando los diferentes estratos participan con diferentes proporciones en la población. El ejemplo de los estratos de ingresos es bueno porque las proporciones de pobres, de clase media y de ricos difieren entre sí. Muestreo por racimos (Clusters) A diferencia del muestreo estratificado, donde cada estrato es lo más diferente posible a cualquier otro y lo más homogéneo en sí mismo, en el muestreo por racimos se divide a la 71 Alejandro Valenzuela. Métodos Cuantitativos 72 población en clusters cuyas características son las contrarias: cada uno es lo más parecidos posibles a los otros y lo más heterogéneos en sí mismo. Por ejemplo, si el objetivo es estudiar los niveles de ingreso en las ciudades de tamaño medio, se elige una muestra aleatoria de ciudades medias y en seguida se obtienen muestras aleatorias en cada ciudad elegida en la muestra. Estas últimas se combinan para formar la muestra total. Así, cada ciudad (o cluster) es homogéneo con respecto a los otros, pero a la vez cada una es heterogénea porque cada una contiene todos los niveles de ingreso. Las ventajas del muestreo por clusters son: 1) reduce costos porque no se tiene que muestrear en toda la población; 2) permite muestrear sin necesidad de tener una lista completa de todos los elementos muestrales de la población ya que basta tener la lista sólo de los clusters elegidos, y 3) permite comprimir grandes áreas geográficas. Muestreo no aleatorio El muestreo no aleatorio o no probabilístico las unidades incluidas no se eligen al azar (chance). Su elección se basa en el juicio del investigador ya que él debe sentir que sirven como una buena representación de la población. Muestreo por cuotas Se realiza cuando la muestra debe ser de cierto tamaño y el investigador o encuestador tiene libertad de elegir. Por ejemplo, si se encarga a un encuestador entrevistar a 10 personas elegidas arbitrariamente, él puede decidir pararse en una esquina y elegir a las primeras 10 personas que pasen o elegir una cualquiera y a la siguiente cuando termine el cuestionario de la anterior. Este tipo de muestreos se emplea en estudios de mercado porque es menos costosa que un muestreo aleatorio. 72 Alejandro Valenzuela. Métodos Cuantitativos 73 Muestreo conveniente Se emplea cuando ciertos elementos de la población son más convenientes y pueden ser tomados más fácilmente. Por ejemplo, si una tienda entrega un cupón para ser llenado, puede considerar en una muestra a las personas que lo han regresado, lo que indicaría un interés de esa gente por el tópico de la pregunta. Muestreo por juicio El investigador decide, a su juicio, los elementos que entran en la muestra. Se usa en estudios de pequeña escala como estudios piloto. Por ejemplo, si se va a diseñar un cuestionario para ser aplicado a una muestra aleatoria, el diseñador puede querer estar seguro que las preguntas son pertinentes o entendibles. Para ello, decide aplicarlo a un conjunto de personas que él selecciona de acuerdo a su propio criterio. d) Distribución exponencial La distribución exponencial trata de probabilidades de tiempo o espacio entre ocurrencias en un rango continuo. Hay una estrecha relación entre la distribución exponencial y la de Poisson (recuerde que la probabilidad de Poisson mide la probabilidad de ocurrencias en un intervalo). Si un proceso Poisson tiene una media de ocurrencias en un intervalo, el tiempo o espacio entre ocurrencias tendrá una media de 1 , la cual sigue una distribución exponencial. La relación entre las distribuciones de Poisson se puede ilustrar con el siguiente ejemplo, si en la distribución de Poisson el promedio de llamadas a un teléfono en una hora es de 6, entonces el tiempo promedio entre llamadas es de 10 minutos, es decir, 0.166667. En este sentido se puede preguntar cuál es la probabilidad de que la segunda llamada tarde más de 15 minutos. La fórmula de la distribución exponencial se presenta de dos maneras: si x es el valor de un punto dado del intervalo (tiempo o espacio), entonces una de las formas de la distribución exponencial mide la probabilidad de que un evento particular: 73 Alejandro Valenzuela. Métodos Cuantitativos 74 Suceda después de x: f(x)= e-x Suceda antes de x: f(x)= 1 - e-x La gráfica de esta distribución es una línea continua decreciente a la derecha. f(x) P (T t ) 1 e x P (T t ) e x x X Una característica de esta distribución es que la desviación estándar y la media son iguales. EJEMPLO. Si en un restaurante se atienden 120 órdenes por hora: a) ¿Cuál es la probabilidad de que una orden en particular tarde más de 3 minutos en llegar? Primero tenemos que convertir el promedio en minutos. Si el promedio por 74 Alejandro Valenzuela. Métodos Cuantitativos 75 hora es de 120, el promedio por minuto es de 2. Por tanto, = 2. Por tanto, el tiempo entre órdenes es de 0.5 minutos Esto es = 1/ = 1/2 = 0.5. Además, x = 3: f(x) = e-x 2.71828( 3)( 0.5) 0.2231 b) ¿Cuál es la probabilidad de que una orden en particular tarde menos de 3 minutos en llegar?: f(x) = 1 - e-x 1 0.0001 0.7769 3. Distribución de Chi-cuadrada La Chi-cuadrada es una prueba no paramétrica en el sentido de que no es necesario suponer una distribución de probabilidad y los datos pueden no medirse por intervalos. La potencia de la prueba (probabilidad de rechazar una hipótesis nula cuando es realmente falsa) no es tan fuerte, pero si se aplica una prueba paramétrica cuando no se puede, no es posible generalizar los resultados y las comparaciones. Hay varias pruebas no paramétricas. Una de ellas es la Chi-cuadrada, que es apropiada cuando los datos analizados se organizan en más de una categoría o para hacer comparaciones entre dos o más muestras. Es considerada como una prueba no paramétrica que mide la discrepancia entre proporciones (en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar o no), la dependencia entre variables (tablas de contingencia) y el ajuste de los datos a una distribución teórica (bondad de ajuste). Veamos estos tres usos a través de un conjunto de ejemplos ilustrativos. 75 Alejandro Valenzuela. Métodos Cuantitativos 76 a) Características de la distribución 2 Se aplica a todo fenómeno en las que las variables puedan adquirir al menos dos categorías. La información sobre las variables y las categorías (que puede venir de una muestra u otras fuentes de observación) se llama “valor observado”. Siempre es posible tener una expectativa sobre esos valores. A ellos se les llama “valores esperados”. Se parte de hipótesis de trabajo. La hipótesis nula establece que las categorías o variables no difieren entre sí (esas categorías pueden ser también cambios a través del tiempo). La hipótesis alternativa establece que sí hay cambios. En 1900, Karl Pearson, un estadístico inglés que fue uno de los padres de la estadística moderna, propuso que en una situación de este tipo debe usarse el siguiente procedimiento para probar la hipótesis nula: Primero, para cada variable determinamos el valor esperado de la categoría; segundo, obtener información de campo a la que llamaremos valor observado; tercero, para cada variable, al valor observado de la categoría le restamos el valor esperado, elevamos al cuadrado el resultado y lo dividimos entre el valor esperado; por último, sumamos los resultados del tercer paso. Si cada variable puede adquirir, por ejemplo, dos valores y cada valor admite dos categorías, sumaremos seis números. Es decir: (Oi Ei ) 2 i E 2 i Esta fórmula nos proporciona el estadístico de Chi-Cuadrada Pearson mostró que si la hipótesis nula es verdadera (esto es, si las categorías entre variables son iguales), y el tamaño de muestra es suficientemente grande como para que el valor más pequeño de Ei sea al menor 5, este estadístico de prueba tendrá una distribución de probabilidad que puede ser aproximada adecuadamente por la 2, una distribución de probabilidad muy importante. La distribución 2, que es la distribución de probabilidad de una variable aleatoria 2, se define de la siguiente manera: 76 Alejandro Valenzuela. Métodos Cuantitativos 77 La distribución 2, con v grados de libertad, es la distribución de probabilidad de la suma de cuadrados de v variables independientes normal estandarizadas. Para clarificar esta definición, permítaseme empezar tomando una sola variable normal estandarizada. (Recuerde que una variable normal estandarizada es ( X ) / donde X es una variable normal con media igual a y desviación estándar igual a ). En vez de considerar la distribución de probabilidad de sus valores, permítase considerar la distribución de probabilidad del cuadrado de sus valores. Si uno sabe que esta variable tiene una distribución normal estandarizada, debe ser posible imaginar la distribución del cuadrado de sus valores. Esta distribución es la distribución 2 con un grado de libertad. A continuación suponga que consideramos dos variables normales estandarizadas independientes. Eleve al cuadrado los valores de cada variable y súmelos. (Si el primer subíndice indica la variable y el segundo un valor cualquiera de ella, entonces la suma es: X21j+ X22j). La distribución de esta suma es una distribución 2 con dos grados de libertad. Finalmente, suponga que consideramos cuatro variables normal estandarizadas independientes y haga lo mismo: eleve al cuadrado los valores de cada variable y sumarlos (X21j+ X22j X23j+ X24j). La distribución de esta suma es una distribución de 2 con cuatro grados de libertad. Como la distribución t, la distribución de 2 es una familia de distribuciones, cada una de las cuales está caracterizada por cierto número de grados de libertad. Los grados de libertad están dados por el número de categorías o número de muestras, c, y por el número de parámetros, p, que se estimen de acuerdo a la siguiente relación: gl ( p 1)( c 1) La media de la distribución 2 es igual al número de grados de libertad; la varianza es igual al doble de grados de libertad (si v es los grados de libertad, entonces la varianza es 2v) y la desviación estándar es igual a la raíz cuadrada del doble de grados de libertad. 77 Alejandro Valenzuela. Métodos Cuantitativos 78 La Chi-cuadrada describe una gráfica más alta conforme menos grados de libertad tenga. f(x) ACEPTAR Ho RECHAZAR Ho La línea vertical que divide la zona de aceptación de la de rechazo está dada por la 2 crítica (según y los grados de libertad). Si la 2 calculada cae en la zona de rechazo de H0 es porque es más grande que la 2 crítica. La zona de rechazo decrece conforme decrece el nivel de significancia. Eso hace más difícil rechazar la hipótesis nula, pero si la rechazamos la probabilidad de error es también menor. b) Diferencias entre proporciones El objetivo de esta prueba es saber si el tamaño de una proporción en que se presenta una característica en una muestra es diferente de la misma proporción en otra muestra. Podría tratarse de muestreos en la misma población en tiempos distintos o del muestreo en poblaciones diferentes al mismo tiempo. EJEMPLO 1. Un sociólogo quiere saber si la orientación política influye en forma en que los padres educan a sus hijos. En este caso no es posible obtener parámetros ni establecer intervalos. Por tanto se usa una prueba no paramétrica. Como se puede ver, aquí hay dos categorías: los padres liberales y los padres conservadores. También está la cuestión de si la educación de los hijos es permisiva o no lo es. 78 Alejandro Valenzuela. Métodos Cuantitativos 79 Las hipótesis que se plantea el sociólogo son las siguientes: H0: La frecuencia relativa (proporción) de los liberales que no son rígidos es la misma que la de los conservadores que no son rígidos. H1: La frecuencia relativa (proporción) de los liberales que no son rígidos no es la misma que de los conservadores que no son rígidos. Como se puede deducir, las frecuencias esperadas (E) se refieren a los términos de la hipótesis nula y las frecuencias observadas u obtenidas (O) se refieren a los resultados reales obtenidos al realizar el estudio y pueden variar (o no) de un grupo a otro. Si la diferencia es grande, se rechaza la hipótesis nula y decimos que la diferencia existe. Supóngase que el sociólogo obtiene muestras aleatorias de 20 liberales y 20 conservadores y se les interroga sobre el estilo de crianza de los niños. Suponga que los resultados son los siguientes (L = liberales; C = conservadores; R = rígidos; N = no rígidos): VALORES OBSERVADOS R N Total L 5 15 20 C 10 10 20 Total 15 25 40 Las frecuencias esperadas se obtienen de la siguiente manera: 1) Se obtiene la proporción de R: PR Total de R 15 0.375 Total 40 2) Se obtiene la proporción de N: PN 25 1 PR 0.625 40 3) Los números esperados se obtiene multiplicando la proporción entre el total de la categoría: eRL (0.375)( 20) 7.5 e RC (0.375)( 20) 7.5 e NL (0.625)( 20) 12.5 e NC (0.625)( 20) 12.5 79 Alejandro Valenzuela. Métodos Cuantitativos 80 VALORES ESPERADOS R N L 7.5 12.5 C 7.5 12.5 Ahora, sustituimos estos datos en la fórmula: (5 7.5) (10 7.5) (15 12.5) (10 12.5) (O E ) 2 2 i i E i 2 7.5 7.5 12.5 12.5 i 2 2 6.25 6.25 6.25 6.26 7.5 7.5 12.5 12.5 2 2 2 2 2 0.83 0.83 0.50 0.50 2.66 Como todo estadístico de prueba, la decisión sobre las hipótesis dependen de la comparación del valor obtenido (en este caso 2.66) y el valor estándar o de tablas. Para encontrar este valor de tablas se necesitan los grados de libertad del problema planteado. Si el problema tiene dos categorías (c = 2) y dos parámetros (p = 2), entonces: gl = (2-1)(2-1) = 1 La tabla de 2 está organizada teniendo en la primera columna los grados de libertad y en el primer renglón las probabilidades de que un valor cualquiera de 2 exceda el valor que aparece en el cuerpo de la tabla. Por ejemplo, si un problema tiene 8 grados de libertad y se quiere un nivel de significancia de 0.10 (es decir, una certeza en la conclusión de al menor 90%) entonces el valor de 2 es 13.36. Esto quiere decir que la probabilidad de que un valor cualquiera de 2 exceda ese valor, es del 10%. Una forma más expedita que la anterior es la siguiente. a) Se calcula el valor de 2 b) Con los grados de libertad que tenga el problema y el nivel de significancia que elija el investigador, un valor de tablas, se busca un valor en la tabla. c) Si el valor calculado de 2 es menor que el valor de tablas, se acepta la hipótesis nula. 80 Alejandro Valenzuela. Métodos Cuantitativos 81 d) Si el valor calculado de 2 es mayor que el valor de tablas, se rechaza la hipótesis nula (y se acepta la alternativa). En el caso específico que ocupa al sociólogo, la 2 de tablas (un grado de libertad y un nivel de significancia de 5%), es de 3.8415. Como este valor es mayor que el calculado (2.66), entonces no se puede rechazar la hipótesis nula y se debe concluir que los hábitos educativos de liberales y conservadores son iguales. Dicho de otra manera, las diferencias entre las frecuencias relativas no son significativas. EJEMPLO 2. Se quiere estudiar la relación entre la cultura de los padres y la dependencia del alcohol. Según George Vaillant y Eva Milofsky de la Universidad de Harvard, la cultura es un importante factor que explica que las personas sean o no alcohólicas. Ellos contrastan las culturas que prohíben a los niños tomar, pero que dispensan la borrachera en adultos con aquellas culturas que enseñan a los niños cómo beber con responsabilidad, pero que reprueban la borrachera en adultos. Las culturas y sus actitudes son las siguientes: Cultura irlandesa. Prohíbe la bebida en jóvenes, pero permiten la borrachera en adultos Cultura mediterránea no musulmana. Lo permiten en niños, pero lo sancionan adultos Cultura noreuropea-norteamericana. Tiene una posición intermedia entre las dos anteriores Si la cultura irlandesa se le asigna el número 1, a la noreuropea-norteamenricana el 2 y la mediterránea-no musulmana el 3, entonces las hipótesis son las siguientes: H0: La proporción de alcohol-dependientes es igual en las tres culturas: 1 = 2 =3 H1: La proporción de alcohol-dependientes no es igual en las tres culturas: 1 = 2 =3 Para llevar a cabo la investigación, Vaillant y Milofsky tomaron una muestra de 398 personas de las tres culturas. Si llamamos X a los alcohol-dependientes y Y a los que no lo son, la muestra se distribuye de la siguiente manera: 81 Alejandro Valenzuela. Métodos Cuantitativos 82 VALORES OBSERVADOS X Y TOTAL CULTURA 1 CULTURA 2 CULTURA 3 21 44 5 54 149 125 75 193 130 TOTAL 70 328 398 Sea N el total de la muestra (si N1, N2 y N3 son el tamaño de la muestra por cultura, entonces N = Ni) y sea Xi el total de alcohol-dependientes, entonces la proporción total de alcohólicos es: Px X i 70 0.176 N 398 Py 1 PX 0.824 VALORES ESPERADOS X Y TOTAL CULTURA 1 CULTURA 2 CULTURA 3 13.2 33.9 22.9 61.8 159.1 107.1 75 193 130 TOTAL 70 328 398 A continuación se aplica la fórmula de Chi-cuadrada i (Oi E i ) 2 2 Ei 2 (21 13.2) 2 (44 33.9) 2 (5 22.9) 2 (54 61.8) 2 (149 159.1) 2 (125 107.1) 2 13.2 33.9 22.9 61.8 159.1 107.1 2 60.84 102.01 320.41 60.84 102.01 320.41 13.2 33.9 22.9 61.8 159.1 107.1 2 4.609 3.009 13.990 0.984 0.641 2.991 2 26.225 Como el número de categorías son 3 (las tres culturas) y el número de parámetros es de 2 (dependientes y no dependientes del alcohol), entonces el número de grados de libertad es de 2. Si el nivel de significancia deseado es de 0.05 (es decir, un error no mayor que 5%), la Chicuadrada de tablas es 5.991. Por tanto, como la 2 calculada es mayor que la 2 de tablas, 82 Alejandro Valenzuela. Métodos Cuantitativos 83 entonces se puede rechazar la hipótesis nula y se acepta la hipótesis alternativa. Dicho de otra manera, la cultura sí influye en la proporción de borrachos (ya que esa proporción no es igual entre las culturas). EJEMPLO 3. En el número de agosto de 1981 de la American Sociological Review, Andrew Cherlin y Pamela Walters publicaron un estudio de tendencias de actitudes en los roles sexuales en los Estados Unidos. Basados en muestras aleatorias de hombres en los años 1972, 1975 y 1978, encontraron que la proporción que aprobaban que una mujer casada ganara dinero (teniendo un esposo capaz de mantenerla) creció de 0.62 en 1972 a 0.70 en 1975 y a 0.73 en 1978. Las tres muestras suman 1810 hombres. De ellos, la suma de los que aprueban es de 1231 y de 579 los que desaprueban. Por tanto, la proporción de los que aprueban es de 0.68 y de los que desaprueban 0.32. Los números OBSERVADOS provienen directamente de los resultados de la encuesta. Los valores ESPERADOS se obtienen multiplicando el tamaño de la muestra por la proporción correspondiente (por 0.68 para los que aprueban y por 0.32 para los que desaprueban). Los datos son los siguientes: AÑO 1972 1975 1978 MUESTRA 662 588 560 O.A 410 412 409 E.A 450 400 381 F 3.58 0.37 2.09 OD 252 176 151 ED 212 188 179 F 7.61 0.79 4.44 OA = número observado de los que aprueban OD = número observados de los que desaprueban EA = número esperado de los que aprueban ED = número esperado de los que desaprueban F = es la fórmula (Oi E i ) 2 Ei El valor de Chi-cuadrada está dado, según la fórmula, sumando todos los elementos aquí etiquetados como F: 83 Alejandro Valenzuela. Métodos Cuantitativos 84 2 i (Oi E i ) 2 = 3.58 + 0.37 +2.09 + 7.61 + 0.79 + 4.44 = 18.88 Ei Como el problema tiene tres categorías (porque son tres muestras), el número de grados de libertad es de 2. Si fijamos en un nivel muy bajo, digamos 0.01, la 2 de tablas es de 9.21034. Si las hipótesis son, según el patrón usual: H0: las proporciones no cambian entre muestras H1: las proporciones sí cambian entre muestras Como la 2 calculada es mayor que la 2 de tablas, entonces de debe rechazar la hipótesis nula. Se puede concluir que el cambio que se observa en la proporción de hombre que aprueban que las mujeres casadas en los Estados Unidos es real, que efectivamente hay un cambio en la percepción de los roles sexuales. Desde luego, la información no distingue entre razas, niveles de educación u otras características que podrían introducir un nivel más fino en el análisis. a) Tablas de contingencia Una tabla de contingencia indica si dos características o variables son dependientes o están relacionadas una de otra. EJEMPLO 4. Si quiere saber si el nivel de ingresos en una población está relacionada con las preferencias políticas de sus miembros. Las hipótesis son: H0: Los ingresos y la filiación partidaria son independientes H1: Los ingresos y la filiación partidaria son dependientes Para ello se toma una muestra de 300 personas y resulta que 60 de ellas ganan más de 10,000 pesos mensuales mientras que 240 ganan menos de esa cantidad. Resulta que de los 300, 100 son miembros del alguno de los partidos políticos (S) mientras que 200 no tienen filiación partidaria (N). 84 Alejandro Valenzuela. Métodos Cuantitativos 85 Los valores OBSERVADOS son los siguientes: INGRESOS Más de 10 M Menos de 10 M TOTAL S 30 70 100 N 30 170 200 T 60 240 300 ¿Cuáles son los valores ESPERADOS? Véase que del total de individuos en la muestra, 60 ganan más de 10 mil pesos, es decir, 60/300 = 0.2, el 20%, y 240 ganan menos de 10 mil, 0.80 u 80%. De los 100 que sí pertenecen a algún partido, se espera que (100)(0.2) = 20 ganen más de 10 mil y (100)(0.80) = 80 ganen menos de 10 mil. De los 200 sin partido, los valores esperados son 40 y 160. Los resultados se resumen en la siguiente tabla: Los valores ESPERADOS son los siguientes: INGRESOS Más de 10 M Menos de 10 M TOTAL S 20 80 100 N 40 160 200 T 60 240 300 Ahora calculamos la 2: 2 (30 20) 2 (70 80) 2 (30 40) 2 (170 160) 2 20 80 40 160 2 5.00 1.25 2.50 0.625 2 9.375 La regla de decisión es: Rechazar la hipótesis nula (de independencia) si 2 > 2 (donde es el nivel de significancia, 2 es la calculada y 2 es la de tablas). 85 Alejandro Valenzuela. Métodos Cuantitativos 86 Los grados de libertad están dados aquí por la misma fórmula, pero p es el número de renglones y c es el número de columnas de la tabla de contingencia: gl ( p 1)( c 1) = (2–1)•(2–1) = 1 Incluso con un nivel de significancia tan bajo como = 0.01 (1% de error), podemos rechazar la hipótesis nula porque 2, 1 = 6.6349 es menor que 2 = 9.375. Dicho de otra manera, hay evidencia que indica que los ingresos mayores a 10 mil pesos son dependientes de la filiación partidaria. b) Bondad de ajuste Se trata de saber si una distribución de frecuencia observada se ajusta a una distribución teórica. Se trata de una prueba de una sola muestra, pero dividida en c categorías. Los datos se organizan según esas categorías. Los grados de libertad para la prueba de bondad de ajuste son: dl = (c–1) –p Veamos un ejemplo donde el investigador supone que la población bajo estudio se distribuye en forma normal y busca probar si los datos se ajustan a esa distribución o no. Se dividen los datos en categorías. Si la muestra es pequeña, divídala entre cinco y el resultado es el número de categorías. Si es grande tome un número de categorías igual a la raíz cuadrada del tamaño de muestra. 86 Alejandro Valenzuela. Métodos Cuantitativos 87 EJEMPLO 5. Suponga que la demanda diaria en kilogramos de un bien es como sigue: DÍA 1 2 3 4 5 6 7 8 9 10 DEMANDA DÍA 18.5 24.4 21.5 19.3 20.7 20.3 19.2 17.8 23.4 25.2 11 12 13 14 15 16 17 18 19 20 DEMANDA DÍA 19.4 20.1 20.8 21.8 22.6 21.3 20.9 18.8 23.4 24.0 21 22 23 24 25 26 27 28 29 30 DEMANDA 21.4 20.8 18.3 19.7 19.5 18.7 25.1 19.9 25.2 18.1 ¿Se distribuye la demanda por días en forma normal? Las hipótesis son las siguientes: H0: La distribución es normal H1: La distribución no es normal Asumamos que = 0.05. Como no se proporciona ni media ni desviación estándar poblacionales, se calculan de la muestra, aunque eso signifique perder dos grados de libertad. Media = 21 Desviación estándar = 2.24 Como 30 observaciones es una muestra pequeña (menor a 50), dividiéndola entre 5 nos da 6 categorías. ¿Cómo se establecen los rangos de las categorías? Primero, se buscan los valores de z. Se divide el área de la curva normal entre las categorías, en este caso entre 6, cada área con la misma probabilidad (o sea áreas del mismo tamaño, aunque debe notarse que el mismo tamaño implica diferente distancia entre umbral y umbral). Habiendo 6 clases, el área total bajo la curva, que es 1, se divide entre 6 y cada clase deberá tener un sexto de los datos (1/6 = 0.1667). Es decir, si se dividen todas las observaciones en seis categorías, a cada categoría le correspondería 0.1667 del área bajo la curva. Se busca el valor de z para un área de 0.1667 a la derecha de la media. Para esa área z = 0.43 Para el área de 0.1667 a la izquierda de la media el valor es, por tanto, z = –0.43. (Hasta aquí van dos categorías) 87 Alejandro Valenzuela. Métodos Cuantitativos 88 Dos veces el área 0.1667 es igual a 0.334. El valor correspondiente es, a la derecha de la media: z = 0.97 y, a la izquierda, z = –0.97. (Hasta aquí van cuatro categorías). Las otras dos categorías se establecen, una, para valores de z mayores que 0.97 y, otra, para valores de z menores a –0.97 (es decir, en ambas colas de la distribución). Con estas dos tenemos seis categorías. -0.97 -0.43 0.43 0.97 Segundo, convertir los valores de z en valores de x para tener los umbrales de los seis rangos usando la fórmula de la normal estandarizada: z XX X X z X X z X z X Como la media es 21 y la desviación estándar es 2.24, entonces: Para z 0.43 21.96 X ( 0.43) (2.24) 21 = 20.04 Para z 0.97 23.17 88 Alejandro Valenzuela. Métodos Cuantitativos 89 X ( 0.97) ( 2.24) 21 = 18.83 Sustituyendo los valores de la escala de z por los valores de la escala de X, tenemos la siguiente gráfica: 3 4 5 2 6 1 18.83 20.04 21 21.96 23.17 Y aquí tenemos los límites de las categorías en el supuesto de que fueran normalmente distribuidas. Tercero, contamos los valores que caen en cada rango y con eso tenemos los valores OBSERVADOS. Los valores ESPERADOS son 5 por categoría porque al tener 30 observaciones y seis categorías, le tocan 5 a cada una. El cuadro siguiente resume los datos: CATEGORÍA 1 2 3 4 5 6 RANGO OBSERVACIONES ESPERADAS < 18.832 6 5 18.83 A 20.04 5 5 20.04 A 21.0 5 5 21.0 A 21.96 4 5 21.96 A 23.17 3 5 23.17 o más 7 5 30 30 (O-E)2/E 0.20 0.00 0.00 0.20 0.80 0.80 2 Observe que 2 = 2. Como tenemos 6 categorías y dos parámetros (la media y la varianza), entonces tenemos (6-1) -2 = 3 grados de libertad. Si fijamos = 0.05, la 2= 7.81. Como la chi-cuadrada calculada no es mayor que la chi-cuadrada crítica, no podemos rechazar la hipótesis nula y concluimos que los datos se ajustan a la distribución normal. 89 Alejandro Valenzuela. Métodos Cuantitativos 90 Bibliografía Daniels (1981).Capítulos 3 y 4 Levin (1979). Capítulo 10 Stevenson (1985). Capítulos 4 al 8 Mansfield (1986). Capítulos 4, 5, 6 y 9 90 Alejandro Valenzuela. Métodos Cuantitativos 91 IV. TEORÍA DE COLAS 1. Planteamiento general del modelo Un sistema de servicio está formado por las filas que se formen y las estaciones de servicio para atender a la población que demanda el servicio. El objetivo último de los modelos de colas es la minimización de costos, lo que se traduce en: a) La minimización del tiempo de espera de las personas que están en la fila, y b) La minimización del costo de servicio para la empresa Ambos costos tienen una relación inversa entre sí. Si el servicio se incrementa, su costo también aumenta, pero el costo de espera de las personas que buscan el servicio disminuye. Se trata de escoger el servicio que minimice el costo total. Esas relaciones se pueden apreciar en la siguiente gráfica: COSTO CT CS CE S* Incremento del servicio ==> El objetivo del servicio es encontrar el nivel óptimo de servicio, S*, donde se minimiza el costo total porque se igualan los costos de servicio y los costos de espera. 2. Definiciones El sistema tiene tres partes: la población que busca el servicio, la fila y el centro de servicio. 91 Alejandro Valenzuela. Métodos Cuantitativos 92 a) La población que busca el servicio. Las características de la población son el tamaño, las características de llegada y la conducta de la población. El Tamaño de la población. La población que demanda el servicio puede ser finita (como una flota de autos que espera por servicio en un taller o los secretarios de estado que esperan ser recibidos por el presidente) o infinita (como los pasajeros que compran boletos de autobús o como los solicitantes de ayuda en Sedesol). Características de llegada de la población. La llegada a la fila puede darse según un patrón organizado o de manera aleatoria. Si es aleatoria, entonces la población que llega asume una distribución de probabilidad Poisson. Conducta de la población. Es la actitud de los que se van a añadir a la fila. Las personas pueden sumarse a la fila o rehusar hacerlo. Esa decisión depende de la importancia del servicio que van a recibir. b) La Fila. La longitud de la fila puede ser finita o infinita. En términos teóricos e instrumentales, es más fácil tratar con una fila infinita. Las filas pueden ser aleatorias y no aleatorias. Aquí interesan las aleatorias y las llegadas a éstas se distribuyen como Poisson. c) La estación del servicio. Sobre las estaciones de servicio interesa su distribución física, el tipo de disciplina en la fila y la distribución de probabilidad que se le ajusta. Generalmente la distribución es exponencial. Distribución física del sistema de filas. El sistema está organizado canales y en fases: Los canales son las estaciones de servicio. Así, el sistema puede ser unicanal de múlticanal. La tienda de la esquina es unicanal; el supermercado es multicanal. 92 Alejandro Valenzuela. Métodos Cuantitativos 93 La fase es el número de estaciones de servicio que tiene que pasar la persona que busca el servicio. Las cajas de cobro en el supermercado son servicios de una sola fase (el cliente paga y se va). La obtención de la licencia de manejar se obtiene en un servicio multifase. En una ventanilla se entregan los papeles, en otra se paga, en otra se hace el examen médico, en otra hacen la prueba de manejo y en la última entregan la credencial. La disciplina de la fila. Se puede dividir en filas por orden de llegada y filas por prioridad. En los sistemas por orden de llegada hay varias posibilidades. Por ejemplo, el que llega primero se le atiende primero o el que llega primero se le atiende al último, etc. Los sistemas de prioridad se clasifican perentorio y no perentorio. Un ejemplo de fila por prioridad perentoria es la que forman las personas en un naufragio. Primero los niños, las mujeres y los ancianos; luego el resto de los pasajeros; sigue la tripulación y, al último, el capitán. La caja rápida en un supermercado es prioritaria pero no perentoria porque el que va llegando se forma al último. 3. Sistemas elementales de colas El más elemental del sistema de colas es aquel donde ni la llegada de la población ni el tiempo de servicio son aleatorios. Supongamos que son constantes. Si A es la velocidad promedio de llegada a la fila (número de llegadas por unidad de tiempo) y S es la velocidad promedio de atención a clientes (número de unidades de tiempo por persona atendida). Si A 1 no hay cola ni ocio en la estación de servicio S Si A 1 se acumula la cola y no hay ocio en la estación de servicio S Si A 1 no hay la cola y hay ocio en la estación de servicio. S 93 Alejandro Valenzuela. Métodos Cuantitativos 94 4. Modelos de colas con un canal y con A y S aleatorios a) Condiciones del modelo El número de llegadas a la fila por unidad de tiempo (A) se distribuye como Poisson El tiempo de atención (S) se distribuye exponencialmente La disciplina es que el que llega primero se le atiende primero La población es infinita Hay un solo canal y una sola fase Se genera cierto ocio en la estación de servicio porque A < S b) Nomenclatura y fórmulas Además de los conceptos de llegada y atención ya definidos, se tiene: Ls = Longitud del sistema (la fila más las personas que están siendo atendidas) Ls A SA Lq = Longitud de la fila Lq A2 S ( S A) Ws = tiempo promedio en el sistema Ws 1 SA Wq = Tiempo promedio de la fila Wq A S ( S A) 94 Alejandro Valenzuela. Métodos Cuantitativos 95 Pw = Probabilidad de que la estación esté ocupada (factor de utilización) Pw A S CE = Ls*CUE CUE es el costo unitario de espera y lo asume el público. CS = Estaciones*CUS CUS es el costo unitario de servicio y lo asume el que presta el servicio. CT = CE + CS EJEMPLO 1. En una fila la gente llega en promedio de 4 personas por hora (A) y en cada estación de servicio se atiende a 6 personas por hora (S). El costo de mantener la estación es de 18 pesos por hora. Cada persona en la fila pierde 20 pesos por hora de espera. La tasa de servicio será de 6 si hay una estación, de 12 si hay dos y así sucesivamente. El siguiente cuadro muestra los costos promedio por hora de servicio. MEDIDAS A S Ls Lq Ws Wq CUE CUP CE CP CT E=1 4 6 2.0 1.333 0.500 0.333 20.0 18.0 40.00 18.00 58.00 E=2 4 12 0.5 0.167 0.125 0.042 20.0 18.0 10.00 36.00 46.00 E=3 4 18 0.3 0.063 0.071 0.016 20.0 18.0 5.71 54.00 59.71 En este escenario, como se puede ver, la alternativa que minimiza los costos totales es la que opera con dos estaciones de servicio. Este escenario reduce el costo para el público (porque reduce el tiempo de espera en el sistema) aunque aumenta el costo de la empresa. 95 Alejandro Valenzuela. Métodos Cuantitativos 96 Dicho de otra manera: mejorar el servicio beneficia a la clientela, aunque eso tiene un costo para la empresa. 5. Modelos de colas en la práctica La teoría de colas implica, primero, seleccionar el modelo matemático adecuado y, segundo, implantar el modelo de decisión basado en las medidas de desempeño. La selección del modelo está determinada por la forma en que se distribuyen las llegadas y los tiempos de salida. Si ambas son aleatorias, entonces se aplican las distribuciones de Poisson y exponencial. Si no, se aplican modelos denominados de simulación. El objetivo de los modelos de filas es minimizar los costos totales asociados con la operación de líneas de espera. Se trata de equilibrar los costos de espera contra los costos del servicios (ver la gráfica). El costo de espera no es fácil de estimar, y es más difícil en sistemas operados por personas (los hay automáticos y semiautomáticos). También influye el tipo de línea de que se trata: Hay filas en las que uno quiere formarse y otras en las que uno debe formarse. Nomás para rematar el punto, tampoco es lo mismo hacer una fila en el SAT para pagar impuestos que en el cine para ver una esperada película... Hay una cosa que se llama la aceptación de la fila. Sólo para ejemplificar, veamos el siguiente modelo de costo. El modelo de costo (ver la gráfica) trata de equilibrar el costo de espera y el costo del servicio. Este modelo, entonces, trata de encontrar la tasa óptima de servicio (S*). Los supuestos son que hay un solo servidor; se conoce la tasa promedio de llegadas, A; los costos totales (los costos de operación y los costos de servicio) son función de la tasa de servicio. 96 Alejandro Valenzuela. Métodos Cuantitativos 97 EJEMPLO 2. Una empresa está buscando modernizar su servicio como estrategia para ganar mercado. Busca, así, la tasa de servicio que minimice los costos totales. Para ello está evaluando la introducción de un servicio de atención en 4 modalidades: manual, semiautomático, automático y completamente automatizado. Cada sistema tiene un costo de operación por hora de $15, $30, $50 y $100, respectivamente. El beneficio es que el número de personas que atiende cada sistema es creciente: 18, 25, 30, 45, respectivamente. El número promedio de personas que llegan a la fila (A) es de 15 por hora. La empresa ha prometido un reembolso (R) de $50 cada vez que se retrase en la atención (el retraso en la atención se mide dividiendo 60 minutos entre S y multiplicando el resultado por el número de personas que están adelante del que se acaba de formar). Este reembolso se considera el costo unitario de la espera. Las fórmulas usadas son las siguientes: Pw A S Ls i 1 1 Pw CE R Lsi CT = CS + CE El siguiente cuadro resume los resultados: SIST 1 2 3 4 CS 15 30 50 100 A 15 15 15 15 S 18 25 30 45 Pw 0.83 0.60 0.50 0.33 Lsi 6.0 2.5 2.0 1.5 CE 300 125 100 75 CT 315 155 150 175 La tasa óptima de servicio es de 30 porque es el que minimiza el costo total. Bibliografía: Hamdy A. Taha (2004). Investigación de operaciones. 7ª Edición. Capítulo 17. Editorial Prentice Hall. 97 Alejandro Valenzuela. Métodos Cuantitativos 98 V. MODELOS DE PRONÓSTICO En muchas actividades, los participantes quisieran predecir los resultados de sus actividades. Por ejemplo, los políticos quisieran saber los votos que obtendrán, los comerciantes quisieran saber el volumen de ventas que tendrán, los funcionarios públicos quisieran saber el número de personas que deberán atender, etc. Hay muchas técnicas para predecir resultados. Aquí veremos tres de esas técnicas: la de promedios móviles, la de suavización exponencial y la de regresión. 1. Técnica del promedio móvil Cuando se tiene una serie de tiempo, es decir, una serie de datos sobre alguna variable durante cualquier número de periodos, quisiéramos predecir cuál es el valor que sigue. Para hacer ese pronóstico podemos usar los n valores anteriores, donde n > 1. Una característica de la técnica del promedio móvil es que el peso de las observaciones que entran en el pronóstico tienen el mismo peso las más alejadas y las menos alejadas. Se le llama promedio móvil porque el promedio se va modificando conforme se avanza en los sucesivos valores pronosticados. Se supone que cada valor de la serie de tiempo tiene un componente fijo y un componente aleatorio. El componente aleatorio se distribuye normalmente con media cero y varianza constante. yt b t Desde luego que se debe suponer que los datos están correlacionados, es decir, que los distintos valores de la serie no son independientes entre sí. O dicho de otro modo, el último número está influido por los anteriores. 98 Alejandro Valenzuela. Métodos Cuantitativos 99 Si la serie tiene Yt observaciones y se quiere predecir la observación Yt+1 y para hacer esa predicción se quiere hacer uso de n valores anteriores, entonces el promedio móvil será: y t 1 y t n 1 y t n 2 ... y t n Supongamos que se tiene una serie de tiempo sobre la demanda mensual de un bien y se tienen dos años de observaciones. Los datos se muestran en el siguiente cuadro: MES DEMANDA 1 46 2 56 3 54 4 43 5 57 6 56 7 67 8 62 9 50 10 56 11 47 12 56 MES DEMANDA 13 54 14 42 15 64 16 60 17 70 18 66 19 57 20 55 21 52 22 62 23 70 24 72 Si se quiere predecir la observación 25 (que es la observación Yt+1). Para ello se quiere usan las tres últimas observaciones (la 22, la 23 y la 24) Yt-n+1 = Y24-3+1 = Y22 = 62 Yt-n+2 = Y24-3+2 = Y23 = 70 Yt-n+3 = Y24-3+3 = Y24 = 72 Entonces: y t 1 62 70 72 68 3 La técnica predice que la demanda durante el mes 25 será de 68 unidades. Conforme pasa el tiempo, los valores estimados se sustituyen por los reales para realizar los pronósticos sucesivos. Los números pronosticados se pueden usar para realizar pronósticos de momentos más alejados del presente, aunque se debe tener en cuenta que el número pronosticado se basa, a su vez, en otros números pronosticados. 99 Alejandro Valenzuela. Métodos Cuantitativos100 Para hacerlo en hoja de cálculo, entre a Excel, selecciones Herramientas Análisis de Datos Media Móvil Esa herramienta le proporcionará los números pronosticados y una gráfica donde mostrará los valores reales y los pronosticados. Los resultados se observan en el siguiente cuadro: Yt 46 56 54 43 57 56 67 62 50 56 47 56 54 42 64 60 70 66 57 55 52 62 70 72 Y*t #N/A #N/A 52 51 51 52 60 62 60 56 51 53 52 51 53 55 65 65 64 59 55 56 61 68 PROMEDIO MÓVIL 80 70 60 50 Valor MES 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 40 30 Real Pronóstico 20 10 0 1 3 5 7 9 11 13 15 17 19 21 23 2. Suavización exponencial Esta técnica es similar a la de promedio móvil, pero busca compensar una deficiencia de ésta: la de suponer que todas las observaciones tienen el mismo peso en el pronóstico. La técnica de suavización exponencial asigna un peso mayor a la observación más reciente. Hay una constante de suavización que está entre cero y uno (0< < 1). Si se tienen observaciones hasta Yt, el pronóstico para es: 100 Alejandro Valenzuela. Métodos Cuantitativos101 Yt*1 Yt (1 )Yt 1 (1 ) 2 Yt 2 ... Si la fórmula anterior es el pronóstico para Y t *1 , entonces el pronóstico para Yt* es: Yt* Yt 1 (1 )Yt 2 (1 ) 2 Yt 3 ... Es decir, Y t *1 empieza con Y t ; Yt* empieza con Y t 1 … Así, la formula para Y t *1 puede simplificarse como: Yt*1 Yt (1 )Yt*1 La constante de suavización debe ser elegida por quien hace el pronóstico. Un valor mayor de implica que las observaciones más recientes tienen mayor peso. Supongamos que en los datos sobre demanda usados en la técnica anterior, se quiere estimar el valor de Y25. Supongamos también que = 0.9 (es decir, que el elemento más reciente pesa mucho más que los demás): Y25* (0.9)72 0.9(0.1)70 0.9(0.1) 2 62 0.9(0.1) 3 52 0.9(0.1) 4 55 0.9(0.1) 5 57 Y25* (0.9)72 (0.9)( 0.1)70 (0.9)( 0.01)62 (0.9)( 0.001)52 (0.9)( 0.0001)55 (0.9)( 0.00001)57 Y25* (0.9)72 (0.09)70 (0.009)62 (0.0009)52 (0.00009)55 (0.000009)57 Y25* 64.8 6.3 0.558 0.0468 0.00495 0.000513 Y 25* 71.7098 Este resultado es el mismo si se usa la formula extendida (usada en este caso) o la fórmula reducida que usa el pronóstico anterior para predecir la observación siguiente. Este último requiere empezar a pronosticar desde el principio porque el siguiente requiere del último pronóstico, el último requiere del penúltimo, el penúltimo del antepenúltimo, y así sucesivamente hasta llegar al principio. 101 Alejandro Valenzuela. Métodos Cuantitativos102 Sin embargo, el pronóstico con la fórmula simplificada arroja el mismo resultado, como se puede ver en el cuadro de más adelante, construido con dicha fórmula. Para hacerlo en hoja de cálculo, entre a Excel, selecciones Herramientas Análisis de Datos Suavización Exponencial. Se supone que esa herramienta le proporcionará los números pronosticados y una gráfica donde mostrará los valores reales y los pronosticados. Pero yo creo que dicha herramienta tiene un error de lógica porque pronostica el momento t con el dato pronosticado en el momento t-1 y, esto es lo ilógico, con el dato real del momento t. Haciendo los cálculos según la fórmula simplificada, los resultados se observan en el siguiente cuadro: t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Yt 46 56 54 43 57 56 67 62 50 56 47 56 54 42 64 60 70 66 57 55 52 62 70 72 Y*t #NA 41 55 54 44 56 56 66 62 51 56 48 55 54 43 62 60 69 66 58 55 52 61 69 72 102 Alejandro Valenzuela. Métodos Cuantitativos103 3. Análisis de regresión El análisis de regresión busca descubrir la forma en que una variable, como Y, depende de otra, como X. La variable Y se llama dependiente y la variable X se llama independiente. Uno de los usos del análisis de regresión es la predicción de los valores de Y en términos de los valores que adopte X. a) El modelo El Análisis de regresión se ocupa de la estimación o predicción del valor promedio (la media) poblacional de la variable dependiente sobre la base de valores fijos de la variable explicativa. LA MEDIA CONDICIONAL DE Y RESPECTO A X, es decir, E(Y|Xi) es el valor que se anda buscando. Se lee: el valor esperado de Y dado un valor específico de X. EJEMPLO 1. Suponga que hay un país que tiene 60 familias y que queremos saber la media del consumo dependiendo del ingreso (la media condicional del consumo) teniendo los siguientes datos: El consumo está explicado por el ingreso. Se trata de un país con 60 familias distribuidas en 10 categorías de ingreso (que se muestran en el siguiente cuadro). El número de familias en cada categoría de ingresos es variable y, dentro de cada categoría, el consumo es también variable. Si X es el ingreso y Y es el consumo, el siguiente cuadro presenta la información de toda la población. CUADRO 1 Y / X 80 55 60 65 70 75 100 65 70 74 80 85 88 120 79 84 90 94 98 TOTAL MEDIA 325 65 462 77 445 89 140 80 93 95 103 108 113 115 707 101 160 102 107 110 116 118 125 180 110 115 120 130 135 140 200 120 136 140 144 145 678 113 750 125 685 137 Las medias condicionales de Y, dada X, son: 103 220 135 137 140 152 157 160 162 1043 149 240 137 145 155 165 175 189 966 161 260 150 152 175 178 180 185 191 1211 173 Alejandro Valenzuela. Métodos Cuantitativos104 E(Y | X =80) = 65 E(Y | X =100) = 77 E(Y | X =120) = 89 E(Y | X =140) = 101 E(Y | X =160) = 113 E(Y | X =180) = 125 E(Y | X =200) = 137 E(Y | X =220) = 149 E(Y | X =240) = 161 E(Y | X =260) = 173 La gráfica de la regresión: Consiste en ubicar en el plano cartesiano las medias condicionales de Y (dados los valores de X). La gráfica de esa curva es la siguiente: 200 173 161 149 137 125 113 101 89 77 65 80 100 120 140 160 180 200 220 240 260 Normalmente la variable Y no depende de una sola variable. Por ejemplo, el consumo de un bien depende del ingreso, pero también de los gustos, del precio de los bienes y de muchas otras variables. Si llamamos X1, X2… Xn a todas esas variables, entonces los valores que tome Y dependen de los valores que adopte cada una de las variables X. Dicho de otra manera, Y es una función de X: 104 Alejandro Valenzuela. Métodos Cuantitativos105 Ecuación 1: Yi f ( X 1 ,..., X n ) Una función puede adoptar muchas formas, pero una guía es la siguiente: si el exponente más alto que tiene una función es 1, entonces se dice que es una función lineal. Si el exponente más alto es 2, es una cuadrática…2 Primer supuesto: La función de regresión es lineal. Es decir, Y es una función lineal de las X. Entonces, si es una línea recta, podemos escribir esa función como sigue: Ecuación 2: Yi 0 1 X 1 ... n X n En este modelo, ß0 y ß1 se llaman parámetros. Esos parámetros son constantes que arrojan información sobre el tipo de influencia que tiene X sobre Y. Imagínese usted que 1 fuera en realidad cero. Eso querría decir que X1 no tiene ninguna influencia sobre Y. Suponga, por el contrario que ß1 no es cero, pero que es negativo. Eso dice que la influencia de X sobre Y es inversa (es decir, que si X crece, Y decrece y viceversa). Supongamos que las variables X1 hasta Xn que hemos elegido sí influyen sobre. La pregunta obligada es: ¿Las variables que hemos elegido son las únicas que explican a Y? La respuesta es seguramente que no. Hay muchos factores que influyen en algo que o son incuantificables o sus datos no están disponibles. Si estuviéramos seguros de que el 100 por ciento del comportamiento de Y está explicado, digamos, solo por las variables X1 y X2, entonces tendríamos un modelo determinístico. Pero en la realidad eso es prácticamente imposible porque lo más normal es que sólo hayamos elegido los factores más importantes a los que les atribuimos el comportamiento de Y, habiendo otros factores que no hemos podido introducir. En este caso, el modelo es probabilístico. Todos los elementos explicativos de Y que hemos dejado por fuera se 2 Una función matemática está compuesto por términos, que son las expresiones separadas por signos de suma y resta). Los términos tiene tres elementos: la variable, el coeficiente y el exponente. Por ejemplo si un término es CX2, C es el coeficiente, X es la variable y 2 es el exponente. 105 Alejandro Valenzuela. Métodos Cuantitativos106 pueden agrupar en una expresión a la que podemos denotar por u y que representa el error de explicación. Así, el modelo probabilístico es: Ecuación 3: Yi 0 1 X 1 ... n X n ui Función de regresión poblacional. La ecuación 3 se llama función de regresión poblacional porque explica el comportamiento de Y dentro de una población. Nótese que los coeficientes de la función son los parámetros (precisamente esos que sabemos que existen, pero que desconocemos, al menos todavía). Como casi nunca podemos tener información de todos los elementos de una población, lo usual es tomar una muestra y a partir de ella estimar los parámetros de la población. No se debe olvidar que el verdadero propósito es saber cosas sobre la población y que la muestra es solo un medio para saberlas. Así tenemos la función de regresión muestral: Ecuación 4: Yi b0 b1 X 1 ... bn X n ei Función de regresión muestral. Aquí, los coeficientes b1…, bn y el término de error ei son los estimadores de los parámetros 1…, n y de ui. Si los valores de X y de Y nos los da la muestra que obtenemos de la población, ¿De dónde sacamos b0, b1, … , bn? Se puede ver en la ecuación 4 (la función de regresión muestral) que Y está constituida por dos partes. Una parte explicada y otra no explicada. A la parte explicada, a la que podemos llamar también estimada y que simbolizaremos con Ŷ, está dada por los coeficientes y las variables que hemos elegido. Recuerde que a la verdadera Y no la conocemos y que para saber algo de ella hacemos dos cosas: primero, elegimos unas variables dentro de las muchas que seguramente la explican y, segundo, esas variables que elegimos las medimos por una muestra. Lo que nos da la muestra es la parte explicada de Y: Ecuación 5: Yˆi b0 b1 X 1 ... bn X n 106 Alejandro Valenzuela. Métodos Cuantitativos107 La otra parte, la no explicada (representada por e) debe tener una característica: debe ser completamente aleatoria. Si no fuera aleatoria, entonces sería sistemático y en ese caso se puede incorporar a la parte estimada del modelo. Segundo supuesto: Los errores se distribuyen en forma normal con media cero y varianza constante: ui N(0, 2 ) y también ei N(0, 2 ) Entonces, la ecuación 4 se puede escribir de la siguiente manera: Ecuación 6: Yi Yˆi ei Al respecto, se pueden hacer las dos siguientes y obvias consideraciones: primera, Ŷ será mejor estimador entre más cerca esté de Y. Segunda, Ŷ estará más cerca de Y entre más pequeño sea e. Se puede decir que ei mide la desviación de Ŷ respecto de la verdadera Y: Ecuación 7: ei Yi Yˆi Viendo las ecuaciones 6 y 7, parece evidente que el objetivo es minimizar los errores, ei. Pero no importa un error en particular, sino todos los errores en conjunto, se toma la sumatoria de los errores. EJEMPLO 2 (para mostrar el asunto de la suma de errores). Supóngase que se toma una muestra de dos variables bajo el criterio de que X determina a Y. Supóngase también que el modelo estimado que minimiza los errores es Y= 14.63 +1.63X +ei. Es decir, supóngase que b0=14.61 y que b1= 1.63. Desde luego que Ŷ = 14.63 +1.63X y ei=Y –Ŷ. Por ejemplo, si X1 = 10, Ŷ1 = 30.9 Como Y1 = 28, entonces e1= –2.9, y así sucesivamente. El siguiente cuadro muestra los valores restantes. CUADRO 2 107 Alejandro Valenzuela. Métodos Cuantitativos108 Y 28 31 35 31 31 39 39 28 33 42 X 10 9 13 9 11 14 16 8 12 15 Ŷ 30.9 29.3 35.8 29.3 32.5 37.4 40.7 27.7 34.2 39.1 e -2.9 1.7 -0.8 1.7 -1.5 1.6 -1.7 0.4 -1.2 2.9 Una característica del modelo que estamos desarrollando, que se sigue del segundo supuesto (el de la normalidad) es que la suma de los errores es cero. Tercer supuesto: Si los errores se distribuyen normalmente, suman cero: ei = 0, de donde se deduce que la media de los errores es también cero. En la práctica no es tan grave que la suma de errores no de cero. Por ejemplo, en el cuadro anterior la suma de errores da 0.02. Lo que sucede es que esa suma siempre va a ser muy pequeña. Si la suma de errores será siempre cero o cercana a cero, entonces parecería que basta con que los errores se distribuyan normalmente para minimizarlos. Pero no, porque muy bien puede haber dos errores muy grandes, uno con signo positivo y otro con signo negativo, para que su suma sea cero. Por tanto, habrá que proceder exactamente igual a como se procedió para obtener la varianza: elevar al cuadrado cada término de error posteriormente sumar los resultados. Pero como se ve en la ecuación 7, los errores son iguales a la diferencia entre la Y real y la Y estimada, habrá que elevar al cuadrado también esa diferencia. De hecho, como la diferencia entre las Y es una desviación de la Y estimada respecto la verdadera media, la suma de los errores al cuadrado, divididos por los grados de libertad, es la varianza del modelo. b) La estimación de los parámetros 108 Alejandro Valenzuela. Métodos Cuantitativos109 Lo anterior quiere decir que la ecuación 7 debe ser sumada y elevada al cuadrado en sus tres términos: Ecuación 8: ei2 Yi 2 Yˆi 2 El método más común por el cual se estiman los parámetros del modelo de regresión lineal se llama Método de Cuadrados Mínimos Ordinarios porque el objetivo es minimizar la suma de cuadrados mostrada en la ecuación 8. Como la ecuación 8 puede escribirse también como Yi 2 Yˆi 2 ei2 , queda clara la siguiente nomenclatura: Y2 = Suma de Cuadrados Totales (SCT) Ŷ2 = Suma de Cuadrados Explicados (SCE) e2 = Suma de Cuadrados Residuales (SCR) Siguiendo la ecuación 4, podemos deducir que: Yˆi 2 (b0 b1 bn X n ) 2 . Por tanto, podemos escribir la ecuación 8 en forma extensa: Ecuación 9: ei2 (Yi b0 b1 X 1 ... b1 X 1 ) 2 La minimización de la suma de errores al cuadrado dependerá de los coeficientes de regresión parcial que elijamos. Dicho de manera formal, la minimización de la suma de errores al cuadrado (ecuación 9) está en función de los coeficientes de regresión. El resultado de la minimización se muestra en las siguientes ecuaciones (los interesados en seguir el desarrollo matemático para deducir las ecuaciones de parámetros de funciones uniecuacionales, vea el apéndice de este capítulo). Las fórmulas para los parámetros de 109 Alejandro Valenzuela. Métodos Cuantitativos110 funciones con más de una variable independiente (10A, 11A y 11B) se presentan sin demostración. Ecuación 10: b0 Y b1 X Ecuación 11: b1 b0 Y b1 X 1 b2 X 2 Ecuación 10A y i x i xi2 b1 (yi x1 )(x22 ) (yi x2 )(x1 x2 ) Ecuación 11A (x12 )(x22 ) (x1 x2 ) 2 b2 (yi x 2 )(x12 ) (yi x1 )(x1 x 2 ) Ecuación 11B (x12 )(x 22 ) (x1 x 2 ) 2 Donde las minúsculas son desviaciones de la media: yi Yi Y y xi X i X Como b0 y b1 son estimaciones de los parámetros, si tomamos n muestras tendremos n estimadores. Como se busca que el estimador esté lo más cerca posible del parámetro, entonces el error estándar deberá ser suficientemente pequeña como para que la estimación sea aceptable. Esta exigencia se basa en el hecho de que los parámetros también se distribuyen en forma normal. Cuarto supuesto: i N(0, 2 ) Las varianza y las desviaciones estándar de los estimadores son: Ecuación 12: Ecuación 13: Ecuación 14: Var (b0 ) S b0 X i2 2 n( X i X ) 2 X i2 n( X i X ) 2 Var (b1 ) 2 xi2 110 Alejandro Valenzuela. Métodos Cuantitativos111 Ecuación 15: S b1 xi2 EJEMPLO 3. Retomemos los datos del ejemplo 1. La primera y segunda columnas muestran los valores Y, X obtenidos de la muestra. Las columnas 3 y 4 muestran las desviaciones de la media x, y. La quinta columna muestra el producto de las dos anteriores y la última muestra el cuadrado de las desviaciones de X. En los últimos renglones aparecen las sumas y las medias correspondientes. Este ejercicio, a diferencia del 1, es que ya no suponemos b0 y b1, sino que los calculamos según el procedimiento descrito. CUADRO 3 SUMA MEDIA Y 28 31 35 31 31 39 39 28 33 42 X 10 9 13 9 11 14 16 8 12 15 33.7 11.7 y -5.7 -2.7 1.3 -2.7 -2.7 5.3 5.3 -5.7 -0.7 8.3 x -1.7 -2.7 1.3 -2.7 -0.7 2.3 4.3 -3.7 0.3 3.3 yx 9.69 7.29 1.69 7.29 1.89 12.19 22.79 21.09 -0.21 27.39 111.1 x2 2.89 7.29 1.69 7.29 0.49 5.29 18.49 13.69 0.09 10.89 68.1 Ŷ 30.9 29.3 35.8 29.3 32.6 37.5 40.7 27.7 34.2 39.1 e -2.9 1.7 -0.8 1.7 -1.6 1.6 -1.7 0.3 -1.2 2.9 -0.01 Nos desatendemos por lo pronto de la desviación estándar y nos centramos en el cálculo de los coeficientes de regresión. Aplicando las ecuaciones 10 y 11: b0 111.1 1.63 68.1 b0 33.7 1.63(11.7) 14.63 La línea de regresión (siguiendo la ecuación 5) está dada por: 111 Alejandro Valenzuela. Métodos Cuantitativos112 Yi 14.63 1.63 X i ei Los coeficientes de regresión normalmente no se calculan a mano, sobre todo si el problema o la muestra tiene muchas observaciones (o muchos datos). Si el modelo tiene una variable independiente, se puede usar el Excel. Si tiene más de una, se usa algún paquete estadístico que lo haga como el SPSS, el EViews, el Stata, etc. Supongamos por lo pronto el problema hipotético tratado en los ejercicios 1 y 2. Ese problema tiene solo una variable independiente y, por tanto, se puede calcular en Excel. El procedimiento (llamado la corrida del modelo) es el siguiente. Se elige Herramientas Análisis de Datos Regresión. Aparecerá un cuadro donde hay que señalar el rango de Y, el rango de X y el rango de salida, que es donde aparecerán los resultados y que se muestra en el siguiente cuadro: CUADRO 4 Resumen Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0.92 0.85 0.83 2.03 10.00 ANÁLISIS DE VARIANZA gl Regresión Residuos Total Intercepción (bo) Variable X1 (b1) 1 8 9 Coeficientes 14.61 1.63 112 sc 181.3 32.8 214.1 Sb 2.94 0.25 mc 181.3 4.1 t 4.96 6.64 F 44.1 F 0.0 Prob Inf. 95% 0.00 7.82 0.00 1.07 Alejandro Valenzuela. Métodos Cuantitativos113 El modelo tiene tres supuestos adicionales: Quinto supuesto: Var (ui ) 2 Este es el supuesto de homoscedasticidad (por oposición a heteroscedasticidad), es decir, que las observaciones de X se distribuyen en torno a la media con la misma varianza a lo largo de todas las observaciones. Sexto supuesto: Cov(ui , u j ) 0 Este es el supuesto de no autocorrelación que dice que la covarianza entre los errores es cero. Esto es, la variación de un error no está condicionada por la variación en otro error (si no, no fueran aleatorios, como dice el segundo supuesto). La cantidad con la que un valor determinado de Ŷ diverja de Y es independiente de otra divergencia. Si no fueran independientes, la covarianza no sería cero porque variarían juntos. Séptimo supuesto: Cov( X i , X j ) 0 Este es el supuesto de la no multicolinealidad: la covarianza entre variables independientes es cero. Esto quiere decir que los valores de X1 no están determinados por los de X2. Un indicio de multicolinealidad sería un coeficiente de correlación (R) alto, negativo o positivo. c) Interpretación del modelo de regresión Cuando se tienen unos datos sobre las variables se corre un modelo de regresión lineal, como lo hemos dado ya, el siguiente paso es interpretar ese modelo, es decir, saber si es un buen modelo o no. Hay tres factores que hay que tener en cuenta al interpretar los resultados de un modelo de regresión lineal: Primero, saber qué tanto los datos que tenemos explican el problema (lo que se conoce como bondad de ajuste). Esto lo mide el coeficiente de determinación múltiple o R2. 113 Alejandro Valenzuela. Métodos Cuantitativos114 Segundo, la evaluación de las partes del modelo. Esas partes son las variables independientes incluidas. Muchas veces no todas las variables incluidas son pertinentes. Supóngase que Y a b1 X 1 b2 X 2 . Uno se puede preguntar si las dos variables incluidas ayudan a explicar el comportamiento de Y. Eso depende de una sola cosa: que los coeficientes sean distintos de cero. Si b1≠ 0, entonces X1 sí tiene un papel en la explicación de Y. Y lo mismo se puede decir de X2. Esta es una evaluación sobre los coeficientes de regresión parcial y se hace con la prueba t. Tercero, la evaluación del modelo en su conjunto, es decir, si el modelo como tal explica el problema o no. Esto se evalúa por medio del análisis de varianza. i) El coeficiente de determinación (R2) El R2 mide la bondad de ajuste de los datos, es decir, qué tanto el modelo explica el problema. Regrese usted a la ecuación 8 y verá que la suma de cuadrados es un concepto crucial en el modelo de regresión (recuérdese que el método para obtener los coeficientes de regresión parcial se llama de cuadrados mínimos ordinarios). El problema a explicar se puede plantear en términos de sumas de cuadrados. La ecuación 8 plantea que la suma de cuadrados totales se descompone en dos: la suma de cuadrados explicados y la suma de cuadrados no explicados: SCT = SCE + SCR Lo que es evidente de la expresión anterior es que el modelo es mejor entre mayor es la SCE y menor la SCR. Por tanto, la pregunta operativa es qué proporción guarda la parte explicada del problema en relación al total. Dicho de otra manera, de todo lo que se debe explicar, ¿Qué tanto explica el modelo que se ha utilizado? Eso es precisamente lo que mide el R2. Es decir, Ecuación 16: R2 SCE SCT 114 Alejandro Valenzuela. Métodos Cuantitativos115 La ecuación 8 se puede escribir también así: y i2 yˆ i2 ei2 (como desviaciones de la media).3. De ahí se sigue que la ecuación 16 se puede escribir de la siguiente manera: R2 Ecuación 17: yˆ i2 yi2 Como lo más que puede explicar el modelo es el total, entonces R2 es un número que está entre cero y uno: 0 ≤ R2 ≤ 1 Siguiendo con los datos de los ejemplos 1 y 2, el siguiente cuadro proporciona los elementos para el cálculo manual del R2. CUADRO 5 SUMA MEDIA R2 3 Y 28 31 35 31 31 39 39 28 33 42 X 10 9 13 9 11 14 16 8 12 15 33.7 11.7 y2 Ŷ ŷ2 e2 32.5 7.3 1.7 7.3 7.3 28.1 28.1 32.5 0.5 68.9 214.1 30.9 29.3 35.8 29.3 32.6 37.5 40.7 27.7 34.2 39.1 7.7 19.4 4.5 19.4 1.3 14.1 49.1 36.4 0.2 28.9 180.9 24.8 -12.1 -2.8 -12.1 6.0 14.0 -21.0 -3.9 0.3 40.0 33.2 33.7 180.9 0.85 214.1 Ver esta característica del modelo en el Apéndice B. 115 Alejandro Valenzuela. Métodos Cuantitativos116 Note que es justamente este resultado el que nos proporciona la corrida del modelo en Excel mostrada en el cuadro 4. Este resultado nos dice que el modelo, como está planteado, explica el 85% del problema. Es necesario aclarar que se espera una R2 más alta para modelos de series de tiempo que para los de corte transversal. Los cortes transversales muestran información sobre un conjunto de elementos o individuos en un momento dado del tiempo. Las series de tiempo, en cambio, son datos sobre un elemento o individuo a lo largo del tiempo. Hay un coeficiente muy parecido a R2 que se llama coeficiente de correlación, denotado por R. Este, a diferencia del coeficiente de determinación, mide el grado de asociación lineal entre las variables. Se calcula por la siguiente fórmula: Ecuación 18: r x i y i (xi2 )( yi2 ) Se puede usar con cualquier par de variables, por ejemplo, X1, X2. Este coeficiente es un número que va de menos uno a uno: -1 ≤ R ≤ 1 Si R = 0, no existe asociación linean (correlación) entre las variables. Si R = -1, existe una perfecta correlación negativa entre las variables: si una sube, la otra baja en perfecta sincronía. Si R = 1, hay perfecta correlación positiva entre las variables (ambas suben o bajan en perfecta sincronía). ii) Evaluación de los coeficiente de regresión parcial Como ya se dijo más atrás, una variable X influye sobre la variable Y si su coeficiente es distinto de cero. 116 Alejandro Valenzuela. Métodos Cuantitativos117 Digamos de pasada que una vez que se verifica que el coeficiente es distinto de cero, el tamaño y el signo del coeficiente informan sobre la forma y el tamaño de la influencia de X sobre Y. Si el signo es positivo, la influencia de X sobre Y será directa. Si, en cambio, es negativo, la influencia de X sobre Y es inversa. El tamaño del coeficiente es la pendiente de la función de regresión. Como se sabe, la pendiente mide el cambio en Y por cada cambio unitario en X. Si Y mY , entonces dY mdY (donde d indica el cambio unitario). Como el coeficiente m es la pendiente de la función, está dada por: m Y X Establecida la importancia de que los coeficientes de regresión sean distintos de cero, las hipótesis de trabajo son las siguientes: H0: ßi = 0 H1: ßi 0 El mecanismo para evaluar esto es el uso de la prueba t, y se puede usar según tres aproximaciones equivalentes: primera, el intervalo de confianza; segunda, la prueba de significancia, y tercera, la regla de dedo. El Intervalo de confianza ¿Recuerda el intervalo de confianza que se desarrolló en el marco del uso de la distribución t de Student para la estimación de parámetros? Ese intervalo es: Si las hipótesis son H0: ßi = 0 y H1: ßi 0, entonces sustituimos por i y tenemos así el intervalo que necesitamos: 117 x por bi y Alejandro Valenzuela. Métodos Cuantitativos118 P bi t 2 ( Sbi ) i bi t 2 ( Sbi ) 1 Del ejemplo que hemos estado desarrollando, tomemos primero a b1=1.63. No tenemos que aplicar la ecuación 15 para obtener la desviación estándar de ese coeficiente (aunque lo podemos hacer) ya que en el cuadro 4, la derecha del coeficiente aparece esa desviación y ahí podemos ver que es 0.25. Como tenemos 10 observaciones, entonces, para 9 grados de libertad y =0.05, t0.025 =2.262. Sustituyendo en el intervalo: P1.63 2.262(0.25) 1 1.63 2.262(0.25) 1 0.05 Por tanto, el intervalo de confianza para 1 bajo la hipótesis nula de que 1=0, es: P1.0645 1 2.1955 95% El intervalo de confianza para 0 bajo la misma hipótesis es y el mismo nivel de significancia es: P7.96 0 22.26 95% Como ninguno de los intervalos de confianza incluye al cero, se rechaza la hipótesis nula y se admite la hipótesis alternativa y se concluye los parámetros son estadísticamente significativos. Esto es, X sí tiene influencia en el comportamiento de Y. Además, los intervalos no son tan grandes ¿o sí? Uso del estadístico de prueba El estadístico de la prueba t indica también si un coeficiente es diferente de cero o no. Se basa en la comparación de t calculada con el valor crítico de t (que se obtiene de las tablas). 118 Alejandro Valenzuela. Métodos Cuantitativos119 Si H0: ßi = 0, la ecuación de t, t bi ßi , se debe escribir de la siguiente manera: Sbi t bi 0 o, lo que es lo mismo, como: S bi Ecuación 19: t bi S bi La regla de decisión es la siguiente: si t > t rechazar H0. Por tanto, el parámetro es estadísticamente diferente de cero. Siguiendo el mismo ejemplo, la prueba para 0 es: b0 = 14.61 S(b0) = 2.94 t = (14.61/2.94) = 4.97 t0.025 =2.262 Decisión: Se rechaza la hipótesis nula. La prueba para 1 es: b1 = 1.63 S(b1) = 0.25 t = (1.63/0.25) = 6.52 t0.025 =2.262 Decisión: Se rechaza la hipótesis nula. Tomado los datos del cuadro 4, hubiera bastado buscar en la tabla el valor de la t crítica para compararla con la t que proporciona el Excel a la derecha del error estándar de los estimadores. 119 Alejandro Valenzuela. Métodos Cuantitativos120 Regla de dedo El valor de t calculada es muy pequeño solo cuando el error estándar del estimador es muy grande. Si el error estándar es por lo mucho igual o menor que la mitad del parámetro, entonces el valor de t es mayor o igual a 2. Para un nivel de significancia de 0.05 y para un tamaño de muestra igual o mayor que 7, no hay en las tablas un valor de t que sea mayor que 2. Por tanto, la regla de dedo es la siguiente: Si 0.05, n 7 y t 2, entonces se rechaza H0: ßi = 0 Como la t de b0 es 4.96 y la de b1 es 6.64, la regla de dedo confirma las conclusiones a las que ya se había llegado con los métodos anteriores. iii) Análisis de varianza El análisis de varianza evalúa la significancia global de un modelo de regresión, es decir, si el modelo en su conjunto aporta una explicación al problema planteado. Se trata de evaluar las siguientes hipótesis: H0: ß1 = ß2 =... = ßk = 0 H1: ß1 = ß2 =... = ßk 0 ¿Cómo se mide la significancia global de un modelo? Simple y sencillamente por la relación de la parte explicada en la parte no explicada del problema. El R2 nos informa qué tanto explica el modelo el problema. Por eso es que el R2 se obtiene dividiendo la parte explicada entre la explicación total que buscamos. 120 Alejandro Valenzuela. Métodos Cuantitativos121 El análisis de varianza nos informa acerca de qué tan bien explica el modelo el problema. En este caso, la pregunta claves es qué relación hay entre la parte no explicada (la suma de cuadrados residuales) y la parte explicada (suma de cuadrados explicados). Entre más grande sea ese número, mayor explicación global arrojará el modelo sobre el problema. Si dichas sumas de cuadrados se dividen entre sus respectivos grados de libertad, se tiene una relación entre dos variables que se distribuyen de manera muy similar a la Chicuadrada. Esa relación entre dos variables que se pueden distribuir como chi-cuadrada se le conoce como distribución F, de Fischer. El estadístico F, al igual que la t, se puede utilizar como estadístico de prueba, es decir, comparar la F de tablas con la F calculada y tomar como regla de decisión la siguiente: si Fc > F, se puede rechazar la hipótesis nula y se entiende que los parámetros no son todos simultáneamente cero. En el paquete estadístico, la suma de cuadrados totales se denominan “total”, la SCE se atribuye a la “regresión” y la SCR se denomina “residuos”. Teóricamente, el cuadro de análisis de varianza se presenta a continuación. Para el cálculo de los grados de libertad, k es el número de variables, incluyendo la variable dependiente. CUADRO 6 MODELO SC REGRESIÓN SCE GL k-1 MC F SCE MCE k 1 MCE F MCR MCE RESIDUALESSCR TOTAL SCT n-k n-1 SIGN 1 SCR nk Se le llama grados de libertad del numerador (de F) a k-1 y grados de libertad del denominador a n-k. La suma (k-1) + (n-k) = n-1. 121 Alejandro Valenzuela. Métodos Cuantitativos122 Vea que el cuadro 4 (la corrida del modelo) tiene una sección que se llama Análisis de Varianza (que reproducimos a continuación). Note también que la suma de cuadrados de esa sección coincide con las obtenidas en el cuadro 5. CUADRO 7 ANÁLISIS DE VARIANZA gl Regresión Residuos Total 1 8 9 sc 181.3 32.8 214.1 mc 181.3 4.1 F 44.1 Como el ejemplo que hemos seguido tiene k = 2 variables y n = 10 observaciones, (2-1) = 1 grado de libertad en el numerador y (10-2) = 8 grados de libertad en el denominador (así se busca en la tabla de la distribución F) nos da una F0.05 = 5.32. Como F (44.8) es mayor que F (5.32), se rechaza la hipótesis nula y se acepta que el modelo arroja globalmente una explicación al problema. De hecho, hay una regla de dedo que dice que si la F calculada es mayor o igual que 4, se debe rechazar la hipótesis nula (que los parámetros son globalmente cero). d) Usos específicos del modelo de regresión A continuación se proporcionan algunos usos específicos del modelo de regresión apoyados en ejemplos. Debe establecerse de antemano que los usos generales del modelo son, por un lado, descubrir la relación estructural que existe entre variables y, por el otro, para hacer predicciones sobre la variable Y. i) Proyección de Tendencia Con estos modelos se busca establecer si en un determinado periodo de tiempo la variable de interés muestra una tendencia creciente o decreciente (o constante). La variable explicativa o independiente es siempre el tiempo. Una vez que se tiene la función de 122 Alejandro Valenzuela. Métodos Cuantitativos123 regresión, se puede predecir el valor de la viable de interés en periodos adyacentes en el futuro. EJEMPLO 4. Los siguientes son datos sobre el PIB de México a lo largo de 12 trimestres. Lo único que se quiere es saber cómo evoluciona el PIB en el tiempo, de tal manera que la variable independiente es el tiempo. Esto tiene lógica porque en la variable “tiempo” se agrupan todas aquellas influencias que contribuyen a la evolución del PIB. Determinar la tendencia del PIB en el tiempo permite pronosticar valores futuros. CUADRO 8 TRIMESTRE NÚMERO 2002/02 2002/03 2002/04 2003/01 2003/02 2003/03 2003/04 2004/01 2004/02 2004/03 2004/04 2005/01 1 2 3 4 5 6 7 8 9 10 11 12 PIB 6,319 6,169 6,677 6,734 6,902 6,668 7,276 7,307 7,546 7,459 8,227 7,906 Resumen Estadísticas de la regresión R R 0.95 0.90 S 204.82 N 12 2 ANÁLISIS DE VARIANZA gl Regresión SC 1 3917302 Residuos 10 Total 11 4336814 Intercepción Variable X 1 b 6023 166 419511 S 126.1 17.1 MC 3917302 F 93 41951 t 47.8 9.7 La línea que muestra la tendencia de la Y está dada por la ecuación de Y estimado: Yˆi 6023.35 165.5 X i . La siguiente gráfica muestra de tendencia del PIB mexicano durante el periodo considerado. 123 Alejandro Valenzuela. Métodos Cuantitativos124 Y 6023 Tiempo Si queremos predecir el valor del PIB para el trimestre julio-septiembre de 2006 (el trimestre 18, según la serie de datos con que contamos), entonces sustituimos 18 en X: Yˆi 6023.35 165.5(18) 9002 El valor estimado del PIB es 9002, el cual debe estar sobre la línea que muestra la tendencia del crecimiento a lo largo del tiempo (gráfica anterior). Bibliografía: Hamdy A. Taha (2004). Investigación de operaciones. Damodar Gujarati (1997). Econometría. Tercera edición. Mc Graw-Hill 124 Alejandro Valenzuela. Métodos Cuantitativos125 BIBLIOGRAFÍA Daniel, Wayne W (1981). Estadística con aplicaciones a las ciencias sociales y a la educación. Mc Graw Hill Editores. México. Gujarati, Damodar (1997). (Econometría. Tercera edición. Mc Graw –Hill. Levin, Jack (1979). Fundamentos de estadística en la investigación social. HARLA editores. Levin, Richard I. & Charles A. Kirkpatrick (1986). Enfoques cuantitativos a la administración. CECSA. México. 125 Alejandro Valenzuela. Métodos Cuantitativos126 Lora, Eduardo (1987). Técnicas de medición económica. Tercer mundo editores. Stevenson, Williams J. (1985). Business Statistics. Concepts and applications. Harper & Row Publishers. Second Edition. New York. Webster, Allen (1992). Applied Statistics for Business and Economics. Irwin Editors. Boston. Mansfield, Edwin (1986). Basic Statistics with applications. Norton Taha, Hamdy A. (2004). Investigación de Operaciones. Sétima edición. Pearson-Prentice Hall. 126