Download estadística descriptiva
Document related concepts
Transcript
Unidad 1 ESTADÍSTICA DESCRIPTIVA 1.1 Estadística como ciencia Inductiva Introducción Este capítulo inicia con la definición de algunos conceptos elementales y básicos. Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numéricos: distinguir y clasificar las características en estudio, enseñarle a organizar y tabular las medidas obtenidas mediante la construcción de tablas de frecuencia y por último los métodos para elaborar una imagen que sea capaz de mostrar gráficamente unos resultados. Cada vez es más habitual el uso de gráficos o imágenes para representar la información obtenida. Sin embargo, debemos ser prudente al confeccionar o interpretar gráficos, puesto que una misma información se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas o válidas. Nuestro objetivo, en este capítulo, consiste en establecer los criterios y normas mínimas que deben verificarse para construir y presentar adecuadamente los gráficos en el ámbito de la estadística descriptiva. ¿Qué es la estadística? Cuando se habla de estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier medio de difusión, periódico, radio, televisión, etc, no nos aborde diariamente con cualquier tipo de información estadística sobre accidentes de tráfico, índices de crecimiento de población, turismo, tendencias políticas, etc. Sólo cuando nos adentramos en un mundo más específico como es el campo de la investigación de las Ciencias Sociales: Medicina, Biología, Psicología, ... empezamos a percibir que la Estadística no sólo es algo más, sino que se convierte en la única herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca, no puedan ser abordadas desde la perspectiva de las leyes determinísticas. Podríamos, desde un punto de vista más amplio, definir la estadística como la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en situaciones prácticas que entrañan incertidumbre. La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. 1.2 Poblaciones y Muestras Establecemos a continuación algunas definiciones de conceptos básicos y fundamentales como son: elemento, población, muestra, variables, etc., a las cuales haremos referencia continuamente a lo largo del texto. Población: conjunto de elementos que cumplen ciertas propiedades comunes. Muestra: subconjunto representativo de una población. Elementos: personas u objetos pertenecientes a una población y que contienen la información que se desea estudiar. Parámetro: función definida sobre los valores numéricos de características medibles de una población. Estadístico o Estimador: función definida sobre los valores numéricos de una muestra. En relación al tamaño de la población, ésta puede ser: Finita, como es el caso del número de personas que llegan al servicio de urgencia de un hospital en un día; (existe un límite, por tanto se puede contar) Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y sellos obtenida en el lanzamiento repetido de una moneda al aire (la secuencia no tiene límite y no sabe cuando parar). Ejemplo Consideremos la población formada por todos los estudiantes de la ESPOL (finita). La altura media de todos los estudiantes es el parámetro . El conjunto formado por los alumnos del Básico es una muestra de dicha población y la altura media de los estudiantes que conforman esta muestra es el estadístico o estimador . 1.3 La Estadística Descriptiva como instrumento de la Estadística Inferencial Como se dijo en el tema 1.1 la Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones; por tanto, se puede clasificar la Estadística en: descriptiva, cuando los resultados del análisis no procuran ir más allá del conjunto de datos, inferencial, cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio. Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. La Estadística Descriptiva como instrumento de la Estadística Inferencial La Estadística Descriptiva al analizar los datos recogidos y describirlos, ayuda a ver el comportamiento estadístico de la variable de estudio (cual es el valor que mas se repite, que tan dispersos están los datos, etc.), y al conocer este proceder se pueden hacer inferencias acerca de cómo puede comportarse dicha variable en el futuro, es por esto que se dice que la Estadística Descriptiva sirve como instrumento de la Estadística Inferencial. Variables estadísticas Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo del dominio de la variable se las clasifica de la siguiente manera: Variables cualitativas, cuando las modalidades posibles son de tipo nominal (que no se puede contar). Por ejemplo, una variable de color Variables cuasi cuantitativas son las variables que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Ejemplos: 1. Si estudiamos la llegada a la meta de autos en una competencia de 20 participantes, su clasificación C es tal que 2. El grado de dolencia, D, que sufre un paciente ante un tratamiento médico: Variables cuantitativas son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: o Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Ejemplo: el número X, obtenido en el lanzamiento repetido de un dado. Es obvio que cada valor de la variable es un número natural o Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades. Ejemplo: la estatura X de un niño al nacer. En este caso los valores de las variables son números reales, es decir Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable, es decir, si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio . Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto. Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces éstas son muy numerosas (ejemplo: cuando una variable es continua) y conviene reducir su número, agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como se estudiará más adelante, de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a una y sólo una de las clases. Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. Variables Discretas: cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Sus modalidades son valores enteros. Variables Continuas: cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades. Sus modalidades son valores reales. Variable cualitativa: Aquella cuyas modalidades son de tipo nominal. Variable cuasi cuantitativa: Modalidad del tipo nominal y que tienen orden. 1.4 Diagrama de Paretto y Distribución de Frecuencias Los diagramas y los gráficos son formas visuales de describir el comportamiento de una variable, para poder realizarlos se debe conocer primeramente la manera de trabajar con los datos obtenidos. Diagrama de Paretto Un diagrama de Paretto se asemeja a un Histograma, excepto que es una gráfica de barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en clases. Las barras pueden representar frecuencias o porcentajes, se organizan en orden descendente de izquierda a derecha. Los diagramas de Paretto se utilizan en el control de procesos para tabular las causas asociadas con variaciones de causas atribuibles en la calidad del producto del proceso. Ejemplo: Se encontró que en una planta de ensamblado de refrigeradores no fueron aprobados en inspección final, con forme muestra el siguiente cuadro: Defecto Conteo Porcentaje % acumulado Ensamble 98 49.0 49.0 Laca 60 30.0 79.0 Distribución de Frecuencias Construcción de Tablas estadísticas Eléctrico 20 10.0 89.0 Abolladuras 12 6.0 95.0 Otros 10 5.0 100.0 Consideremos una población estadística de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un número k de clases, que denotamos mediante . Para cada una de las clases ci, introducimos las siguientes magnitudes: , Frecuencia absoluta de la clase ci es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase. Frecuencia relativa de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci. Multiplicado por esa clase. representa el porcentaje de la población que comprende Frecuencia absoluta acumulada Ni, se calcula sobre variables cuantitativas o cuasi cuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci: Frecuencia relativa acumulada Fi, se calcula sobre variables cuantitativas o cuasi cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir, Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que ó, Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente: Modalidad Frec. Abs. Frec. Rel. Frec. Abs. Acum. C ni c1 n1 ... ... cj nj ... ... ck nk n fi Frec. Rel. Acum. Ni Fi N1 = n1 ... ... ... ... ... ... Nk = n Fk = 1 1 Ejemplo Calcular los datos que faltan en la siguiente tabla: li-1 -- li ni fi Ni 0 -- 10 60 f1 60 10 -- 20 n2 0,4 N2 20 -- 30 30 f3 30 -- 100 n4 0,1 N4 100 -- 200 n5 f5 170 200 n Solución: Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n = 200. Como N3=170 y n3=30 => N2= N3-n3=170-30=140. Además n1=60, => n2= N2-n1=140-60=80. Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia relativa correspondiente: Así: N4 =n4 +N3=20+170 =190. Este último cálculo nos permite obtener: n5 =N5 -N4=200-190=10. Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas: Escribimos entonces la tabla completa: li-1 -- li ni fi Ni 0 -- 10 60 0,3 60 10 -- 20 80 0,4 140 20 -- 30 30 0,15 170 30 -- 100 20 0,1 100 -- 200 10 190 0,05 200 200 Elección de las clases En cuanto a la elección de las clases, deben seguirse los siguientes criterios en función del tipo de variable que estudiemos: Cuando se trate de variables cualitativas o cuasi cuantitativas, las clases ci serán de tipo nominal; En el caso de variables cuantitativas, existen dos posibilidades: o o Si la variable es discreta, las clases serán valores numéricos ; Si la variable es continua las clases vendrán definidas mediante lo que denominamos intervalos. En este caso, las modalidades que contiene una clase son todos los valores numéricos posibles contenidos en el intervalo, el cual viene normalmente definido de la forma ó En estos casos llamaremos amplitud del intervalo a las cantidades ai = li - li-1 y marca de clase ci, a un punto representativo del intervalo. Si éste es acotado, tomamos como marca de clase al punto más representativo, es decir al punto medio del intervalo, La marca de clase no es más que una forma abreviada de representar un intervalo mediante uno de sus puntos. Por ello hemos tomado como representante, el punto medio del mismo. Esto está plenamente justificado si recordamos que cuando se mide una variable continua como el peso, la cantidad con cierto número de decimales que expresa esta medición, no es el valor exacto de la variable, sino una medida que contiene cierto margen de error, y por tanto representa a todo un intervalo del cual ella es el centro. En el caso de variables continuas, la forma de la tabla estadística es la siguiente: Interv. M. clase Frec. Abs. Frec. Rel. Frec. Abs. Acum. Frec. Rel. Acum. C ni l0 -- l1 C1 n1 ... ... ... lj-1 -- lj cj nj ... ... ... lk-1 -- lk ck nk n fi Ni Fi N1 = n1 F1 = f1 ... ... Nj = Nj-1+ nj Fj = Fj-1 + fj ... ... Nk=n Fk =1 ... ... 1 Elección de intervalos para variables continuas A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como son el número de intervalos a elegir y sus tamaños respectivos. La notación más común que usaremos para un intervalo sea El primer intervalo, l0 -- l1, podemos cerrarlo en el extremo inferior para no excluir la observación más pequeña, l0 Este arreglo usaremos en las páginas siguientes. El considerar los intervalos por el lado izquierdo y abrirlos por el derecho no cambia de modo significativo nada de lo que expondremos. El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados: Por ejemplo si el número de observaciones que tenemos es n =100, un buen criterio es agrupar las observaciones en intervalos. Sin embargo si tenemos n =1.000.000, será mas razonable elegir intervalos, que . La amplitud de cada intervalo: ai = li - li-1 suele tomarse constante, considerando la observación más pequeña y más grande de la población (respectivamente y ) para calcular la amplitud total, A, de la población A = lk - l0 de forma que la amplitud de cada intervalo sea: Así la división en intervalos podría hacerse tomando: Observación Podría ocurrir que la cantidad a fuese un número muy desagradable a la hora de escribir los intervalos (Ej. a =10,325467). En este caso, es recomendable variar simétricamente los extremos, simple (Ej. a =10). , de forma que se tenga que a es un número más Ejemplo Sobre un grupo de n =21 personas se realizan las siguientes observaciones de sus pesos, medidos en kilogramos: 58 42 51 54 40 39 49 56 58 57 59 63 58 66 70 72 71 69 70 68 64 Agrupar los datos en una tabla estadística. Solución: En primer lugar hay que observar que si denominamos X a la variable “peso de cada persona” esta es una variable de tipo cuantitativa y continua. Por tanto a la hora de ser ordenados los resultados en una tabla estadística, esto se ha de hacer agrupándolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto grado de precisión. Para que la perdida de información no sea muy relevante seguimos el criterio de utilizar intervalos (no son demasiadas las observaciones). En este punto podemos tomar bien k =4 o bien k =5. Arbitrariamente se elige una de estas dos posibilidades. Por ejemplo, vamos a tomar k =5. Lo siguiente es determinar la longitud de cada intervalo, ai . Lo más cómodo es tomar la misma longitud en todos los intervalos, ai =a (aunque esto no tiene por qué ser necesariamente así), donde Entonces tomaremos k =5 intervalos de longitud a =6,6comenzando por l0 =xmin =39 y terminando en l5=33: Intervalos M. clase f.a. f.r. f.a.a. f.r.a. li-1 -- li ci ni fi Ni 42,3 3 0,1428 3 0,1428 i=2 45,6 -- 52,2 48,9 2 0,0952 5 0,2381 i=3 52,2 -- 58,8 55,5 6 0,2857 11 0,5238 i=4 58,8 -- 65,4 62,1 3 0,1428 14 0,6667 i=5 65,4 -- 72 7 0,3333 21 i=1 39 -- 45,6 68,7 21 Fi Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con cantidades más simples a la hora de construir los intervalos, es la siguiente. Como la regla para elegir l0 y l5 no es muy estricta podemos hacer la siguiente elección: ya que así la tabla estadística no contiene decimales en la expresión de los intervalos, y el exceso d, cometido al ampliar el rango de las observaciones desde A hasta A', se reparte del mismo modo a los lados de las observaciones menores y mayores: Intervalos M. clase f.a. f.r. f.a.a. f.r.a. li-1 -- li Ni ci ni fi Fi i=1 38 -- 45 41,5 3 0,1428 3 0,1428 i=2 45 -- 52 48,5 2 0,0952 5 0,2381 i=3 52 -- 59 55,5 7 0,3333 12 0,5714 i=4 59 -- 66 62,5 3 0,1428 15 0,7143 i=5 66 -- 73 69,5 6 0,2857 21 21 Gráficos para variables cuantitativas Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas: Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada. Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas. Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben. Gráficos para variables discretas Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras así como su diagrama integral correspondiente están representados a continuación: Ejemplo Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniéndose los siguientes resultados: Representar gráficamente el resultado. Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades: Ordenamos a continuación los datos en una tabla estadística, y se representa así Diagrama diferencial (Graf. barras izq.) e integral para una variable discreta (Graf. Der.). Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas. xi ni fi Ni Fi 0 1 1/8 1 1/8 1 3 3/8 4 4/8 2 3 3/8 7 7/8 3 1 1/8 8 8/8 n =8 1 Ejemplo Clasificadas 12 familias por su número de hijos se obtuvo: Número de hijos (xi) 1 2 3 4 Frecuencias (ni) 1 3 5 3 Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente. Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual: Variable F. Absolutas F. Relativas F. Acumuladas xi ni fi Ni 1 1 0,083 1 2 3 0,250 4 3 5 0,416 9 4 3 0,250 12 12 1 Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la siguiente figura: Figura: Diagramas de frecuencias para una variable discreta Como puede verse es idéntico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la información procedente de las columnas xi y Ni. Gráficos para variables continuas Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias. Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente: Intervalos ci ni Ni 0 -- 2 1 2 2 2 -- 4 3 1 3 4 -- 6 5 4 7 6 -- 8 7 3 10 8 - 10 9 2 12 12 Figura: Diagramas diferenciales e integrales para una variable continua. Ejemplo La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos: Duración en horas Número de tubos 300 -- 500 50 500 -- 700 150 700 -- 1.100 275 más de 1.100 25 Total 500 Representar el histograma de frecuencias relativas y el polígono de frecuencias. Trazar la curva de frecuencias relativas acumuladas. Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas. Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un muy amplio rango de valores resulta más conveniente agruparla en intervalos, como si se tratase de una variable continua. La consecuencia es una ligera perdida de precisión. El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud “razonable”. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en 1.300 horas. Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su altura a la mitad). Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para representar la altura del histograma. Los gráficos requeridos se representan a continuación. Intervalos ai ni 300 -- 500 200 50 0,10 0,10 0,10 500 -- 700 200 150 0,30 0,30 0,40 700 -- 1.100 400 275 0,55 0,275 0,95 1.100 -- 1.300 200 25 fi fi ' 0,05 0,05 Fi 1,00 n =500 Histograma. Obsérvese que la altura del histograma en cada intervalo es fi' que coincide en todos con fi salvo en el intervalo 700 -- 1.100 en el que intervalo es doble a la de los demás. ya que la amplitud de ese se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay 0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos. Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el siguiente diagrama de frecuencias acumuladas. Diagrama acumulativo de frecuencias relativas Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es , redondeando, 338 tubos. Diagrama de Paretto: se asemeja a un Histograma, excepto que es una gráfica de barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en clases. Las barras pueden representar frecuencias o porcentajes, se organizan en orden descendente de izquierda a derecha. Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada. Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, este tipo de gráficos no tiene sentido para variables cualitativas. Número de elementos que presentan la clase xi. Frecuencia absoluta (ni): Frecuencia relativa: . Frecuencia absoluta acumulada: Frecuencia relativa acumulada: Recorrido: Amplitud: ai = li - li-1 . Marca de clase: Frecuencias rectificadas: ; Tabla: Principales diagramas según el tipo de variable. Tipo de variable Diagrama V. Cualitativa Barras, sectores, pictogramas V. Discreta Diferencial (barras) Integral (en escalera) V. Continua Diferencial (histograma, polígono de frecuencias) Integral (diagramas acumulados) 1.5 Percentiles, Cuartiles y Deciles, de una distribución de Frecuencias Para una variable discreta, se define el percentil de orden k, como la observación, Pk, que deja - por debajo de sí - el de la población. Esta definición nos recuerda a la mediana, pues como consecuencia de la definición es evidente que Med = P50 En el caso de una variable continua, el intervalo donde se encuentra calcula buscando el que deja - por debajo de sí - al él, Pk se obtiene según la relación: , se de las observaciones. Dentro de Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribución, por lo que no puede considerársele como una medida de tendencia central. Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como: De forma análoga se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamaño. Más precisamente, definimos D1,D2, ..., D9 como: Los percentiles (que incluyen a la mediana, cuartiles y deciles) también son denominados estadísticos de posición. Ejemplo Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles. xi ni Ni 0 14 14 1 10 24 2 15 39 3 26 65 4 20 85 5 15 100 n =100 Solución: Aplicando las fórmulas antes enunciadas para los cuartiles tenemos lo siguiente: 1. Primer cuartil: 2. Segundo cuartil: 3. Tercer cuartil: Ejemplo Calcular los cuartiles en la siguiente distribución de una variable continua: li-1 - li ni Ni 0-1 10 10 1-2 12 22 2-3 12 34 3-4 10 44 4-5 7 51 n =51 Solución: 1. Primer cuartil 2. Segundo cuartil: 3. Tercer cuartil Ejemplo Han sido ordenados los pesos de 21 personas en la siguiente tabla: Intervalos f.a. li-1 -- li ni 38 -- 45 3 45 -- 52 2 52 -- 59 7 59 -- 66 3 66 -- 73 6 21 Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo número de observaciones. Solución: Las cantidades que buscamos son los tres cuartiles: , y . Para calcularlos, le añadimos a la tabla las columnas con las frecuencias acumuladas, para localizar qué intervalos son los que contienen a los cuartiles buscados: li-1 -- li ni Ni 38 -- 45 3 3 45 -- 52 2 5 52 -- 59 7 12 59 -- 66 3 15 66 -- 73 6 21 21 y se encuentran en el intervalo 52--59, ya que N3=12 es la primera f.a.a. que supera a y . está en 66--73, pues N5=21 es el primer Ni mayor que . Así se tiene que: Obsérvese que . Esto es lógico, ya que la mediana divide a la distribución en dos partes con el mismo número de observaciones, y , hace lo mismo, pues es deja a dos cuartos de los datos por arriba y otros dos cuartos por abajo. Ejemplo La distribución de una variable tiene su polígono acumulativo de frecuencias como se presenta en la siguiente figura: Diagrama acumulado de frecuencias relativas. Si el número total de observaciones es 50: 1. Elaborar una tabla estadística con los siguientes elementos: intervalos, marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias relativa acumulada. 2. Cuántas observaciones tuvieron un valor inferior a 10, cuántas inferior a 8 y cuántas fueron superior a 11. 3. Calcule las modas. 4. Determine los cuartiles. Solución: 1. En la siguiente tabla se proporciona la información pedida y algunos cálculos auxiliares que nos permitirán responder a otras cuestiones. Intervalos ni Ni fi Fi xi ai 0-5 10 10 0,2 0,3 2,5 5 2 5-7 25 35 0,5 0,7 6 2 12,5 7 - 12 5 5 1 12 - 15 10 50 0,2 1 40 0,1 0,8 9,5 13,5 7 3,33 2. Calculemos el número de observaciones pedido: 10 + 25+3 = 38 observaciones tomaron un valor inferior a 10 10 + 25+1 = 36 observaciones tomaron un valor inferior a 8 50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11 3. Hay dos modas. Calculemos la más representativa: 4. Cuartiles: Percentil Pl, Para una variable discreta, se define el percentil de orden k, como la observación, Pk, que deja - por debajo de sí - el k % de la población. Esta definición nos recuerda a la mediana, pues como consecuencia de la definición es evidente que Med = P50 . En el caso de una variable continua, el intervalo donde se encuentra , se calcula buscando el que deja - por debajo de sí - al k % de las observaciones. Cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como: Q1 = P25, Q2 = P50 = Med, Q3 = P75 Deciles, Dl, de forma análoga se definen como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamaño. Unidad 2 PROBABILIDAD Y VARIABLE ALEATORIA 2.1 Eventos y Espacios Muestrales asociados a experimentos Experimentos y Eventos (sucesos) aleatorios Diremos que un experimento es aleatorio si se verifican las siguientes condiciones: 1. Se puede repetir indefinidamente, siempre en las mismas condiciones; 2. Antes de realizarlo, no se puede predecir el resultado que se va a obtener; 3. El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de resultados posibles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E. Los elementos del espacio muestral se denominan eventos elementales o sucesos elementales. Cualquier subconjunto de E será denominado suceso aleatorio, y se denotará normalmente con las letras A, B,... Obsérvese que “los sucesos elementales son sucesos aleatorios compuestos por un sólo elemento”. Por supuesto los sucesos aleatorios son más generales que los elementales, ya que son conjuntos que pueden contener no a uno sólo, sino a una infinidad de sucesos elementales - y también no contener alguno - Sucesos aleatorios que aparecen con gran frecuencia en el cálculo de probabilidades son los siguientes: Suceso seguro: Es aquel que siempre se verifica después del experimento aleatorio, es decir, el mismo E Suceso imposible: Es aquel que nunca se verifica como resultado del experimento aleatorio. Como debe ser un subconjunto de E, la única posibilidad es que el suceso imposible sea el conjunto vacío Suceso contrario a un suceso A: También se denomina complementario de A y es el suceso que se verifica si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con el símbolo ó Ac. Representación gráfica de un suceso aleatorio , y de su suceso contrario Ejemplo Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos: Operaciones básicas con sucesos aleatorios Al ser los sucesos aleatorios nada más que subconjuntos de un conjunto E - espacio muestral -, podemos aplicarles las conocidas operaciones con conjuntos, como son la unión, intersección y diferencia: Unión: Dados dos sucesos aleatorios , se denomina suceso unión de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que están en ambos simultáneamente), es decir Como ejemplo, tenemos que la unión de un suceso cualquiera con su complementario es el suceso seguro: Volviendo al ejemplo del lanzamiento de un dado, si suceso unión de A y B es: Intersección: y , el Dados dos sucesos aleatorios , se denomina suceso intersección de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez, es decir, A veces por comodidad se omite el símbolo para denotar la intersección de conjuntos, sobre todo cuando el número de conjuntos que intervienen en la expresión es grande. En particular podremos usar la siguiente notación como equivalente a la intersección: Un ejemplo de intersección es la de un suceso aleatorio cualquiera, complementario, , con su , que es el suceso imposible: Volviendo al ejemplo del dado, Diferencia: Dados dos sucesos aleatorios , se llama suceso diferencia de A y B, y se representa mediante , o bien A-B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B: Obsérvese que el suceso contrario de un suceso A, puede escribirse como la diferencia del suceso seguro menos éste, o sea, Diferencia simétrica: Si , se denomina suceso diferencia simétrica de A y B, y se representa mediante , al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A y no a B, y los que están en B y no en A: Así: En la siguiente figura se puede ver en resumen las diferentes diferencias existentes Dados dos sucesos aleatorios ; en (b) ; en (c) A-B; en (d) se representa: en (a) . Hay ciertas propiedades que relacionan la unión, intersección y suceso contrario, que son conocidas bajo el nombre de Leyes de Morgan: Espacio Muestral: El resultado que se obtenga de un experimento, e, pertenece a un conjunto conocido previamente de resultados posibles. A este conjunto lo denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E. Eventos elementales o sucesos elementales: se denominan a los elementos del espacio muestral. Suceso seguro: Es aquel que siempre se verifica después del experimento aleatorio, es decir, el mismo E Suceso imposible: Es aquel que nunca se verifica como resultado del experimento aleatorio. Como debe ser un subconjunto de E, la única posibilidad es que el suceso imposible sea el conjunto vacío Suceso contrario a un suceso A o complementario de A: es el suceso que se verifica si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con el símbolo 2.2 La función de probabilidad definida sobre la clase de los subconjuntos de un espacio muestral Un experimento consta en lanzar un dado y verificar si el número que se obtiene de este lanzamiento es par o impar. De este experimento obtenemos el espacio muestral Ω y el conjunto Potencia . Ω = {Par (P), Impar (I)} = { Φ, {P}, {I}, Ω} donde Φ es el número que se obtiene si no es par ni impar, es decir, el evento imposible. Definición Sea Ω un espacio muestral cuyo conjunto potencia es , la función P: función de probabilidad sí y solamente si 1) P(Ω) = 1 → [0, 1] es una 2) 3) P(E) , E P(E1 U E2) = P(E1) + P(E2), si E1,E2 Ω, y E1 y E2 son mutuamente excluyentes Proposición P(Φ) = 0 Demostración Proposición E , P(E) = 1 - P(Ec) Demostración Proposición Demostración espacio muestral Ω, es el conjunto de todos los eventos posibles. conjunto Potencia , es el conjunto formado por todos los eventos posibles además el evento seguro y el evento imposible. función de probabilidad la función P: → [0, 1] es una función de probabilidad sí y solamente si 1) 2) 3) P(Ω) = 1 P(E) , E P(E1 U E2) = P(E1) + P(E2), si E1,E2 Ω, y E1 y E2 son mutuamente excluyentes. 2.3 Probabilidad condicional e independencia de eventos Sea un suceso o evento aleatorio de probabilidad no nula, cualquier otro suceso . Para , llamamos probabilidad condicionada de A a B a la cantidad que representamos mediante o bien y que se calcula como: Ejemplo Se lanza un dado al aire ¿Cuál es la probabilidad de que salga el número 4? Si sabemos que el resultado ha sido un número par, ¿se ha modificado esta probabilidad? Solución: El espacio muestral que corresponde a este experimento es y se ha de calcular la probabilidad del suceso . Si el dado no está trucado, todos los números tienen la misma probabilidad de salir, y siguiendo la definición de probabilidad de Laplace, Obsérvese que para calcular la probabilidad de A según la definición de Laplace hemos tenido que suponer previamente que todos los elementos del espacio muestral tienen la misma probabilidad de salir, es decir: Por otro lado, si ha salido un número par, de nuevo por la definición de probabilidad de Laplace tendríamos Esta misma probabilidad se podría haber calculado siguiendo la definición de la probabilidad condicionada, ya que si escribimos y entonces que por supuesto coincide con el mismo valor que calculamos usando la definición de probabilidad de Laplace. Observación: Obsérvese que según la definición de probabilidad condicionada, se puede escribir la probabilidad de la intersección de dos sucesos de probabilidad no nula como O sea, “la probabilidad de la intersección de dos sucesos, es la probabilidad de uno cualquiera de ellos, multiplicada por la probabilidad del segundo sabiendo que ha ocurrido el primero”. Si entre dos sucesos no existe ninguna relación cabe esperar que la expresión “sabiendo que” no aporte ninguna información. De este modo introducimos el concepto de independencia de dos sucesos A y B como: Esta relación puede ser escrita de modo equivalente, cuando dos sucesos son de probabilidad no nula como Probabilidad de Laplace Si un experimento cualquiera puede dar lugar a un número finito de resultados posibles, y no existe ninguna razón que privilegie unos resultados en contra de otros, se calcula la probabilidad de un suceso aleatorio A, según la regla de Laplace como el cociente entre el número de casos favorables a A, y el de todos los posibles resultados del experimento: Ejemplo Calcular la probabilidad de que al lanzar un dado se obtenga un número impar. Solución: El espacio muestral es . Vamos a llamar A, al suceso consistente en que el resultado es impar, . Como no suponemos que ninguna de las caras ofrece una probabilidad de ocurrencia diferente a las demás, podemos aplicar la regla de Laplace para obtener que Probabilidad condicionada: de A a B a la cantidad que representamos mediante o bien y que se calcula como: Independencia de dos sucesos: A y B se da si entre dos sucesos no existe ninguna relación es decir se espera que la expresión “sabiendo que” no aporte ninguna información y se define Probabilidad de Laplace: Si un experimento cualquiera puede dar lugar a un número finito de resultados posibles, y no existe ninguna razón que privilegie unos resultados en contra de otros, se calcula la probabilidad de un suceso aleatorio A, según la regla de Laplace como el cociente entre el número de casos favorables a A, y el de todos los posibles resultados del experimento. 2.4 Teorema de Bayes Antes de entrar de forma explícita al Teorema de Bayes, revisaremos primeramente ciertos teoremas fundamentales del cálculo de probabilidades. Hay algunos resultados importantes del cálculo de probabilidades que son conocidos bajo los nombres de teorema de la probabilidad compuesta, teorema de la probabilidad total y finalmente el teorema de Bayes. Veamos cuales son estos teoremas, pero previamente vamos a enunciar a modo de recopilación, una serie de resultados elementales cuya demostración se deja como ejercicio para el lector (algunos ya han sido demostrados anteriormente): Proposición Sean propiedades: no necesariamente disjuntos. Se verifican entonces las siguientes 1. Probabilidad de la unión de sucesos: 2. Probabilidad de la intersección de sucesos: 3. Probabilidad del suceso contrario: 4. Probabilidad condicionada del suceso contrario: Ejemplo En una universidad el 50% de los alumnos habla inglés, el 20% francés y el 5% los dos idiomas ¿Cuál es la probabilidad de encontrar alumnos que hablen alguna lengua extranjera? Solución: Sea A el suceso hablar inglés: . Sea B el suceso hablar francés: El suceso hablar francés e inglés es Así: . : . Ejemplo En una estación de esquí, para navidad, la experiencia indica que hay un tiempo soleado sólo el de los días. Por otro lado, se ha calculado que cuando un día es soleado, hay una probabilidad del 20% de que el día posterior también lo sea. Calcular la probabilidad de que, en navidad, un fin de semana completo sea soleado. Solución: Llamemos S al suceso sábado soleado y D al suceso domingo soleado. La única manera en que un fin de semana completo sea soleado es que lo sea en primer lugar el sábado, y que el domingo posterior también. Es decir: Luego sólo el de los fines de semana son soleados. El primero de los teoremas que vamos a enunciar es una generalización de la probabilidad de la intersección de dos sucesos, a la de un número cualquiera pero finito de ellos: Teorema (Probabilidad compuesta) Sea una colección de sucesos aleatorios. Entonces: Demostración Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando tenemos que el suceso seguro está descompuesto en una serie de sucesos incompatibles de los que conocemos su probabilidad. Para ello necesitamos introducir un nuevo concepto: Se dice que la colección excluyente de sucesos si se verifican las relaciones: es un sistema exhaustivo y A1,A2,A3,A4 forman un sistema exhaustivo y excluyente se sucesos. 1.2.- Teorema (Probabilidad total) Sea un sistema exhaustivo y excluyente de sucesos. Entonces Demostración Basados en lo que se observa de la figura realizamos las siguientes operaciones: Si A1,A2,A3,A4 forma un sistema exhaustivo y excluyente se sucesos, podemos calcular la probabilidad de B a partir de las cantidades , o lo que es lo mismo, Ejemplo Se tienen dos urnas, y cada una de ellas contiene un número diferente de bolas blancas y rojas: Primera urna, U1: 3 bolas blancas y 2 rojas; Segunda urna, U2: 4 bolas blancas y 2 rojas. Se realiza el siguiente experimento aleatorio: Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si sale sello de la segunda. ¿Cuál es la probabilidad de que salga una bola blanca? Solución: La situación que tenemos puede ser esquematizada como U1 U2 Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas dos urnas y de una sólo de ellas), el teorema de la probabilidad total nos permite afirmar entonces que Teorema (Bayes) Sea un sistema exhaustivo y excluyente de sucesos. Sea un suceso del que conocemos todas las cantidades denominamos verosimilitudes. entonces se verifica: , , a las que Demostración Es una consecuencia de la definición de probabilidad condicionada en términos de la intersección, y del teorema de la probabilidad total: Ejemplo Se tienen tres urnas. Cada una de ellas contiene un número diferente de bolas blancas y rojas: Primera urna, U1: 3 bolas blancas y 2 rojas; Segunda urna, U2: 4 bolas blancas y 2 rojas; Tercera urna, U3: 3 bolas rojas. Se realiza el siguiente experimento aleatorio: Alguien elige al azar y con la misma probabilidad una de las tres urnas, y saca una bola. Si el resultado del experimento es que ha salido una bola blanca, ¿cuál es la probabilidad de que provenga de la primera urna? Calcular lo mismo para las otras dos urnas. Solución: Vamos a representar en un esquema los datos de que disponemos: U1 U2 U3 En este caso U1, U2 y U3 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas tres urnas y de una sólo de ellas), por tanto es posible aplicar el teorema de Bayes: Con respecto a las demás urnas hacemos lo mismo: Observación Obsérvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de extraer una bola para ver su resultado, teníamos que la probabilidad de elegir una urna i cualquiera es . Estas probabilidades se denominan probabilidades a priori. Sin embargo, después de realizar el experimento, y observar que el resultado del mismo ha sido la extracción de una bola blanca, las probabilidades de cada urna han cambiado a . Estas cantidades se denominan probabilidades a posteriori. Vamos a representar en una tabla la diferencia entre ambas: a priori a posteriori 1 1 Las probabilidades a priori cambian de tal modo de las a posteriori que una vez observado el resultado del experimento aleatorio, se puede afirmar con certeza que no fue elegida la tercera urna. Esta fenómeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos teorías científicas diferentes, T1 y T2, que pretenden explicar cierto fenómeno, y a las que asociamos unas probabilidades a priori de ser ciertas, podemos llevar a cabo la experimentación que se considere más conveniente, para una vez obtenido el cuerpo de evidencia, B, calcular como se modifican las probabilidades de verosimilitud de cada teoría mediante el teorema de Bayes: Así la experimentación puede hacer que una teoría sea descartada si o reforzada si . Una aplicación básica de esta técnica la tenemos en Medicina para decidir si un paciente padece cierta enfermedad o no, en función de los resultados de un test diagnóstico. Teorema (Probabilidad compuesta): Sea sucesos aleatorios. Entonces: una colección de Sistema exhaustivo y , excluyente si y de sucesos: se Se verifican dice a la las colección relaciones: , respectivamente. Teorema (Probabilidad total): Sea excluyente de sucesos. Entonces: Teorema (Bayes): Sea sucesos. Sea un sistema exhaustivo y un sistema exhaustivo y excluyente de un suceso del que conocemos todas las cantidades , , a las que denominamos verosimilitudes. entonces se verifica: 2.5 La función Variable aleatoria Sea Ω un espacio muestral, una variable aleatoria X es una función que a cada elemento de ω Ω, le asigna un número real. X: Ω → R X(ω) R, ω Ω Dada una v.a. discreta , su función de probabilidad f, se define de modo que f(xi) es la probabilidad de que X tome ese valor: Si xi no es uno de los valores que puede tomar X, entonces f(xi)=0. La representación gráfica de la función de probabilidad se realiza mediante un diagrama de barras análogo al de distribución de frecuencias relativas para variables discretas (figura 5.3). Por ejemplo, si retomamos el caso del lanzamiento de 3 monedas de forma que cada una de ellas tenga probabilidad 1/2 de dar como resultado cara (C) o sello(R), se tiene que: Figura: Equivalencia entre las probabilidades calculadas directamente sobre el espacio muestral E de resultados del experimento aleatorio, y las calculadas sobre el subconjunto mediante la v.a. X. Observación Obsérvese que X está definido sobre el espacio muestral de sucesos E, mientras que f lo está sobre el espacio de números reales . Las propiedades de la función de probabilidad de v.a. se deducen de forma inmediata de los axiomas de probabilidad: Es evidente que si tenemos tres constantes a < b < c, los sucesos son mutuamente excluyentes, es decir, . Por ello, si se define y , luego , se tiene que variable aleatoria X es una función que a cada elemento de ω Ω, le asigna un número real. función de probabilidad f:, se define de modo que f(xi) es la probabilidad de que X tome ese valor. 2.6 Distribución de una Variable Aleatoria y de Variables Aleatorias Conjuntas Otro concepto importante es el de función de distribución de una variable aleatoria discreta, F, que se define de modo que si que X tome un valor inferior o igual a xi: , F(xi) es igual a la probabilidad de Esta función se representa gráficamente del mismo modo que la distribución de frecuencias relativas acumuladas (ver figura de abajo). Volviendo al ejemplo de las tres monedas, se tiene que Hay que observar que a valores no admisibles por la variable les pueden corresponder valores de F no nulos. Por ejemplo, Figura: Función de probabilidad a la izquierda, y función de distribución a la derecha de una v.a. discreta Es sencillo comprobar que las siguientes propiedades de la función de distribución son ciertas: Proposición (Distribuciones discretas) 1. La función de distribución F, es una función no decreciente, es decir, 2. es continua a la derecha: 3. Además, Variables aleatorias continuas Si una variable discreta toma los valores x1, ..., xk, las probabilidad de que al hacer un experimento, X tome uno de esos valores es 1, de modo que cada posible valor xi contribuye con una cantidad f(xi) al total: Aun cuando la variable tomase un número infinito de valores, x1, x2, ..., no hay ningún problema en comprobar que cada xi contribuye con una cantidad f(xi) al total de modo que Cuando la variable es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de los términos en el sentido anterior, ya que el conjunto de valores que puede tomar la variable es no numerable. En este caso, lo que generaliza de modo natural el concepto de suma (Σ) es el de integral ( ). Por otro lado, para variables continuas no tiene interés hablar de la probabilidad de que , ya que esta debe de valer siempre 0, para que la suma infinita no numerable de las probabilidades de todos los valores de la variable no sea infinita. De este modo es necesario introducir el concepto de función de densidad de una v.a. continua, que se define como una función propiedades siguientes: y que además verifica que dado a < b, se tiene que integrable, que verifica las dos Figura: Función de densidad f. La probabilidad de un intervalo, es el área que existe entre la función y el eje de abscisas. Observación Por ser f una función integrable, la probabilidad de un punto es nula: y por ello al calcular la probabilidad de un intervalo no afectara nada el que este sea abierto o cerrado por cualquiera de sus extremos, pues estos son puntos y por tanto de probabilidad nula: La función de distribución de la v.a. continua, F, se define de modo que dado , F(x) es la probabilidad de que X sea menor o igual que x, es decir Figura: Función de distribución F, calculada a partir de la función de densidad f. Observación Dado un intervalo de la forma (a, b], tenemos que Es decir, la cantidad F(b) - F(a) representa la masa de probabilidad extendida a lo largo de dicho intervalo. Si dividimos esta cantidad por la longitud del intervalo, tenemos la masa media de probabilidad por unidad de longitud en (a, b], es decir, su densidad media de probabilidad. Si hacemos tender a hacia b, , la cantidad es la densidad de probabilidad del punto b (que como hemos mencionado no se ha de confundir con la probabilidad de b). Proposición Distribuciones continuas La función de distribución F, es no decreciente Además, es una función absolutamente continua que verifica: Demostración Los sucesos y son mutuamente excluyentes, siendo su unión el suceso . Por tanto El resto es evidente pues por la relación y por otro lado Variables Aleatorias Conjuntas Sabemos que si X es una v.a. con ella se asocia una función de Distribución si X es discreta ó de Densidad de Probabilidad si X es continua. Se puede hablar de dos o más v.a. consideradas simultáneamente o de manera conjunta. Consideremos el caso en que ambas v.a. son discretas, se lanzan dos dados sucesivamente, entonces y\x -5 -4 -3 -2 -1 0 1 2 3 4 5 P(X=x) 2 0 0 0 0 0 1/36 0 0 0 0 0 1/36 3 0 0 0 0 1/36 0 1/36 0 0 0 0 2/36 4 0 0 0 1/36 0 1/36 0 1/36 0 0 0 3/36 5 0 0 1/36 0 1/36 0 1/36 0 1/36 0 0 4/36 6 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 5/36 7 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 6/36 8 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 5/36 9 0 0 1/36 0 1/36 0 1/36 0 1/36 0 0 4/36 10 0 0 0 1/36 0 1/36 0 1/36 0 0 0 3/36 11 0 0 0 0 1/36 0 1/36 0 0 0 0 2/36 12 0 0 0 0 0 1/36 0 0 0 0 0 1/36 P(Y=y) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 1 Ω ={(1, 1); (1, 2); ...; (6, 6)} Se define x = la suma de las dos ocurrencias y = la diferencia del primer o con el segundo término Donde la fila de valores P(X = x) representa la probabilidad marginal de X, y la columna de valores P(Y = y) representa la probabilidad marginal de Y. Derfinición: X y Y son dos v.a. discretas consideradas de manera conjunta. Con ellos se asocia una función f: R2 → R, llamada su distribución de probabilidades tal que f(x, y) = P(X = x, Y = y) Sea ¿cual es el valor de k que hace que esta función sea una función de distribución de probabilidades? y\x 1 2 3 4 P(X = x) 1 2/32 3/32 4/32 5/32 14/32 2 3/32 4/32 5/32 6/32 18/32 o P(x > y) = = P(x =2, y =1) 3/32 o P(x + y = 3) = = = P(x =1,y =2) + P(x =2,y =1) 3/32 + 3/32 6/32 P(Y = y) 5/32 7/32 9/32 11/32 1 Marginal de x de forma análoga se realiza para obtener la marginal de y Para las v.a. continuas se realiza el mismo proceso que las discretas con la diferencia que ya no se utilizará el símbolo Σ sino el de integración valores que pueden tomar. debido a la diferencia de función de distribución: F de una v.a. se define de modo que si , F(xi) es igual a la probabilidad de que X tome un valor inferior o igual a xi: función de densidad de una v.a. continua, que se define como una función integrable, que verifica las dos propiedades siguientes: función de distribución de la v.a. continua, F, se define de modo que dado F(x) es la probabilidad de que X sea menor o igual que x , 2.7 Momentos de una v.a. Se denomina momento de orden r ( ), , a: Asimismo se denomina momento central de orden r, mr, a: De este modo, es claro que la esperanza matemática es el momento de primer orden y que la varianza es el momento central de segundo orden el momento central de tercer orden es denominado sesgo y denota si los datos están agrupados de igual manera de un lado y de otro (insesgado) de la esperanza E[X] o están agrupados de un lado más que de otro (sesgado). Sea X una variable cuantitativa y . Llamamos momento de orden p a: Se denomina momento central de orden p a la cantidad Si los datos están agrupados en una tabla, mp admite otra expresión equivalente: Ejemplo El momento de orden 2 es la varianza muestral: Es sencillo comprobar que los momentos de orden p impar, son siempre nulos en el caso de variables simétricas, ya que para cada i que esté a un lado de la media, con , le corresponde una observación j del otro lado de la media tal que . Elevando cada una de esas cantidades a p impar, y sumando se tiene que Si la distribución fuese asimétrica positiva, las cantidades , con impar positivas estarían muy aumentadas al elevarse a p. Esta propiedad nos indica que un índice de asimetría posible consiste en tomar p =3 y definir que para datos organizados en una tabla sería Apoyándonos en este índice, diremos que hay asimetría positiva si a3>0, y que la asimetría es negativa si a3<0. El momento de cuarto orden es denominado Estadísticos de apuntamiento (picudez), Se define el coeficiente de aplastamiento de Fisher como: donde m4 es el momento empírico de cuarto orden. Es éste un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve para medir si una distribución de frecuencias es muy puntiaguda o no. Para decir si la distribución es larga y estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana para la que se tiene De este modo, atendiendo a , se clasifican las distribuciones de frecuencias en: Leptocúrtica: Cuando normal; Mesocúrtica: , o sea, si la distribución de frecuencias es más puntiaguda que la Cuando la normal; Platicúrtica: , es decir, cuando la distribución de frecuencias es tan puntiaguda como Cuando normal; , o sea, si la distribución de frecuencias es menos puntiaguda que la Figura: Picudez de distribuciones de frecuencias 2.8 Medidas de tendencia central, dispersión y correlación de Variables Aleatorias Medidas de tendencia central Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de puntuaciones. Las tres medidas más usuales de tendencia central son: la media, la mediana y la moda. En ciertas ocasiones estos tres estadísticos suelen coincidir, aunque generalmente no es así. Cada uno de ellos presenta ventajas e inconvenientes. La media La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es X ni fi x1 n1 f1 ... ... ... xk nk fk la media es el valor que podemos escribir de las siguientes formas equivalentes: Si los datos no están ordenados en una tabla, entonces Observación Hemos supuesto implícitamente en la definición de media que tratábamos con una variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritmética obtenida a partir de las marcas de clase ci, diferirá de la media obtenida con los valores reales, xi. Es decir, habrá una perdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos. Proposición La suma de las diferencias de la variable con respecto a la media es nula, es decir, Demostración Basta desarrollar la sumatoria para obtener Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x1, mediante el valor central , es compensado por los demás errores: Si los errores se consideran con signo positivo, en este caso no pueden compensarse. Esto ocurre si tomamos como medida de error alguna de las siguientes: que son cantidades estrictamente positivas si algún . Ejemplo Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es cero. li-1 - li ni 0 - 10 1 10 - 20 2 20 - 30 4 30 - 40 3 Solución: li-1 - li ni xi xi ni 0 - 10 1 5 5 -19 -19 10 - 20 2 15 30 -9 -18 20 - 30 4 25 100 +1 +4 30 - 40 3 35 105 +11 +33 n =10 La media aritmética es: Como se puede comprobar sumando los elementos de la última columna, Proposición (König) Para cualquier posible valor k que consideremos como candidato a medida central, mejora en el sentido de los mínimos cuadrados, es decir Demostración Sea . Veamos que el error cuadrático cometido por k-es mayor que el de . lo Proposición (Linealidad de la media) Proposición Dados r grupos con n1, n2, ..., nr observaciones y siendo , , ..., las respectivas medias de cada uno de ellos. Entonces la media de las es Demostración Vamos a llamar xij a la j-ésima observación del grupo i; Entonces tenemos Así, agrupando convenientemente las observaciones se llega a que Observación observaciones A pesar de las buenas propiedades que ofrece la media, ésta posee algunos inconvenientes: Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace en esa dirección. En consecuencia, no es recomendable usar la media como medida central en las distribuciones muy asimétricas; Depende de la división en intervalos en el caso de variables continuas. Si consideramos una variable discreta, por ejemplo, el número de hijos en las familias de Guayaquil el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo hijos. Cálculo abreviado Se puede utilizar la linealidad de la media para simplificar las operaciones necesarias para su cálculo mediante un cambio de origen y de unidad de medida. El método consiste en lo siguiente: 1. Tomamos a un número que exprese aproximadamente el tipo de unidad con la que se trabaja. Por ejemplo, si las unidades que usamos son millones, tomamos a =1.000.000. 2. Seleccionamos un punto cualquiera de la zona central de la tabla, x0. Este punto jugará el papel de origen de referencia. 3. Cambiamos a la variable 4. Construimos de este modo la tabla de la variable Z, para la que es más fácil calcular directamente, y después se calcula Medias generalizadas En función del tipo de problema varias generalizaciones de la media pueden ser consideradas. He aquí algunas de ellas aplicadas a unas observaciones x1, ..., xn: La media geométrica , es la media de los logaritmos de los valores de la variable: Luego Si los datos están agrupados en una tabla, entonces se tiene: La media armónica , se define como el recíproco de la media aritmética de los recíprocos, es decir, Por tanto, La media cuadrática , es la raíz cuadrada de la media aritmética de los cuadrados: La mediana Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana, Med al primer valor de la variable que deja por debajo de sí al de las observaciones. Por tanto, si n es el número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde representamos por la parte entera de un número. Figura: Cálculo geométrico de la mediana En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación lineal (teorema de Thales) como se ve en la figura anterior Observación La relación anterior corresponde a definir para cada posible observación, , su frecuencia relativa acumulada, F(x), por interpolación lineal entre los valores F(lj-1) = Fj-1 y F(lj) = Fj de forma que De este modo, Med es el punto donde . Esto equivale a decir que la mediana divide al histograma en dos partes de áreas iguales a . Observación Entre las propiedades de la mediana, vamos a destacar las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (Ej. La mediana de una variable número de hijos toma siempre valores enteros). Si una población está formada por 2 sub poblaciones de medianas Med1 y Med2, sólo se puede afirmar que la mediana, Med, de la población está comprendida entre Med1 y Med2 Defectos de la Mediana El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística. Es función de los intervalos escogidos. Puede ser calculada aunque el intervalo inferior o el superior no tenga límites. La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o igual que cualquier otro valor. Este es el equivalente al teorema de König con respecto a la media, pero donde se considera como medida de dispersión a: Ejemplo Sea X una variable discreta que ha presentado sobre una muestra las modalidades Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por la observación extrema. Este no ha sido el caso para la mediana. Ejemplo Obtener la media aritmética y la mediana en la distribución adjunta. Determinar gráficamente cuál de los dos promedios es más significativo. li-1 - li ni 0 - 10 60 10 - 20 80 20 - 30 30 30 - 100 20 100 - 500 10 Solución: li-1 - li ni ai xi xi ni Ni 0 - 10 60 10 5 300 60 10 - 20 80 10 15 1.200 140 80 20 - 30 30 10 25 750 170 30 30 - 100 20 70 65 1.300 190 2,9 100 - 500 10 400 300 3.000 60 200 0,25 n =200 La media aritmética es: La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni =140. Por ello el intervalo mediano es [10;20). Así: Para ver la representatividad de ambos promedios, realizamos el histograma de la figura siguiente, y observamos que dada la forma de la distribución, la mediana es más representativa que la media. Figura: Para esta distribución de frecuencias es más representativo usar como estadístico de tendencia central la mediana que la media. La moda Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Figura: Cálculo geométrico de la moda En el caso de variables continuas es más correcto hablar de intervalos modales. Una vez que este intervalo, (li-1, li], se ha obtenido, se utiliza la siguiente fórmula para calcular la moda, que está motivada en la figura anterior: Observación De la moda destacamos las siguientes propiedades: Es muy fácil de calcular. Puede no ser única. Es función de los intervalos elegidos a través de su amplitud, número y límites de los mismos. Aunque el primero o el último de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada. Relación entre media, mediana y moda En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la media y la moda (incluso más cerca de la media). En distribuciones que presentan cierta inclinación, es más aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propósitos estadísticos y de inferencia suele ser más apta la media. Veamos un ejemplo de cálculo de estas tres magnitudes. Ejemplo Consideramos una tabla estadística relativa a una variable continua, de la que nos dan los intervalos, las marcas de clase ci, y las frecuencias absolutas, ni. Intervalos ci ni 0 -- 2 1 2 2 -- 4 3 1 4 -- 6 5 4 6 -- 8 7 3 8 - 10 9 2 Para calcular la media podemos añadir una columna con las cantidades de los términos de esa columna dividida por n =12 es la media: Intervalos ci ni Ni 0–2 1 2 2 2 2–4 3 1 3 3 4–6 5 4 7 20 6–8 7 3 10 21 8 – 10 9 2 12 18 12 64 . La suma La mediana es el valor de la variable que deja por debajo de sí a la mitad de las n observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas acumuladas, Ni, y vemos que eso ocurre en la modalidad tercera, es decir, Para el cálculo de la moda, lo primero es encontrar los intervalos modales, buscando los máximos relativos en la columna de las frecuencias absolutas, ni. Vemos que hay dos modas, correspondientes a las modalidades i =1, i =3. En el primer intervalo modal, (l0,1]=(0,2], la moda se calcula como El segundo intervalo modal es (l2,l3]=(4;6], siendo la moda el punto perteneciente al mismo que se obtiene como: En este caso, como se ve en la figura siguiente, la moda no toma un valor único, sino el conjunto Figura: Diagramas diferencial e integral con cálculo geométrico de la moda y de la mediana de la variable. La media aritmética: de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Media geométrica: , es la media de los logaritmos de los valores de la variable: Luego Media armónica: recíprocos, es decir, Media cuadrática: , se define como el recíproco de la media aritmética de los Por tanto, , es la raíz cuadrada de la media aritmética de los cuadrados: Mediana: Med es el primer valor de la variable que deja por debajo de sí al de las observaciones. Considerando una v.a. X cuyas observaciones han sido ordenadas de menor a mayor. Moda: Llamaremos a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Medidas de variabilidad o dispersión Los de variabilidad o dispersión nos indican si las puntuaciones o valores (analizadas en los estadísticos de tendencia central) están próximas entre sí o si por el contrario están muy dispersas. Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. Es fácil de calcular y sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes: No utiliza todas las observaciones (sólo dos de ellas); Se puede ver muy afectada por alguna observación extrema; El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso nunca disminuye. En el transcurso de esta sección, veremos medidas de dispersión mejores que la anterior. Estas se determinan en función de la distancia entre las observaciones y algún estadístico de tendencia central. Desviación media, Dm Se define la desviación media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, x1, ..., xn, entonces Si los datos están agrupados en una tabla estadística es más sencillo usar la relación Como se observa, la desviación media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la distancia que induce la desviación media en el espacio de observaciones no es la natural (no permite definir ángulos entre dos conjuntos de observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población. Varianza y desviación típica Como forma de medir la dispersión de los datos hemos descartado: , pues sabemos que esa suma vale 0, ya que las desviaciones con respecto a la media se compensan al haber términos en esa suma que son de signos distintos. Para tener el mismo signo al sumar las desviaciones con respecto a la media podemos realizar la suma con valores absolutos. Esto nos lleva a la Dm, pero como hemos mencionado, tiene poco interés por las dificultades que presenta. Si las desviaciones con respecto a la media las consideramos al cuadrado, , de nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles de utilizar. Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del curso: La varianza y la desviación típica. La varianza, , se define como la media de las diferencias cuadráticas de N puntuaciones con respecto a su media aritmética, es decir cuando N es el tamaño de la población. , Si n representa el total de elementos en la población se da lo siguiente: .Para datos agrupados en tablas, usando las notaciones establecidas en los capítulos anteriores, la varianza se puede escribir como . Una fórmula equivalente para el cálculo de la varianza está basada en lo siguiente: Con lo cual se tiene Si los datos están agrupados en tablas, es evidente que La varianza no tiene la misma magnitud que las observaciones (Ej. si las observaciones se miden en metros, la varianza lo hace en ). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define la desviación típica, , como Ejemplo Calcular la varianza muestral y desviación típica de las siguientes cantidades medidas en metros: 3,3,4,4,5 Solución: Para calcular dichas medidas de dispersión es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Ésta es la media: La varianza es: siendo la desviación típica su raíz cuadrada: Las siguientes propiedades de la varianza (respectivamente, desviación típica) son importantes a la hora de hacer un cambio de origen y escala a una variable. En primer lugar, la varianza (igual la Desviación típica) no se ve afectada si al conjunto de valores de la variable se le añade una constante. Si además cada observación es multiplicada por otra constante, en este caso la varianza cambia en relación al cuadrado de la constante (La desviación típica cambia en relación al valor absoluto de la constante). Esto queda precisado en la siguiente proposición: Proposición Si entonces Demostración Para cada observación xi de X, definición , tenemos una observación de Y que es por , se tiene que . Por tanto, la varianza de Y es Observación Las consecuencias del anterior resultado eran de esperar: Si los resultados de una medida son trasladados una cantidad b, la dispersión de los mismos no aumenta. Si estos mismos datos se multiplican por una cantidad a <1, el resultado tenderá a concentrarse alrededor de su media (menor varianza). Si por el contrario a>1 habrá mayor dispersión. Otra propiedad fundamental de la varianza es la siguiente: Proposición Dados r grupos, cada uno de ellos formado por ni observaciones de media varianza . Entonces la varianza, observaciones vale y de , del conjunto de todas las Demostración Dicho de otro modo, pretendemos demostrar que la varianza total es igual a la media de las varianzas más la varianza de las medias. Comenzamos denotando mediante xij la observación j-ésima en el i-ésimo grupo, donde y . Entonces Observación Además de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre la desviación típica), será conveniente tener siempre en mente otras que enunciamos a continuación: Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si una puntuación cambia, cambia con ella la varianza. La razón es que si miramos su definición, la varianza es función de cada una de las puntuaciones. Si se calculan a través de los datos agrupados en una tabla, dependen de los intervalos elegidos. Es decir, cometemos cierto error en el cálculo de la varianza cuando los datos han sido resumidos en una tabla estadística mediante intervalos, en lugar de haber sido calculados directamente como datos no agrupados. Este error no será importante si la elección del número de intervalos, amplitud y límites de los mismos ha sido adecuada. La desviación típica tiene la propiedad de que en el intervalo se encuentra, al menos, el 75% de las observaciones (ver el teorema de Tshebishev). Incluso si tenemos muchos datos y estos provienen de una distribución normal (se definirá este concepto más adelante), podremos llegar al . No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central. Método abreviado para el cálculo de la varianza Si una variable X toma unos valores para los cuales las operaciones de cálculo de media y varianza son tediosas, podemos realizar los cálculos sobre una variable Z definida como Una vez que han sido calculadas y , obtenemos y teniendo en cuenta que: Grados de libertad Los grados de libertad de un estadístico calculado sobre n datos se refieren al número de cantidades independientes que se necesitan en su cálculo, menos el número de restricciones que ligan a las observaciones y el estadístico. Es decir, normalmente n-1. Ejemplo: Consideramos una serie de valores de una variable, tomados de forma independiente. , que han sido Su media es y se ha calculado a partir de las n =5 observaciones independientes xi, que están ligadas a la media por la relación: Luego el número de grados de libertad de la media es n-1=4. Si calculamos a continuación la varianza, se han de sumar n cantidades Sin embargo esas cantidades no son totalmente independientes, pues están ligadas por una restricción: El número de grados de libertad del estadístico es el número de observaciones de la variable menos el número de restricciones que verifican, así que en este caso, los grados de libertad de la varianza sobre los n =5 datos son también n-1 = 4. Un principio general de la teoría matemática nos dice que si pretendemos calcular de modo aproximado la varianza de una población a partir de la varianza de una muestra suya, se tiene que el error cometido es generalmente más pequeño, si en vez de considerar como estimación de la varianza de la población, a la varianza muestral denotada por consideramos lo que se denomina cuasi varianza muestral, que se calcula como la anterior, pero cambiando el denominador por el número de grados de libertad, n-1: Sobre este punto incidiremos más adelante, ya que es fundamental en estadística inferencial. Coeficiente de variación Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes, nos dará información útil. ¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!) En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Se define del siguiente modo: Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las siguientes consideraciones deben ser tenidas en cuenta: Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para la que tenemos con seguridad que . No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b>0, para tener Y = X + b, entonces , ya que la desviación típica no es sensible ante cambios de origen, pero si la media. Lo contrario ocurre si restamos (b<0). Es invariante a cambios de escala. Si multiplicamos X por una constante a, para obtener , entonces Observación Es importante destacar que los coeficientes de variación sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores estandarizados. Ejemplo Dada la distribución de edades (medidas en años) en un colectivo de 100 personas, obtener: 1. La variable estandarizada Z. 2. Valores de la media y varianza de Z. 3. Coeficiente de variación de Z. Horas trabajadas Num. empleados 0 -- 4 47 4 -- 10 32 10 -- 20 17 20 -- 40 4 100 Solución: Para calcular la variable estandarizada partimos de los datos del enunciado. Será necesario calcular en primer lugar la media y desviación típica de la variable original (X = años). Como no se tiene la desviación típica de la población , se trabaja con el estimador de este parámetro, es decir . Por la tanto la ecuación nos queda: li-1 -- li xi ni xi ni xi2 ni 0 -- 4 2 47 94 4 -- 10 7 32 224 1.568 10 -- 20 15 17 255 3.825 20 -- 40 30 4 120 3.600 188 n =100 693 9.181 A partir de estos valores podremos calcular los valores estandarizados para las marcas de clase de cada intervalo y construir su distribución de frecuencias: zi ni zi2 ni zi ni -0,745 47 0,011 32 0,352 0,004 1,220 17 20,720 25,303 3,486 4 13,944 48,609 n =100 0,021 100,002 -35,015 26,086 A pesar de que no se debe calcular el coeficiente de variación sobre variables que presenten valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el porqué: Es decir, el coeficiente de variación no debe usarse nunca con variables estandarizadas. Desviación media Dm: como la media de las diferencias en valor absoluto de los valores de la variable a la media. Se define como varianza, , se define como la media de las diferencias cuadráticas de las N puntuaciones con respecto a su media aritmética, es decir tamaño de la población ) , (N varianza muestral la varianza de una población es estimada a partir de la varianza de una muestra suya, se denotada por Grados de libertad: de un estadístico calculado sobre n datos se refieren al número de cantidades independientes que se necesitan en su cálculo, menos el número de restricciones que ligan a las observaciones y el estadístico. Cuasi varianza muestral: que se calcula como la varianza, pero cambiando el denominador por el número de grados de libertad, n-1. Estandarización: es el proceso de restar la media y dividir por su desviación típica (o para el estimador de esta) a una variable X. , donde S es la raíz cuadrada de la varianza muestral. Coeficiente de variación: elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Variabilidad o dispersión: nos indican si las puntuaciones o valores (analizadas en los estadísticos de tendencia central) están próximas entre sí o si por el contrario están o muy dispersas Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también podemos considerarlas de forma individual para cada una de las componentes de la variable bidimensional. Si observamos con atención los términos vemos que las cantidades negativas. y van al cuadrado y por tanto no pueden ser La covarianza , es una manera de generalizar la varianza, esta mide el grado de variación entre dos variables y se define como: Como se ve, la fórmula es muy parecida a las de las varianzas. Es sencillo comprobar que se verifica la siguiente expresión de , más útil en la práctica: Proposición Si las observaciones no están ordenadas en una tabla de doble entrada, entonces se tiene que o lo que es lo mismo Ejemplo Se han clasificado 100 familias según el número de hijos varones ( en la tabla siguiente: ) o hembras ( 0 1 2 3 4 0 4 6 9 4 1 1 5 10 7 4 2 2 7 8 5 3 1 3 5 5 3 2 1 4 2 3 2 1 0 1. Hallar las medias, varianzas y desviaciones típicas marginales. 2. ¿Qué número medio de hijas hay en aquellas familias que tienen 2 hijos? 3. ¿Qué número medio de hijos varones hay en aquellas familias que no tienen hijas? 4. ), ¿Qué número medio de hijos varones tienen aquellas familias que a lo sumo tienen 2 hijas? 5. Hallar la covarianza Solución: En primer lugar, definimos las variables X = número de hijos varones, e Y = número de hijas y construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son útiles en el cálculo de medias y varianzas: y1 y2 y3 y4 y5 0 1 2 3 4 4 6 9 4 1 24 0 0 0 5 10 7 4 2 28 28 28 44 7 8 5 3 1 24 48 96 62 5 5 3 2 1 16 48 144 63 2 3 2 1 0 8 32 128 40 23 32 26 14 5 100 156 396 209 0 32 52 42 20 146 0 32 104 126 80 342 de este modo, las medias marginales son cuando y . Calculamos después las varianzas marginales que nos dan directamente las desviaciones típicas marginales, El número medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribución condicionada de n3j n3j yj 7 0 8 8 5 10 3 9 1 4 24 31 Del mismo modo, el número medio de hijos varones de las familias sin hijas, se calcula con la distribución condicionada ni1 ni1 xi 4 0 5 5 7 14 5 15 2 8 23 42 El número medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3 ni1 ni2 ni3 ni1+ ni2+ ni3 (ni1+ ni2+ ni3) xi 4 6 9 19 19 5 10 7 22 22 7 8 5 20 40 5 5 3 13 39 2 3 2 7 28 81 129 La covarianza es: De forma más general, podemos realizar la siguiente proposición: Proposición: Demostración: Nótese que entonces Amplitud o rango: que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. La covarianza , es una manera de generalizar la varianza, esta mide el grado de variación entre dos variables y se define como: 2.9 Desigualdad de Tshebishev Si X es una variable aleatoria con esperanza , y varianza , se puede demostrar que en general, una gran parte de la masa se encuentra en un intervalo centrado en y que tiene por amplitud varias veces . Más precisamente, la desigualdad de Tshebishev afirma que si consideramos un intervalo de centro y radio k veces , la probabilidad de realizar una observación de la variable y que esta no esté en dicho intervalo es inferior o igual a 1/k2. Matemáticamente esto se formula como: Teorema (Tshebishev) Si X es v.a. con y , entonces Este importante resultado, por si sólo, justifica el que sea una medida de centralización y (o bien ) de dispersión de X y motiva la introducción del concepto de estandarización de variables aleatorias. Dada una v.a. X, definimos su v.a. estandarizada, Z, como: que es una v.a. tal que El teorema de Tshebishev afirma sobre Z que Unidad 3 VARIABLES ALEATORIAS DISCRETAS 3.1 Variables Aleatorias Discretas Distribución de Bernoulli Consiste en realizar un experimento aleatorio una sola vez y observar si cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q = 1-p el que no lo sea (fracaso). Es decir que únicamente puede tomar dos modalidades, es por ello que el hecho de llamar éxito o fracaso a los posibles resultados de las pruebas obedece más una tradición literaria o histórica, en el estudio de las v.a., que a la situación real que pueda derivarse del resultado. Podríamos por tanto definir este experimento mediante una v.a. discreta X que toma los valores X =0 si el suceso no ocurre, y X =1 en caso contrario, y que se denota Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar una moneda al aire y considerar la v.a. Para una v.a. de Bernoulli, tenemos que su función de probabilidad es: y su función de distribución: Distribución binomial Se dice que una v.a. X sigue una ley binomial de parámetros n y p, la suma de n v.a. independientes de Bernoulli con el mismo parámetro, p: , si es Esta definición puede interpretarse en el siguiente sentido: Supongamos que realizamos n pruebas de Bernoulli, Xi, donde en todas ellas, la probabilidad de éxito es la misma (p), y queremos calcular el número de éxitos, X, obtenidos el total de las n pruebas. En las siguientes Figuras se representa la función de probabilidad de una variable binomial. (a) y (b) según el tamaño n. Su ley de probabilidad es: Figura: Función de probabilidad de una variable binomial (a) cuando n es pequeño, (b) cuando n es grande. Por tanto, su función de distribución es Distribución geométrica ( o de fracasos) Consideramos una sucesión de v.a. independientes de Bernoulli, Una v.a. X sigue posee una distribución geométrica, , si esta es la suma del número de fracasos obtenidos hasta la aparición del primer éxito en la sucesión . Por ejemplo De este modo tenemos que la ley de probabilidad de X es Observación Es sencillo comprobar que realmente f es una ley de probabilidad, es decir, . Para ello basta observar que la sucesión es una progresión geométrica de razón q, a la que podemos aplicar su fórmula de sumatoria: Observación En la distribución geométrica el conjunto de posibles valores que puede tomar la variable ( ) es infinito numerable, mientras que en la de Bernoulli y en la binomial, estos eran en número finito. Distribución binomial negativa Sobre una sucesión de v.a. de Bernouilli independientes, se define la v.a. X como el número de fracasos obtenidos hasta la aparición de r éxitos en la sucesión . En este caso se dice que X sigue una ley de distribución binomial negativa de parámetros r y p y se denota del modo: probabilidad es De nuevo, el conjunto . de posibles valores de . Su ley de esta v.a. discreta es Observación La distribución binomial negativa también se puede definir como el número de pruebas hasta la aparición de r éxitos. Como el número de pruebas contabiliza tanto los éxitos como los fracasos se tendría según ésta definición que Distribución hipergeométrica Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas españolas (N = 40 naipes), de las cuales nos vamos a interesar en el palo de oros (D =10 naipes de un mismo tipo). Supongamos que de esa baraja extraemos n = 8 cartas de una vez (sin reemplazamiento) y se nos plantea el problema de calcular la probabilidad de que hayan k = 2 oros (exactamente) en esa extracción. La respuesta a este problema es En lugar de usar como dato D es posible que tengamos la proporción existente, p, entre el número total de oros y el número de cartas de la baraja de modo que podemos decir que Este ejemplo sirve para representar el tipo de fenómenos que siguen una ley de distribución hipergeométrica. Diremos en general que una v.a. X sigue una distribución hipergeométrica de parámetros, N, n y p, lo que representamos del modo , si su función de probabilidad es Observación Cuando el tamaño de la población (N) es muy grande, la ley hipergeométrica tiende a aproximarse a la binomial: El valor esperado de la hipergeométrica es el mismo que el de la binomial, sin embargo su varianza no es exactamente la de la binomial, pues está corregida por un factor, , que tiende a 1 cuando . A este factor se le denomina factor de corrección para población finita. Distribución de Poisson (o de los sucesos raros) Una v.a. X posee una ley de distribución de probabilidades del tipo Poisson cuando Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir, obteniéndose como la distribución límite de una sucesión de variable binomiales, , donde ,y (por tanto ). La demostración de esto consiste en En general utilizaremos la distribución de Poisson como aproximación de experimentos binomiales donde el número de pruebas es muy alto, pero la probabilidad de éxito muy baja. A veces se suele utilizar como criterio de aproximación: La ley de Poisson la podemos encontrar tabulada en la tabla de probabilidades, para ciertos valores usuales de . Bernoulli: Consiste en realizar un experimento aleatorio una sola vez y observar si cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q = 1-p el que no lo sea (fracaso), Binomial: Se dice que una v.a. X sigue una ley binomial de parámetros n y p, , si es la suma de n v.a. independientes de Bernoulli con el mismo valor del parámetro p, Geométrica ( o de fracasos): Si X1, X2, ..., Xi, ... son una sucesión de v.a. independientes de Bernoulli (p), entonces, una v.a. X posee una distribución geométrica, , si esta es la suma del número de fracasos obtenidos hasta la aparición del primer éxito en la sucesión . la ley de probabilidad de X es Binomial negativa: Si X1, X2, ..., Xi, ... son una sucesión de v.a. independientes de Bernoulli (p), entonces, se define la v.a. X como el número de fracasos obtenidos hasta la aparición de r éxitos en la sucesión . En este caso se dice que X sigue una ley de distribución binomial negativa de parámetros r y p. Su ley de probabilidad es Hipergeométrica: Diremos que una v.a. X sigue una distribución hipergeométrica de parámetros, N, n y p, donde N es el total de la población, n el número de elementos en la muestra, y p es la proporción de elementos en la población que tienen la característica deseada. función de probabilidad es Poisson (o de los sucesos raros): Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir, obteniéndose como la distribución límite de una sucesión de variable binomiales, es decir, una v.a. X posee una ley de distribución de probabilidades del tipo Poisson si con λ = n p. 3.2 Deducción de las características relevantes de las variables aleatorias discretas usando momentos y función generadora de momentos. Para realizar las deducciones de las fórmulas para obtener los parámetros de las v.a., utilizaremos la función característica de esta , la cual no difiere mucho de la función generadora de momentos presentando una ventaja sobre esta ya que es más general. Distribución de Bernoulli Los principales momentos de la X directamente con , los podemos calcular Distribución binomial Los principales momentos de X cuando partir de , los calculamos más fácilmente a la función característica de X que de su propia definición: Distribución geométrica ( o de fracasos) función característica se calcula teniendo en cuenta que de nuevo aparece la sumatoria de los términos de una progresión geométrica, pero esta vez de razón eit q: La media y varianza de esta variable aleatoria son: Distribución binomial negativa Su función característica es y sus momentos más importantes los obtenemos derivando esta última: Distribución de Poisson La función característica de es de lo que se deduce que valor esperado y varianza coinciden 3.3 Uso de las Tablas A continuación se presentan ejemplos de v.a. que cuentan con tablas de probabilidades y ayudan a eliminar los cálculos: Distribución binomial Ejemplo Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya incidencia sobre una población de niños es del . La sensibilidad del test es del y la especificidad del . ¿Cual es la probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el test le da positivo, ¿cuál es la probabilidad de que entre estas, exactamente dos estén sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas. Calcular la probabilidad de que el resultado sea correcto para más de 7 personas. Solución: Los datos de que disponemos son: donde E, T +, y T -- tienen el sentido que es obvio. Si queremos saber a cuantas personas el test le dará un resultado positivo, tendremos que calcular , para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una colección exhaustiva y excluyente de sucesos): Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro que llamando , se tiene que X sigue una distribución binomial Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es: Si queremos calcular a cuantas personas les dará el test un resultado positivo aunque en realidad estén sanas, hemos de calcular previamente predictivo de falsos positivos: , o sea, el índice Es importante observar este resultado. Antes de hacer los cálculos no era previsible que si a una persona el test le da positivo, en realidad tiene una probabilidad aproximadamente del de estar sana. Sea X2 la variable aleatoria que contabiliza al número de personas al que el test le da positivo, pero que están sanas en realidad. Entonces y Por último vamos a calcular la probabilidad p3 de que el test de un resultado erróneo, que es: La variable aleatoria que contabiliza el número de resultados erróneos del test es Como la probabilidad de que el test sea correcto para más de siete personas, es la de que sea incorrecto para menos de 3, se tiene Distribución binomial negativa Ejemplo Para tratar a un paciente de una afección de pulmón han de ser operados en operaciones independientes sus 5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien, lo que ocurre con probabilidad de 7/11, el lóbulo queda definitivamente sano, pero si no es así se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus 5 lóbulos funcionen correctamente. ¿Cuál es el valor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cuál es la probabilidad de que se necesiten 10 intervenciones? Solución: Este es un ejemplo claro de experimento aleatorio regido por una ley binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4 lóbulos sanos, y éste es el criterio que se utiliza para detener el proceso. Identificando los parámetros se tiene: Lo que nos interesa es medir el número de intervenciones, Y, más que el número de éxitos hasta el r-ésimo fracaso. La relación entre ambas v.a. es muy simple: Y=X+r Luego Luego el número esperado de intervenciones que deberá sufrir el paciente es de 11. La probabilidad de que el número de intervenciones sea Y =10, es la de que X =10 – 4 = 6. Por tanto: Distribución geométrica ( o de fracasos) Ejemplo Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más. Solución: Este es un ejemplo de variable geométrica. Vamos a suponer que la probabilidad de tener un hijo varón es la misma que la de tener una hija hembra. Sea X la v.a. Es claro que Sabemos que el número esperado de hijos varones es número esperado en total entre hijos varones y la niña es 2. , por tanto el La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o más hijos varones (la niña está del tercer lugar en adelante), es decir, Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya que sería más complicado hacerlo mediante la suma infinita Observación La distribución exponencial también puede ser definida como el número de pruebas realizadas hasta la obtención del primer éxito (como hubiese sido más adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo comprobar que X sólo puede tomar valores naturales mayores o iguales a 1, y que: Distribución de Poisson (o de los sucesos raros) Ejemplo Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000. Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con dicha enfermedad. Calcular el número esperado de habitantes que la padecen. Solución: Si consideramos la v.a. X que contabiliza el número de personas que padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien aproximado por un modelo de Poisson, de modo que Así el número esperado de personas que padecen la enfermedad es . Como , existe una gran dispersión, y no sería extraño encontrar que en realidad hay muchas más personas o menos que están enfermas. La probabilidad de que haya más de tres personas enfermas es: Unidad 4 VARIABLES ALEATORIAS CONTINUAS 4.1 Variables Aleatorias Continuas En esta sección estudiaremos las distribuciones más importantes de v.a. continuas unidimensionales. El soporte de una v.a. continua se define como aquella región de donde su densidad es no nula, podrá ser bien todo , . Para las distribuciones que enunciaremos, o bien un segmento de la forma . Distribución uniforme o rectangular Se dice que una v.a. X posee una distribución uniforme en el intervalo [a, b], si su función de densidad es la siguiente: Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio, el valor de X este comprendido en cierto subintervalo de [a, b] depende únicamente de la longitud del mismo, no de su posición. Cometiendo un pequeño abuso en el lenguaje, podemos decir que en una distribución uniforme la probabilidad de todos los puntos del soporte es la misma. Teniendo en cuenta que si , la función de distribución de es: Figura: Función de densidad y de distribución de Distribución normal La distribución normal, recibe este nombre ya que una gran mayoría de las v.a continuas de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una distribución normal de parámetros y si su función de densidad es: Observación , lo que representamos del modo Estos dos parámetros y coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante: La forma de la función de densidad es la llamada campana de Gauss, de ahí que en algunas ocasiones se la denomine Gaussiana. Figura: Campana de Gauss o función de densidad de una v.a. de distribución normal. El área contenida entre la gráfica y el eje de abcisas vale 1. Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo (moda) en , que es simétrica con respecto al mismo, y por tanto , con lo cual en coinciden la media, la mediana y la moda, y por último, calcular sus puntos de inflexión. El soporte de la distribución es todo , de modo que la mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor “muy alejado” de la media es posible (aunque poco probable). La forma de la campana de Gauss depende de los parámetros y : indica la posición de la campana (parámetro de centralización); (o equivalentemente, ) será el parámetro de dispersión. Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada alrededor de la media (grafo de f muy apuntado cerca de aplastado” será. ) y cuanto mayor sea “más Figura: Distribuciones normales con diferentes medias e igual dispersión. Figura: Distribuciones normales con igual media pero varianza diferente. Estandarización Se conoce por Estandarización al proceso de restar la media y dividir por su desviación típica a una variable X. De este modo se obtiene una nueva variable de media estandarizada. y desviación típica , que denominamos variable Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. Así por ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesión de una beca de estudios, en principio sería injusto concederla directamente al que posea una nota media más elevada, ya que la dificultad para conseguir una buena calificación puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las calificaciones de ambos estudiantes, pero estandarizadas cada una de ellas por las medias y desviaciones típicas respectivas de las notas de los alumnos de cada Universidad. Observación Como se ha mencionado anteriormente, la ley de probabilidad normal la encontramos en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad: La función no posee primitiva conocida. Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que: sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no impide que para un valor de x fijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y varianza 1 que se denomina distribución normal estandarizada: En el caso de que tengamos una distribución diferente haciendo el siguiente cambio: , se obtiene Z Proposición (Cambio de origen y escala) Sean . Entonces Este resultado puede ser utilizado del siguiente modo: Si calcular , y nos interesa , 1. Hacemos el cambio y calculamos ; 2. Usamos la tabla de probabilidades para la normal estándar, relativa a la distribución para obtener (de modo aproximado) ; 3. Como tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada. Vamos ahora a demostrar algunas de las propiedades de la ley normal que hemos mencionado anteriormente. Proposición Sea . Entonces Demostración Por ser la normal una ley de probabilidad se tiene que es decir, esa integral es constante. Con lo cual, derivando la expresión anterior con respecto a se obtiene el valor 0: luego . Para demostrar la igualdad entre la pero esta vez derivando con respecto a y , basta con aplicar la misma técnica, : Luego Aproximación a la normal de la ley binomial Se puede demostrar (teorema central del límite) que una v.a. discreta con distribución binomial, se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente y , la aproximación consiste en decir que . El convenio que se suele utilizar para poder realizar esta aproximación es: aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un valor muy grande o . Como ilustración obsérvense las siguientes figuras Figura: Comparación entre la función de densidad de una v.a. continua con distribución y el diagrama de barras de una v.a. discreta de distribución para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación cuando p está próximo a los bordes del intervalo [0,1]. Figura: La misma comparación que en la figura anterior, pero realizada con parámetros con los que damos la aproximación normal de la binomial es mejor. Ejemplo Durante cierta epidemia de gripe, enferma el de la población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe. Solución: La v.a. que contabiliza el número de alumnos que padece la gripe es cuya media es y su varianza es . Realizar los cálculos con la ley binomial es muy difícil, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable: Así aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN tenemos: También es necesario calcular como: . Esta probabilidad se calcula exactamente Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En particular, lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar por el valor de la función de densidad de XN en ese punto (es en el único sentido en que se puede entender la función de densidad de la normal como una aproximación de una probabilidad). Así: Por último, otra posibilidad es considerar un intervalo de longitud 1 centrado en el valor 60 del que deseamos hallar su probabilidad y hacer: Ejemplo Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye según una ley de normalidad de valor esperado y desviación típica asegurado que el . Dar un intervalo para el que tengamos de los habitantes de la ciudad estén comprendidos en él. Solución: Tenemos que . Si buscamos un intervalo donde estar seguros de que el de los habitantes tengan sus alturas comprendidas en él hay varias estrategias posibles: 1. Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como: donde El valor z0,5 lo podemos buscar en la tabla de la normal estándar (distribución y se obtiene ) Por tanto podemos decir que la mitad de la población tiene una altura inferior a . Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior (como se ve en la figura). Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda). Esto puede escribirse como: El de la población tiene un peso comprendido en el intervalo . 2. Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir: El de la población tiene un peso comprendido en el intervalo . 3. Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar un intervalo cuyo centro sea . Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más pequeño posible que contenga al de la población. Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes normales. Entonces podemos tomar un intervalo que contenga un de probabilidad del lado izquierdo más próximo a la media, y un del derecho. Esto se puede describir como el intervalo Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. En este caso el intervalo es más pequeño que el anterior y está centrado en donde x0,25 es el valor que deja por debajo de sí al . de la masa de probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribución normal, tipificando en primera instancia para des estandarizar después: donde En una tabla encontramos el valor z0,75, y se des estandarizada: Análogamente se calcularía donde Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= z0,75. Luego En conclusión: El de la población tiene un peso comprendido en el intervalo [168,25,181,75]. De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística que trataremos posteriormente, conocidas con el nombre de “cálculo de intervalos de confianza”. Distribución Gamma X es una v.a. Gamma con parámetros α y β, es decir cuando además sirve de ayuda el saber que 1. si y solo si 2. Si , entonces La media es la varianza es Dadas ciertas condiciones específicas de sus parámetros α y β, esta v.a. se convierte en otro tipo de v.a. las cuales tienen mayor aplicación, y se las verá a continuación Distribución exponencial La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta ley de distribución describe procesos en los que: Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada. Ejemplos de este tipo de distribuciones son: El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 14, C14; El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un paciente; En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos veces una herida importante. Si tenemos una v.a. , cuando el parámetro β toma el valor de uno, es decir β =1, X se convierte en la v.a. Exponencial, lo cual es fácil de deducir y se lo deja como demostración para el estudiante. , es tal que su función Concretando, si una v.a. continua X distribuida a lo largo de de densidad es se dice que sigue una distribución exponencial de parámetro Figura: Función de densidad, f, de una , . Un cálculo inmediato nos dice que si x>0, luego la función de distribución es: Figura: Función de distribución, F, de , calculada como el . área que deja por debajo de sí la función de densidad. Ejemplo En un experimento de laboratorio se utilizan 10 gramos de . Sabiendo que la duración media de un átomo de esta materia es de 140 días, ¿cuantos idas transcurrirán hasta que haya desaparecido el de este material? Solución: El tiempo T de desintegración de un átomo de exponencial: es una v.a. de distribución Como el número de átomos de existentes en una muestra de 10 gramos es enorme, el histograma de frecuencias relativas formado por los tiempos de desintegración de cada uno de estos átomos debe ser extremadamente aproximado a la curva de densidad, f. Del mismo modo, el polígono de frecuencias relativas acumuladas debe ser muy aproximado a la curva de su función de distribución F. Entonces el tiempo que transcurre hasta que el del material radiactivo se desintegra es el percentil 90, t90, de la distribución exponencial, es decir Figura: Como el número de átomos (observaciones) es extremadamente alto en 10 gramos de materia, el histograma puede ser aproximado de modo excelente por la función de densidad exponencial, y el polígono de frecuencias acumuladas por la función de distribución. Pérdida de la memoria de la v.a. exponencial Analicemos esta característica particular que posee la v.a. exponencial con un ejemplo Ejemplo Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es la probabilidad de que haya que cambiarlo antes de años? Solución: Sea T la variable aleatoria que mide la duración de un marcapasos en una persona. Tenemos que Entonces En segundo lugar Luego como era de esperar, por ser propio a un mecanismo exponencial, o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que en la actualidad lleva funcionando. Es por ello que se dice que “la distribución exponencial no tiene memoria”. Distribución Ji – cuadrado: Si tenemos una v.a. , cuando β =2 y α = n/2, X se convierte en la v.a. Jicuadrado lo cual es fácil de deducir y se lo deja como demostración para el estudiante. Otra manera de obtener la v.a. Ji-cuadrado es la siguiente , la v.a. X = Z2 se distribuye según una ley de Si consideramos una v.a. probabilidad distribución con un grado de libertad, lo que se representa como Si tenemos n v.a. independientes , la suma de sus cuadrados respectivos es una distribución que denominaremos ley de distribución . La media y varianza de esta variable son respectivamente: con n grados de libertad, y su función de densidad es: Los percentiles de esta distribución que aparecen con más frecuencia en la práctica los podemos encontrar en una tabla de probabilidades para la v.a. Ji – cuadrado ( Figura: Función de densidad de n. Figura: Función de densidad de para valores pequeños de para valores grandes de n. ). En consecuencia, si tenemos , v.a. independientes, donde cada , se tiene Observación La ley de distribución muestra su importancia cuando queremos determinar la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal. Como ilustración tenemos el siguiente ejemplo: Ejemplo Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados bastantes aproximados con la realidad, aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviación típica . Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo de n =100 pacientes. Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes. Podemos plantear varias estrategias para medir los errores acumulados. Entre ellas destacamos las siguientes: 1. Definimos el error acumulado en las mediciones de todos los pacientes como ¿Cuál es el valor esperado para E1? 2. Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas): ¿Cuál es el valor esperado para E2? A la vista de los resultados, cuál de las dos cantidades, E1 y E2, le parece más conveniente utilizar en una estimación del error cometido por un instrumento. Solución: Suponiendo que todas las mediciones son independientes, se tiene que De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a compensarse entre unos pacientes y otros. Obsérvese que si no fuese conocido a priori, podríamos utilizar E1, para obtener una aproximación de Sin embargo, el resultado E1 no nos indica en qué medida hay mayor o menor dispersión en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente: En este caso los errores no se compensan entre sí, y si “estimado” de modo aproximado mediante no fuese conocido, podría ser Sin embargo, no obtenemos ninguna información con respecto a . En conclusión, E1 podría ser utilizado para calcular de modo aproximado , y E2 para calcular de modo aproximado . Las dos cantidades tienen interés, y ninguna lo tiene más que la otra, pues ambas formas de medir el error nos aportan información. El siguiente resultado será de importancia más adelante. Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una v.a. con distribución varianza: , con los de un estadístico como la Teorema (Cochran) Sean v.a. independientes. Entonces Distribución Beta Si X es una v.a., entonces su media está dada por y su varianza si y solo si Uniforme: Se dice que una v.a. X posee una distribución uniforme en el intervalo [a, b], , si su función de densidad es la siguiente: . Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio, el valor de X este comprendido en cierto sub intervalo de [a, b] depende únicamente de la longitud del mismo, no de su posición. Normal: Se dice que una v.a. X sigue una distribución normal de parámetros lo que representamos del modo y , si su función de densidad es: . La distribución normal, recibe este nombre ya que una gran mayoría de las v.a continuas de la naturaleza siguen esta distribución. Normal Estándar Z: normal de media 0 y varianza 1 se denomina distribución normal estandarizada, su densidad es .En el caso de que tengamos una distribución diferente , se obtiene Z haciendo el siguiente cambio: Aproximación a la normal de la ley binomial: Se puede demostrar (teorema central del límite) que una v.a. discreta con distribución binomial, se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Distribución Gamma X es una v.a. Gamma con parámetros α y β, es decir si y solo si cuando Exponencial: esta es el equivalente continuo de la distribución geométrica discreta. Esta ley de distribución describe procesos en los que nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada. Pérdida de la memoria de la v.a. exponencial: la duración que se espera que tenga algún objeto en especial eléctrico, no influye en nada el tiempo que en la actualidad lleva funcionando. Es por ello que se dice que “la distribución exponencial no tiene memoria”. Ji – cuadrado: Si tenemos n v.a. independientes , la suma de sus cuadrados respectivos es una distribución que denominaremos ley de distribución con n grados de libertad, . Distribución Beta: Si X es una v.a., entonces si y solo si 4.2 Deducción de las características relevantes de las variables aleatorias continuas usando momentos y función generadora de momentos. Para realizar las deducciones de las fórmulas para obtener los parámetros de las v.a., utilizaremos la función característica de esta , la cual no difiere mucho de la función generadora de momentos presentando una ventaja sobre esta ya que es más general. z Distribución uniforme La función característica es Como esta distribución es muy simple, vamos a calcular sus momentos más usuales directamente a partir de la definición, en lugar de usar la función característica: Distribución normal La función característica de la distribución normal, se comprueba más adelante que es Como consecuencia, la distribución normal es reproductiva con respecto a los parámetros ,y , ya que Para demostrar el resultado demostrado en el desarrollo del tema 1 en la unidad 4, relativo a la función característica de la v.a. normal, consideramos en primer lugar la v.a. estandarizada de X, y calculamos Como , deducimos que Distribución Gamma La función generadora de momentos de la v.a. Gamma es Derivando la función característica podemos encontrar fácilmente la media y la varianza de la v.a. Gamma, lo que se deja de ejercicio para el estudiante. Distribución exponencial Para calcular el valor esperado y la varianza de la distribución exponencial, obtenemos en primer lugar la función característica para después, derivando por primera vez y derivando por segunda vez, Entonces la varianza vale 4.3 Uso de las Tablas A continuación se presentan ejemplos de v.a. que cuentan con tablas de probabilidades y ayudan a eliminar los cálculos: Distribución Normal Ejemplo Supongamos que cierto fenómeno pueda ser representado mediante una v.a. , y queremos calcular la probabilidad de que X tome un valor entre 39 y 48, es decir, Comenzamos haciendo el cambio de variable de modo que los valores 0.33 y 0.67 lo obtenemos de la tabla de la v.a. normal estándar, la forma de leer los valores es la siguiente: Observar que en la primera columna se tiene el primer decimal y en la primera fila se tienen el segundo decimal del valor que se desea investigar. Figura: área bajo la curva normal de la media hasta el valor de z (para valores negativos de z, la áreas son por simetría) Si buscamos en la tabla en el lado izquierdo encontraremos el valor 0.3 y revisando en que columna está el segundo decimal 0.03 e interceptando la fila y la columna encontraremos el valor de 0.1293, a este valor hay que sumarle 0.5 del área bajo la curva desde μ a - ∞, lo que da como resultado el valor de 0.6293; de igual manera para el valor 0.67, se busca a la izquierda 0.6 y en la columna 0.07 se intercepta y se encuentra el valor de 0.2486, haciendo el mismo procedimiento que al valor anterior tenemos 0.7486. Una vez que se tienen los valores estandarizados se realiza el proceso contrario al de la estandarización, es decir, se multiplica este valor por la desviación estándar y se le suma el valor de la media, y así se obtendrá la probabilidad de la variable X con media 45 y desviación estándar 81.