Download Función de distribución
Document related concepts
no text concepts found
Transcript
Estadística para Enfermería Tema 3 Variables aleatorias Ejemplos: X, hematocrito de una persona elegida aleatoriamente. Y, peso de una persona elegida aleatoriamente. U, número de hijos de una familia elegida aleatoriamente. W, Transaminasa GOT de una persona elegida aleatoriamente. EN TODAS ELLAS… El resultado es un número. No toman exactamente el mismo valor cada vez que se hace la prueba. Puede variar de uno a otro, y en su variación influye el azar. Definición intuitiva: Una variable aleatoria es una variable cuyo valor numérico se determina al azar. 1 Las variables aleatorias se representarán por letras mayúsculas, y sus valores numéricos observados por letras minúsculas. Clasificación de variables aleatorias Discretas. Continuas. Definición: Una variable aleatoria X es discreta si puede tomar un número finito (o infinito numerable) de valores puntuales posibles. Ejemplos: número de hijos, número de incidentes cardiacos… Definición: Una variable aleatoria X es continua si puede tomar cualquier valor en algún intervalo (o intervalos) del conjunto de los números reales. (Además, la probabilidad de que tome uno determinado es 0.) Ejemplos: número de hematíes, nivel de hemoglobina… 2 En el caso de X, hematocrito de una persona elegida aleatoriamente: La variable X puede tomar cualquier valor entre cero y, digamos, 60 %. Es decir, los valores de X están en el intervalo [0, 60]. ¿Cuál es la probabilidad de que un enfermo tenga un hematocrito de, exactamente, 46.9813210692170312? 3 Variables aleatorias discretas: Funciones de probabilidad La influencia del azar implica que se describa el comportamiento de la variable en términos de probabilidades. Ejemplo: La siguiente tabla muestra la función de probabilidad para la variable aleatoria X, número de personas por día que solicitan un tratamiento innecesario en el servicio de urgencia de un pequeño hospital. X 0 1 2 3 4 5 P(X=x) 0.01 0.1 0.3 0.4 0.1 ? a) Obtener P(X=5). ¿Qué probabilidad representa en el contexto del problema? b) Encontrar P[X ≤ 2]. Interpretar esta probabilidad en el contexto del problema. c) Encontrar P[X < 2]. d) Encontrar P[X > 3]. Media y varianza de una variable aleatoria. e) Calcular la media y la DE de la v.a. 4 Función de distribución F(x)=P(X≤x). Ejemplo: La tabla siguiente muestra la función de probabilidad para la variable aleatoria X, número de incidentes cardiacos al año en enfermos coronarios. X 6 7 8 9 10 P(X=x) 0.05 0.1 0.6 0.15 0.1 a) Hallar la tabla para la función de distribución F. b) Utilizar F para calcular P[X ≤ 8]. c) Utilizar F para calcular P[X > 7]. 5 Ejercicios 1. Sea X el número de casos nuevos de SIDA diagnosticados en un importante hospital, durante un día. La función de distribución de X se supone que es x 0 1 2 3 4 5 6 F(x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0 a) Hallar la probabilidad de que en un día cualquiera, i. Sean diagnosticados tres casos nuevos, a lo sumo. ii. Por lo menos un caso nuevo sea diagnosticado. b) Hallar la función de probabilidad para X. c) Calcular la media de casos diagnosticados al día y σ2. 6 LA DISTRIBUCIÓN BINOMIAL Ejemplo Un portador de tuberculosis tiene un 10% de posibilidades de transmitir la enfermedad a alguien que no haya estado previamente expuesto a ella y con el que entre en contacto directo. Durante el transcurso de un día, un portador entra en contacto con diez de tales individuos. ¿Cuál es la probabilidad de que exactamente cinco contraigan la enfermedad? ¿Qué tienen de particular este experimento? 1. Se puede considerar a cada uno como compuesto por un número fijo de pruebas idénticas n. (10) 2. El resultado de cada prueba puede clasificarse como "éxito" (contraer la enfermedad) o “fracaso” (no contraer la enfermedad). 3. Las pruebas son independientes en el sentido de que el resultado de una prueba no tiene efecto sobre el resultado de cualquier otra, y la probabilidad de éxito p continúa siendo la misma de una prueba a otra. p = 0.1 4. La variable de interés es el número de éxitos en n pruebas. 7 Es el modelo binomial: Cualquier v.a. X que represente el número de éxitos en n pruebas idénticas e independientes, con probabilidad de éxito p, constante de una prueba a otra, se llama variable aleatoria binomial con parámetros n y p: B(n,p). B(10,01). Media y Varianza ¿Cuántos se espera que contraigan la enfermedad? El sentido común señala 10(0.1) = 1 como número esperado de los que contraen tuberculosis. La varianza no es tan evidente. Teorema: Sea X binomial con parámetros n y p. Entonces: E[X] =μ= np Var X = σ2 = np(1 - p). 8 ¿Qué pinta tiene el gráfico de barras de una distribución binomial? B(10,0.1) Binomial Prob. de Evento,Ensayos 0,1,10 probabilidad 0,4 0,3 0,2 0,1 0 0 2 4 6 8 10 x B(20,0.3) Binomial Prob. de Evento,Ensayos 0,3,20 0,2 0,16 0,12 0,08 Esperanza y Varianza en la distribución binomial 0,04 0 0 4 8 12 9 16 20 B(30,0.4) Binomial Prob. de Evento,Ensayos 0,4,30 0,15 0,12 0,09 0,06 0,03 0 0 5 10 15 20 25 30 B(100,0.5) Binomial Prob. de Evento,Ensayos 0,5,100 0,08 0,06 0,04 0,02 0 0 20 40 ¿Conclusiones? 10 60 80 100 Variables aleatorias continuas: Funciones de densidad En el caso discreto, las funciones de densidad (funciones de probabilidad) se representan frecuentemente mediante tablas. El caso continuo es más complejo debido a que como una variable aleatoria continua puede tomar infinitos valores, resulta imposible enumerarlos todos. Necesitamos disponer de una expresión que nos permita calcular probabilidades ya que para el caso continuo, nos interesa conocer la probabilidad de que X esté comprendida en un intervalo de valores específico. 11 Ejemplos: 1. Supongamos que la función de densidad de la variable aleatoria C, o número de centímetros cúbicos de un fármaco que han de prescribirse para el control de ataques epilépticos, es f (c) = 200c / 9 0 c 0.3 a. Calcular el valor de f (0,2). b. Calcular la probabilidad de que deban prescribirse al menos 0.2 cc del fármaco para controlar los ataques. c. Calcular la probabilidad de que deban prescribirse al menos 0.1 cc de fármaco. d. Calcular la probabilidad de que deban prescribirse entre 0.1 y 0.2 cc de fármaco. 12 2. Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia. La figura muestra la función de densidad de X. a) Sombrear la región correspondiente a la probabilidad de que el paciente sobreviva menos de 6 meses. b) Si el área del apartado a vale 7/16, ¿cuál es la probabilidad de que un paciente sobreviva por lo menos 6 meses? c) ¿Cuál es la probabilidad de que un paciente sobreviva exactamente 6 meses? 13 3. Supongamos que la variable aleatoria X, tiempo en minutos que tarda una enfermera en responder a la llamada de un paciente, está uniformemente distribuida en el intervalo de 0 a 5 minutos. La figura siguiente representa esta densidad. a) Comprobar que en este caso c = 15 . b) Sombrear el área que representa la probabilidad de registrar una respuesta que exceda los 3 minutos. c) Calcular la probabilidad representada en el apartado b. d) ¿Cuál es la media en el tiempo de respuesta? 14 Función de distribución (acumulativa) La función de distribución, representada por F, se define como F(x) = P[X x]. En el caso continuo podemos hallar F(c) calculando el área delimitada por la gráfica de densidad, a la izquierda del punto c. En general, esto implica cálculos bastante complejos, por eso se han creado tablas de probabilidades acumulativas para las variables aleatorias utilizadas con mayor frecuencia. 15 Ejemplos: 1. Sea X la variable aleatoria número de años de funcionamiento de un marcapasos hasta que empieza a fallar. La figura representa la densidad de X. (a) ¿Qué región(es) representa F(4)? (b) ¿Qué probabilidad representan las regiones II y III juntas? Expresar esta probabilidad en función de F. (c) ¿Qué probabilidad representa la región V? Expresar esta probabilidad en función de F. (c) Expresar P[X 4] y P[X < 4] en función de F. 16 2. La figura siguiente muestra la gráfica de una función de densidad de una variable aleatoria X, entendida como el tiempo en minutos que debe transcurrir para que un sedante haga efecto. (a) ¿Qué región(es) del diagrama corresponde(n) a F(2)? (b) ¿Qué región(es) del diagrama corresponde(n) a F(6)? (c) Expresar la región III en función de F. (d) Expresar la región IV en función de F. 17 3. Sea la variable X entendida como el tiempo de eficacia en meses para un electrodo de pH. Su densidad viene representada en la figura. (a) ¿Qué regiones de la gráfica comprende F(27)? (b) Expresar mediante la función F la probabilidad de que un electrodo de pH elegido aleatoriamente funcione con eficacia durante al menos 18 meses. ¿Qué regiones corresponden a esta probabilidad? (c) Expresar mediante la función F la probabilidad de que un electrodo de pH elegido aleatoriamente funcione correctamente durante un periodo de 27 a 36 meses. ¿Qué regiones corresponden a esta probabilidad? 18 Distribución normal Esta distribución fue descrita por primera vez en 1773 por Abraham De Moivre como el valor límite de la densidad binomial cuando el número de ensayos es infinito. La distribución normal es de gran importancia en el análisis y cálculo de todos los aspectos relacionados con datos experimentales en ciencias y en medicina. Su función de densidad tiene la forma: 1 1 / 2( x ) / 2 e f (x) = 2 (x : nº real) donde es la desviación típica de la variable aleatoria y µ es su media. 19 Consideraciones sobre la normal Para identificar una determinada variable aleatoria distribuida normalmente sólo necesitamos hallar los valores de µ y de . La ecuación de la función de densidad de la normal no es sencilla aunque, como trabajaremos más con las tablas de probabilidad que con ella misma, su complejidad no tiene demasiada importancia. Propiedades de la Curva Normal 1. La gráfica de densidad de cualquier variable aleatoria normal es una curva simétrica en forma de campana con centro en su media µ. 2. f(x) 0 y el área limitada por la gráfica de f y el eje horizontal es l. Las probabilidades se calculan correspondientes. 20 encontrando las áreas Distribución Normal Tipificada Hay un número infinito de variables aleatorias normales, cada una de ellas se caracteriza únicamente por los parámetros µ y 2. Para calcular las probabilidades asociadas a una curva normal específica hay que recurrir al procedimiento de tipificación, mediante la cuál se puede transformar cualquier cuestión relativa a una variable aleatoria normal en otra equivalente pero referida a una variable aleatoria normal de media 0 y varianza 1. Esta variable normal particular se representa con la letra Z y se conoce como variable aleatoria normal tipificada, cuya función de distribución acumulativa se ofrece por separado. Ejemplos de uso de la normal tipificada (a) Hallar P[Z 1.56] = F (1.56). La probabilidad es de 0.9406. (b) Encontrar P[Z -1.29]. p=0.9015. (c) Hallar P[-1.72 X 1.80]. p= 0.9214 (d) Hallar el punto z tal que P[Z z] = 0.025. z = -1.96. 21 Teorema de tipificación Sea X una variable normal con media µ y varianza 2 . La variable (X - µ)/ es normal tipificada (estándar). Ejemplo. El plomo, como muchos otros elementos, está presente en el medio natural. La revolución industrial y el automóvil han incrementado la cantidad de plomo en el medio hasta el punto de que, en algunos individuos, la concentración de plomo puede alcanzar niveles peligrosos. Sea X: concentración de plomo en partes por millón en la corriente sanguínea de un individuo. Supongamos que X es una variable normal con media 0.25 y desviación típica 0.11. Una concentración superior o igual a 0.6 partes por millón se considera extremadamente alta. ¿Cuál es la probabilidad de que un individuo seleccionado aleatoriamente esté incluido en esta categoría? P[X 0.6] = P X 0.25 0.6 0.25 = P[Z 3.18]= 1 - P[Z 3.18]= 0.11 0.11 1 - 0.9993 =0.0007 22 Ejemplo. Sea X la cantidad de radiación que puede ser absorbida por un individuo antes de que le sobrevenga la muerte. Supongamos que X es normal, con una media de 500 roentgen y una desviación típica de 150 roentgen. ¿Por encima de qué nivel de dosificación sobreviviría solamente el 5% de los expuestos? P[X x0] = 0.05 P[X x0] = P X 500 150 x0 500 = P Z x0 500 150 150 = 0.05 De este modo, (x0 – 500) /150 es el punto de la curva normal tipificada que deja un 5% del área a la derecha y el 95% restante a la izquierda. Este valor es 1,645. Así pues: x0 500 = 150 1.645 x0 = 150 (1.645) + 500 = 746.75 roentgen 23 Ejercicios 1. Calcular las siguientes probabilidades: a) P[Z -1.52]. b) P[Z 1.37]. d) P[-1.21 Z 1.73]. e) c) P[Z -1.42]. P[Z = 1.50]. f) El punto z tal que P[Z z] . 0.05. 2. Entre los diabéticos, al nivel de glucosa en sangre en ayunas puede suponérsele una distribución aproximadamente normal con media l06 mg/100 ml y desviación típica 8 mg / 100 ml. (a) Calcular P[X 120 mg/100 ml]. (b) Calcular P[106 X 110]. (c) Encontrar un punto x0 que tenga la propiedad de que el 25% de los diabéticos tenga un nivel de glucosa en ayunas X por debajo de él. 24 Regla de la probabilidad normal Sea X una variable aleatoria de distribución normal con su correspondiente µ y varianza 2; entonces: (a) La probabilidad de que X tome un valor a una distancia máxima de una desviación típica de su media es 0.68 (P[µ - < X < µ + ] 0.68). . (b) La probabilidad de que X tome un valor a una distancia máxima de su media de dos veces la desviación típica es 0.95 (P[µ - 2 < X < µ + 2] 0.95). . (c) La probabilidad de que X tome un valor a una distancia máxima de tres veces la desviación típica de su media es 0.99 (P[µ - 3 < X < µ + 3] 0.99). . 25 Límites 2-σ Una de las aplicaciones más frecuentes de la regla de probabilidad normal surge en el contexto médico. Cuando se toma una muestra de sangre se realizan varios análisis sobre ella; por ejemplo, suelen medirse de forma rutinaria los niveles de potasio, sodio, proteínas totales, calcio y colesterol. Durante varios años se han recogido mediciones procedentes de un gran número de personas, información que ha sido utilizada para establecer con un alto grado de precisión, los niveles medios y la cantidad de variabilidad esperada en individuos sanos. Estos valores pueden ser utilizados para establecer lo que llamamos "límites 2-sigma", µ ± 2, para cada variable estudiada, ya que gracias a la regla de la probabilidad normal sabemos que aproximadamente un 95% de las personas sanas estarán dentro de estos límites; afortunadamente tan sólo un 5% de la población estará fuera de ellos, de los cuáles un 2.5% presentará niveles anormalmente altos y el 2.5% restante los presentará anormalmente bajos. 26 Existen dos razones para observar valores más allá de los límites 2sigma en las tablas médicas establecidas. Una persona puede estar perfectamente sana y, simplemente, ocurrir que sus niveles “normales” son inusualmente altos o bajos al compararlos con los de la población general; sin embargo, también puede darse el caso de que esta persona tenga algún problema. De este modo, la presencia de niveles inusuales debe tomarse sólo como una señal de aviso que indica la necesidad de seguir indagando. Ejemplos: 1. El potasio en personas sanas sigue una normal con µ=4,4 y σ=0,45. ¿Cuáles son los límites 2-σ? 2. La HCM (hemoglobina corpuscular media) en sangre sigue una N(30,2). ¿Qué límites de normalidad, que incluyan el 95% de los individuos sanos, se pueden proponer? Nota: Decir que una variable biológica sigue la distribución normal es, en realidad, un abuso del lenguaje. Sería más correcto decir que, utilizando el modelo normal, se consigue reproducir de forma muy notable el comportamiento empírico de la variable. La distribución normal es un modelo no una verdad absoluta. 27 Ejercicio: Cierto estimulador tiene un umbral que varía de un voluntario sano a otro. Su distribución es aproximadamente normal con una media de 5 voltios y una desviación típica de 0,5 voltios. Completar las siguientes frases: El 95% de los voluntarios tienen un umbral que se sitúa entre ____ y _____ voltios. En el 95% de los voluntarios el umbral se sitúa por encima de _____ voltios. En el 95% de los voluntarios el umbral se sitúa por debajo de _____ voltios. El 90% de los voluntarios tienen un umbral que se sitúa entre ____ y _____voltios. En el 84% de los voluntarios el umbral se sitúa por encima de ____ voltios. En el 84% de los voluntarios el umbral se sitúa por debajo de _____ voltios. ¿Cuál es la probabilidad de que el umbral supere los 6,3 voltios? ¿Cuál es la probabilidad de que un voluntario tenga un umbral entre 4,5 y 5,5 voltios? 28 Las curvas ROC Cierto estimulador tiene un umbral que varía de un voluntario sano a otro. La distribución de X es aproximadamente normal con una media de 5 voltios y una desviación típica de 0,5 voltios. En cierto tipo de enfermos, la variable sigue una N(6,0.5). Dependiendo del criterio diagnóstico, habrá unos valores de especificidad y sensibilidad. 29 Por ejemplo, si se consideran enfermos los que superan el valor 5,5, estos valores serán: Sens P( | E ) P( X 5,5 | E ) P( Z 5,5 6 ) P( Z 1) 1 P( Z 1) 84,13% 0,5 Proporción de la curva de enfermos que quedan por encima del criterio diagnóstico. Esp P( | S ) P( X 5,5 | S ) P( Z 5,5 5 ) P( Z 1) 84,13% 0,5 Proporción de la curva de sanos que quedan por debajo del criterio diagnóstico. 30 Si el criterio fuese que se consideran enfermos los que superan los 5.2 voltios: Sens P( | E ) P( X 5,2 | E ) P( Z Esp P( | S ) P( X 5,2 | S ) P( Z 5,2 6 ) P( Z 1,6) 1 P( Z 1,6) 94,52% 0,5 5,2 5 ) P( Z 0,4) 65,54% 0,5 Nota: Al desplazar el criterio diagnóstico a la izquierda aumenta la sensibilidad y disminuye la especificidad. 31 Moviendo el punto de corte se cambian los valores de la sensibilidad y de la especificidad. Si se desea aumentar la sensibilidad, la especificidad disminuye. Y viceversa. Habrá tantos pares de valores de sensibilidad y especificidad como posibles puntos de corte. Definición de curva ROC: La curva característica ROC contiene todos los posibles valores de sensibilidad y especificidad de un indicador diagnóstico. En el eje X se representa 1-especificidad (es decir, el coeficiente de falsos positivos). En el eje Y se representa la sensibilidad. Por ejemplo, para diferentes puntos de corte del ejercicio del umbral, los valores correspondientes de especificidad y sensibilidad serían: Punto de corte 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 Sensibilidad 0,96 0,94 0,92 0,88 0,84 0,79 0,72 0,65 0,60 Especificidad 0,60 0,65 0,72 0,79 0,84 0,88 0,92 0,94 0,96 32 Curva ROC Especificidad 1-Especificidad Sensibilidad 0,6 0,4 0,96 0,65 0,35 0,94 0,72 0,28 0,92 0,79 0,21 0,88 0,84 0,16 0,84 0,88 0,12 0,79 0,92 0,08 0,72 0,94 0,06 0,65 0,96 0,04 0,6 33 Información contenida en la curva: Mediante esta representación de los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, la curva ROC nos proporciona una representación global de la exactitud diagnóstica. La curva ROC es necesariamente creciente, propiedad que refleja el compromiso existente entre sensibilidad y especificidad: si se modifica el valor de corte para obtener mayor sensibilidad, sólo puede hacerse a expensas de disminuir al mismo tiempo la especificidad. Si la prueba no permitiera discriminar entre grupos, la curva ROC sería la diagonal que une los vértices inferior izquierdo y superior derecho. O en otras palabras: Si la prueba fuera inútil, la sensibilidad (verdaderos positivos) sería igual a la proporción de falsos positivos y la curva sería diagonal: de (0,0) a (1,1). La exactitud de la prueba aumenta a medida que la curva se desplaza desde la diagonal hacia el vértice superior izquierdo. Si la discriminación fuera perfecta (100% de sensibilidad y 100% de especificidad) pasaría por dicho punto. Las pruebas habituales tienen curvas intermedias: 34 Ejercicio: El indicador Relación cintura-cadera (RCC) ha sido relacionado con la incidencia de enfermedad cardiovascular. Supóngase que, a través de estudios previos, ha conseguido establecerse en cierta población general sana (libre de enfermedad cardiovascular) que el valor de este indicador sigue un modelo de probabilidad normal, de media 0,88 y desviación típica 0,10. Por el contrario, en una población de sujetos con enfermedad cardiovascular diagnosticada, el valor del indicador RCC sigue un modelo de probabilidad normal, con media 0,93 y desviación típica 0,15. Supóngase que se decide utilizar este indicador como prueba diagnóstica de enfermedad cardiovascular, dando como positivo (+) a todo sujeto con RCC superior a 0,90. a) Calcúlense la sensibilidad, especificidad, falsos positivos y falsos negativos de este criterio. b) Sombrear en la imagen el área correspondiente a la sensibilidad. c) Sombrear en la imagen el área correspondiente al coeficiente de falsos positivos. 35 d) Sombrear en la imagen el área correspondiente al coeficiente de falsos negativos. e) Sombrear en la imagen el área correspondiente a la especificidad. 36 f) ¿Y si el punto de corte estuviese en 0,92? g) Completar la siguiente tabla de especificidades y sensibilidades para distintos puntos de corte: Punto de corte 0,895 0,900 0,905 0,910 0,915 0,920 0,925 Sensibilidad Especificidad h) Construir la curva ROC. 37