Download 2-Revisión estadística
Document related concepts
no text concepts found
Transcript
Revisión estadística Temas • • • • Leyes de la probabilidad Proporciones fenotipicas y genotipicas Chi-cuadrado Distribución binomial y Multinomial • …pero • ¿Por que usar estadística en genética? Estadística en la Genética • “Los análisis de DNA, combinado con herramientas estadísticas ofrecen una poderosa ventaja para evaluar la diversidad genética” CIAT. • Mendel usó razones y proporciones como base para describir las leyes de la herencia. • La genética Médica, molecular, cuantitativa, de poblaciones y en general, dependen de la estadística para su ejercicio y desarrollo. • Se debe tener cuidado con las aseveraciones tomadas con la estadística (problemas de las asociaciones y la causalidad). • “El 50% de los niños con problemas genéticos son la mitad” Estadística Estadística Probabilidad • Es una medida entre 0 y 1 que se aplica a eventos o sucesos (conjuntos). Es intuitivamente un valor limite con que ocurre un suceso (Ejm: cara de la moneda ½). Hacer experimento de la moneda, con 2 lanzamientos, 10 lanzamientos y 40 lanzamientos. • Medido como el número de casos “favorables” sobre el número de casos posibles. • Hay dos reglas constantemente: prácticas que se usan Suma de probabilidades • La probabilidad de un suceso es la suma de las probabilidades de los eventos que lo componen. • P(A ó B)=P(A)+P(B), siempre que A y B no puedan ocurrir al mismo tiempo (mutuamente excluyentes). • La regla general es: • P(A ó B)=P(A)+P(B)-P(A y B) • Si P(A y B)=0 los eventos son mutuamente excluyentes. • Ejemplo: Al tirar un dado, cual es la probabilidad de obtener en el primer lanzamiento 4 ó 5?. Eventos mutuamente excluyentes • Son eventos donde la ocurrencia de uno excluye la ocurrencia del otro. • La solución de problemas que involucran eventos mutuamente excluyentes, señalan que la suma de probabilidades debe ser realizada. • Ayuda: Usualmente se usa la conjunción “o” en sus enunciados para refererirse a eventos mutuamente excluyentes • Ejemplo: En dos lanzamientos de una moneda hay dos maneras de obtener cara y sello Primer manera: cara (p=1/2) y Sello (q=1/2); Pr=1/2*1/2=1/4 Segunda manera: sellos (q=1/2) y cara (p=1/2); Pr=1/2*1/2=1/4 La probabilidad combinada es= ¼+ ¼ = ½ Es decir, que se puede obtener cara y sello en dos lanzamientos, de la primer manera o la segunda Ejercicio • En el cruce de prueba del cerdo de guinea (Negro Bb X Blanco bb). ¿cual es la probabilidad de obtener un cerdo blanco y uno negro?, independientemente del orden (Negro) Bb X bb (Blanco) Bb y bb Ó bb y Bb Y ¿que es un cruce de prueba? Multiplicación de probabilidades • La probabilidad de que ocurra A y B simultaneamente es la probabilidad de que ocurra A dado B (condicional) por la probabilidad de B. • P(A y B)= P(A|B)P(B), • Pero, si A y B son independientes P(A|B)=P(A), entonces: Dd X Dd • P(A y B)=P(A)*P(B). • Ejemplo: Leyes de Mendel gametos P(D)=1/2 P(d)=1/2 P(Heterocigotos)=P(Dd ó dD)=¼+ ¼= ½ P(DD)= ¼ P(dd)= ¼ P(D)=1/2 P(D)*P(D)=1/2 *1/2= ¼ P(D)*P(d)=1/2 *1/2= ¼ P(d)=1/2 P(d)*P(D)=1/2 *1/2= ¼ P(d)*P(d)=1/2 *1/2= ¼ Combinación de probabilidades • Dos eventos son independientes si la ocurrencia de uno no afecta la del otro. • Cuando dos eventos independientes ocurren con una probabildiad p y q respectivamente, entonces la probabilidad de su ocurrencia conjunta es p*q. • Ayuda: Si la conjunción “y” es usada en la frase del problema la asunción de independencia es pertinente. • Ejemplo: Un genetista le dice a una pareja que la probabilidad de que su hijo tenga ojos azules es del 20% y que la probabilidad de que sea rubio es del 40%. ¿cuál es la probabilidad de que el hijo sea rubio y tenga ojos azules?, ¿cuál es la probabilidad de que sea rubio y no tenga ojos azules? Ejercicio 1) Al lanzar una moneda “legal” hay igual probabilidad de tener cara o sello (p=1/2, q=1/2). Si se lanza la moneda dos veces. ¿Cual es la probabilidad de sacar dos sellos? 2) En el cruce en el cerdo de guinea (Bb x bb), sabemos que a probabilidad de tener individuos negros (Bb) es de p=½ y blancos de q=½. ¿cuál es la probabilidad de tener los dos primeros hijos blancos? Teoria de probabilidad en genética • La probabilidad genética deriva de los eventos de oportunidad en la producción de gametos y la unión aleatoria de esos gametos en la fertilización. • Las muestras de una población se desvian menos de los valores esperados con el incremento del tamaño muestral (Resultados observados vs esperados). • Ejemplo: El cruce de dos cerdos de Guinea (Negro) Bb X Bb (Blanco) Se observa: 3 Negros y 2 blancos Pero, ¿cuanto se esperaba? • Pero, ¿que es una muestra en estadística y para que sirve? Principales funciones de la estadística • Resumir información (Mediante estadística descriptiva). • Ayudar a tomar decisiones (mediante pruebas de hipotesis). • Diseño e interpretación de resultados de experimentos (Diseño de experimentos y Modelación). Inferencia estadística Distribuciones: Binomial Normal Poison etc Prueba de hipotesis: Ho:Ux<0 Media, Sd, Cv, etc La población • Es el conjunto de todos los elementos de referencia que comparten algunas carácteríticas en comun y sobre los que se quiere inferir algo. Ejm: Heredabilidad Carácterísticas: poblacion Ejemplo de población: Todos los individuos de una raza, una raza en una región, una especie, los animales de una zona, de un país, etc Uso de muestras • Las muestras pretenden sacar conclusiones generales para toda la población, por lo que debe ser representativa. • La población está caracterizada por parámetros y por distribuciones de probabilidad (Normal). • Generalmente queremos conocer los parámetros (Medias, varianzas, correlaciones, regresiones, etc). • Normalmente no se trabaja con toda la población, por lo que se debe hacer un muestreo que debe ser aleatorio y representativo. • A partir de una muestra de tamaño N se calculan los estadísticos (promedio, desviación estandar, coeficiente de correlación, regresión, etc), que son las estimaciones de los parámetros de la población. • A partir de estos se realizan pruebas de hipotesis (Ejemplo: diferencia entre medias) • La etapa final es la inferencia estadística, o sea, extrapolar los resultados a la población base (Importante en mejorameinto genético, Heredabilidad para toda la población). Distribución de los datos Por ejemplo: mirar las tallas en el grupo para ver como se comportan, Sin embargo a mayor N, mayor tendencia a la normalidad. Proporciones fenotipicas y genotipicas Justificación • El objetivo del mejoramiento genético es aumentar la frecuencia de los genes favorables para las carácterísticas de importancia económica dentro de una población. • La varianza de las caracteristicas depende de las frecuencias de los alelos. • Relaciones entre genotipo y fenotipo, estatus de población, • etc Población: Genética • Conjunto de organismos semejantes (especie) que habitan en una determinada área e intercambian genes entre ellos (Reproducción). Tienen diferente estructura social y comportamiento Frecuencia genotípica • La frecuencia relativa de un genotipo se define como la abundancia o rareza de un genotipo de la población. • Para obtener se cuenta el número de individuos con un genotipo especifico (frecuencia absoluta) sobre el número total de genotipos. • Ejemplo: Se genotiparon 350 animales Holstein para un polimorfismo en el gen DGAT1A y se obtuvieron 200 animales AA, 95 Aa y 55 aa. ¿Cuales son las frecuencias genotipicas? ¿Alguien lo quiere realizar? Frecuencia Alelica • Se calcula como el número de alelos de un tipo en la población sobre el total de alelos en ella. • P(A)=2(Nº de AA)+(Nº de Aa)/2N • P(a)=1-P(A)=2(Nº de aa)+(Nº de Aa)/2N • Ejemplo: En el ganado Angus se presentan dos colores en su pelaje, que es negro o rojo; el primero es dominante sobre el rojo. Si en un hato de vacas negras F1 (N-dominante, heterocigotas) se utilizan toros rojos (nn) como reproductores, en la F2 ¿todos los descendientes serán negros?, ¿cuáles son las frecuencias alélicas? Solución Gametos N n n Nn nn n Nn nn • Fenotipicamente, se espera que la mitad sean negros y la mitad sean rojos. • Frecuencia alelica: P(N)=2*(0)+(2)/2(4)=2/8=1/4 P(n)=1- ¼ = ¾ ¿Puedes demostrarlo con la formula? Frecuencia fenotipica • Se define como el número de individuos con una carácterística sobre el total de individuos evalaudos. • Ejemplo: Se genotiparon 350 animales Holstein para un polimorfismo asociado al color rojo (RF) y se obtuvieron 200 animales AA, 95 Aa y 55 aa. Si se tiene en cuenta que el alelo A es dominante (color negro), ¿Cual es la frecuencia fenotipica en la población? • F(Negros)=(200+95)/350=295/350=0.84 • F(rojo)=1-0.84=0.16 • ¿cuál es la proporción de animales negros? !Facil! Es la frecuencia multiplicada por 100 Ejercicio • En una producción de cuyes se encontraron que 500 eran rojos, 400 manchados y 100 blancos. Si existe dominancia incompleta. Determine las frecuencias alelicas, genotípicas y fenotípicas. Prueba chi-cuadrado Chi-cuadrado • Los estadísticos Z (normal) y los t (t-student) permiten hacer pruebas de hipotesis que involucran promedios y porcentajes, el estadístico chi-cuadrado sirve para hacer pruebas de hipotesis en distribuciones de frecuencias. • Chi-cuadrado permite determinar la asociación entre dos variables, la prueba es de tres tipos: • De frecuencias (de homogeneidad) • De independencia (respecto al total) • De bondad de ajuste (ajuste a una distribución o frecuencias) • Sin emabargo, la hipotesis nula es la misma, con diferentes impicaciones. • Ho: Las frecuencias son iguales (Ho: Fr1-Fr2=0) • H1: Las frecuencias son diferentes (H1: Fr1-Fr2≠0) Chi-cuadrado • Proporciona una prueba para contrastar frecuencias observadas con las frecuencias esperadas bajo una cierta hipotesis, en caso de haber una base científica que permita formular esa hipotesis nula. • Se debe calcular el χ2cal, para hacer la prueba de hipotesis Χ2cal=Σ(Oj-Ej)2/Ej Donde: Oj son los valores observados y Ej los esperados bajo hipotesis. Un ejemplo de su uso son las segregaciones Mendelianas Chi-cuadrado • Puede usarse hasta con datos medibles en una escala nominal. • Un estadístico tiene una distribución chi-cuadrado con k-1 grados de libertad, si n es suficientemente grande (frecuencia absoluta mínimo de 5). • Los pasos en el análisis estadístico son los siguientes: 1. Plantear las hipotesis que sometera a prueba (Y el α) 2. Calcular las frecuencias esperadas 3. Calcular el estadístico de prueba X2cal 4. Comparar con el valor tabular y tomar la decisión. Si X2cal>X2tab, entonces rechazo Ho, en caso contrario se dice que no hay evidencia para rechazar Ho (Acepto Ho). Prueba chi-cuadrado Ejemplo (Bondad de ajuste) • Un investigador sospecha que el color de un insecto sin reportar se comporta como una carácter de dominancia incompleta, por lo que obtuvo 50 animales diferentes mediante cruces (Gris X Gris) y encontró 10 negros, 28 gris y 12 blanco, ¿estos se comportan como la herencia asociada a dominancia incompleta? 1. Ho: Las frecuancias son iguales, por tanto el caracter se ajusta a las frecuencias de dominancia incompleta . H1: Las frecuancias son diferentes (No dominancia incompleta). α=0.05 (nivel de significancia) 2. Observado= 10 negros, 28 gris y 12 blanco Esperado= 50(1/4) negros, 50(1/2) gris y 50(1/4) blanco 12,5 negro, 25 gris y 12,5 blanco Continuación ejercicio 3. Χ2cal=Σ(Oj-Ej)2/Ej • Χ2cal=(10-12,5)2/12,5+(28-25)2/25+(12-12,5)2/12,5 = • 0,5+0,36+0,02=0.88 4. Si busco en la tabla de chi-cuadrado, Χ2tab=X2(0.05,2)=5,99 Defino los grados de libertad, como gl=k-1, Donde: k son los niveles, en este caso 3 (Negro, gris y blanco) Decisión: Como Χ2cal << Χ2tab, entonces no hay evidencia para rechazar Ho, por lo tanto parece ser que hay un comportamiento similar a la dominancia incompleta La decisión X2cal=0.88 X2(0.05,2)=5,99 X2tabular Como el valor esta en la región de aceptación, entonces no tengo evidencias para rechazar Ho. (Aceptar) Ejercicio • Que pasaría si en el mismo ejercicio se aumenta la prueba a 500 y se obtienen las siguientes frecuencias? • 120 negros • 270 Gris • 110 blanco ¿Voluntarios? En Excel Ejemplo (Prueba de homogeneidad) • Permite probar si varias muestras de un mismo caracter provienen de la misma población • Ejemplo: Si se quiere comprobar la fiabilidad de un software de acuerdo al distribuidor que lo suministra. Para esto se tomaron muestras de 10 software de cada uno de los 3 distribuidores, probando el número de defectuosos en cada lote para cada distribuidor. Defectuosos Correctos Distribuidor 1 1 (1,33) 9 (8,67) 10 Distribuidor 2 2 (1,33) 8 (8,67) 10 Distribuidor 3 1 (1,33) 9 (8,67) 10 Total 4 26 30 Solución 1. Ho: La fiabilidad entre los tres distribuidores es igual H1: La fiabilidad es diferente (Fd1≠Fd2≠Fd3) 2. Frecuencias esperadas Defectuosos=(4/30)*10=1.33 (En este caso igual para el distribuidor 1, 2 y 3, porque la muestra es igual entre ellos) Correctos= (26/30)*10=8.67 3. Calculando X2cal X2cal=(1-1.33)2/1.33+(2-1.33)2/1.33+(1-1.33)2/1.33+ (98.67)2/8.67+(8-8.67)2/8.67+(9-8.67)2/8.67=0.578 4. Decisión • Calculo gl con dos variables, sería: • gl=(Nº niveles filas-1)*(Nº de niveles columnas-1)=2 • X2tab=X2(0.05,2)=5.99 • Teniendo en cuenta que: X2cal << X2tab, acepto Ho Es decir, que las muestras son homogeneas, osea, que no hay pruebas para decir que un distribuidor es mejor que otro X2tab=5,99 Ejemplo (prueba de independencia) • Permite probar si 2 carácterísticas cualitativas están relacionadas entre sí (Ejemplo: el color de los ojos está relacionado con el color del cabello) • Ejemplo: Un investigador quiere evaluar la asociación entre fumar y la adicción a la bebida. Por este motivo toma una muestra de individuos Fumador Alcohólico No alcohólico Total SI 5 50 55 NO 2 68 70 TOTAL 7 118 125 Solución 1. Defino las hipotesis y alfa=0.05 Ho: Hay independencia entre fumar y ser alcohólico H1: No hay independencia (Ft≠Fr1≠Fr2) 2. Frecuencias esperadas Fumador Alcohólico No alcohólico Total SI (55/125)*7=3.08 (55/125)*118=51.92 55 NO (70/125)*7=3.92 (70/125)*118=66.08 70 TOTAL 7 118 125 3. Calculando X2cal= (5-3.08)2/3.08+(2-3.92)2/3.92+(5051.92)2/51.92+(68-66.08)2/66.08 = 2,26 Decisión • Calculo gl, que sería: • gl=(2-1)*(2-1)=1 • X2tab=X2(0.05,1)=3.84 • Teniendo en cuenta que: X2cal < X2tab, acepto Ho Es decir, que no hay evidencia para decir que hay una asociación entre fumar y ser alcohólico (Son independientes). X2tab= 3.84 Resumen ¿Taller? Distribución Normal, binomial y multinomial Distribución Normal o de Gauss • La mayoría de los caracteres cuantitativos ó métricos de interés en el mejoramiento animal siguen esta distribución. Los parámetros que lo caracterizan son la media (μ) y la desvición estandar (σ). • Si se consideran dos variables simultaneamente, se llama distribución binormal y si se tratan más de dos se lama multinormal, con un parámetro adicional llamado covarianza entre las variables (σXY). • La distribución normal es simetrica Distribución normal Tiene la propiedad de contener 68,27% de las observaciones entre μ +/- 2σ; 95,45% entre μ +/- 2σ y 99,37% en el intervalo μ +/- 3σ Distribución Normal Para un carácter determinado, las poblaciones pueden tener diferente media y diferente varianza, o igual media y diferente varianza ó igual varianza y diferente media. Comparar D A B E C Normal estandar • Para calcular la probabilidad de que un valor se encuentre entre dos limites dados (Intervalo de confianza), es posible estandarizar las variables X~N(μ,σ) a una normal con media 0 y desviación estandar 1, así: • X*=Z= (X-μ)/σ ≈ N(0,1) Ejemplo • La altura de la cruz de novillas Brangus (270 días) se distribuye normalmente con media de 120 cm y una desviación estandar de 14 cm. ¿cuál es la probabilidad de encontrar una novilla de menos de 100 cm? • Z=(100-120)/14= -1.428 • Entonces, buscando en las tablas: • P(x<100)≈0.07, es decir, que la probabilidad de obtener un valor menor de 100 cm es del 7%. Distribución binomial • Es una distribución discreta con valores 0 y 1. Cuenta el número de exitos en una secuencia de n ensayos Bernoulli inependientes entre sí, con una probabilidad p de ocurrencia del éxito y q=(1-p) del fracaso. • Ejemplos: Concepción (1=sí, 0=no), Tiene un genotipo, etc • La probabilidad de que la variable tome un valor X es: P(X=x)= , donde: Ejemplo: Dist Binomial • Supongamos que la probabilidad de encontrar el genotipo (-/-) en el gen bGH para el ganado Holstein es de 0.3. Si tomamos 70 animales al azar, cual es la probabilidad de obtener el genotipo (-/-) 25 veces. • En este caso tenemos X~B(n,p)X~B(70, 0.3) æ 70 ö P(X = 25) = ç ÷ (0.30)25 (1- 0.30)70-25 = 0.058 è 25 ø • Para esto hay calculadoras en internet: http://stattrek.com/online-calculator/binomial.aspx Ejercicio • Cual es la probabilidad de obtener más de 25? ¿y menos de 25? Aproximar la binomial a la normal • La media de la distribución es np y la varianza np(1-p). • Se cumple que cuando p=constante, y n es grande (n>30), la distribución binomial puede aproximarse mediante una distribución normal de media μ=np y σ=√npq • Se considera una buena aproximaión cuando np>5 y nq>5 • Es necesario aplicar en el calculo de probabilidades un ajuste que recibe el nombre de corrección de Yates. • Ejm: P(X<25)=P(X`=25-0.5) Ejercicio • El 1% de los terneros nacidos en un hato, padecen alguna enfermedad genética. Si tenemos los registros de 700 nacimientos ?cual es la probabilidad de encontrar más de 20 con problemas? • Es una distribución binomial porque los terneros tienen o no la enfermedad X~B(700, 0.01) • Como n es grande, además np>5 y nq>5, entonces puedo hacer la aproximación a la normal. Ejercicio • Calculamos la media y la desviación estandar de la normal μ=700*0.01=7 ; σ=√700*0.01*0.99=2.63 • Corrección: P(X>20)=P(X>20.5) • Tipificación o estandarización P(Z>(20.5-7)/2.63)=P(Z>5.13)≈0 El valor es muy pequeño, por que es muy poco probable que pase eso. Distribución Multinomial • Es una generalización de la distribución binomial, con la diferencia que en lugar de dos posibles resultados en cada ensayo, puedan haber múltiples resultados. • Es una distribución de probabilidad conjunta para múltiples variables aleatorias discretas (X1, X2, …Xk), donde cada Xi~B(n, pi), dandose cuando en cada prueba o ensayo independiente (con reposición), interesa contar el número de exitos en las k maneras como se puede presentar. Ejemplo La distribución sigue el modelo: Ejemplo Binomial: Los ojos en las moscas son de dos colores diferentes. El 70% son rojos y el resto negros. ¿cuál es la probabilidad de que al coger 6 moscas al azar 4 tengan ojos rojos? Ejemplo Multinomial: Los ojos en las moscas son de 4 colores diferentes. El 35% son rojos, el 25% son Rosados, el 20% son gris y el resto negros. ¿cuál es la probabilidad de que al coger 6 moscas al azar 4 tengan ojos rojos, una ojos gris y una ojos negros? Ejercicio: Solución multinomial • P(X1=4,X2=0,X3=1,X4=1)= æ ö 6! 4 0 1 1 ç ÷ *0.35 * 0.25 * 0.20 *0.20 = 0.018 è 4!*0!*1!*1! ø • Por lo tanto, la probabilidad de tomar 6 moscas de esta manera es sólo del 1.8% Parámetros y medidas descriptivas en la población • Tenemos los siguientes 20 datos de terneros Hereford ID P150 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Media P300 105 95 80 85 90 100 110 95 95 90 80 100 95 90 85 100 90 110 105 95 300 265 250 270 290 310 325 280 300 250 230 300 290 280 240 330 280 350 330 265 Σxi/N Media X=1895/20=94.75 Media Y=5732/20=286.75 Desviación estandar La varianza es el cuadrado de S SX=8.807 SY=32.252 Ejercicios Si tenemos los siguientes pesos 1. Calcule la media y la varianza 2. Asumiendo que se distribuyen normalmente, toma los valores claves de una curva normal, con los datos obtenidos (68%,95% y 99%). 3. ¿Puedes hacer un histograma?