Download 2-Revisión estadística

Document related concepts
no text concepts found
Transcript
Revisión estadística
Temas
•
•
•
•
Leyes de la probabilidad
Proporciones fenotipicas y genotipicas
Chi-cuadrado
Distribución binomial y Multinomial
• …pero
• ¿Por que usar estadística en genética?
Estadística en la Genética
• “Los análisis de DNA, combinado con herramientas
estadísticas ofrecen una poderosa ventaja para evaluar la
diversidad genética” CIAT.
• Mendel usó razones y proporciones como base para
describir las leyes de la herencia.
• La genética Médica, molecular, cuantitativa, de
poblaciones y en general, dependen de la estadística para
su ejercicio y desarrollo.
• Se debe tener cuidado con las aseveraciones tomadas con
la estadística (problemas de las asociaciones y la
causalidad).
• “El 50% de los niños con problemas genéticos son la
mitad”
Estadística
Estadística
Probabilidad
• Es una medida entre 0 y 1 que se aplica a eventos o
sucesos (conjuntos). Es intuitivamente un valor
limite con que ocurre un suceso (Ejm: cara de la
moneda ½). Hacer experimento de la moneda, con 2
lanzamientos, 10 lanzamientos y 40 lanzamientos.
• Medido como el número de casos “favorables” sobre
el número de casos posibles.
• Hay dos reglas
constantemente:
prácticas
que
se
usan
Suma de probabilidades
• La probabilidad de un suceso es la suma de las
probabilidades de los eventos que lo componen.
• P(A ó B)=P(A)+P(B), siempre que A y B no puedan
ocurrir al mismo tiempo (mutuamente excluyentes).
• La regla general es:
• P(A ó B)=P(A)+P(B)-P(A y B)
• Si P(A y B)=0 los eventos son mutuamente
excluyentes.
• Ejemplo: Al tirar un dado, cual es la probabilidad de
obtener en el primer lanzamiento 4 ó 5?.
Eventos mutuamente excluyentes
• Son eventos donde la ocurrencia de uno excluye la
ocurrencia del otro.
• La solución de problemas que involucran eventos
mutuamente excluyentes, señalan que la suma de
probabilidades debe ser realizada.
•
Ayuda: Usualmente se usa la conjunción “o” en sus enunciados para refererirse a
eventos mutuamente excluyentes
• Ejemplo: En dos lanzamientos de una moneda hay
dos maneras de obtener cara y sello
Primer manera: cara (p=1/2) y Sello (q=1/2); Pr=1/2*1/2=1/4
Segunda manera: sellos (q=1/2) y cara (p=1/2); Pr=1/2*1/2=1/4
La probabilidad combinada es= ¼+ ¼ = ½
Es decir, que se puede obtener cara y sello en dos lanzamientos, de la primer
manera o la segunda
Ejercicio
• En el cruce de prueba del cerdo de guinea (Negro Bb
X Blanco bb). ¿cual es la probabilidad de obtener un
cerdo blanco y uno negro?, independientemente del
orden
(Negro) Bb
X
bb (Blanco)
Bb y bb
Ó
bb y Bb
Y ¿que es un cruce de prueba?
Multiplicación de probabilidades
• La probabilidad de que ocurra A y B simultaneamente
es la probabilidad de que ocurra A dado B
(condicional) por la probabilidad de B.
• P(A y B)= P(A|B)P(B),
• Pero, si A y B son independientes P(A|B)=P(A),
entonces:
Dd X Dd
• P(A y B)=P(A)*P(B).
• Ejemplo: Leyes de Mendel
gametos
P(D)=1/2
P(d)=1/2
P(Heterocigotos)=P(Dd ó dD)=¼+ ¼= ½
P(DD)= ¼
P(dd)= ¼
P(D)=1/2
P(D)*P(D)=1/2
*1/2= ¼
P(D)*P(d)=1/2
*1/2= ¼
P(d)=1/2
P(d)*P(D)=1/2
*1/2= ¼
P(d)*P(d)=1/2
*1/2= ¼
Combinación de probabilidades
• Dos eventos son independientes si la ocurrencia de uno no
afecta la del otro.
• Cuando dos eventos independientes ocurren con una
probabildiad p y q respectivamente, entonces la
probabilidad de su ocurrencia conjunta es p*q.
•
Ayuda: Si la conjunción “y” es usada en la frase del problema la asunción de independencia es pertinente.
• Ejemplo: Un genetista le dice a una pareja que la
probabilidad de que su hijo tenga ojos azules es del 20% y
que la probabilidad de que sea rubio es del 40%. ¿cuál es
la probabilidad de que el hijo sea rubio y tenga ojos
azules?, ¿cuál es la probabilidad de que sea rubio y no
tenga ojos azules?
Ejercicio
1) Al lanzar una moneda “legal” hay igual probabilidad
de tener cara o sello (p=1/2, q=1/2). Si se lanza la
moneda dos veces. ¿Cual es la probabilidad de
sacar dos sellos?
2) En el cruce en el cerdo de guinea (Bb x bb),
sabemos que a probabilidad de tener individuos
negros (Bb) es de p=½ y blancos de q=½. ¿cuál es la
probabilidad de tener los dos primeros hijos
blancos?
Teoria de probabilidad en genética
• La probabilidad genética deriva de los eventos de
oportunidad en la producción de gametos y la unión
aleatoria de esos gametos en la fertilización.
• Las muestras de una población se desvian menos de
los valores esperados con el incremento del tamaño
muestral (Resultados observados vs esperados).
• Ejemplo: El cruce de dos cerdos de Guinea
(Negro) Bb
X
Bb (Blanco)
Se observa: 3 Negros y 2 blancos
Pero, ¿cuanto se esperaba?
• Pero, ¿que es una muestra en estadística y para que sirve?
Principales funciones de la
estadística
• Resumir información (Mediante estadística descriptiva).
• Ayudar a tomar decisiones (mediante pruebas de
hipotesis).
• Diseño e interpretación de resultados de experimentos
(Diseño de experimentos y Modelación).
Inferencia estadística
Distribuciones:
Binomial
Normal
Poison
etc
Prueba de hipotesis:
Ho:Ux<0
Media, Sd,
Cv, etc
La población
• Es el conjunto de todos los elementos de referencia
que comparten algunas carácteríticas en comun y
sobre los que se quiere inferir algo. Ejm: Heredabilidad
Carácterísticas: poblacion
Ejemplo de población: Todos los individuos de una raza, una raza en una región,
una especie, los animales de una zona, de un país, etc
Uso de muestras
• Las muestras pretenden sacar conclusiones generales para toda la
población, por lo que debe ser representativa.
• La población está caracterizada por parámetros y por distribuciones
de probabilidad (Normal).
• Generalmente queremos conocer los parámetros (Medias, varianzas,
correlaciones, regresiones, etc).
• Normalmente no se trabaja con toda la población, por lo que se
debe hacer un muestreo que debe ser aleatorio y representativo.
• A partir de una muestra de tamaño N se calculan los estadísticos
(promedio, desviación estandar, coeficiente de correlación, regresión,
etc), que son las estimaciones de los parámetros de la población.
• A partir de estos se realizan pruebas de hipotesis (Ejemplo: diferencia
entre medias)
• La etapa final es la inferencia estadística, o sea, extrapolar los
resultados a la población base (Importante en mejorameinto
genético, Heredabilidad para toda la población).
Distribución de los datos
Por ejemplo: mirar las tallas en el grupo para ver como se comportan, Sin
embargo a mayor N, mayor tendencia a la normalidad.
Proporciones fenotipicas y
genotipicas
Justificación
• El objetivo del mejoramiento genético es aumentar la
frecuencia de los genes favorables para las
carácterísticas de importancia económica dentro de
una población.
• La varianza de las caracteristicas depende de las
frecuencias de los alelos.
• Relaciones entre genotipo y fenotipo, estatus de
población,
• etc
Población: Genética
• Conjunto de organismos semejantes (especie) que
habitan en una determinada área e intercambian
genes entre ellos (Reproducción).
Tienen diferente estructura social y comportamiento
Frecuencia genotípica
• La frecuencia relativa de un genotipo se define como
la abundancia o rareza de un genotipo de la
población.
• Para obtener se cuenta el número de individuos con
un genotipo especifico (frecuencia absoluta) sobre el
número total de genotipos.
• Ejemplo: Se genotiparon 350 animales Holstein para
un polimorfismo en el gen DGAT1A y se obtuvieron
200 animales AA, 95 Aa y 55 aa. ¿Cuales son las
frecuencias genotipicas?
¿Alguien lo quiere realizar?
Frecuencia Alelica
• Se calcula como el número de alelos de un tipo en la
población sobre el total de alelos en ella.
• P(A)=2(Nº de AA)+(Nº de Aa)/2N
• P(a)=1-P(A)=2(Nº de aa)+(Nº de Aa)/2N
• Ejemplo: En el ganado Angus se presentan dos colores
en su pelaje, que es negro o rojo; el primero es
dominante sobre el rojo. Si en un hato de vacas negras
F1 (N-dominante, heterocigotas) se utilizan toros rojos
(nn) como reproductores, en la F2 ¿todos los
descendientes serán negros?, ¿cuáles son las
frecuencias alélicas?
Solución
Gametos
N
n
n
Nn
nn
n
Nn
nn
•
Fenotipicamente, se espera que la mitad sean
negros y la mitad sean rojos.
• Frecuencia alelica:
P(N)=2*(0)+(2)/2(4)=2/8=1/4
P(n)=1- ¼ = ¾
¿Puedes demostrarlo con la formula?
Frecuencia fenotipica
• Se define como el número de individuos con una
carácterística sobre el total de individuos evalaudos.
• Ejemplo: Se genotiparon 350 animales Holstein para un
polimorfismo asociado al color rojo (RF) y se obtuvieron
200 animales AA, 95 Aa y 55 aa. Si se tiene en cuenta
que el alelo A es dominante (color negro), ¿Cual es la
frecuencia fenotipica en la población?
• F(Negros)=(200+95)/350=295/350=0.84
• F(rojo)=1-0.84=0.16
• ¿cuál es la proporción de animales negros?
!Facil! Es la frecuencia multiplicada por 100
Ejercicio
• En una producción de cuyes se encontraron que 500
eran rojos, 400 manchados y 100 blancos. Si existe
dominancia incompleta. Determine las frecuencias
alelicas, genotípicas y fenotípicas.
Prueba chi-cuadrado
Chi-cuadrado
• Los estadísticos Z (normal) y los t (t-student) permiten hacer
pruebas de hipotesis que involucran promedios y porcentajes,
el estadístico chi-cuadrado sirve para hacer pruebas de
hipotesis en distribuciones de frecuencias.
• Chi-cuadrado permite determinar la asociación entre dos
variables, la prueba es de tres tipos:
• De frecuencias (de homogeneidad)
• De independencia (respecto al total)
• De bondad de ajuste (ajuste a una distribución o frecuencias)
• Sin emabargo, la hipotesis nula es la misma, con diferentes
impicaciones.
• Ho: Las frecuencias son iguales (Ho: Fr1-Fr2=0)
• H1: Las frecuencias son diferentes (H1: Fr1-Fr2≠0)
Chi-cuadrado
• Proporciona una prueba para contrastar frecuencias
observadas con las frecuencias esperadas bajo una
cierta hipotesis, en caso de haber una base científica
que permita formular esa hipotesis nula.
• Se debe calcular el χ2cal, para hacer la prueba de
hipotesis
Χ2cal=Σ(Oj-Ej)2/Ej
Donde: Oj son los valores observados y Ej los esperados
bajo hipotesis. Un ejemplo de su uso son las
segregaciones Mendelianas
Chi-cuadrado
• Puede usarse hasta con datos medibles en una escala
nominal.
• Un estadístico tiene una distribución chi-cuadrado con k-1
grados de libertad, si n es suficientemente grande
(frecuencia absoluta mínimo de 5).
• Los pasos en el análisis estadístico son los siguientes:
1. Plantear las hipotesis que sometera a prueba (Y el α)
2. Calcular las frecuencias esperadas
3. Calcular el estadístico de prueba X2cal
4. Comparar con el valor tabular y tomar la decisión.
Si X2cal>X2tab, entonces rechazo Ho, en caso contrario se dice
que no hay evidencia para rechazar Ho (Acepto Ho).
Prueba chi-cuadrado
Ejemplo (Bondad de ajuste)
• Un investigador sospecha que el color de un insecto sin
reportar se comporta como una carácter de dominancia
incompleta, por lo que obtuvo 50 animales diferentes
mediante cruces (Gris X Gris) y encontró 10 negros, 28 gris y
12 blanco, ¿estos se comportan como la herencia asociada a
dominancia incompleta?
1. Ho: Las frecuancias son iguales, por tanto el caracter se
ajusta a las frecuencias de dominancia incompleta .
H1: Las frecuancias son diferentes (No dominancia
incompleta). α=0.05 (nivel de significancia)
2.
Observado= 10 negros, 28 gris y 12 blanco
Esperado= 50(1/4) negros, 50(1/2) gris y 50(1/4) blanco
12,5 negro, 25 gris y 12,5 blanco
Continuación ejercicio
3. Χ2cal=Σ(Oj-Ej)2/Ej
• Χ2cal=(10-12,5)2/12,5+(28-25)2/25+(12-12,5)2/12,5 =
• 0,5+0,36+0,02=0.88
4. Si busco en la tabla de chi-cuadrado, Χ2tab=X2(0.05,2)=5,99
Defino los grados de libertad, como gl=k-1,
Donde: k son los niveles, en este caso 3 (Negro, gris y
blanco)
Decisión: Como Χ2cal << Χ2tab, entonces no hay evidencia para
rechazar Ho, por lo tanto parece ser que hay un comportamiento similar
a la dominancia incompleta
La decisión
X2cal=0.88
X2(0.05,2)=5,99
X2tabular
Como el valor esta en la región de aceptación, entonces no tengo evidencias para
rechazar Ho. (Aceptar)
Ejercicio
• Que pasaría si en el mismo ejercicio se aumenta la
prueba a 500 y se obtienen las siguientes frecuencias?
• 120 negros
• 270 Gris
• 110 blanco
¿Voluntarios?
En Excel
Ejemplo (Prueba de homogeneidad)
• Permite probar si varias muestras de un mismo
caracter provienen de la misma población
• Ejemplo: Si se quiere comprobar la fiabilidad de un
software de acuerdo al distribuidor que lo suministra.
Para esto se tomaron muestras de 10 software de
cada uno de los 3 distribuidores, probando el número
de defectuosos en cada lote para cada distribuidor.
Defectuosos
Correctos
Distribuidor 1
1 (1,33)
9 (8,67)
10
Distribuidor 2
2 (1,33)
8 (8,67)
10
Distribuidor 3
1 (1,33)
9 (8,67)
10
Total
4
26
30
Solución
1. Ho: La fiabilidad entre los tres distribuidores es
igual
H1: La fiabilidad es diferente (Fd1≠Fd2≠Fd3)
2. Frecuencias esperadas
Defectuosos=(4/30)*10=1.33 (En este caso igual para el
distribuidor 1, 2 y 3, porque la muestra es igual entre
ellos)
Correctos= (26/30)*10=8.67
3. Calculando X2cal
X2cal=(1-1.33)2/1.33+(2-1.33)2/1.33+(1-1.33)2/1.33+ (98.67)2/8.67+(8-8.67)2/8.67+(9-8.67)2/8.67=0.578
4. Decisión
• Calculo gl con dos variables, sería:
• gl=(Nº niveles filas-1)*(Nº de niveles columnas-1)=2
• X2tab=X2(0.05,2)=5.99
• Teniendo en cuenta que: X2cal << X2tab, acepto Ho
Es decir, que las muestras son
homogeneas, osea, que no hay
pruebas para decir que un
distribuidor es mejor que otro
X2tab=5,99
Ejemplo (prueba de independencia)
• Permite probar si 2 carácterísticas cualitativas están
relacionadas entre sí (Ejemplo: el color de los ojos
está relacionado con el color del cabello)
• Ejemplo: Un investigador quiere evaluar la asociación
entre fumar y la adicción a la bebida. Por este motivo
toma una muestra de individuos
Fumador
Alcohólico
No alcohólico
Total
SI
5
50
55
NO
2
68
70
TOTAL
7
118
125
Solución
1. Defino las hipotesis y alfa=0.05
Ho: Hay independencia entre fumar y ser alcohólico
H1: No hay independencia (Ft≠Fr1≠Fr2)
2. Frecuencias esperadas
Fumador Alcohólico
No alcohólico
Total
SI
(55/125)*7=3.08
(55/125)*118=51.92
55
NO
(70/125)*7=3.92
(70/125)*118=66.08
70
TOTAL
7
118
125
3. Calculando X2cal= (5-3.08)2/3.08+(2-3.92)2/3.92+(5051.92)2/51.92+(68-66.08)2/66.08 = 2,26
Decisión
• Calculo gl, que sería:
• gl=(2-1)*(2-1)=1
• X2tab=X2(0.05,1)=3.84
• Teniendo en cuenta que: X2cal < X2tab, acepto Ho
Es decir, que no hay evidencia
para decir que hay una
asociación entre fumar y ser
alcohólico (Son independientes).
X2tab= 3.84
Resumen
¿Taller?
Distribución Normal, binomial y
multinomial
Distribución Normal o de Gauss
• La mayoría de los caracteres cuantitativos ó métricos de
interés en el mejoramiento animal siguen esta
distribución. Los parámetros que lo caracterizan son la
media (μ) y la desvición estandar (σ).
• Si se consideran dos variables simultaneamente, se llama
distribución binormal y si se tratan más de dos se lama
multinormal, con un parámetro adicional llamado
covarianza entre las variables (σXY).
• La distribución normal es simetrica
Distribución normal
Tiene la propiedad de contener 68,27% de las observaciones
entre μ +/- 2σ; 95,45% entre μ +/- 2σ y 99,37% en el
intervalo μ +/- 3σ
Distribución Normal
Para un carácter determinado, las poblaciones pueden
tener diferente media y diferente varianza, o igual
media y diferente varianza ó igual varianza y diferente
media. Comparar
D
A
B
E
C
Normal estandar
• Para calcular la probabilidad de que un valor se
encuentre entre dos limites dados (Intervalo de
confianza), es posible estandarizar las variables
X~N(μ,σ) a una normal con media 0 y desviación
estandar 1, así:
• X*=Z= (X-μ)/σ ≈ N(0,1)
Ejemplo
• La altura de la cruz de novillas Brangus (270 días) se
distribuye normalmente con media de 120 cm y una
desviación estandar de 14 cm. ¿cuál es la
probabilidad de encontrar una novilla de menos de
100 cm?
• Z=(100-120)/14= -1.428
• Entonces, buscando en las tablas:
• P(x<100)≈0.07, es decir, que la probabilidad de
obtener un valor menor de 100 cm es del 7%.
Distribución binomial
• Es una distribución discreta con valores 0 y 1. Cuenta
el número de exitos en una secuencia de n ensayos
Bernoulli inependientes entre sí, con una
probabilidad p de ocurrencia del éxito y q=(1-p) del
fracaso.
• Ejemplos: Concepción (1=sí, 0=no), Tiene un
genotipo, etc
• La probabilidad de que la variable tome un valor X es:
P(X=x)=
, donde:
Ejemplo: Dist Binomial
• Supongamos que la probabilidad de encontrar el
genotipo (-/-) en el gen bGH para el ganado Holstein
es de 0.3. Si tomamos 70 animales al azar, cual es la
probabilidad de obtener el genotipo (-/-) 25 veces.
• En este caso tenemos X~B(n,p)X~B(70, 0.3)
æ 70 ö
P(X = 25) = ç
÷ (0.30)25 (1- 0.30)70-25 = 0.058
è 25 ø
• Para esto hay calculadoras en internet:
http://stattrek.com/online-calculator/binomial.aspx
Ejercicio
• Cual es la probabilidad de obtener más de 25? ¿y
menos de 25?
Aproximar la binomial a la normal
• La media de la distribución es np y la varianza np(1-p).
• Se cumple que cuando p=constante, y n es grande (n>30),
la distribución binomial puede aproximarse mediante una
distribución normal de media μ=np y σ=√npq
• Se considera una buena aproximaión cuando np>5 y nq>5
• Es necesario aplicar en el calculo de probabilidades un
ajuste que recibe el nombre de corrección de Yates.
• Ejm: P(X<25)=P(X`=25-0.5)
Ejercicio
• El 1% de los terneros nacidos en un hato, padecen
alguna enfermedad genética. Si tenemos los registros
de 700 nacimientos ?cual es la probabilidad de
encontrar más de 20 con problemas?
• Es una distribución binomial porque los terneros
tienen o no la enfermedad X~B(700, 0.01)
• Como n es grande, además np>5 y nq>5, entonces
puedo hacer la aproximación a la normal.
Ejercicio
• Calculamos la media y la desviación estandar de la
normal
μ=700*0.01=7 ; σ=√700*0.01*0.99=2.63
• Corrección:
P(X>20)=P(X>20.5)
• Tipificación o estandarización
P(Z>(20.5-7)/2.63)=P(Z>5.13)≈0
El valor es muy pequeño, por que es muy poco probable
que pase eso.
Distribución Multinomial
• Es una generalización de la distribución binomial, con la
diferencia que en lugar de dos posibles resultados en
cada ensayo, puedan haber múltiples resultados.
• Es una distribución de probabilidad conjunta para
múltiples variables aleatorias discretas (X1, X2, …Xk),
donde cada Xi~B(n, pi), dandose cuando en cada prueba o
ensayo independiente (con reposición), interesa contar el
número de exitos en las k maneras como se puede
presentar.
Ejemplo
La distribución sigue el modelo:
Ejemplo Binomial: Los ojos en las moscas son de dos colores
diferentes. El 70% son rojos y el resto negros. ¿cuál es la
probabilidad de que al coger 6 moscas al azar 4 tengan ojos
rojos?
Ejemplo Multinomial: Los ojos en las moscas son de 4 colores
diferentes. El 35% son rojos, el 25% son Rosados, el 20% son
gris y el resto negros. ¿cuál es la probabilidad de que al coger 6
moscas al azar 4 tengan ojos rojos, una ojos gris y una ojos
negros?
Ejercicio: Solución multinomial
• P(X1=4,X2=0,X3=1,X4=1)=
æ
ö
6!
4
0
1
1
ç
÷ *0.35 * 0.25 * 0.20 *0.20 = 0.018
è 4!*0!*1!*1! ø
• Por lo tanto, la probabilidad de tomar 6 moscas de
esta manera es sólo del 1.8%
Parámetros y medidas descriptivas
en la población
• Tenemos los siguientes 20 datos de terneros Hereford
ID
P150
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Media
P300
105
95
80
85
90
100
110
95
95
90
80
100
95
90
85
100
90
110
105
95
300
265
250
270
290
310
325
280
300
250
230
300
290
280
240
330
280
350
330
265
Σxi/N
Media X=1895/20=94.75
Media Y=5732/20=286.75
Desviación estandar
La varianza es el cuadrado de S
SX=8.807
SY=32.252
Ejercicios
Si tenemos los siguientes pesos
1. Calcule la media y la varianza
2. Asumiendo que se distribuyen normalmente, toma
los valores claves de una curva normal, con los
datos obtenidos (68%,95% y 99%).
3. ¿Puedes hacer un histograma?