Download detalles de Provino Avanzado.

Document related concepts
no text concepts found
Transcript
Versión: febrero de 2010 sin detalles de procedimientos operativos
Guía Provino Avanzado
Joaquín P Mueller
Instituto Nacional de Tecnología Agropecuaria, INTA Bariloche
Introducción
Provino es el Servicio Nacional de Evaluación Genética de Ovinos. Provino estima el mérito
genético de ovinos como DEP, Diferencia Esperada en la Progenie. Los DEPs se calculan con
dos metodologías y los resultados se presentan como Provino Básico y Provino Avanzado.
Provino Básico utiliza la información del propio individuo para calcular DEPs comparables
dentro del grupo contemporáneo mientras que Provino Avanzado utiliza la información del
individuo y de parientes para calcular DEPs comparables dentro y entre grupos
contemporáneos (siempre que exista adecuada vinculación genética entre ellos). En
consecuencia ambas metodologías requieren registros de producción y resultados de análisis
de lana de animales individuales, pero Provino Avanzado exige además registros
genealógicos. Por ello Provino Avanzado presenta resultados DEPs con mayor exactitud o
confiabilidad que con Provino Básico.
La presente guía documenta los procedimientos utilizados en el manejo de datos y en los
cálculos para obtener resultados Provino Avanzado a partir de la zafra 2009/2010.
Para los usuarios de Provino Avanzado se encuentra en elaboración una nueva edición del
manual Provino que incluye los aspectos prácticos para el criador interesado en Provino
Avanzado.
Antecedentes
Desde 1992 el INTA Bariloche usa modelos mixtos para la predicción de mérito genético con
características BLUP. En un principio se usaron modelos “padre” univariados, ahora se usan
modelos “animal” multivariados. Las primeras aplicaciones eran para la evaluación de padres
en pruebas de progenie (Pilca a partir de 1994) y en planteles particulares (Leleque a partir de
1992). Actualmente se utiliza en la evaluación poblacional Merino que comprende varios
planteles, y en otros planteles individuales de la raza Merino no vinculados a la población,
planteles Corriedale, Ideal, Hampshire Down, Texel y otros. Para los cálculos numéricos en
los años 1992-1997 se utilizó el software BVEST de Gilmour (1992) y luego en los años
1998-2005 se utilizó PEST de Groeneveld et al. (1990). Entre el año 2006 y 2008, para la
población Merino y para planteles Hampshire Down y Texel, se utiliza el paquete
MTDFREML desarrollado por Karin Meyer, Ignacy Misztal, Curt van Tassel y otros. A partir
de 2008 se utiliza Wombat de Karin Meyer. PEST se sigue usando en poblaciones pequeñas y
desvinculadas.
Todos los años se ajustan los procedimientos con el objetivo de reducir al máximo eventuales
errores, simplificando y automatizando pasos como así también incorporando nuevas
experiencias y conocimientos.
1
Versión: febrero de 2010 sin detalles de procedimientos operativos
Base teórica
Provino Avanzado predice el mérito genético de un animal partiendo del concepto general de
que su fenotipo es el resultado de los genes del animal y del ambiente en el que le toca
producir. Entonces el mérito genético se obtendría sencillamente restándole al fenotipo los
efectos del ambiente. En la práctica no es tan sencillo separar efectos genéticos de efectos
ambientales y es necesario considerar las propiedades del modelo general y su solución
numérica.
Específicamente una observación y en el animal i se puede describir como la suma de efectos
ambientales b, su mérito genético a y factores desconocidos, residuales o error e tal que:
yi = b + ai + ei
Este modelo es un modelo animal o modelo individual porque la observación yi está descripta
como una función del valor genético aditivo del animal o individuo i. El modelo es mixto
porque considera efectos ambientales fijos y efectos genéticos y error aleatorios. Usando la
convención habitual de letras minúsculas en negrita para vectores y letras mayúsculas en
negrita para matrices tenemos que para n individuos de una población el vector de
observaciones, y (1 x n) se explica con el siguiente modelo mixto:
y = Xb + Za + e, donde
b = vector de efectos fijos asociados a los registros en y por la matriz de incidencia X,
y
a = vector de efectos aleatorios asociados a los registros en y por la matriz Z,
e = vector de errores o residuales del modelo.
Como Xb no tiene varianza y los residuales tienen varianza σ2e independiente, es sencillo ver
que var(y) = V = ZGZ’ + R, donde R es la matriz de covarianza de residuales y G es la
matriz de covarianzas de a por lo que G = Aσ2a, donde A es la matriz de parentesco.
La tarea es predecir una función lineal de b y a, digamos k’b + a, usando una función lineal
de y, digamos L’y, que sea insesgada y con mínima varianza de error. Henderson (1973)
demuestra que esa minimización de varianza del error lleva a la predicción BLUP de a (â)
como:
â = GZ’V-1(y-Xb^).
Entonces sustituyendo:
L’y = k’b^ + GZ’V-1(y-Xb^)
donde b^ es la solución de mínimos cuadrados generalizados, es decir:
b^ = (X’V-1X)X’V-1y
con características BLUE. BLUE es equivalente a BLUP pero para la estimación de los
efectos fijos. Entonces el problema es ahora resolver simultáneamente ambas ecuaciones, con
la dificultad adicional de que las dos ecuaciones requieren invertir V lo cual no suele ser
posible computacionalmente.
2
Versión: febrero de 2010 sin detalles de procedimientos operativos
Henderson (1950) propuso las denominadas “Ecuaciones de Modelo Mixto” para resolver
ambas ecuaciones en forma simultánea sin computar V-1. Esas ecuaciones son:
X’R-1X
X’R-1Z
Z’R-1X
Z’R-1Z+G-1
X’R-1y
b^
*
=
Z’R-1y
â
Aunque R tiene un orden de magnitud del número de registros, R es en general asumido como
diagonal para análisis univariados, a menudo Iσ2e, y como diagonal en bloques (bloques con
orden del número de variables) para análisis multivariados, tal que los cálculos con R-1 son
relativamente sencillos. Reemplazando G y R por Aσ2a y Iσ2e, y escribiendo σ2e/σ2a como α
las ecuaciones del modelo mixto se transforman en:
X’X
X’Z
Z’X
Z’Z+A-1
X’y
b^
*
=
â
Z’y
Uno de los problemas importantes que queda es la construcción de A y su inversión pero
Henderson (1973) también propuso un método para esa construcción e inversión, con lo cual
quedó resuelta la solución numérica de las ecuaciones del modelo mixto. Con el progreso en
memoria y velocidad de las computadoras, estos cálculos se pueden realizar en tiempos
razonables.
En teoría es posible resolver estas ecuaciones simultaneas (es decir calcular los valores de
cría) usando herramientas para cálculo matricial (matlab, etc) pero en la práctica con
poblaciones de animales medianas a grandes es necesario usar programas diseñados con
algoritmos eficientes en el uso de tiempo y memoria. Hay varios métodos para resolver estas
ecuaciones. En un principio se utilizaban métodos que por derivación iterativa buscaban
soluciones simultáneas. Esta metodología tiene el inconveniente de no converger
adecuadamente y hoy se prefieren métodos que evitan las derivadas. Por ello Provino
Avanzado utiliza ahora el programa Wombat basado en MTDFREML (Multiple Trait
Derivative-Fee REstricted Maximum Likelihood) similar al utilizado en la amplia mayoría de
las aplicaciones de evaluación genética en el mundo.
Henderson (1984) probó que las b^ de estas ecuaciones son BLUE como en mínimos
cuadrados generalizados, y que los â son BLUP. Esto significa que:
B (best): maximiza la correlación entre verdadero a y predicho â o minimiza la
varianza de errores de predicción (var(a - â)).
L (linear): las predicciones son funciones lineales de las observaciones.
U (unbiased): las estimaciones de valores realizados para una variable aleatoria, como
valores de cría, y de funciones estimables de efectos fijos son insesgados (E(a = â)).
P (prediction): predicción del verdadero valor de cría.
Hemos repasado la teoría para análisis univariados, para análisis multivariados se suma una
dimensión (la de variables) y la presentación matricial se agranda considerablemente ya que
deben considerarse las covarianzas entre variables. La metodología también se extiende a
efectos maternos y otros modelos (para más detalles ver por ejemplo Mrode 2005).
3
Versión: febrero de 2010 sin detalles de procedimientos operativos
Procedimientos
La ronda de análisis Provino Avanzado tiene 3 etapas: la primera consta de la colección y
sistematización de nuevos datos y la actualización de los archivos viejos con los nuevos datos.
Luego se generan los archivos input para el paquete estadístico que realiza los cálculos más
demandantes en memoria y tiempo, básicamente la solución a los modelos mixtos con la
inversión de la matriz de parentesco. Finalmente se procesan los resultados para generar los
informes Provino Avanzado. Para la primera y la última etapa se utiliza el programa
estadístico SAS para el cual INTA tiene licencia y para la segunda se utiliza el programa
Wombat que es de libre disponibilidad (buscar en internet).
Datos
Tres tipos de datos utiliza Provino Avanzado: datos de campo, datos de laboratorio y datos de
genealogía. Típicamente se cuenta con tablas exportadas desde la base Access del soft
Provino Básico que usan los 3 laboratorios. En esas bases suele estar el peso de vellón y el
peso corporal y los resultados de rinde, finura y CV de finura. A veces también largo de
mecha y resistencia a la tracción. Ocasionalmente el productor no adjuntó el peso corporal a
las muestras de lana y los envía con posterioridad. Habitualmente la genealogía (padre y
madre de los animales) también es recibida separadamente. Para el caso de Merino se utiliza
el pedigree facilitado por la AACM.
Para cada plantel y zafra se mantiene una carpeta (digital) en la cual se procesan los datos de
laboratorio, campo y genealogía junto con un programa SAS que actualiza un archivo
permanente de datos SAS en esa carpeta. En otra carpeta se corre el programa Base_pob.sas
que lee todos los archivos permanentes de los planteles disponibles para formar una base
única para una nueva ronda de análisis poblacional.
Aquí se eliminaron detalles de los procedimientos operativos
Luego se corre Deps_pob.sas en dos etapas para primero tomar los valores de cría y
exactitudes de MTDF72.xls y calcular los DEPs e índices crudos, luego estandarizarlos a
promedio 100 y desvío 10. Luego fusionar con la base única original para recuperar años de
nacimiento y las identificaciones originales para luego ajustar los DEPs e índices al año base
(2000).
Transformaciones
Antes de ser procesados los datos son transformados a los fines de evitar efectos de escala.
Por ejemplo datos provenientes de esquila preparto suelen tener promedios menores a los
datos provenientes de esquila postparto, entre campos también puede haber grandes
diferencias como así también entre otros grupos contemporáneos. La transformación de la
medición X (peso corporal a la esquila o peso de vellón limpio) de un animal en un grupo
contemporáneo se realiza tal que:
Xc = dXmo * (X-pXgc) / dXgc + pXmo
donde Xc es la medición corregida usada para los análisis BLUP, pXgc y dXgc son el
promedio y el desvío estándar de la variable en su grupo contemporáneo pXmo y dXmo son
el promedio y el desvío estándar de la variable en una majada objetivo que seria la majada
4
Versión: febrero de 2010 sin detalles de procedimientos operativos
típica a mejorar con los animales evaluados. En nuestro caso para Merino: 35 kg de peso
corporal y 2.4 kg de peso de vellón limpio con 10% y 15% de CV. Esta transformación deja a
todos los grupos contemporáneos con igual promedio y desvíos de los animales de ese
promedio en unidades comparables. Estas transformaciones todavía están siendo analizadas.
Parámetros:
MTDFREML requiere los elementos de las matrices de (co)varianzas aditivas y ambientales
de los caracteres a analizar que se obtienen con ayuda de un programita en QBasic de la Tabla
siguiente:
Promedio
CV
PVL
PDF
NCD
PCE
PVS
PCD
PCA
CVF
LM
RT
PVL
2.4
0.15
0.4
0.25
-0.1
0.2
0.75
0.25
0.2
0.1
0.3
0.1
PDF
20
0.08
0.2
0.5
-0.1
0.1
0.16
0.1
0.1
-0.1
0.1
0.3
NCD
0.7
0.65
0
0.1
0.1
0.25
0
0.2
0.25
0
0
0
PCE
35
0.1
0.3
0.13
0.15
0.4
0.2
0.9
0.8
0
0
0
PVS
4
0.14
0.85
0.13
0
0.3
0.35
0.25
0.2
0.1
0.15
-0.15
PCD
25
0.2
0.25
0.1
0.12
0.35
0.25
0.25
0.7
0
0
0
PCA
40
0.1
0.3
0.13
0.15
0.7
0.3
0.35
0.4
0
0
0
CVF
20
0.12
0
-0.1
0
0
0
0
0
0.4
-0.05
-0.5
LM
100
0.1
0.4
0.15
0
0
0.3
0
0
-0.15
0.4
-0.05
RT
30
0.3
0.1
0.25
0
0
0.1
0
0
-0.4
0.05
0.3
Nota: Correlaciones fenotipicas sobre la diagonal, heredabilidades en la diagonal y
correlaciones genéticas debajo de la diagonal
Los análisis desde el año 2009 se hacen con parámetros calculados de la propia población.
Análisis:
Se analizan 3 grupos de caracteres:
1. PCE, PVL y PDF
2. LM, RT y CVF
3. PCD
Desde 2011 los grupos han sido modificados
El grupo 1 es el estándar para la población Merino, el 2 se agrega para el análisis de Río
Mayo y Pilcaniyeu y el 3 se analiza para estos dos campos y otras razas (en general para otras
razas se analizan en conjunto 1 y 3). En todo caso se analizan efectos aditivos directos pero en
el caso de PCD se le agrega un efecto materno. CVF se agrega al grupo 2 por la alta
correlación genética con RT.
PCE, PVL, RT, LM y CVF se ajustan con grupo contemporáneo (la combinación de campo
año sexo tratamiento) y tipo de nacimiento como efectos fijos y PDF se ajusta solo con grupo
contemporáneo ya que se constató que el efecto de tipo de nacimiento no es significativo para
esta característica. Para PCD se aplica un modelo animal univariado con grupo
contemporáneo y tipo de nacimiento como efectos fijos. En el ANEXO I se describen los
procedimientos usados para correr el programa MTDFREML que calcula los valores de cría.
Resultados:
5
Versión: febrero de 2010 sin detalles de procedimientos operativos
Los resultados se presentan como DEPs (valor de cría / 2) en unidades originales (kg y mic)
como desvíos del promedio de la majada objetivo (seria del pXmo tal cual salen del
MTDFREML) pero con año base 2000 como se mencionó antes.
Índices:
Se utilizan 2 índices. El índice que mantiene finura denominado i02 porque asigna una
diferencia de 2% al valor del kg de lana limpia con una micra menos de finura y i10 que
asigna el 10%, en función de las señales de mercado vigentes. Los valores económicos
relativos surgen del producto económico de la majada objetivo. En teoría habría que
considerar todos los caracteres de interés con sus correlaciones genéticas y no solo los 3
mencionados (PCE, PVL y PDF). En los índices Provino Básico se considera PVL, PDF,
NCD, PCD y PCA. En Provino Avanzado no se hace por ahora porque exigiría calcular
valores de cría para todos los caracteres en la función objetivo. Las ponderaciones actuales
son:
i02=deppce*4.45+deppvl*96.51+deppdf*( -7.32)
i10=deppce*4.45+deppvl*96.51+deppdf*(-36.58)
Periodicidad
El objetivo de Provino Avanzado es proveer los resultados de la evaluación genética en
tiempo para los eventos de clasificación de animales para servicio y venta con la última
información disponible. Los eventos más importantes son las exposiciones rurales, remates de
estancia, las Jornadas Merino de la AACM y las Jornadas de INTA Pilcaniyeu cada año. La
última información proviene de las esquilas que comienzan en agosto y culminan en
diciembre. Los resultados de los análisis de muestras de lana suelen demorar 1-2 meses y el
análisis estadístico Provino Avanzado suele demorar 2-3 días dependiendo de la calidad de los
datos de campo y laboratorio (errores, etc). En consecuencia para cada zafra (1 de julio a 31
de junio) los primeros análisis Provino Avanzado poblacionales están disponibles a fines de
diciembre y se recalculan en la medida en que finaliza el análisis de muestras de nuevos lote
correspondientes a planteles de la población.
A partir del año 2011 Provino Avanzado para la raza Merino se provee a la AACM en el
marco de un Convenio.
Referencias




Henderson CR. 1950. Estimation of genetic parameters. Annals of Mathematical Statistics
21 309.
Henderson CR. 1973. Sire evaluation and genetic trends. Proceedings of Animal Breeding
and Genetics Symposium in Honor of Dr. J. L. Lush, Am. Soc. Anim. Sci., Am. Dairy
Sci. Assoc.
Henderson CR. 1984. Application of linear models in animal breeding. University of
Guelph, Guelph, ON, Canada.
MTDFREML. 1996. Multiple Trait Derivative-Free REstricted Maximum Likelihood.
User’s Manual.
6
Versión: febrero de 2010 sin detalles de procedimientos operativos


Mrode RA. 2005. Linear models for the prediction of animal breeding values. Second
Edition. CABI.
Kinghorn B. 2006. PedigreeViewer http://wwwpersonal.une.edu.au/~bkinghor/pedigree.htm
ANEXO I
En este anexo se presenta el procedimiento para el cálculo de los DEP por Provino Avanzado
usando Wombat que ajusta modelos lineales mixtos. Se trata de un programa para estimar
componentes de (co)varianza usando modelos animales y metodología libre de derivadas para
estimar máxima verosimilitud. Los programas pueden ser usados para modelos animales
univariados, bivariados, y multivariados con registros repetidos incluyendo caracteres de
expresión limitada a sexo. Soluciones para efectos fijos, valores de cría, efectos aleatorios no
correlacionados, varianzas de muestreo de soluciones y contrastes y esperanzas de soluciones
también pueden ser calculadas con estos programas.
Los modelos animales pueden incorporar efectos genéticos aditivos no solo para animales con
registros, sino que también para padres y otros parientes sin registros incluidos en el archivo
de genealogías. Al calcular verosimilitud se asume que los datos tienen una distribución
normal multivariada. El modelo de análisis ajustado es el denominado Modelo Animal que
incluye un efecto aleatorio representando el merito genético aditivo (o valor de cría) para cada
individuo (=animal) y carácter. Permitiendo el ajuste de algunos efectos aleatorios adicionales
un total de 10 modelos diferentes pueden ser corridos.
7