Download detalles de Provino Avanzado.
Document related concepts
no text concepts found
Transcript
Versión: febrero de 2010 sin detalles de procedimientos operativos Guía Provino Avanzado Joaquín P Mueller Instituto Nacional de Tecnología Agropecuaria, INTA Bariloche Introducción Provino es el Servicio Nacional de Evaluación Genética de Ovinos. Provino estima el mérito genético de ovinos como DEP, Diferencia Esperada en la Progenie. Los DEPs se calculan con dos metodologías y los resultados se presentan como Provino Básico y Provino Avanzado. Provino Básico utiliza la información del propio individuo para calcular DEPs comparables dentro del grupo contemporáneo mientras que Provino Avanzado utiliza la información del individuo y de parientes para calcular DEPs comparables dentro y entre grupos contemporáneos (siempre que exista adecuada vinculación genética entre ellos). En consecuencia ambas metodologías requieren registros de producción y resultados de análisis de lana de animales individuales, pero Provino Avanzado exige además registros genealógicos. Por ello Provino Avanzado presenta resultados DEPs con mayor exactitud o confiabilidad que con Provino Básico. La presente guía documenta los procedimientos utilizados en el manejo de datos y en los cálculos para obtener resultados Provino Avanzado a partir de la zafra 2009/2010. Para los usuarios de Provino Avanzado se encuentra en elaboración una nueva edición del manual Provino que incluye los aspectos prácticos para el criador interesado en Provino Avanzado. Antecedentes Desde 1992 el INTA Bariloche usa modelos mixtos para la predicción de mérito genético con características BLUP. En un principio se usaron modelos “padre” univariados, ahora se usan modelos “animal” multivariados. Las primeras aplicaciones eran para la evaluación de padres en pruebas de progenie (Pilca a partir de 1994) y en planteles particulares (Leleque a partir de 1992). Actualmente se utiliza en la evaluación poblacional Merino que comprende varios planteles, y en otros planteles individuales de la raza Merino no vinculados a la población, planteles Corriedale, Ideal, Hampshire Down, Texel y otros. Para los cálculos numéricos en los años 1992-1997 se utilizó el software BVEST de Gilmour (1992) y luego en los años 1998-2005 se utilizó PEST de Groeneveld et al. (1990). Entre el año 2006 y 2008, para la población Merino y para planteles Hampshire Down y Texel, se utiliza el paquete MTDFREML desarrollado por Karin Meyer, Ignacy Misztal, Curt van Tassel y otros. A partir de 2008 se utiliza Wombat de Karin Meyer. PEST se sigue usando en poblaciones pequeñas y desvinculadas. Todos los años se ajustan los procedimientos con el objetivo de reducir al máximo eventuales errores, simplificando y automatizando pasos como así también incorporando nuevas experiencias y conocimientos. 1 Versión: febrero de 2010 sin detalles de procedimientos operativos Base teórica Provino Avanzado predice el mérito genético de un animal partiendo del concepto general de que su fenotipo es el resultado de los genes del animal y del ambiente en el que le toca producir. Entonces el mérito genético se obtendría sencillamente restándole al fenotipo los efectos del ambiente. En la práctica no es tan sencillo separar efectos genéticos de efectos ambientales y es necesario considerar las propiedades del modelo general y su solución numérica. Específicamente una observación y en el animal i se puede describir como la suma de efectos ambientales b, su mérito genético a y factores desconocidos, residuales o error e tal que: yi = b + ai + ei Este modelo es un modelo animal o modelo individual porque la observación yi está descripta como una función del valor genético aditivo del animal o individuo i. El modelo es mixto porque considera efectos ambientales fijos y efectos genéticos y error aleatorios. Usando la convención habitual de letras minúsculas en negrita para vectores y letras mayúsculas en negrita para matrices tenemos que para n individuos de una población el vector de observaciones, y (1 x n) se explica con el siguiente modelo mixto: y = Xb + Za + e, donde b = vector de efectos fijos asociados a los registros en y por la matriz de incidencia X, y a = vector de efectos aleatorios asociados a los registros en y por la matriz Z, e = vector de errores o residuales del modelo. Como Xb no tiene varianza y los residuales tienen varianza σ2e independiente, es sencillo ver que var(y) = V = ZGZ’ + R, donde R es la matriz de covarianza de residuales y G es la matriz de covarianzas de a por lo que G = Aσ2a, donde A es la matriz de parentesco. La tarea es predecir una función lineal de b y a, digamos k’b + a, usando una función lineal de y, digamos L’y, que sea insesgada y con mínima varianza de error. Henderson (1973) demuestra que esa minimización de varianza del error lleva a la predicción BLUP de a (â) como: â = GZ’V-1(y-Xb^). Entonces sustituyendo: L’y = k’b^ + GZ’V-1(y-Xb^) donde b^ es la solución de mínimos cuadrados generalizados, es decir: b^ = (X’V-1X)X’V-1y con características BLUE. BLUE es equivalente a BLUP pero para la estimación de los efectos fijos. Entonces el problema es ahora resolver simultáneamente ambas ecuaciones, con la dificultad adicional de que las dos ecuaciones requieren invertir V lo cual no suele ser posible computacionalmente. 2 Versión: febrero de 2010 sin detalles de procedimientos operativos Henderson (1950) propuso las denominadas “Ecuaciones de Modelo Mixto” para resolver ambas ecuaciones en forma simultánea sin computar V-1. Esas ecuaciones son: X’R-1X X’R-1Z Z’R-1X Z’R-1Z+G-1 X’R-1y b^ * = Z’R-1y â Aunque R tiene un orden de magnitud del número de registros, R es en general asumido como diagonal para análisis univariados, a menudo Iσ2e, y como diagonal en bloques (bloques con orden del número de variables) para análisis multivariados, tal que los cálculos con R-1 son relativamente sencillos. Reemplazando G y R por Aσ2a y Iσ2e, y escribiendo σ2e/σ2a como α las ecuaciones del modelo mixto se transforman en: X’X X’Z Z’X Z’Z+A-1 X’y b^ * = â Z’y Uno de los problemas importantes que queda es la construcción de A y su inversión pero Henderson (1973) también propuso un método para esa construcción e inversión, con lo cual quedó resuelta la solución numérica de las ecuaciones del modelo mixto. Con el progreso en memoria y velocidad de las computadoras, estos cálculos se pueden realizar en tiempos razonables. En teoría es posible resolver estas ecuaciones simultaneas (es decir calcular los valores de cría) usando herramientas para cálculo matricial (matlab, etc) pero en la práctica con poblaciones de animales medianas a grandes es necesario usar programas diseñados con algoritmos eficientes en el uso de tiempo y memoria. Hay varios métodos para resolver estas ecuaciones. En un principio se utilizaban métodos que por derivación iterativa buscaban soluciones simultáneas. Esta metodología tiene el inconveniente de no converger adecuadamente y hoy se prefieren métodos que evitan las derivadas. Por ello Provino Avanzado utiliza ahora el programa Wombat basado en MTDFREML (Multiple Trait Derivative-Fee REstricted Maximum Likelihood) similar al utilizado en la amplia mayoría de las aplicaciones de evaluación genética en el mundo. Henderson (1984) probó que las b^ de estas ecuaciones son BLUE como en mínimos cuadrados generalizados, y que los â son BLUP. Esto significa que: B (best): maximiza la correlación entre verdadero a y predicho â o minimiza la varianza de errores de predicción (var(a - â)). L (linear): las predicciones son funciones lineales de las observaciones. U (unbiased): las estimaciones de valores realizados para una variable aleatoria, como valores de cría, y de funciones estimables de efectos fijos son insesgados (E(a = â)). P (prediction): predicción del verdadero valor de cría. Hemos repasado la teoría para análisis univariados, para análisis multivariados se suma una dimensión (la de variables) y la presentación matricial se agranda considerablemente ya que deben considerarse las covarianzas entre variables. La metodología también se extiende a efectos maternos y otros modelos (para más detalles ver por ejemplo Mrode 2005). 3 Versión: febrero de 2010 sin detalles de procedimientos operativos Procedimientos La ronda de análisis Provino Avanzado tiene 3 etapas: la primera consta de la colección y sistematización de nuevos datos y la actualización de los archivos viejos con los nuevos datos. Luego se generan los archivos input para el paquete estadístico que realiza los cálculos más demandantes en memoria y tiempo, básicamente la solución a los modelos mixtos con la inversión de la matriz de parentesco. Finalmente se procesan los resultados para generar los informes Provino Avanzado. Para la primera y la última etapa se utiliza el programa estadístico SAS para el cual INTA tiene licencia y para la segunda se utiliza el programa Wombat que es de libre disponibilidad (buscar en internet). Datos Tres tipos de datos utiliza Provino Avanzado: datos de campo, datos de laboratorio y datos de genealogía. Típicamente se cuenta con tablas exportadas desde la base Access del soft Provino Básico que usan los 3 laboratorios. En esas bases suele estar el peso de vellón y el peso corporal y los resultados de rinde, finura y CV de finura. A veces también largo de mecha y resistencia a la tracción. Ocasionalmente el productor no adjuntó el peso corporal a las muestras de lana y los envía con posterioridad. Habitualmente la genealogía (padre y madre de los animales) también es recibida separadamente. Para el caso de Merino se utiliza el pedigree facilitado por la AACM. Para cada plantel y zafra se mantiene una carpeta (digital) en la cual se procesan los datos de laboratorio, campo y genealogía junto con un programa SAS que actualiza un archivo permanente de datos SAS en esa carpeta. En otra carpeta se corre el programa Base_pob.sas que lee todos los archivos permanentes de los planteles disponibles para formar una base única para una nueva ronda de análisis poblacional. Aquí se eliminaron detalles de los procedimientos operativos Luego se corre Deps_pob.sas en dos etapas para primero tomar los valores de cría y exactitudes de MTDF72.xls y calcular los DEPs e índices crudos, luego estandarizarlos a promedio 100 y desvío 10. Luego fusionar con la base única original para recuperar años de nacimiento y las identificaciones originales para luego ajustar los DEPs e índices al año base (2000). Transformaciones Antes de ser procesados los datos son transformados a los fines de evitar efectos de escala. Por ejemplo datos provenientes de esquila preparto suelen tener promedios menores a los datos provenientes de esquila postparto, entre campos también puede haber grandes diferencias como así también entre otros grupos contemporáneos. La transformación de la medición X (peso corporal a la esquila o peso de vellón limpio) de un animal en un grupo contemporáneo se realiza tal que: Xc = dXmo * (X-pXgc) / dXgc + pXmo donde Xc es la medición corregida usada para los análisis BLUP, pXgc y dXgc son el promedio y el desvío estándar de la variable en su grupo contemporáneo pXmo y dXmo son el promedio y el desvío estándar de la variable en una majada objetivo que seria la majada 4 Versión: febrero de 2010 sin detalles de procedimientos operativos típica a mejorar con los animales evaluados. En nuestro caso para Merino: 35 kg de peso corporal y 2.4 kg de peso de vellón limpio con 10% y 15% de CV. Esta transformación deja a todos los grupos contemporáneos con igual promedio y desvíos de los animales de ese promedio en unidades comparables. Estas transformaciones todavía están siendo analizadas. Parámetros: MTDFREML requiere los elementos de las matrices de (co)varianzas aditivas y ambientales de los caracteres a analizar que se obtienen con ayuda de un programita en QBasic de la Tabla siguiente: Promedio CV PVL PDF NCD PCE PVS PCD PCA CVF LM RT PVL 2.4 0.15 0.4 0.25 -0.1 0.2 0.75 0.25 0.2 0.1 0.3 0.1 PDF 20 0.08 0.2 0.5 -0.1 0.1 0.16 0.1 0.1 -0.1 0.1 0.3 NCD 0.7 0.65 0 0.1 0.1 0.25 0 0.2 0.25 0 0 0 PCE 35 0.1 0.3 0.13 0.15 0.4 0.2 0.9 0.8 0 0 0 PVS 4 0.14 0.85 0.13 0 0.3 0.35 0.25 0.2 0.1 0.15 -0.15 PCD 25 0.2 0.25 0.1 0.12 0.35 0.25 0.25 0.7 0 0 0 PCA 40 0.1 0.3 0.13 0.15 0.7 0.3 0.35 0.4 0 0 0 CVF 20 0.12 0 -0.1 0 0 0 0 0 0.4 -0.05 -0.5 LM 100 0.1 0.4 0.15 0 0 0.3 0 0 -0.15 0.4 -0.05 RT 30 0.3 0.1 0.25 0 0 0.1 0 0 -0.4 0.05 0.3 Nota: Correlaciones fenotipicas sobre la diagonal, heredabilidades en la diagonal y correlaciones genéticas debajo de la diagonal Los análisis desde el año 2009 se hacen con parámetros calculados de la propia población. Análisis: Se analizan 3 grupos de caracteres: 1. PCE, PVL y PDF 2. LM, RT y CVF 3. PCD Desde 2011 los grupos han sido modificados El grupo 1 es el estándar para la población Merino, el 2 se agrega para el análisis de Río Mayo y Pilcaniyeu y el 3 se analiza para estos dos campos y otras razas (en general para otras razas se analizan en conjunto 1 y 3). En todo caso se analizan efectos aditivos directos pero en el caso de PCD se le agrega un efecto materno. CVF se agrega al grupo 2 por la alta correlación genética con RT. PCE, PVL, RT, LM y CVF se ajustan con grupo contemporáneo (la combinación de campo año sexo tratamiento) y tipo de nacimiento como efectos fijos y PDF se ajusta solo con grupo contemporáneo ya que se constató que el efecto de tipo de nacimiento no es significativo para esta característica. Para PCD se aplica un modelo animal univariado con grupo contemporáneo y tipo de nacimiento como efectos fijos. En el ANEXO I se describen los procedimientos usados para correr el programa MTDFREML que calcula los valores de cría. Resultados: 5 Versión: febrero de 2010 sin detalles de procedimientos operativos Los resultados se presentan como DEPs (valor de cría / 2) en unidades originales (kg y mic) como desvíos del promedio de la majada objetivo (seria del pXmo tal cual salen del MTDFREML) pero con año base 2000 como se mencionó antes. Índices: Se utilizan 2 índices. El índice que mantiene finura denominado i02 porque asigna una diferencia de 2% al valor del kg de lana limpia con una micra menos de finura y i10 que asigna el 10%, en función de las señales de mercado vigentes. Los valores económicos relativos surgen del producto económico de la majada objetivo. En teoría habría que considerar todos los caracteres de interés con sus correlaciones genéticas y no solo los 3 mencionados (PCE, PVL y PDF). En los índices Provino Básico se considera PVL, PDF, NCD, PCD y PCA. En Provino Avanzado no se hace por ahora porque exigiría calcular valores de cría para todos los caracteres en la función objetivo. Las ponderaciones actuales son: i02=deppce*4.45+deppvl*96.51+deppdf*( -7.32) i10=deppce*4.45+deppvl*96.51+deppdf*(-36.58) Periodicidad El objetivo de Provino Avanzado es proveer los resultados de la evaluación genética en tiempo para los eventos de clasificación de animales para servicio y venta con la última información disponible. Los eventos más importantes son las exposiciones rurales, remates de estancia, las Jornadas Merino de la AACM y las Jornadas de INTA Pilcaniyeu cada año. La última información proviene de las esquilas que comienzan en agosto y culminan en diciembre. Los resultados de los análisis de muestras de lana suelen demorar 1-2 meses y el análisis estadístico Provino Avanzado suele demorar 2-3 días dependiendo de la calidad de los datos de campo y laboratorio (errores, etc). En consecuencia para cada zafra (1 de julio a 31 de junio) los primeros análisis Provino Avanzado poblacionales están disponibles a fines de diciembre y se recalculan en la medida en que finaliza el análisis de muestras de nuevos lote correspondientes a planteles de la población. A partir del año 2011 Provino Avanzado para la raza Merino se provee a la AACM en el marco de un Convenio. Referencias Henderson CR. 1950. Estimation of genetic parameters. Annals of Mathematical Statistics 21 309. Henderson CR. 1973. Sire evaluation and genetic trends. Proceedings of Animal Breeding and Genetics Symposium in Honor of Dr. J. L. Lush, Am. Soc. Anim. Sci., Am. Dairy Sci. Assoc. Henderson CR. 1984. Application of linear models in animal breeding. University of Guelph, Guelph, ON, Canada. MTDFREML. 1996. Multiple Trait Derivative-Free REstricted Maximum Likelihood. User’s Manual. 6 Versión: febrero de 2010 sin detalles de procedimientos operativos Mrode RA. 2005. Linear models for the prediction of animal breeding values. Second Edition. CABI. Kinghorn B. 2006. PedigreeViewer http://wwwpersonal.une.edu.au/~bkinghor/pedigree.htm ANEXO I En este anexo se presenta el procedimiento para el cálculo de los DEP por Provino Avanzado usando Wombat que ajusta modelos lineales mixtos. Se trata de un programa para estimar componentes de (co)varianza usando modelos animales y metodología libre de derivadas para estimar máxima verosimilitud. Los programas pueden ser usados para modelos animales univariados, bivariados, y multivariados con registros repetidos incluyendo caracteres de expresión limitada a sexo. Soluciones para efectos fijos, valores de cría, efectos aleatorios no correlacionados, varianzas de muestreo de soluciones y contrastes y esperanzas de soluciones también pueden ser calculadas con estos programas. Los modelos animales pueden incorporar efectos genéticos aditivos no solo para animales con registros, sino que también para padres y otros parientes sin registros incluidos en el archivo de genealogías. Al calcular verosimilitud se asume que los datos tienen una distribución normal multivariada. El modelo de análisis ajustado es el denominado Modelo Animal que incluye un efecto aleatorio representando el merito genético aditivo (o valor de cría) para cada individuo (=animal) y carácter. Permitiendo el ajuste de algunos efectos aleatorios adicionales un total de 10 modelos diferentes pueden ser corridos. 7