Download Análisis de Precisión de Técnicas de Agregación en Contextos

Document related concepts

Metaanálisis wikipedia , lookup

Poder estadístico wikipedia , lookup

Estimador wikipedia , lookup

Análisis de la varianza wikipedia , lookup

Estimación estadística wikipedia , lookup

Transcript
Análisis de Precisión de Técnicas de Agregación en
Contextos Experimentales Poco Maduros
Hernán Amatriain1, María Florencia Pollo Cattaneo1,2, Ramon Garcia-Martinez3,4
1 Facultad Regional La Plata. Universidad Tecnológica Nacional. Bs.As. Argentina
2 Software & Knowledge Engineering Center. ITBA. Bs.As. Argentina.
3 Intelligent Systems Laboratory. School of Engineering. University of Buenos Aires.
4 Software Engineering Area. Information Systems Degree Program. National University
of Lanús
[email protected]; [email protected]; [email protected];
[email protected]
Resumen: cuando se trabaja en el campo de la experimentación científica, es
estadísticamente importante poder contar con un gran número de
experimentos y sujetos experimentales para poder combinar los resultados de
ellos y obtener así un resultado general más fiable por estar éste sustentado
por u mayor de evidencia empírica. Esto se consigue aplicando alguna técnica
de agregación. Dichas técnicas se han aplicado exitosamente en contextos
experimentales muy maduros (muchos experimentos y/o sujetos). Aquí
analizaremos a través del diseño de un proceso de simulación de experimentos
cual es la precisión de estas técnicas en contextos poco maduros, como es
actualmente la Ingeniería de Software.
Palabras clave: agregación de experimentos, diferencia de medias
ponderadas, response ratio paramétrico y no paramétrico, vote counting,
fiabilidad y potencia estadística.
1 Introducción
La agregación de experimentos consiste en combinar los resultados de varios
experimentos, que analizan el comportamiento de un par de tratamientos específico,
para obtener un único resultado final. El nuevo resultado será más general y fiable
que los resultados individuales, porque el mismo estará sustentado por un mayor
nivel de evidencia empírica [Cochrane, 2008].
Si bien se han desarrollado estudios tendientes a determinar el nivel de
precisión de las técnicas de agregación [Lajeunesse, M.; et al; 2003], estos estudios
fueron realizados pensando en la aplicación de los métodos de agregación en
contextos experimentales maduros (por ejemplo: medicina), donde la cantidad de
sujetos experimentales es alta y la cantidad de estudios a agregar también lo es
[Gambara, H.; et al; 2002]. Lamentablemente el actual contexto experimental de la
Ingeniería del Software dista bastante de un contexto maduro, en general los proceso
de agregación incluyen pocos estudios que a su vez contienen pocos sujetos
experimentales [Davis, A.; et al; 2006].
El presente trabajo tiene como objetivo determinar el nivel de precisión de
los métodos de agregación en contextos experimentales poco maduros como el que
actualmente presenta la Ingeniería del Software. Donde, como se indico
anteriormente, es habitual que los estudios posean pocos sujetos experimentales y
los procesos de agregación incluyan pocos experimentos.
2 Técnicas de agregación de experimentos
Existen varias técnicas de agregación cuantitativas, dentro de las más
conocidas podemos mencionar [Hedges L.; et al; 1999]:
 Diferencia de medias ponderadas (WMD)
 Response Ratio paramétricos
 Response Ratio no paramétricos
 Vote Counting
2.1 Diferencia de Medias Ponderadas (DMP o WMD):
La técnica diferencias medias ponderadas [Hedges y Olkin, 1985] es la
técnica de estimación de tamaño de efecto, o mejora de un tratamiento respecto de
otro, mas conocida y difundida para el análisis de variables continuas. Esta técnica
es conceptualmente sencilla: el estimador de efecto individual (para cada
experimento) se estima como el cociente de las diferencias entre las medias y el
desvío estándar y el efecto global se calcula como una media ponderada de los
estimadores de efecto de los estudios individuales.
La estimación del efecto individual consiste en estimar, para un estudio
particular, si el tratamiento Experimental es mejor o no que el tratamiento de
control. Estos se hace dividiendo la diferencia de medias de ambos grupos por la
varianza conjunta [Hedges, L.; Olkin, I.; 1985]. La función de estimación es la
siguiente:
YE YC
d  J ( N  2)
SP
d es el Effect Size
J (N – 2) = factor de corrección
Y‘s son la media de los grupos experimental (E)
y de control (C)
Sp es el desvío estándar conjunto
N es el número de sujetos conjunto (nE + nC)
Figura 1: estimación del tamaño de efecto
Donde:
SP 
(n E  1)(s E )2  (nC  1)(s C )2
n E  nC  2
Sp desvío estándar conjunto
S‘s son el desvío estándar
del grupo experimental (E)
y de control (C)
n‘s son el numero de
sujetos del grupo
experimental (E) y de
control (C)
Figura 2: desvío estándar conjunto
El factor de ajuste “J” puede estimarse mediante la siguiente función:
J 1
3
4N  9
J es el factor de ajuste
N es el número de sujetos conjunto (nE + nC)
Figura 3: factor de ajuste
Una vez estimado el tamaño de efecto, podrá estimarse el intervalo de
confianza mediante la siguiente función [Hedges, L.; Olkin, I.; 1985]:
d  Z / 2 v    d  Z / 2 v
d es el Effect Size
Z es la cantidad de desvíos
estándar que separan, al nivel de
significancia dado, la media del
límite. En general se utiliza 1.96
(α = 0,05)
v es el error típico
Figura 4: estimación del intervalo de confianza
La función para estimar el error típico, mencionado en la función anterior, es
la siguiente [Hedges, L.; Olkin, I.; 1985]:
v
ñ  d2
2(n E  nC )
v es el error típico
ñ = (nE+nC) / (nE*nC)
d son el effect size de los estudios
individuales
n‘s son el número de sujetos del grupo
experimental (E) y de control (C)
Figura 5: error típico
La estimación del efecto global se realiza como la suma ponderada de los
efectos individuales [Borenstein, M.; et al; 2007] [Hedges, L.; Olkin, I.; 1985].
Donde cada estudio es ponderado en función de su tamaño y la inversa de la
varianza, de esta forma los estudios que incluyan mayor cantidad de sujetos
experimentales y posean una menor varianza recibirán una mayor ponderación, por
considerar que sus resultados son más fiables, que los estudios más pequeños. La
función de estimación general es la siguiente:
dw  w1 * d1  .........  wk * dk
dw es el efecto global
w1 … wk son los pesos de lose
studios individuales
d1…..dk
son
los
efectos
individuales de cada estudio
Figura 6: estimación del efecto global
2.2 Response Ratio Paramétrico:
Para estimar el Response Ratio de un estudio particular, como se mencionó
anteriormente, se debe dividir la media del tratamiento Experimental por la media
del tratamiento de Control [Hedges, L.; et al; 1999] como se muestra a continuación:
YE
RR  C
Y
RR es el Response Ratio
Y‘s son las medias de los tratamientos experimental
y de control
Figura 7: estimación del tamaño de efecto
Si bien, realizar en forma directa el cociente de ambas medias permite
obtener un índice de mejora para un estudio en particular, para que la combinación
de un conjunto de estudios sea más precisa se le incorporó, a la misma, el logaritmo
natural [Hedges, L.; et al; 1999] [Miguez, E. & Bollero, G; 2005]. Esto permite
linealizar los resultados (mientras que el RR es afectado más por los cambios en el
denominador que en el numerador, el Ln (RR), gracias a las propiedades de los
logaritmos, afecta de modo parejo al numerador y al denominador) y así normalizar
su distribución, convirtiéndolo en un método apropiado para estimaciones de
conjuntos de experimentos pequeños. La nueva función de estimación es la
siguiente:
L = Ln (RR)
Una vez estimado el ratio, podrá estimarse el intervalo de confianza del
mismo mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001] [Miguez,
E. & Bollero, G; 2005]:
l  Z / 2 v    l  Z / 2 v
L = Ln (RR)
Z es la cantidad de desvíos
estándar que separan, al nivel
de significancia dado, la media
del límite. En general se utiliza
1.96 (α = 0.05)
v es el error típico
Figura 8: estimación del intervalo de confianza
La función para estimar el error típico, mencionado en la función anterior, es
la siguiente [Hedges, L.; et al; 1999]:
v
S 2E
S 2C

n E Y 2 E n C Y 2C
V es el error típico
S2‘s
son la varianza de los grupos
experimental (E) y de control (C)
Y‘s
son las medias de los grupos
experimental (E) y de control (C)
n‘s son los números de sujetos de los
grupos experimental (E) y de control (C)
Figura 9: estimación del error típico
Una vez estimados el intervalo de confianza, se debe aplicar al mismo el antilogaritmo para obtener nuevamente el índice de relación.
La estimación del efecto global se realiza mediante la suma ponderada de los
efectos individuales [Johnson, D.; et al; 2001]. Donde, a semejanza de lo que sucede
con las diferencias medias ponderadas, cada estudio es ponderado en función de su
tamaño y la inversa de la varianza. A continuación se describe la función de
estimación:
k
L* 
*
 Wi Li
i 1
*
ik1Wi
L* es el efecto global
Li es el efecto individual
Wi es el factor de peso = 1/v
Figura 10: estimación del efecto global
Una vez estimado el Ratio Global, podrá estimarse el intervalo de confianza
del mismo mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001]
[Miguez, E. & Bollero, G; 2005]:
L * Z / 2 v    L *  Z / 2 v
L* es el efecto global
Z es la cantidad de desvíos
estándar que separan, al nivel
de significancia dado, la
media del límite. En general
se utiliza 1.96 (α = 0.05)
v es el error típico
(1/
1/ W ) )
i
Figura 11: estimación del intervalo de confianza global
Al igual que en el caso de la estimación del ratio individual, una vez
estimados el intervalo de confianza, se debe aplicar el anti-logaritmo a los resultados
para obtener nuevamente el índice de relación.
2.3 Response Ratio No Paramétrico:
La estimación del Response Ratio consiste en dividir la media del tratamiento
Experimental por la media del tratamiento de Control [Hedges, L.; et al; 1999] como
se muestra a continuación:
RR 
YE
YC
RR es el Response Ratio
Y‘s son la media de los grupos experimental (E) y
de control (C)
Figura 12: estimación del RR (tamaño de efecto)
Como se mencionó cuando se describió a la versión paramétrica de este
método, para mejorar la precisión de esta función (RR=YE/YC), se incorporó a la
misma el logaritmo natural [Hedges, L.; et al; 1999] [Miguez, E. & Bollero, G;
2005]. Esto permite linealizar los resultados (mientras que el RR es afectado más
por los cambios en el denominador que en el numerador, el Ln (RR) afecta de modo
parejo al numerador y el denominador) y, de esa forma, normalizar su distribución,
convirtiéndolo en un método apropiado para estimaciones de experimentos de
pequeño tamaño. La nueva función de estimación es la siguiente:
Li  Ln(RR )
Una vez estimado el tamaño de efecto, podrá estimarse el intervalo de
confianza mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001]
[Miguez, E. & Bollero, G; 2005]:
Li  Z / 2 v    Li  Z / 2 v
Li  Ln(RR)
Z es la cantidad de desvíos
estándar que separan, al nivel
de significancia dado, la media
del límite. En general se
utiliza 1.96 (α = 0.05)
V es el error típico
Figura 13: estimación del intervalo de confianza
Para estimar el error típico, esta versión del Response Ratio no requiere
conocer las varianzas, como lo hace la versión original. En su lugar hace una
estimación en base a la cantidad de sujetos y el response ratio, como se muestra a
continuación [Worn, B.; et al; 2007]:
v
nC  nE
Ln( RR 2 )

nE nC
2(nC  nE )
v es el error típico
n‘s son los números de sujetos de los
grupos experimental (E) y de control
(C)
RR es el Response Ratio
Figura 14: estimación del error típico
Una vez estimados el intervalo de confianza, se debe aplicar el anti-logaritmo
a los resultados para obtener nuevamente el índice de relación. Es importante
destacar que esta situación traer aparejado que el nuevo intervalo de confianza no
sea simétrico.
La estimación del efecto global se realiza mediante el promedio ponderado de
los efectos individuales. Aquí cada estudio es ponderado en función de su tamaño
(se debe a que no se conocen las varianzas reales). De esta forma, los estudios que
incluyan mayor cantidad de sujetos experimentales recibirán una mayor ponderación
por considerar que sus resultados son más fiables, o tienen menor posibilidad de
incurrir en un error, que los resultados obtenidos en los estudios pequeños. A
continuación se describe la función de estimación:
k
L* 
*
 Wi Li
i 1
*
ik1Wi
L* es el efecto global
Li es el efecto individual
Wi es el factor de peso = 1/v
Figura 15: estimación del efecto global
Una vez estimado el tamaño de efecto, podrá estimarse el intervalo de
confianza mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001]
[Miguez, E. & Bollero, G; 2005]:
L * Z / 2 v    L *  Z / 2 v
L* es el efecto global
Z es la cantidad de desvíos
estándar que separan, al nivel
de significancia dado, la
media del límite. En general
se utiliza 1.96 (α = 0.05)
v es el error típico
(1/
1/ W ) )
i
Figura 16: estimación del intervalo de confianza global
Al igual que en el caso de la estimación del efecto individual, una vez
estimados el intervalo de confianza, se debe aplicar el anti-logaritmo a los resultados
para obtener nuevamente el índice de relación.
2.4 Vote Counting:
El Vote counting es un método que requiere muy poca información para
poder ser aplicado, básicamente conocer si existe o no diferencia entre las medias de
los tratamientos y la cantidad de sujetos experimentales utilizados en el estudio
experimental. Si bien existen varias versiones de esta técnica, en este apartado se
describirá la versión desarrollada por [Hedges, L.; Olkin, I.; 1985]. Esta versión
permite estimar el tamaño de efecto partiendo del signo de las diferencias de las
medias y la cantidad de sujetos experimentales, los cuales se combinan mediante la
aplicación de la función de verosimilitud.
Esta función que permite establecer, en base al signo de la diferencia de
medias y la cantidad de sujetos, cual es el valor de efecto que tiene mayor
probabilidad de ocurrencia. A continuación se describe dicha función [Hedges, L.;
Olkin, I.; 1985]:
 


L(δ|X1,….Xn) es la

 X i ln 1    ñ  
 probabilidad del
L( | X 1 ,....., X i )   

i 1 
1  X i ln   ñ 
 efecto
k

δ es el tamaño de
efecto a testear
Xi es el valor del
voto de cada
estudio
ñ = (nE+nC)
(nE*nC)
/
 es la probabilidad
obtenida de la
distribución normal
Figura 17: estimación del efecto global
Una vez establecido el efecto de mayor probabilidad se podrá determinar el
intervalo de confianza para el mismo, el cual en general es más amplio que el
estimado mediante WMD. La función para estimar el intervalo de confianza es la
siguiente [Hedges, L.; Olkin, I.; 1985]:
  Z / 2 v( )      Z / 2 v( )
δ es el tamaño de efecto de
mayor probabilidad
Z es la cantidad de desvíos
estándar que separan, al
nivel de significancia dado,
la media del límite. En
general se utiliza 1.96 (α =
0.05)
v(δ) es el error típico
Figura 18: estimación del intervalo de confianza
Donde el error típico (v(δ)) se estima como se muestra en la siguiente función
[Hedges, L.; Olkin, I.; 1985]:
k
v( )  {
i 1
1
[ Di1 ]2
}
pi (1  pi )
k es el número de experimentos
pi  1   ( ñi  )
Di1 
ñi (  12 ñi 2 )
e
2
Figura 19: estimación del error típico
3 Descripción del problema
Si bien existen pruebas que muestran la potencia de las técnicas de
agregación en contextos experimentales maduros (por ejemplo medicina), no se
conoce como es el comportamiento de las mismas en contextos experimentales poco
maduros en los cuales la cantidad de estudios experimentales a agregar y la cantidad
de sujetos experimentales en dichos estudios son escasos, como sucede actualmente
en Ingeniería del Software.
4 Solución propuesta
Para determinar la precisión de las distintas técnicas de agregación se llevará
a delante un proceso de simulación basado en la técnica de Monte Carlo [Knuth, D.;
1997].
El objetivo del proceso de simulación es evaluar el desempeño de cuatro
métodos de agregación (Diferencia Medias Ponderadas, Conteo de Votos Estadístico
y Response Ratio paramétrico y no paramétrico) en diferentes contextos
experimentales (variando las varianzas, los tamaños de efectos y la cantidad de
experimentos y sujetos experimentales por experimento) mediante la utilización de
la técnica de Montecarlo como estrategia para la generación de valores aleatorios,
con el objeto de determinar en qué condiciones los métodos de agregación son
fiables y tienen buena potencia estadística, fijando las mismas en 95% (error de tipo
I = 0,05) y 80% (error de tipo II = 0,2) respectivamente.
La simulación de Monte Carlo es una técnica que combina conceptos
estadísticos (muestreo aleatorio) con la capacidad que tienen los ordenadores para
generar números pseudo-aleatorios siguiendo una distribución de probabilidad
normal. En este contexto, se utilizó esta técnica para simular los valores que
hubieran generado los distintos sujetos en el uso de los tratamientos experimental y
de control, en base a los cuales se estimar la media y la varianza de cada
experimento.
El primer paso para desarrollar el proceso de simulación es definir los valores
poblacionales de los cuales se desprenderán los valores de la muestra que se va a
simular. Los tamaño de efecto (Te) poblacional a analizar son bajo (0,2), medio (0,5)
y alto (0,8), mas la incorporación del tamaño de efectos muy alto (1,2). La media
poblacional del tratamiento de control (Uc) es fijada en 100 y los desvíos estándar
son fijado en los siguientes porcentajes respecto de la media del tratamiento de
control: 10% al cual llamaremos varianza (V) baja; 40% al cual llamaremos varianza
media; y 70% al cual llamaremos varianza alta. Por su parte la media poblacional del
tratamiento experimental se estimará de la siguiente forma Ue=100+Te*V y el ratio
poblacional que se utilizará para validar los resultados que generen el RR
paramétrico y no paramétrico será estimado: RR = Ue/Uc.
Por otra parte, la cantidad de experimentos a agregar en cada proceso de
agregación irá desde 2 a 10 incrementándose de dos en dos, por considerar que el
contexto experimental de la IS no aporta hoy día muchos experimentos
potencialmente agregables en un proceso de agregación. Conteniendo cada uno de
los experimentos cantidades similares de sujetos experimentales fijadas en :4, 8, 10,
14 y 20 por considerar que los estudios hechos en IS hoy día contienen pocos sujetos
experimentales y por ser este es uno de los contextos menos explorados en los
trabajos previos.
Por último, para cada combinación de valores de las variables (tamaño de
efecto, desvío estándar, la cantidad de experimentos y cantidad de sujetos
experimentales por experimento) se construirán 1.000 simulaciones.
5 Resultados obtenidos
A continuación, las tabla 1 y 2, presenta un resumen de los resultados
obtenidos. Las tablas vinculadas a la fiabilidad indican el porcentaje de veces (debe
ser superior al 95%) que el intervalo de confianza estimado (intervalo del 95%)
contuvo el valor del tamaño de efecto poblacional, mientras que las tablas
vinculadas a la potencia estadística indican el porcentaje de veces (que debe ser
superior al 80%) que el intervalo de confianza no contuvo el valor 0 para los
métodos DMP y VC y el valor 1 para los métodos RR paramétricos y no
paramétricos. Para facilitar la compresión de las mismas, se resaltaron las celdas en
las cuales los porcentajes estimados superaban al valor mínimo fijado, 95% para la
fiabilidad y 80% para la potencia estadística.
5.1 Fiabilidad
A continuación, en la tabla 1, se presenta un cuadro comparativo general del
desempeño de los métodos analizados. Para facilitar la comprensión de los aspectos
aquí volcados se desarrollo la siguiente codificación: + significa que el método se
comporto de forma fiable y - significa que el método no se comporto de forma
fiable.
Varianza
Efecto
Sujetos por
Experimen
tos
Alta,
media y
baja
Bajo
Medio
Alto
Muy
Alto
y
Cantidad de
Sujetos
totales
DMP
VC
RRP
RRNP
<8
+
-
-
+
>=8
+
-
+
+
<8
+
-
-
+
>=8
< 80
+
-
+
+
>=8
>= 80
+
+
+
+
<8
-
-
-
+
>=8
-
-
+
+
Tabla 1: comparación de la fiabilidad de los métodos de agregación
Como se observa en la tabla 1 los métodos RR han sido fiables a lo largo de
toda la prueba, por su parte la DMP solo mostro fiabilidad en contextos de tamaños
de efecto medio y bajo y el VC solo tuvo fiabilidad en contextos de efectos medios.
Mostrando a la varianza como un factor que no afecta muy poco a la fiabilidad de
los métodos.
5.2 Potencia Estadística
A continuación, en la tabla 2, se presenta un cuadro comparativo general del
desempeño de los métodos analizados. Para facilitar la comprensión de los aspectos
aquí volcados se desarrollo la siguiente codificación: + significa que el método
posee potencia estadística y - significa que el método no posee potencia estadística.
Varianza
Efecto
Cantidad de sujetos totales
DMP
VC
RRP
RRNP
Alta
Bajo
< 160
-
-
-
-
>= 160
-
+
-
-
< 40
-
-
-
-
>= 40 y < 80
-
+
-
-
>= 80 y < 120
+
+
-
-
>= 120 y < 160
+
+
+
-
>= 160
+
+
+
+
< 20
-
-
-
-
>= 20 y < 48
-
+
-
-
>= 48 y < 80
+
+
-
-
Medio
Alto
Varianza
Efecto
Muy
alto
Media
Bajo
Medio
Alto
Muy
alto
baja
Bajo
Medio
Alto
Muy
alto
Cantidad de sujetos totales
DMP
VC
RRP
RRNP
>= 80
+
+
+
+
< 32
-
+
-
-
>= 32 y < 48
+
+
+
-
>= 48
+
+
+
+
< 160
-
-
-
-
>= 160
-
+
-
-
< 48
-
-
-
-
>= 48 y < 112
-
+
-
-
>= 112 y < 140
+
+
-
-
>= 140
+
+
+
-
< 20
-
-
-
-
>= 20 y < 48
-
+
-
-
>= 48 y < 100
+
+
+
-
>= 100
+
+
+
+
< 32
-
+
-
-
>= 32 y < 80
+
+
+
-
>= 80
+
+
+
+
< 160
-
-
-
-
>= 160
-
+
-
-
< 32
-
-
-
-
>= 32 y < 48
-
+
-
-
>= 48 y < 112
-
+
+
-
>= 112
+
+
+
-
< 16
-
-
-
-
>= 16 y < 48
-
+
-
-
>= 48 y < 64
-
+
+
-
>= 64
+
+
+
-
< 16
-
+
-
-
>= 16 y < 32
-
+
+
-
>= 32
+
+
+
-
Tabla 2: comparación de la potencia estadística de los métodos de agregación
En la tabla 2 se observa que para la potencia estadística la varianza afecta
fuertemente al RR no paramétricos, método que en general no aporta resultados
significativos, por otra parte, también se ve que, en general, la combinación de
cantidad de sujetos experimentales y el tamaño de efecto afectan directamente a los
métodos para determinar si las diferencias son significativas o no.
5.3 Discusión
Un aspecto llamativo identificado durante el análisis de los resultados fue el
hecho de la cantidad de estudios y la cantidad de sujetos experimentales por estudio
mostraron tener un comportamiento relacionado. Esto se ve claramente cuando se
analiza la potencia estadística, donde se requiere que el producto de la cantidad de
experimentos y la cantidad de sujetos experimentales por experimento supere un
mínimo para que el método alcance el mínimo de potencia requerido. Este hecho
indica que un paliativo a la baja cantidad de experimentos es contar con
experimentos de gran tamaño. Esto se debe a que el objetivo de estos métodos es
obtener resultados abalados con alto nivel de evidencia empírica, la cual pude
provenir de pocos estudios de gran tamaños o muchos estudios pequeños.
Respecto del desempeño de cada uno de los métodos podemos decir que:
 Es fiable utilizar el método DMP en contextos experimentales
donde los tamaños de efecto poblacionales son bajos o medios, siendo su
condición óptima de aplicación cuando los efectos son medios y el conjunto
de experimentos a agregar superen a los 112 sujetos experimentales.
Cuando los efectos poblacionales son altos o muy altos, el método tiende a
perder fiabilidad sobre todo cuando se incrementa la cantidad de
experimentos y la cantidad de sujetos experimentales. Este hecho, que a
priori contradice el sentido común, se produce por una reducción en el
tamaño del intervalo de confianza y por una subestimación del tamaño de
efecto por diferencias en los valores del desvío estándar, pero se compensa,
en parte, con el aumento de la potencia estadística, lo cual permite a los
investigadores asegurar que uno de los tratamientos es mejor que el otro a
pesar de que el tamaño de efecto indicado no sea exacto.
 Es aconsejable utilizar el método RR paramétrico, siempre y
cuando los estudios a agregar posean más de 4 sujetos experimentales. El
método mostró ser robusto ante los cambios en la varianza, tamaños de
efecto y cantidad de experimentos a agregar (no pierde fiabilidad como
sucede con DMP). Su condición óptima de aplicación varía en función del
tamaño de efecto poblacional y la cantidad de sujetos experimentales que
los estudios totalicen. Pudiéndose observar el siguiente patrón de
comportamiento: para efectos muy altos se requieren por lo menos 80
sujetos experimentales, para efectos altos se requieren como mínimo 100
sujetos experimentales y para un efecto medio se requieren como mínimo
140 sujetos experimentales, para que el método posea fiabilidad y potencia
estadística.
 Es fiable utilizar el método VC, solo cuando el tamaño de efecto
es medio se cuenta con experimentos que totalicen más de 80 sujetos
experimentales. Su falta de fiabilidad es compensada en parte con su alta
potencia, pero se debe tener mucho cuidado con el uso del mismo sobre
todo en contextos experimentales donde el tamaño de efecto poblacional es
bajo. En contextos de tamaños de efectos altos, la perdida de fiabilidad es
compensada en parte con la alta potencia estadística.
 El método RR no paramétrico ha sido el método más fiable de
todos los analizados. Su mayor problema está dado por la baja potencia
estadística que se acentúa en contextos donde la población tiene baja
varianza. Esto se debe a que en contexto de baja varianza no se requiere
que la diferencia entre las medias sea excesiva para que el efecto sea alto.
Su condición óptima de aplicación varía en función de la varianza
poblacional, el tamaño de efecto poblacional y la cantidad de sujetos
experimentales que los estudios totalicen. Pudiéndose observar el siguiente
patrón de comportamiento: para varianzas poblacionales medias y tamaños
de efecto poblacionales altos o muy altos se requieren como mínimo 100
sujetos experimentales, para varianzas poblacionales altas con tamaños de
efecto poblacionales muy altos se requieren como mínimo 48 sujetos
experimentales, para efectos poblacionales medios se requieren como
mínimo 80 sujetos experimentales y para efectos poblacionales altos se
requieren como mínimo 16 sujetos experimentales, para que el método
posea fiabilidad y potencia estadística.
6 Conclusiones
Dentro de los parámetros normales que hoy presenta la IS el método DMP ha
mostrado comportarse de forma confiable, por lo que no es necesario utilizar el
método RR paramétrico como método alternativo al mismo. Por otra parte, en los
casos en que los reportes experimentales no sean completos, el método RR no
paramétrico mostró un comportamiento mucho más fiables que el VC que, en
general, no dio buenos resultados.
No obstante esto, si se trabaja en un entorno donde los tamaños de efecto son
altos, el contexto cambia drásticamente, ya que aquí el método DMP deja de ser
fiable, lo cual implica que los tamaños de efectos estimados pueden no ser correctos,
por tal motivo el método RR paramétrico, que si ha mostrado ser fiable cuando los
tamaños de efecto son altos, se convierte en el método más recomendable cuando los
reportes son completos, mientras que el método RR no paramétrico sigue siendo el
mejor método cuando los reportes no son completos.
Referencias:
 Borenstein, M.; Hedges, L; Rothstein, H.; 2007; Meta-Analysis Fixed Effect
vs. random effect; WWW.Meta-Analysis.com
 Cochrane; 2008; Curso Avanzado de Revisiones Sistemáticas;
www.cochrane.es/?q=es/node/198
 Davis, A.; Dieste o.; Hickey, A.; Juristo, N.; Moreno, A.; 2006; Effectiveness
of Requirements Elicitation Techniques: Empirical Results Derived from a
Systematic Review; 14th IEEE International Requirements Engineering Conference
(RE'06) pp. 179-188
 Gambara, H.; botella, J.; gempp, R.; 2002; Empty time and full time. A metaanalysis of age-related changes perceiving time; © 2002 by Fundación Infancia y
Aprendizaje, ISSN: 0210-9395
 García, R.; 2004; Inferencia Estadística y Diseño de Experimentos; eudeba;
Buenos Aires Argentina.
 Gurevitch, J. and Hedges, L.; 2001; Meta-analysis: Combining results of
independent experiments. Design and Analysis of Ecological Experiments (eds S.M.
Scheiner and J. Gurevitch), pp. 347–369. Oxford University Press, Oxford.
 Hedges L.; Gurevitch J.: Curtis P.; 1999; Meta Analysis
http://www.bio.mq.edu.au/pgrad/SIBS/Meta_analysis.PPT
 Hedges, L.; Olkin, I.; 1985; Statistical methods for meta-analysis. Academic
Press.
 Johnson, D.; Curtis, P.; 2001; Effects of forest management on soil C and N
storage: meta analysis; Forest Ecology and Management 140 (2001) 227±238
 Knuth, D.; 1997; The Art of Computer Programming; Addison-Wesley, vol
2, 1997
 Lajeunesse, M & Forbes, M.; 2003; Variable reporting and quantitative
reviews: a comparison of three meta-analytical techniques. Ecology Letters, 6: 448454.
 Miguez, E. & Bollero, G; 2005; Review of Corn Yield Response under
winter cover cropping systems using Meta-Analytic Methods; Crop Science Society
of America
 Worn, B.; Barbier, E.; Beaumont, N.; Duffy, J.; Folke, C; Halpern, B.;
Jackson, J.; Lotze, H.; Micheli, F.; Palumbi, S.; Sala, E.; Selkoe, K.; Stachowics, J.;
Watson, R; 2007; Supporting Online Material: Impacts of biodiversity loss on ocean
ecosystem services.