Download La estadística como una herramienta de apoyo y no como una

Document related concepts
no text concepts found
Transcript
LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN
monográfico metodología en la investigación en urología
595
4
Arch. Esp. Urol., 56, 6 (595-604), 2003
La estadística como una herramienta de apoyo y no como una herramienta de
decisión.
CRISTINA FERNÁNDEZ PÉREZ1, LAURA BARREALES TOLOSA1, ELISABETH COLL TORRES1 Y
JUAN TEJADA CAZORLA2.
1
Servicio de Medicina Preventiva. Hospital Clínico San Carlos. Madrid.
Departamento de Estadística e Investigación Operativa. Facultad de Matemáticas. UCM. Madrid. España.
2
Resumen.- El uso de la estadística en los artículos
médicos se ha incrementado mucho en las últimas décadas, utilizándose, sin embargo, en muchas ocasiones, de
un modo irreflexivo. La estadística es, hoy por hoy, la
única herramienta que permite al investigador médico
obtener resultados y beneficios en aquellos estudios cuyas
relaciones no puedan ser interpretadas desde una perspectiva determinista, puesto que es una rama de las
matemáticas aplicadas cuya finalidad es manejar y cuantificar la incertidumbre de la información disponible,
para apoyar la toma de decisiones. El objetivo de este
artículo es repasar los conceptos estadísticos básicos que
todo médico debe conocer, para poder realizar y/o detectar una investigación de calidad, así como subrayar los
errores que con más frecuencia se cometen al interpretar
los resultados estadísticos. Se abordan conceptos genera-
Correspondencia
Cristina Fernández Pérez
Servicio de Medicina Preventiva
Planta 4ª norte
Hospital Clínico San Carlos
C/ Profesor Martín Lagos s/n
28040 Madrid.
España.
e-mail: [email protected]
les acerca de la síntesis de datos y la diferenciación de los
distintos tipos de medidas, el contraste de hipótesis y los
errores que pueden cometerse al realizarlo, el verdadero
significado del valor "p", la distinción entre un resultado
estadísticamente significativo y clínicamente relevante,
la trascendencia del intervalo de confianza como medida
de significación y de relevancia clínica, la confusión que
se genera entre dos conceptos distintos como son la
desviación estándar y el error estándar y los criterios que
rigen la elección de la prueba estadística adecuada al
evaluar la relación entre variables.
Palabras clave: Estadística/bioestadística. Significación estadística. Artículo científico.
Summary.- The use of statistics in medical articles has
risen a lot during the last decades, however it is used in a
thoughtless manner in many instances. Today, Statistics is
the only tool that allows the medical researcher to obtain
results and benefits from those studies the relationships of
which can not be interpreted from a determinist perspective,
because it is a branch of applied mathematics objective of
which is to manage and quantify the uncertainty of the
available information, to support decision taking.
The objective of this article is to review the basic
statistical concepts that every doctor should know to be
able to perform and/or detect quality research, as well as
to underline the most frequent errors committed when
interpreting statistical results. We review the general
concepts about data synthesis and differentiation of the
different types of measurements, hypothesis testing and
errors that can be committed doing it, the real meaning of
the "p" value, differentiation between statistically
significant and clinically relevant results, the importance
596
C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS.
of confidence intervals as a measure of significance and
clinical relevance, the confusion generated between two
concepts that are different as standard deviation and
standard error, and the criteria that govern the selection
of the adequate statistical tests to evaluate relationships
between variables.
Keywords: Statistics/Biostatistics. Statistical
significance. Scientific article.
INTRODUCCIÓN
La práctica clínica se apoya, cada vez con más
frecuencia, en el conocimiento científico de la realidad
circundante. En las ciencias biomédicas es la estadística
la herramienta que permite la aproximación del investigador a esa realidad. Es la única herramienta que, hoy
por hoy, permite dar luz y obtener resultados y beneficios en aquellos estudios cuyos movimientos y relaciones, por su variabilidad intrínseca, no pueden ser abordados desde la perspectiva de las leyes deterministas; es
la ciencia que estudia el correcto uso de la información,
permitiendo establecer una guía de actuación en situaciones prácticas que entrañan incertidumbre y facilitando la toma de decisiones (1).
La estadística puede clasificarse en dos grandes
tipos: descriptiva e inferencial. La primera de ellas se
encarga de recoger, organizar, clasificar, resumir y
presentar los datos, cumpliendo una función informativa y descriptiva de la que no pueden extraerse conclusiones. El segundo tipo es la estadística inferencial, que
permite extraer conclusiones de las muestras que son
generalizables, es decir, que pueden hacerse extensibles al total de la población. La estadística inferencial se
basa en el cálculo de probabilidades y efectúa estimaciones, decisiones, predicciones y otras generalizaciones. Se basa fundamentalmente en la estimación de
parámetros y en el contraste de hipótesis. La estimación
de parámetros consiste en estimar el valor de una
determinada variable en la población (parámetro) utilizando un menor número de observaciones, es decir, una
muestra representativa de esa población (2) (ejemplo:
valorar si la media de edad de los niños de varios
colegios de Madrid se corresponde con la media de edad
de los niños de la Comunidad de Madrid).
Es una herramienta fundamental de la investigación
sanitaria, necesaria para poder manejar la incertidumbre de los datos clínicos y para tratar la ingente cantidad
de información existente, información, por otra parte,
cada vez más cuantificada. Sin embargo, los investigadores médicos recurren a la estadística de forma utilitarista, convirtiéndola en un instrumento y utilizándola de
forma automática e incluso irreflexiva. Muchos investigadores la consideran el paso final del estudio, es
decir, un simple proceso matemático que permite alcanzar el objetivo, cometiendo un craso error al eludir el
razonamiento que reside en el fondo de un análisis
estadístico (1, 3, 4).
Los conceptos estadísticos forman parte del método
científico y deben planearse desde el comienzo del
estudio y mantenerse hasta el final. Su adecuada utilización permitirá evaluar y cuantificar la variabilidad
debida al azar, pudiendo incluso reducirla, con objeto
de tener la máxima garantía de alcanzar el objetivo
deseado. Pero hay una condición sine qua non para que
la estadística sea de utilidad: un buen análisis estadístico
comienza con un buen diseño del estudio y una correcta
ejecución del mismo, partiendo inicialmente de una
pregunta de investigación coherente y adecuada. Un
estudio bien diseñado y pobremente analizado puede
solucionarse a través de un segundo análisis estadístico
correcto, mientras que un estudio mal diseñado está
destinado al fracaso, aunque el análisis sea estadísticamente complejo.
El mal uso de la estadística es, desafortunadamente,
más frecuente de lo que sería deseable. El objetivo de
esta revisión es repasar los conceptos estadísticos básicos que todo médico debe conocer si desea realizar y/o
detectar una investigación de calidad, así como subrayar los errores metodológicos más frecuentes.
SÍNTESIS DE DATOS: CONCEPTOS
GENERALES (2, 5)
En todo estudio clínico, previamente a la realización
de un contraste de hipótesis, debe realizarse un análisis
descriptivo de las variables utilizadas, diferenciando
entre variables cuantitativas y cualitativas.
Las variables cuantitativas (aquellas cuyos valores
pueden ser medidos, como por ejemplo la creatinina, el
peso o la dosis de un fármaco), deben resumirse con
LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN
597
TABLA I
PRINCIPALES MEDIDAS DE SÍNTESIS DE DATOS: EJEMPLOS Y CARACTERÍSTICAS GENERALES
Medida (ejemplo)
Media (x)
n=5
3 2 6 3 5
x = 3+2+6+3+5 / 5= 3,8
Mediana
n=5
2 3 3 5 6
Mediana es el valor en
3ª posición = 3
Moda
n=5
3 2 6 3 5
El valor más frecuente
es el 3
Cuartiles
n=5
2 3 3 5 6
Variancia
n=5
3 2 6 3 5
2
s = Σ(3-3,8...)2 / 4= 2,7
Desviación estándar
√s2 = s = √2,7 = 1,64
Rango
n=5
2 3 3 5 6
Rango = 6 – 2 = 4
Rango intercuartílico
Q1 = 2,5 Q3 = 5,5
Q3 – Q1 = 5,5 - 2,5 = 3
"En un rango de 3
unidades se encuentra
el 50% de la muestra"
Coeficiente de variación
CV =(1,64 / 3,8)100= 43%
Características generales
Centro de gravedad de la distribución
Se afecta por valores extremos
No debe usarse cuando la variable no sigue una distribución normal.
El valor que reparte los valores de la distribución, ordenados de menor a
mayor, en dos mitades exactas
No se afecta por valores extremos
Indicada para variables de distribución "no normal"
El valor más frecuente de la distribución
No se afecta por valores extremos
Indicada cuando la muestra es grande y la variable tiene poca amplitud
Puede haber una, ninguna o varias modas
Tres valores que dividen la distribución en cuatro partes iguales
Qi = i (n + 1) / 4 Ej: Q1 = 1(5+1) / 4= valor que ocupa la posición 1,5 = 2,5
Media de los cuadrados de las desviaciones a la media
Σ(Xi - X)2
__________
2
Difícil interpretación por dar unidades al cuadrado
s=
n -1
Raíz cuadrada positiva de la variancia
Medida de dispersión indicada cuando la variable es normal: (DE)
Diferencia entre el valor máximo y el mínimo
Desventaja: no tiene en cuenta cómo se distribuyen los datos y aumenta
si se incrementa la muestra
Diferencia entre el tercer y el primer cuartil
Define el rango de unidades en que se encuentra el 50% central de las
observaciones (datos ordenados de menor a mayor)
Medida de dispersión indicada cuando la variable no sigue una
distribución normal: mediana (RIQ)
Medida de dispersión relativa que permite comparar dos o más grupos
Se expresa como porcentaje CV = (s /x) x 100
Permite comparar diferentes unidades de medida (Ej: altura vs peso)
598
C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS.
medidas de posición (media, mediana, moda, cuantiles)
y con medidas de dispersión (variancia, desviación
estándar (DE), rango, rango intercuartílico). Las medidas de posición, indican cuál es la situación de las
observaciones de la muestra con respecto a ellas; pueden ser de tendencia central (media, mediana y moda)
o bien cuantiles. Los cuantiles son valores que indican
cuál es la posición relativa de una observación con
respecto al resto de la muestra, existiendo cuartiles,
deciles y percentiles. Los cuartiles son tres valores que
dividen la distribución en cuatro partes iguales, abarcando el 25% de las observaciones cada una. Las
segundas medidas describen la dispersión de los datos
en torno a, por ejemplo, la media. Un error frecuente en
la literatura es escribir media ±DE, dotando a la desviación estándar de un falso significado de intervalo (2, 4).
La representación correcta es media (DE). Es fundamental también definir las unidades de la variable y el
tamaño muestral del estudio. Asimismo interesa, cuando se describe una variable cuantitativa, conocer si ésta
sigue una distribución normal o no, con objeto de
escoger la prueba estadística más adecuada para utilizar
en el contraste de hipótesis, circunstancia que se analiza
más adelante. En la Tabla I se definen las medidas de
posición y dispersión de las variables cuantitativas con
sus principales características.
Ejemplo: en un estudio llevado a cabo en Madrid
acerca de la sintomatología de la hiperplasia benigna de
próstata (HBP), en una muestra de 1.804 hombres de 40
años o más, la media de edad fue 56,45 años (DE 11,32)
(6).
Las variables cualitativas (indican cualidad y sus
valores no pueden medirse, como por ejemplo sexo del
sujeto, grupo sanguíneo o tipo de incontinencia urinaria), se resumen con su distribución de frecuencia, ya
sea absoluta (en una muestra de 500 hombres mayores
de 50 años 250 tienen HBP) o relativa (en una muestra
de 500 hombres mayores de 50 años el 50% tienen
HBP).
CONTRASTE DE HIPÓTESIS (2, 5, 7, 8)
Cuando el investigador se enfrenta a una idea está
planteando un contraste de hipótesis. Se plantea una
hipótesis nula (Ho) y una alternativa (HA). La primera
La verdad
El alcohol aumenta la
frecuencia de la
disfunción eréctil
Lo que se obtiene
El alcohol aumenta la
frecuencia de la
disfunción eréctil
El alcohol no aumenta
la frecuencia de la
disfunción eréctil
El alcohol no aumenta
la frecuencia de la
disfunción eréctil
conclusión correcta
conclusión incorrecta
(error tipo I)
Poder = 1-β
Valor p
conclusión incorrecta
(error tipo II)
conclusión correcta
riesgo α
riesgo β
*
Fig. 1: Posibles resultados y errores en un contraste de hipótesis*.
Modificada de Plasencia A, Porta Serra M. La calidad de la información clínica (II): significación estadística.
Med. Clin. (Barc.), 1988; 90: 122-126.
LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN
apoya la no diferencia (A≠B) y la segunda la diferencia
que se pretende detectar (A=B). Por lo tanto, un paso
esencial en toda investigación es la formulación de una
hipótesis que se intenta rechazar (hipótesis nula) mediante el uso de una prueba de significación estadística,
y la formulación de otra hipótesis que se acepta si se
rechaza la hipótesis nula (hipótesis alternativa). Este
test de hipótesis mostrará la fuerza de la evidencia en
contra de la hipótesis nula en términos de probabilidad.
En todo contraste de hipótesis se obtiene un valor "p" de
significación estadística (3).
Al realizar un contraste de hipótesis pueden acontecer cuatro situaciones diferentes, representadas en la
Figura 1. Pueden cometerse dos errores; afirmar que
hay diferencia cuando realmente no existe (ejemplo:
concluir que el estado civil se asocia con la calidad de
vida del paciente con HBP, cuando no existe ninguna
asociación entre ambas variables) y se puede cometer el
error de concluir que no hay diferencia cuando ésta
existe (ejemplo: concluir que el tamaño prostático no se
incrementa a medida que aumenta la edad, cuando
realmente sí existe esa relación). En el primer caso se
está cometiendo un error tipo I y su probabilidad es α.
En el segundo caso el error es el denominado error tipo
II y la probabilidad de cometerlo es β. Se asume por
convenio una probabilidad aceptable de error tipo I de
0,05 (5%), es decir, α es el valor "p", que nos informa
de la probabilidad de equivocarnos al decir que el
tratamiento A tiene efecto sobre la disfunción eréctil
cuando eso no es cierto (falso positivo), por lo tanto,
cuanto más pequeño sea el valor de α más probable es
que la diferencia encontrada coincida con la verdad
(resultado verdaderamente positivo). La "p", sin embargo, no nos informa acerca de la probabilidad de cometer
un error tipo II, es decir, de la probabilidad de decir que
el consumo de alcohol no tiene efecto sobre la disfunción
eréctil (falso negativo).
El objetivo de todo estudio es llegar a una conclusión
verdaderamente positiva o verdaderamente negativa y
la probabilidad de que la conclusión del estudio coincida con la verdad es igual a 1-β. Esta probabilidad se
denomina potencia o poder estadístico del estudio y es
la capacidad que tiene el estudio de encontrar diferencias cuando éstas existen. Tal y como se ha descrito para
el valor α, el valor para el riesgo β se establece con
frecuencia en el 20%, o lo que es igual, se considera
aceptable un poder estadístico del 80%, es decir, en 8
ocasiones de cada 10 se podrá detectar el efecto real, por
599
ejemplo, en 8 de cada 10 pacientes tratados con tiazidas
se podrá detectar un descenso del número de recurrencias
de urolitiasis.
Es fundamental en el diseño del estudio decidir
previamente el riesgo α y β que el investigador desea
asumir, y no recurrir de forma rutinaria a los establecidos como estándar (α de 0,05 y β de 0,20). La elección
de un valor para el riesgo α debe depender de la
magnitud de la evidencia que se requiere para rechazar
la hipótesis nula. Por ejemplo, si se está probando la
eficacia de un nuevo fármaco para tratar una enfermedad para la que no existe tratamiento eficaz, no conviene asumir un valor α muy pequeño, puesto que la
ausencia de una terapia médica actual eficaz puede
hacer que se obtengan resultados falsamente positivos.
Las consecuencias de tomar la decisión de asumir la
existencia de diferencias, es decir, de rechazar la Ho,
deben condicionar la elección del valor de α (ejemplo:
se valora la eficacia de un nuevo producto para el
tratamiento de la incontinencia de esfuerzo, y este
producto es muy similar al que se toma como referencia
en cuanto a efectos secundarios, coste, administración,
etc. Por lo tanto, se precisa un nivel de evidencia más
elevado, es decir, un valor α más bajo).
A pesar de la amplia aceptación en las publicaciones
científicas de esta metodología desde sus orígenes,
existe un gran debate respecto a su validez metodológica y, sobre todo, respecto a su aplicación rutinaria,
controversia que va calando, aunque de forma muy
lenta, en la comunidad investigadora frente a la inercia
de su aplicación como meras recetas para la toma de
decisiones (9).
INTERPRETACIÓN DE LA "p"
Uno de los errores más frecuentes en la literatura
médica es la interpretación del valor "p" como una
medida de efecto, es decir, una medida de la magnitud
de la asociación entre dos variables, como por ejemplo
entre un factor de riesgo y una enfermedad. El verdadero significado de "p" es la probabilidad de obtener un
desenlace por lo menos tan extremo como el que se
hubiera esperado si la hipótesis nula fuera cierta. Cuanto menor sea la "p" más fuerte será la evidencia en
contra de la hipótesis nula (10). Para ayudar al proceso
de decisión se establece, de manera arbitraria, el nivel
de evidencia por encima del cual se rechazará la hipó-
600
C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS.
Fig. 2: Interpretación gráfica
del valor p.
tesis nula, asumiendo como aceptable una probabilidad
de equivocarse del 5% (p ≤0,05). Por lo tanto, un valor
"p" <0,05 significa que la diferencia observada es poco
probable que sea debida al azar, es decir, "p" es la
probabilidad de equivocarse al afirmar que hay diferencias (por ejemplo, la urolitiasis es más frecuente en
fumadores), cuando realmente no las hay (la frecuencia
de urolitiasis en fumadores no difiere de la de los no
fumadores), es decir, p es equivalente a la probabilidad
asociada al error tipo I (α).
Al presentar los resultados de un estudio es importante no quedar deslumbrado por la significación estadística, puesto que el tan manido valor p depende, entre
otras cosas, del tamaño muestral (será tanto menor, más
significativa, cuanto mayor sea el número de sujetos de
estudio), y de la magnitud de la diferencia que se estudia
(10). De esta forma, y atendiendo a la importancia del
tamaño muestral, una muestra lo suficientemente grande permite ver cualquier diferencia, aunque ésta no sea
clínicamente relevante. Por el contrario, un tamaño de
muestra demasiado pequeño puede no detectar diferencias que realmente existen, al verse excesivamente
mermada la potencia del estudio. Por lo tanto, repetir el
estudio incrementando el número de sujetos puede
resolver el problema de la significación. Si el razonamiento del que se parte es la diferencia a detectar, se
aprecia que una diferencia muy pequeña necesita una
muestra grande para ser observada, mientras que una
diferencia muy grande puede ser detectada con pocos
sujetos.
Por lo tanto, una p significativa no garantiza un
hallazgo clínicamente relevante ni mide la fuerza de la
asociación (1, 3, 11). Por este motivo deben reflejarse
únicamente aquellos resultados que puedan ser interesantes desde un punto de vista clínico o científico,
incluso si la "p" no es del todo satisfactoria (por ejemplo, una p=0,06 puede ser más trascendente en la
evaluación de la asociación tabaco/cáncer de próstata
que una p=0,03 al estudiar la relación color de pelo/
cáncer de próstata). La Figura 2 representa gráficamen-
LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN
te el significado de "p", reflejando como, a medida que
aumenta el valor p, la probabilidad de encontrar diferencias que no existen (bolas negras) es mayor.
En opinión de muchos autores la omnipresencia de
los niveles de significación en la literatura clínica es
totalmente desafortunada, dado que la práctica clínica
se basará más en la magnitud de la diferencia observada
que en el nivel de probabilidad, por lo que se aconseja
el uso de los intervalos de confianza.
INTERVALO DE CONFIANZA
A pesar de que la inercia intelectual conduce a la
aceptación universal del uso de pruebas de hipótesis
para decidir todo o nada, hay otras alternativas que no
se quedan en la mera receta, tal es el caso de los
intervalos de confianza. En realidad se sustenta sobre la
misma teoría, pero el enfoque es mucho más expresivo,
proporcionando información y no sólo documentando
una mera decisión, como es el caso del contraste de
hipótesis (10). El intervalo de confianza (IC) constituye, pues, una manera más informativa de presentar la
significación estadística del contraste de hipótesis que
el valor "p". El IC nos da el margen de valores en los que
es previsible esperar que se encuentre la verdadera
diferencia buscada para una probabilidad dada, habitualmente del 95%. Los límites inferior y superior se
corresponden, respectivamente, con la mínima y máxima diferencia o asociación compatible con los datos, y
dan una idea de la precisión con que se ha efectuado la
estimación. El valor de significación estadística, como
se ha explicado anteriormente, no mide la magnitud o
relevancia de la diferencia o asociación entre los grupos, pudiendo obtener valores muy pequeños de p
estudiando un número elevado de sujetos. Por el contrario, el IC, además de informar si los resultados son
estadísticamente significativos, tiene la ventaja de expresar los resultados en las unidades en que se han
realizado las mediciones, lo que facilita su interpretación en términos de magnitud y relevancia clínica (11,
12). Los IC pueden calcularse para distintos niveles de
significación estadística, aunque los más frecuentes son
90, 95 y 99%.
Cuando se utiliza como medida del efecto la diferencia de eficacia entre las intervenciones, si el IC incluye
elvalor0seconcluyequeelresultadoesestadísticamente
no significativo, puesto que el 0 es la no diferencia, es
601
decir, es el resultado compatible con la hipótesis nula.
Cuando el interés no se centra en una diferencia absoluta sino en una medida relativa de asociación, por
ejemplo el riesgo relativo (RR) u el odds ratio (OR), el
IC que indica la no significación estadística es aquel que
incluye el 1, puesto que el 1 es el resultado compatible
con la hipótesis nula de no asociación (12).
Además de informarnos de la significación, el IC
permite valorar la relevancia clínica de aquello que se
evalúa. Al diseñar un estudio los investigadores deben
fijar de antemano la diferencia que se considera
clínicamente relevante y calcular, de acuerdo con ella,
el tamaño muestral. La interpretación del resultado y de
su IC debe tener en cuenta esta magnitud. Se ha de
valorar si el IC incluye o excluye el valor de la mínima
diferencia de relevancia clínica (12). Si el valor del
límite inferior de un IC es mayor que la diferencia
considerada clínicamente relevante, el estudio será
estadísticamente significativo y concluyente acerca de
la existencia de una diferencia clínicamente importante.
Si el IC incluye el valor de la diferencia considerado
clínicamente relevante el resultado no es concluyente,
con independencia de la significación estadística, y se
necesita un estudio con muestra y potencia mayores.
Algunas revistas recomiendan el uso del IC para sus
publicaciones en lugar del valor "p", tal es el caso de
Annals of Internal Medicine, British Medical Journal y
Lancet (3, 13).
Ejemplo: en un estudio llevado a cabo en Madrid
acerca de las características clínicas y epidemiológicas
de los síntomas del tracto urinario inferior (STUI)
relacionados con la hiperplasia benigna de próstata
(HBP) (6), se analizó la diferencia de frecuencia de
severidad de los STUI (asintomático, leve, moderado y
severo) en función del consumo de complejos vitamínicos (sí o no). Las diferencias encontradas no fueron
significativas (p=0,17). Esta p dice relativamente poco
y, además, de forma simplista: la probabilidad de que las
diferencias encontradas se deban al azar es del 17%. Sin
embargo, se puede completar la presentación con los IC
de cada proporción. Por ejemplo, en el grupo de sujetos
asintomáticos había un 12,7% de consumidores de
complejos vitamínicos frente a un 22,7% de no consumidores, es decir, un 10% más de asintomáticos en los
no consumidores. Los IC de cada frecuencia eran (6,522,5) y (20,7-24,7) respectivamente. Estos IC dan más
información y se observa un solapamiento entre ellos,
es decir, la no significación, la no diferencia.
602
C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS.
TABLA II
PRUEBAS DE SIGNIFICACIÓN ESTADÍSTICA UTILIZADAS CON MÁS FRECUENCIA**
VARIABLE DEPENDIENTE O RESPUESTA
VARIABLE
INDEPENDIENTE
O PREDICTORA
Continua de
distribución
normal
Continua de
distribución no
normal u ordinal
de > 2 categorías
Cualitativa de > 2
categorías
Dicotómica
Continua de
distribución
normal
Continua de
distribución no
normal u ordinal
de > 2 categorías
Cualitativa de >
2 categorías
Regresión lineal
Correlación de
Spearman*
Análisis de la
variancia
Correlación de
Spearman*
Correlación de
Spearman*
Test de
Kruskall-Wallis*
U de MannWhitney*
Análisis de
la variancia
Test de
Kruskall-Wallis*
Tabla de
contingencia χ2
o Fisher
Tabla de
contingencia χ2
o Fisher
t de Student
U de MannWhitney*
Correlación
Dicotómica
Regresión logística
Tabla de
contingencia χ2
o Fisher
Regresión de Cox
(tiempo)
Tabla de
contingencia χ2
o Fisher
RR u OR
* Prueba no paramétrica
** Modificada de Hulley SB, Cummings SR. Diseño de la investigación clínica. Un enfoque epidemiológico.
Barcelona: Doyma, 1993.
DESVIACIÓN ESTÁNDAR Y ERROR
ESTÁNDAR
Es frecuente la confusión entre la desviación estándar
de la media (DE) y el error estándar de la media (EEM).
Aunque se relacionan entre sí (EEM= DE/√x) describen
aspectos diferentes (14).
La desviación estándar describe cómo se distribuye
una variable en la población, por ejemplo, cómo de
dispersos están los datos de esa variable en torno a la
media. Cuando la distribución de esa variable cuantita-
tiva es normal la media ±2 DE comprende el 95%
central de los valores de la población.
El error estándar de la media informa acerca de la
precisión con que se ha estimado esa media poblacional
a partir de los datos de la muestra, de forma que cuantos
más sujetos se empleen mayor será la precisión y menor
será el EEM. La media muestral ±2 EEM constituye el
intervalo en el que, con una confianza del 95%, se
encuentra el verdadero valor de la media de esa variable
en la población.
LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN
ELECCIÓN DE LA PRUEBA
ESTADÍSTICA
La elección de la prueba estadística más adecuada
depende de cada situación en particular y de la capacidad del investigador para justificar su decisión. No es
necesario recurrir a pruebas complejas y sofisticadas,
de hecho, los resultados más importantes suelen observarse con un análisis sencillo. Las técnicas complejas se
utilizan cuando es necesario aislar el efecto de una
variable entre otras muchas, en la búsqueda de la
máxima información posible, de forma que se pueda
controlar y ajustar el efecto de unas variables sobre
otras y eliminar la confusión y la interacción entre ellas
(14).
La elección de la prueba estadística depende de
varios factores que a continuación se describen (2, 15):
- La escala en que se ha medido la variable dependiente o respuesta. Si ésta es cuantitativa la potencia de
la prueba será mayor, puesto que las variables cuantitativas aportan más información que las cualitativas.
- La escala de medición de la variable independiente. Si es cualitativa dicotómica (con dos categorías,
por ejemplo sexo o fumador sí/no) la prueba consistirá
en la comparación de la variable dependiente en dos
grupos. Si es politómica (grupo sanguíneo, tipo de
incontinencia, etc.), la comparación se establece en
tantos grupos como categorías tenga la variable independiente. Si es cuantitativa se requerirá una prueba
específica, según se describe en la Tabla II.
- La existencia de medidas repetidas o datos
apareados, es decir, distintas mediciones realizadas
sobre los mismos sujetos. Por ejemplo, la medición del
volumen de orina de los sujetos de un estudio antes y
después de la administración de un diurético. Cuando
los datos están apareados se utilizan pruebas estadísticas más potentes que las usadas con datos independientes, puesto que trabajar con los mismos sujetos reduce
la variabilidad de las mediciones.
- La distribución de las variables cuantitativas.
Las pruebas estadísticas que utilizan datos cuantitativos
parten de ciertas asunciones que sólo se cumplen cuando la variable sigue una distribución normal. Estas
pruebas son conocidas como pruebas paramétricas.
Cuando las muestras son de pequeño tamaño esas
asunciones no pueden asegurarse, por lo que se recurre
a otro tipo de pruebas, denominadas no paramétricas,
menos potentes y más complejas, utilizadas también
603
cuando se comparan datos ordinales, en los que se
comparan los rangos en lugar de los valores de la
variable.
- El tamaño muestral. La mayoría de las pruebas
estadísticas requieren un número mínimo de observaciones para poder ser utilizadas. Si el tamaño muestral
es inferior al mínimo deseado (se acepta como valor de
referencia 30 observaciones o más), se considera que la
distribución no es normal y se emplean las pruebas no
paramétricas.
En la Tabla II se resumen las pruebas estadísticas
utilizadas con mayor frecuencia en los estudios.
Cuando ambas variables, dependiente e independiente, son cualitativas, la prueba estadística utilizada
es la ji al cuadrado (χ2). Cuando ambas variables son
dicotómicas, es decir, cuando la tabla de contingencia
que se construye es de 2x2, se puede calcular además el
RR (para diseños de cohortes y experimentales) u OR
(para diseños de casos y controles y transversales).
Ejemplo: se comparan los porcentajes de pielonefritis
(variable dependiente) en función del sexo (variable
independiente) en un estudio transversal realizado en
individuos adultos de un determinado área de salud. Si
la frecuencia de pielonefritis en ese estudio es
significativamente mayor en las mujeres (p significativa), podría calcularse además el OR para valorar si ser
mujer es un factor de riesgo de pielonefritis en los
adultos de ese área sanitaria.
Cuando se comparan los valores de una variable
cuantitativa en dos grupos de sujetos, la prueba estadística más apropiada es la t de Student-Fisher. Si la
variable cuantitativa no sigue una distribución normal
debe recurrirse al equivalente no paramétrico de la t de
Student: U de Mann-Whitney o suma de los rangos de
Wilcoxon. Si la variable cualitativa tiene más de dos
categoríaslapruebaautilizareselanálisisdelavariancia.
El equivalente no paramétrico si la cuantitativa no es
normal es el test de Kruskal-Wallis.
Ejemplo: se compara la cifra media de tensión arterial
sistólica (TAS como variable dependiente) de un grupo
de individuos tratados con un nuevo diurético, con la
media de TAS de otro grupo tratado con un diurético
clásico (tipo de fármaco como variable independiente).
Un estudio similar compara la cifra media de TAS en
tres grupos: un grupo que toma el nuevo diurético, otro
que toma el diurético clásico y un tercer grupo que toma
otro tipo de fármaco. En este caso la prueba utilizada es
el análisis de la variancia.
604
C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS.
Si se pretende comparar la posible asociación entre
dos variables cuantitativas, el test utilizado es la correlación de Pearson. Si ambas variables, o una de las dos,
no siguen una distribución normal, el equivalente no
paramétrico es la correlación de Spearman. En este test
se obtiene un valor denominado r, que oscila de –1 a 1
e indica el nivel de asociación lineal entre ambas variables, es decir, si es leve, moderada o alta, pero no indica
de qué manera una influye en la otra. Un r=0 significa
ausencia de correlación entre ellas. Una p significativa
en este test sólo indica que el valor de r observado es
poco probable que sea debido al azar. En el caso de que
pueda asumirse una relación de dependencia lineal de
una de las variables respecto a la otra, se habla de
regresión lineal.
Ejemplo: un estudio (6) evalúa, en hombres con
hiperplasia benigna de próstata de 40 años o más, la
correlacióndelvolúmenprostáticoconlasintomatología,
medida a través del I-PSS. Se obtiene un valor de r=0,39
y una p=0,001, lo que indica una asociación lineal
positiva moderada, de manera significativa, entre el
volumen prostático y la sintomatología, es decir, a
medida que aumenta el volumen prostático aumenta la
sintomatología, o bien, a medida que disminuye el
volumen disminuye también el I-PSS.
Cuando se pretende estudiar la influencia de dos o
más variables simultáneamente se necesitan técnicas
estadísticas más sofisticadas, englobadas dentro del
denominado análisis multivariante. Estas técnicas permiten analizar un número elevado de sujetos y de
variables para, a su vez, clasificar a los individuos por
similitud respecto a múltiples variables, agrupar variables que miden aspectos similares y/o comprobar hipótesis acerca de la influencia simultánea de varios factores. Sin embargo, no es objeto de este artículo describir
estas técnicas, dada su complejidad y la profundidad
necesaria para aproximarse a ellas.
CONCLUSIÓN
La estadística se ha convertido en una herramienta de
apoyo fundamental en la investigación, sin embargo,
son pocos los investigadores médicos que han recibido
una capacitación formal en bioestadística. Es importante no caer en la utilización irreflexiva de la misma;
usarla e interpretarla correctamente incrementa la validez de cualquier estudio. La estadística debe utilizarse
como apoyo y nunca debe reemplazar al sentido común
del investigador.
BIBLIOGRAFÍA Y LECTURAS
RECOMENDADAS (*lectura de interés y
**lectura fundamental)
1. RODRÍGUEZ SALVANÉS, F.J.: "Errores más frecuentes
enelusode la estadística enla investigaciónenneumología."
Arch. Bronconeumol., 35 (Supl. I): 18, 1999.
*2. MARTÍN ANDRÉS, A.; LUNA DEL CASTILLO, J. DE
D.: "Bioestadística para las ciencias de la salud." Las Rozas,
Ediciones Norma, Madrid, 1999.
*3. GONZÁLEZ DE DIOS, J.: "Conocimientos prácticos para
elaborarunartículocientífico(IV):manejodelaestadística."
Rev. Esp. Pediatr., 54: 340,1998.
4. MORA I RIPOLL, R.: "Cómo mejorar la calidad estadística
de los artículos presentados a revistas biomédicas: lista de
comprobación para los autores." Med. Clin. (Barc.), 113:
138, 1999.
5. ROSNER, B.: "Fundamentals of biostatistics." Duxbury
Press, Boston, 2000.
6. MORENO SIERRA, J.; FERNÁNDEZ PÉREZ, C.: "Caracterización clínica y epidemiológica de los síntomas del
tractourinarioinferiorrelacionadosconlahiperplasiabenigna de la próstata en la Comunidad de Madrid." Madrid: 3794. EDIMSA, Madrid, 2002.
**7. PLASENCIA, A.; PORTA SERRA, M.: "La calidad de la
informaciónclínica(II):significaciónestadística."Med.Clin.
(Barc.), 90: 122, 1988.
8. KLEINBAUM, D.G.; KUPPER, L.I.; MORGENSTERN,
H.: "Epidemiologic Research. Principles and quantitative
methods."186-187,LifetimeLerningPublications,Belmont,
California, 1982.
9. SILVA, L.C.: "Cultura estadística e investigación científica
en el campo de la salud: una mirada crítica." Ed. Diaz de
Santos, Madrid, 1997.
10. PORTA SERRA, M.; PLASENCIA, A.; SANZ, F.: "La
calidad de la información clínica (y III): ¿estadísticamente
significativooclínicamenteimportante?".Med.Clin.(Barc.),
90: 463, 1988.
**11. PORTA SERRA, M.; MORENO, V.; SANZ, F. y cols.:
"Una cuestión de poder." Med. Clin. (Barc.), 92: 223, 1989.
**12. ARGIMON, J.M.: "El intervalo de confianza: algo más que
un valor de significación estadística." Med. Clin. (Barc.),
118: 382, 2002.
*13. GARDNER, M.J.; ALTMAN, D.G.: "Confidence intervals
ratherthanpvalues:estimationratherthanhypothesistesting."
Br. Med. J., 292: 746, 1986.
14. MORENO, V.; VALLESCAR, R.; MARTÍN, M.: "Recomendaciones para evitar errores en el análisis estadístico de
un estudio clínico." Atención Primaria , 7: 74, 1990.
15. ARGIMÓN, J.M.; JIMÉNEZ VILLA.: "Métodos de Investigaciónaplicadosalaatenciónprimariadesalud."págs.151166. Doyma, Barcelona, 1991.