Download ¿Un buen acuerdo?,El estadístico más deseado por una madre,No

Document related concepts
no text concepts found
Transcript
¿Un buen acuerdo?
Todos sabemos que a cuantos menos médicos vayamos, mucho mejor. Y esto
por dos razones. La primera, porque si vamos a muchos médicos o estamos muy
malos físicamente o estamos muy malos de la cabeza (algunos desgraciados de
las dos cosas). Y la segunda, que es la que más me llama la atención,
porque cada uno te dice una cosa diferente. Y no es que los médicos no
conozcamos el oficio, es que ponerse de acuerdo no es tan sencillo como
parece.
Para que os hagáis una idea, el problema empieza ya al querer saber si
dos médicos que valoran una misma prueba diagnóstica tienen un buen grado
de acuerdo. Veámoslo con un ejemplo.
Supongamos por un momento que soy el gerente del hospital y quiero
contratar un patólogo porque el único que tengo está desbordado de trabajo.
Reúno a mi patólogo y al candidato y les
doy 795 biopsias para que me digan si
hay células malignas. Como podéis ver en
la primera tabla, mi patólogo encuentra
células malignas en 99 de las biopsias,
mientras que el segundo las ve en 135
(no os asustéis, esto es solo un
ejemplo, en la vida real no hay tanta diferencia, ¿verdad?). Nos
preguntamos qué grado de acuerdo o, mejor dicho, concordancia hay entre los
dos. Lo primero que se nos ocurre es ver en cuántas biopsias están de
acuerdo y lo calculamos: los dos coinciden en 637 biopsias normales y en 76
en las que ven células malignas, luego el porcentaje de casos en los que
están de acuerdo puede calcularse como (637+76)/795 = 0,896. ¡Albricias!,
nos decimos, los dos están de acuerdo en casi el 90% de los casos. La cosa
no es tan mala como parecía viendo las discrepancias de la tabla.
Pero resulta que cuando estoy a punto de contratar al nuevo patólogo me
pregunto si no podría haber acertado por pura casualidad. Así que se me
ocurre un experimento estúpido: tomo las
795 biopsias y tiro una moneda al aire,
etiquetando cada una como normal, si
sale cara, o patológica, si sale cruz.
La moneda me dice que tengo 400 biopsias normales y 395 con células
malignas. Si calculo la concordancia entre la moneda y el patólogo, veo que
es de (356+55)/795 = 0,516, ¡52%!. Esto sí que es sorprendente, por puro
azar están de acuerdo en la mitad de los casos (sí, sí, ya sé que los más
listillos no se sorprenderán y me dirán que hay un 50% de cada resultado de
lanzar la moneda). Así que empiezo a pensar formas de ahorrar dinero para
mi hospital y se me ocurre otro experimento que esta vez no es solo
estúpido, sino totalmente ridículo: le ofrezco a mi primo que haga la
prueba en lugar de lanzar la moneda (por esta vez voy a dejar tranquilo a
mi cuñado).
El problema, claro está, es que mi primo no es médico y, aunque es un
tío majo, de anatomía patológica no tiene ni idea. Así que cuando empieza a
ver las células de colores piensa que es imposible que semejante belleza
esté producida por células malignas y da todos los resultados como
normales. Cuando vemos la tabla con los resultados lo primero que se me
ocurre es quemarla, pero por pura curiosidad calculo la concordancia entre
mi primo y mi patólogo y veo que es de 696/795 = 0,875, ¡¡87%!!.
Conclusión: igual me trae más cuenta contratar a mi primo que a un nuevo
patólogo.
A estas alturas pensaréis que hoy se me ha olvidado tomar la medicación,
pero la verdad es que todos estos ejemplos sirven para demostraros que, si
queremos saber cuál es la concordancia entre dos observadores, primero
tenemos que desembarazarnos del efecto del engorroso y sempiterno azar. Y
para eso los matemáticos han inventado un estadístico que llaman kappa, el
coeficiente de concordancia interobservador.
Kappa lo que hace es excluir de la concordancia observada aquella que es
debida al azar, obteniendo un valor más representativo de la fuerza de la
concordancia entre los observadores. Su fórmula es un cociente en cuyo
numerador se representa la diferencia entre la concordancia observada y la
debida al azar y en cuyo denominador figura el complementario de la
concordancia debida al azar: (Po-Pa)/(1-Pa).
La Po de nuestro ejemplo con los dos patólogos ya la conocemos: 0,89.
Para calcular la Pa debemos calcular los valores teóricos esperados de cada
celda de la tabla, de forma similar a como recordaréis de la prueba de la
chi cuadrado: el valor esperado de cada celda es el producto de los totales
de su fila y columna dividido por el total de la tabla. Como ejemplo, en
nuestra tabla el valor esperado de la primera celda es (696×660)/795 = 578.
Con los valores esperados calculamos la probabilidad de acuerdo debido al
azar empleando el mismo método que usamos antes para la observada:
(578+17)/795 = 0,74.
Y ahora ya podemos calcular kappa = (0,89-0,74)/(1-0,74) = 0,57. ¿y qué
hacemos con el 0,57?. Podemos hacer lo que se nos ocurra, menos
multiplicarla por cien, ya que este valor no representa un verdadero
porcentaje. Kappa puede valer de -1 a +1. Valores negativos indican que la
concordancia es peor de la que podría
esperarse por azar. Un valor de 0 indica
que la concordancia es similar a la que
se obtendría tirando una moneda. Valores
mayores de 0 indican que hay
concordancia leve (0,01-0,20), aceptable
(0,21-0,40), moderada (0,41-0,60),
considerable (0,61-0,80) o casi perfecta
(0,81-1,00). En nuestro caso, hay una
concordancia bastante buena entre los
dos patólogos. Si tenéis curiosidad,
calculad la kappa de mi primo y veréis que no es mejor que tirar la moneda.
Kappa puede calcularse también si tenemos medidas de varios observadores
o varios resultados de una observación, solo que las tablas se ponen tan
antipáticas que es mejor utilizar un programa estadístico para calcularla
que, ya de paso, nos puede dar su intervalo de confianza.
De todas formas, no confiéis mucho en la kappa, ya que requiere que no
haya mucha diferencia entre las celdas de la tabla. Si alguna de las
categorías tiene pocos casos el coeficiente tenderá a subestimar la
concordancia real aunque ésta sea muy buena.
Por último, deciros que, aunque en todos nuestros ejemplos hemos visto
una prueba con un resultado dicotómico, es posible también calcular la
concordancia entre observadores que nos den un resultado cuantitativo (una
escala de puntuación, por ejemplo). Claro que para eso tenemos que utilizar
otra técnica estadística como la de Bland-Altman, pero esa es otra
historia…
El estadístico más deseado por
una madre
Aquellos que estéis leyendo y que forméis parte de la mafia de los
pediatras ya sabréis a que me estoy refiriendo: al percentil 50. No hay
madre que no desee que su retoño se encuentre por encima de él en peso,
talla, inteligencia y en todo lo que una buena madre pueda desear para su
hijo. Por eso a los pediatras, que dedicamos nuestra vida al cuidado de los
niños, nos gustan tanto los percentiles. Pero, ¿qué significado tiene el
término percentil?. Empecemos desde el principio…
Cuando tenemos una distribución de valores de una variable
resumirla con una medida de centralización y una de dispersión.
habituales son la media y la desviación estándar, respectivamente,
ocasiones podemos utilizar otras medidas de centralización (como la
o la moda) y de dispersión.
podemos
Las más
pero en
mediana
La más básica de esas otras medidas de dispersión es el rango, que se
define como la diferencia entre los valores mínimo y máximo de la
distribución. Supongamos que
reunimos
los
pesos
al
nacimiento de los últimos 100
niños de nuestra maternidad y
los ordenamos tal y como
aparecen en la tabla. El valor
más bajo fue de 2200 gramos,
mientras que el premio máximo
se lo llevó un neonato que pesó
4000 gramos. El rango en este
caso sería de 1800 gramos pero,
claro está, si no disponemos de
la tabla y solo nos dicen esto
no tendríamos idea de cómo de
grandes son nuestros recién
nacidos. Por eso suele ser
mejor expresar el rango con los
valores mínimo y máximo. En nuestro caso sería de 2200 a 4000 gramos.
Si recordáis de cómo se calcula la mediana, veréis que está en 3050
gramos. Para completar el cuadro necesitamos una medida que nos diga cómo
se distribuyen el resto de los pesos alrededor de la mediana y dentro del
rango.
La forma más sencilla es dividir la distribución en cuatro partes
iguales que incluya cada una el 25% de los niños. Cada uno de estos
marcadores se denomina cuartil y hay tres: el primer cuartil (entre el
mínimo y el 25%), el segundo cuartil (que coincide con la mediana y se
sitúa entre el mínimo y el 50%) y el tercer cuartil (entre el mínimo y el
75%). Obtenemos así cuatro segmentos: del mínimo al primer cuartil, del
primero al segundo (la mediana), del segundo al tercero y del tercero al
máximo. En nuestro caso, los tres cuartiles serían 2830, 3050 y 3200
gramos. Hay quien llamaría a estos cuartiles el inferior, la mediana y el
superior, pero estaríamos hablando de lo mismo.
Pues bien, si nos dicen que la mediana es de 3050 gramos y que el 50% de
los niños pesan entre 2830 y 3200 gramos, ya nos hacemos una idea bastante
aproximada de cuál es el peso al nacimiento de nuestros recién nacidos.
Este intervalo se denomina rango intercuartílico y suele proporcionarse
junto con la mediana para resumir la distribución. En nuestro caso: mediana
de 3050 gramos, rango intercuartílico de 2830 a 3200 gramos.
Pero podemos ir mucho más allá. Podemos dividir la distribución en el
número de segmentos que queramos. Los deciles la dividen en diez segmentos
y nuestros venerados percentiles en cien.
Existe una fórmula
queramos. Por ejemplo,
donde n representa el
neonatos, el percentil
sea, 2770 gramos.
bastante sencilla para calcular el percentil que
el percentil P estará en la posición (P/100)x(n+1),
tamaño de la muestra. En nuestra distribución de
22 estaría en la posición (22/100)x(100+1) = 22,2, o
Los más avispados ya os habréis dado cuenta que nuestros 3050 gramos
corresponden, no solo a la mediana, sino también al decil quinto y al
percentil 50, el deseado por nuestras madres.
La gran utilidad de los percentiles, además de dar satisfacción al 50%
de las madres (aquellas que tienen a sus hijos por encima de la media) es
que nos permiten estimar la probabilidad de determinado valor de la
variable medida dentro de la población. En general, cuanto más cerca esté
uno de la media siempre será mejor (por lo menos en medicina) y cuanto más
alejado más probable será que alguien te lleve a un médico para ver porqué
no estás en el dichoso percentil 50 o, incluso mejor, algo por encima.
Pero si de verdad queremos afinar más sobre la probabilidad de obtener
un valor determinado dentro de una distribución de datos hay otros métodos
que pasan por la estandarización de la medida de dispersión que utilicemos,
pero esa es otra historia…
No todas las desviaciones son
perversas
Incluso me atrevería a decir que hay desviaciones muy necesarias. Pero
que nadie se entusiasme antes de tiempo. Aunque haya podido parecer otra
cosa, vamos a hablar de cómo varían los valores de una variable
cuantitativa en una distribución.
Cuando obtenemos los datos de un parámetro determinado en una muestra y
queremos dar una idea resumida de cómo se comporta, lo primero que se nos
ocurre es calcular una medida que la represente, así que echamos mano de la
media, la mediana o cualquier otra medida de centralización.
Sin embargo, el cálculo del valor central da poca información si no lo
acompañamos de otro que nos informe sobre la heterogeneidad de los
resultados dentro de la distribución. Para cuantificar el grado de
variación, los matemáticos, con muy poca imaginación, han inventado una
cosa que llaman la varianza.
Para calcularla se restaría la media al valor de cada individuo con la
idea de sumar todas estas restas y dividirlas entre el número de
mediciones. Es como calcular la media de las diferencias de cada uno
respecto al valor central de la distribución. Pero surge un pequeño
problema: como los valores están por encima y por debajo de la media (por
obligación, que para eso es la media), las diferencias positivas y
negativas se anularían al sumarlas, con lo que obtendríamos un valor
próximo a cero si la distribución es simétrica aunque el grado de variación
fuese grande. Para evitar esto lo que se hace es elevar las restas al
cuadrado antes de sumarlas, con lo que desaparecen los signos negativos y
la suma siempre da un valor relacionado con la amplitud de las diferencias.
Esto es lo que se conoce como varianza.
Por ejemplo, supongamos que medimos la presión arterial sistólica a 200
escolares seleccionados al azar y obtenemos una media de 100 mmHg. Nos
ponemos a restar de cada valor la media, lo elevamos al cuadrado, sumamos
todos los cuadrados y dividimos el resultado por 200 (el número de
determinaciones). Obtenemos así la varianza, por ejemplo: 100 mmHg2. Y yo me
pregunto, ¿qué leches es un milímetro de mercurio al cuadrado?. La varianza
medirá bien la dispersión, pero no me negaréis que es un poco difícil de
interpretar. Una vez más, algún genio matemático acude al rescate y
discurre la solución: hacemos la raíz cuadrada de la varianza y así
recuperamos las unidades originales de la variable. Acabamos de
encontrarnos con la más famosa de las desviaciones: la desviación típica o
estándar. En nuestro caso sería de 10 mmHg. Si consideramos las dos medidas
nos hacemos idea de que la mayor parte de los escolares tendrán
probablemente tensiones próximas a la media. Si hubiésemos obtenido una
desviación típica de 50 mmHg pensaríamos que hay mucha variación individual
de los datos de presión arterial, aunque la media de la muestra fuese la
misma.
Un detalle para los puristas. La suma del cuadrado de las diferencias
suele dividirse por el número de casos menos uno (n-1) en lugar de por el
número de casos (n), que podría parecer más lógico. ¿Y por qué?. Capricho
de los matemáticos. Por alguna arcana razón se consigue que el valor
obtenido esté más próximo al valor de la población del que procede la
muestra.
Ya tenemos, por tanto, los dos valores que nos definen nuestra
distribución. Y lo bueno es que, no solo nos dan una idea del valor central
y de la dispersión, sino de la probabilidad de encontrar un individuo de la
muestra con un determinado valor. Sabemos que el 95% tendrán un valor
comprendido entre la media ± 2 veces la desviación típica (1,96 veces, para
ser exactos) y el 99% entre la media ± 2,5 veces la desviación (2,58 veces,
en realidad).
Esto suena peligrosamente parecido a los intervalos de confianza del 95%
y 99%, pero no debemos confundirlos. Si repetimos el experimento de la
tensión en escolares un número muy grande de veces, obtendremos una media
ligeramente diferente cada vez. Podríamos calcular la media de los
resultados de cada experimento y la desviación estándar de ese grupo de
medias. Esa desviación estándar es lo que conocemos como el error estándar,
y nos sirve para calcular los intervalos de confianza dentro de los cuales
está el valor de la población de la que procede la muestra y que no podemos
medir directamente ni conocer con exactitud. Por lo tanto, la desviación
estándar nos informa de la dispersión de los datos en la muestra, mientras
que el error estándar nos da idea de la precisión con que podemos estimar
el verdadero valor de la variable que hemos medido en la población de la
que procede la muestra.
Una última reflexión acerca de la desviación estándar. Aunque el valor
de la variable en el 95% de la población esté en el intervalo formado por
la media ± 2 veces la desviación típica, esta medida solo tiene sentido
realizarla si la distribución es razonablemente simétrica. En caso de
distribuciones con un sesgo importante la desviación típica pierde gran
parte de su sentido y debemos utilizar otras medidas de dispersión, pero
esa es otra historia…
Sí, en el medio
virtud, pero…
está
la
¿Y dónde está el medio?. Esta pregunta, que parece el desvarío de una
noche de verano, no debe ser tan sencilla de responder cuando disponemos de
varias formas de localizar el medio o centro de una distribución de datos.
Y es que encontrar el virtuoso medio es muy útil para describir nuestros
resultados. Si medimos una variable en 1500 pacientes a nadie se le pasa
por la cabeza dar los resultados como un listado de los 1500 valores
obtenidos. Habitualmente buscamos una especie de resumen que nos de una
idea de cómo es esa variable en nuestra muestra, generalmente calculando
una medida de centralización (el medio) y una de dispersión (cómo varían
los datos alrededor del medio).
Supongamos que, por alguna razón difícil de explicar, queremos conocer
la talla media de los usuarios del Metro de Madrid. Nos vamos a la estación
más cercana y, cuando llega el convoy, hacemos bajar a los pasajeros del
tercer vagón y les tallamos, obteniendo los resultados de la tabla 1.
Una vez que hemos recogido los datos, la medida de centralización que
primero se nos viene a la cabeza es la media aritmética, que es el promedio
de la talla. Todos sabemos cómo se calcula: la suma de todos los valores se
divide por el número de valores obtenidos. En nuestro caso su valor sería
de 170 cm y nos da una idea del promedio de estatura de los componentes de
nuestra muestra.
Pero ahora supongamos que el autobús de la selección nacional de
baloncesto ha pinchado las cuatro ruedas y los jugadores han tenido que
tomar el metro para ir al partido, con la desgracia para nosotros de que
viajan en el tercer vagón. Las tallas que recogeríamos se muestran en la
tabla 2. En este caso la media es de 177 cm pero, ¿realmente está cerca del
valor promedio de talla de los usuarios del Metro de Madrid?. Probablemente
no. En este caso echaríamos mano de otra medida de centralización: la
mediana.
Para calcular la mediana ordenamos los valores de talla de menor a mayor
y tomamos el que ocupa el centro de la lista (tabla 3). Si tuviésemos 15
medidas, la mediana sería el
valor de la número 8 (deja 7
por arriba y 7 por abajo).
Al ser par, la mediana se
calcula como la media
aritmética de los dos
valores centrales. En nuestro caso 169 + 172 = 170,5 cm, con toda
probabilidad bastante más cercano al de la población y muy próximo al del
vagón que paramos en el primer ejemplo.
Vemos, pues, que la media resume muy bien los datos cuando éstos se
distribuyen de forma simétrica, pero que si la distribución está sesgada la
mediana nos dará una idea más acertada del centro de la distribución.
Cuando la distribución está muy sesgada podemos emplear otros dos
parámetros que son primos de la media aritmética: la media geométrica y la
media armónica.
Para calcular la media geométrica calculamos el logaritmo neperiano de
todos los valores, obtenemos su media aritmética y hacemos la
transformación inversa exponencial con base e (el número e). Para la media
armónica se calculan los valores recíprocos (1/valor), se calcula la media
aritmética y se hace la transformación inversa (que nadie se asuste por la
matemática del asunto, los programas de estadística calculan esta clase de
cosas casi sin que tengamos que pedírselo). Estas dos medias son muy útiles
cuando la distribución está muy sesgada por tener la mayor parte de los
valores alrededor de un número y una distribución o cola larga hacia la
derecha. Por ejemplo, si montamos un control de alcoholemia en carretera un
lunes a las seis de la mañana, la mayor parte de los conductores estarán
muy cerca del cero, pero siempre habrá algunas determinaciones de valores
más altos (los que se han acostado tarde y los que prefieren desayunar
fuerte). En estos casos cualquiera de estas dos medias daría un valor más
representativo que la media aritmética o la mediana.
Un último apunte sobre otra medida de centralización. Si nos fijamos en
los pantalones de nuestros viajeros de metro y vemos que 12 visten
vaqueros, ¿qué medida usaríamos para informar de cuál es la prenda de
vestir preferida?. En efecto: la moda. Es el valor que más se repite en una
distribución y puede ser muy útil cuando estamos describiendo variables
cualitativas en lugar de cuantitativas.
De todas formas, no hay que olvidar que para resumir adecuadamente una
distribución no solo hay que elegir la medida de centralización correcta,
sino que hay que acompañarla de una medida de dispersión, de las que
también disponemos de unas cuantas. Pero esa es otra historia…
El tamaño sí importa
Hablamos de muestras, claro…
Por razones diversas, los estudios científicos suelen utilizar muestras
extraídas de una población sobre la que se quiere obtener una conclusión
determinada. Esta muestra tendrá que haber sido seleccionada de forma que
represente fielmente a la población de la que procede pero, ¿conviene que
sea grande o pequeña?. Pues ni una cosa ni otra: la muestra debe ser del
tamaño apropiado.
Después de razonar hasta llegar hasta esta conclusión necesitaría
reposar un poco, pero antes trataremos de ver los problemas que nos pueden
causar las muestras demasiado grandes o demasiado pequeñas.
Los inconvenientes de las muestras más grandes de lo necesario son
obvios: mayor gasto de tiempo y recursos. Pero es que, además, como sabemos
que muchas veces para obtener significación estadística basta con aumentar
el tamaño de la muestra, si lo hacemos en exceso podemos obtenerla con
diferencias tan pequeñas que, aunque puedan ser reales, carezcan del menor
interés desde el punto de vista clínico. De esta forma malgastamos tiempo y
energías (y dinero) y podemos inducir a error sobre la importancia de la
diferencia encontrada. Así que, como en otros muchos aspectos de la vida y
de la medicina, al hablar de muestras no siempre más es mejor (ni es mejor
tenerla más grande).
¿Qué pasa si la muestra es pequeña? Pues pasa un poco lo contrario.
Cuánto más pequeña sea la muestra más imprecisión tendremos en los
resultados (los intervalos de confianza de los parámetros estudiados serán
más amplios). De esta manera, las diferencias tendrán que ser mayores para
poder alcanzar significación estadística. Corremos así el riesgo de que,
aunque exista una diferencia real, no podamos asegurar su existencia por
ser la muestra demasiado pequeña, perdiendo la ocasión de demostrar
diferencias que, aunque pequeñas, pueden ser clínicamente muy importantes.
Queda claro, pues, que la muestra tiene que ser del tamaño apropiado y
que, para evitar males mayores, debemos calcularla antes de realizar el
estudio.
Las fórmulas para calcular el tamaño de la muestra dependen del
estadístico que estemos midiendo y de si estimamos uno en la población (una
media, por ejemplo) o queremos hacer un contraste de hipótesis entre dos
variables o muestras (comparar dos muestras, dos proporciones, etc). En
cualquier caso, la mayoría de los programas de estadística son capaces de
calcularla de forma rápida y sin protestar. Nosotros solo tendremos que
decidir tres parámetros: el error de tipo 1, la potencia del estudio y la
mínima diferencia clínicamente importante.
El error de tipo 1 es la probabilidad de rechazar la hipótesis nula
siendo cierta, concluyendo que existe una diferencia que, en realidad, no
es real. Se suele aceptar que esta probabilidad, llamada alfa, debe ser
menor del 5% y no es más que el nivel de significación estadística empleado
en el contraste de hipótesis.
El error de tipo 2 es la probabilidad de concluir que no hay diferencia
(no rechazamos la hipótesis nula) cuando en realidad sí que la hay. Este
valor se conoce como beta y se admite como bueno un mínimo de 80%. Su
complementario (1-beta o 100-beta si preferimos los %) es lo que se conoce
como potencia del estudio.
Por último, la mínima diferencia clínicamente importante es la que debe
ser capaz de detectar el estudio, en el caso de que exista realmente. Este
es un valor que decide el investigador según el contexto clínico y que no
tiene nada que ver con la significación estadística del estudio.
Con estos tres parámetros calcularemos el tamaño de la muestra necesario
para detectar la diferencia que creamos importante desde el punto de vista
clínico y con el margen de error deseado.
En ocasiones el razonamiento puede hacerse al revés. Si la muestra tiene
un tamaño máximo por la razón que sea, podemos estimar antes del estudio
qué diferencia vamos a poder detectar. Si esta diferencia es inferior a la
clínicamente importante, podemos ahorrarnos el trabajo, ya que correremos
el riesgo de que no sea concluyente por tener una muestra pequeña e inducir
a error dando a entender que la diferencia no existe. Del mismo modo, si
nos vemos obligados a interrumpir el estudio antes de su finalización
programada deberemos calcular si con la muestra alcanzada tenemos capacidad
para discriminar la diferencia que nos habíamos propuesto inicialmente.
Según la variable que estemos midiendo, en ocasiones necesitaremos otros
datos como su media o su desviación estándar en la población para poder
estimar el tamaño de muestra necesario. Si no los conocemos, podemos hacer
un estudio piloto con unos pocos pacientes (a criterio del investigador) y
calcular el tamaño de la muestra con los resultados preliminares.
Una última reflexión antes de irnos a poner la cabeza en remojo. El
tamaño muestral se calcula para estimar la variable principal de resultado,
pero esto no garantiza que tengamos la muestra adecuada para todo lo que
midamos en el estudio. Esto produce, con relativa frecuencia, que trabajos
que demuestran muy bien la eficacia de un tratamiento fracasen en dar datos
concluyentes sobre la seguridad del mismo, pero esa es otra historia…
p o no p… ¿esa es la cuestión?
La p es uno de los valores más apreciados en la lectura de documentos
científicos. Con gran frecuencia la buscamos de forma desesperada, sobre
todo si el artículo que estamos leyendo es largo y farragoso, y nos
inundamos de gozo y felicidad al encontrarla cuando ya estábamos un poco
perdidos y a punto de tirar el trabajo a la papelera: ¡¡albricias!!, la p
es significativa. Parece que nuestro esfuerzo de lectura ha servido para
algo… ¿o no?
Pues a veces sí y a veces no. Para saberlo tenemos que
entender qué es y qué significa el valor de p. De forma habitual, una
prueba estadística analiza datos obtenidos de una muestra para calcular la
probabilidad de que una determinada hipótesis se cumpla en la población.
Normalmente existen dos hipótesis excluyentes entre si: la hipótesis nula
(¿recordáis?, la de nombre engañoso), que suele enunciarse como que no hay
asociación o diferencia entre las dos variables de estudio, y la hipótesis
alternativa de que sí existe esa diferencia o asociación.
Supongamos que medimos el efecto hipolipemiante de dos
fármacos en una muestra de pacientes con hipertrigliceridemia. Lo habitual
será que las medias de disminución de lípidos que obtengamos en los dos
grupos de tratamiento sean diferentes, pero no sabremos a priori si esa
diferencia es reflejo del valor real de la población (al cual no tenemos
acceso) o se debe al azar (con otra muestra diferente los valores obtenidos
seguramente habrían sido otros distintos). Los pasos a seguir serían los
siguientes:
1. Especificamos la hipótesis nula (H0): no existe
diferencia en el efecto hipolipemiante de los dos fármacos. La hipótesis
alternativa sería la contraria: el efecto sí es diferente.
2. Decidimos cuál es la prueba estadística más adecuada para
comparar los resultados y calculamos el valor de p.
3. Partiendo del supuesto de que la hipótesis nula es
cierta, el valor de p representa la probabilidad de obtener una diferencia
como la encontrada entre las dos muestras. Dicho de otra forma, mide la
probabilidad de obtener esa diferencia por puro azar. Si p < 0,05 (5%),
consideramos que la probabilidad de que la diferencia observada se deba al
azar es muy baja, por lo que admitimos que esa diferencia probablemente sea
reflejo del valor real de la población y rechazamos la hipótesis nula. Pero
no confundamos las cosas: el valor de p no es la probabilidad de que H0 sea
cierta, sino una medida del grado de incertidumbre con el que podemos
aceptarla o rechazarla.
Si p > 0,05 la probabilidad de que la diferencia se deba al
azar es muy alta para poder afirmarlo con la seguridad suficiente, por lo
que no podemos rechazar H0. Esto no quiere decir que H0 sea cierta, sino
simplemente que no tenemos un estudio con la potencia suficiente para
rechazarla.
En esta difícil y crucial decisión podemos columpiarnos de
dos elegantes maneras:
– Rechazando la hipótesis nula cuando en realidad es cierta
(error de tipo 1).
– No obtener un valor de p significativo y no poder rechazar
H0, cuando en realidad es falsa en la población (error de tipo 2).
Y eso de rechazar la hipótesis nula ¿es bueno o es malo?.
Pues depende. Para saber que nos aporta la p en un caso concreto habrá que
valorarlo conjuntamente con los intervalos de confianza y en el contexto
clínico específico, porque, aunque parezca increíble, resultados no
significativos desde el punto de vista estadístico pueden tener mucho mayor
impacto clínico que otros que sí lo sean. Pero esa es otra historia…