Download datos datos mucho

Document related concepts
no text concepts found
Transcript
BIOESTADISTICA (Javier Otazu Ojer).
Introducción a la Bioestadística.
El objetivo de la bioestadística se compone de 4 grandes apartados;
1.- Dada una muestra de datos, conocer su estructura a partir de ciertos indicadores
estadísticos (media, varianza, asimetría o curtosis, entre otros).
2.- Estudio de fenómenos aleatorios (probabilidad) y modelización de datos a partir de
variables aleatorias (las más importantes son la normal, la binomial y la Poisson).
3.- Inferencia estadística: razonar la estructura de una población a partir de una muestra
de la misma. Por ejemplo, nivel de colesterol en vegetarianos a partir de una muestra de
los mismos). Recordemos que inferir consiste en pasar de lo “pequeño” a lo “grande”.
4.- Relaciones causa efecto: estudiar la causalidad entre diversas variables. Por ejemplo,
tipo de fertilizante y cantidad de cosecha o cantidad de fertilizante y cantidad de
cosecha.
Desde luego, existen otros muchos análisis estadísticos que se estudian dentro
del área de conocimiento de la epidemiología o del análisis multivariante. Los
estudiaremos en un anexo.
Por último, no podemos olvidar los tipos de datos que vamos a estudiar; pueden
ser cuantitativos (peso, altura o edad) o cualitativos (raza, ser hombre o mujer, o el nivel
de dolor de una enfermedad).
Los datos cuantitativos se agrupan de forma discreta (si son unos pocos, por
ejemplo las notas de una clase en forma de suspenso, aprobado, notable o sobresaliente,
0-1-2-3) o continua (es muy difícil que la altura de dos personas coincidan; en ese caso
lo mejor es dar un rango de valores, por ejemplo, decir que hay 17 personas entre 165 y
166 centímetros). No obstante, la potencia de los programas informáticos actuales hace
que esta separación sea irrelevante, ya que introduciendo cualquier cantidad de datos
tenemos directamente todos los indicadores estadísticos con sus gráficos
correspondientes.
Los datos cualitativos tienen un estudio mucho más complejo ya que no se
pueden hacer operaciones matemáticas con un nombre. En todo caso, pueden ser
dicotómicos (si sólo existen dos categorías: hombre – mujer, enfermo – sano),
multitómicos (si existen más de dos categorías: sirve cualquier escala como no tener
dolor, tener algo de dolor o tener mucho dolor), ordinales (en otras palabras, que se
pueden ordenar como el ejemplo anterior) o nominales (no existe orden alguno, por
ejemplo, el color del pelo). Observar que en todas las variables ordinales son
multitómicas y que el recíproco no es cierto).
1. Procedimientos descriptivos.
1. Tablas. Frecuencias absolutas (acumuladas), relativas (acumuladas).
X (valores)
0
1
2
3
n (frec.abs)
12
15
16
7
50
N (frec.abs.ac)
12
27
43
50
f (frec.rel)
0,24
0,3
0,32
0,14
1
F (frec.rel.ac)
0,24
0,54
0,86
1
Es fácil ver que los valores de esta muestra de 50 datos son 0 (suspenso), 1 (aprobado),
2 (notable) y 3 (sobresaliente).
La frecuencia absoluta indica el total de personas con cada nota; por ejemplo, hay 16
notables.
La frecuencia absoluta acumulada se obtiene sumando los datos de la frecuencia
absoluta, por ejemplo hay 43 personas con notable o menos.
La frecuencia relativa se obtiene dividiendo el número de personas de una categoría por
el total, por ejemplo hay 0,32 (un 32%, 16 dividido por 50) de personas que han sacado
notable.
La frecuencia relativa acumulada se puede obtener de dos formas, o bien sumando de
forma acumulada la frecuencia relativa o bien dividiendo la frecuencia absoluta
acumulada entre el total. Es decir, el 0,86 se obtiene sumando 0,24 + 0,3 + 0,32 o
dividiendo 43 por 50 y quiere decir que el 86% de la muestra ha sacado notable o
menos.
2. Medidas de posición central. Media, moda, mediana (datos pares, impares).
La media de la muestra se obtiene sumando todos los valores y dividiendo por el total;
Media = ∑ xi / n = ((0 x 12) + (1 x 15) + (2 x 16) + (3 x 7))/ 50
Moda: valor más repetido, en este caso el 2 (si hay dos valores que se repiten el mismo
número de veces decimos que la distribución es bimodal).
Mediana: el valor que está en la mitad de todos los dados en la muestra. Si tengo 50
datos el valor central no sería el 25º ya que deja 24 a su izquierda y 25 a su derecha.
Deberíamos sumar el dato 25º con el dato 26º y dividir entre dos (sale 1, ya que los
datos que van del 13º al 27º son siempre unos).
Si el total de la muestra es impar, por ejemplo, si tuviésemos 51 datos, ahora sí el dato
correcto sería el 26º ya que deja a cada lado 25 datos.
Lo veremos más claro en el siguiente punto.
3. Medidas de posición no central. Percentil (Cuartil, decil, quintil) j(n +1) / 100.
Las medidas de posición no central se denominan cuantiles, ya que agrupan los datos
por posición relativa. Lo mejor es comprender el concepto de percentil, ya que es la
referencia básica.
Por ejemplo, el percentil 25 me dice el valor que deja por debajo el 25% de la muestra
(con lo que el 75% de la muestra estará por encima).
Es muy sencillo comprender la idea a partir de una muestra de fumadores, si el percentil
25 es 13, quiere decir que el 25% de las personas fuman como mucho 13 cigarrillos, de
donde se concluye que el 75% fuma más de 13 cigarrillos.
Entendida la idea de percentil (como valor de referencia para toda la población)
razonamos con facilidad la idea de cuartil (hay 3 cuartiles, correspondientes a los
percentiles 25, 50 y 75), de decil (hay 9 deciles; el primero es el percentil 10, el último
es el percentil 90) o de quintil (hay 4, percentil 20, 40, 60 y 80 respectivamente).
Quedaría por razonar el cálculo:
Supongamos una muestra dada por los valores 8, 10, 13, 17, 20, 25, 27 y 31.
Para calcular el percentil 25 (observar que j vale 25 y que n vale 8) haríamos la
operación (25 x 9)/100 = 2,25. Eso quiere decir que hay que tomar el 2º dato más el
25% de la diferencia entre el 3º y el 2º.
Es decir: 10 + 0,25 (13 – 10) = 10,75.
De la misma forma, la mediana o percentil 50 sería (50 x 9)/100 = 4,5.
El 4º dato más el 50% de la distancia entre el 5º y el 4º dato.
Es decir: 17 + 0,5(20 – 17) = 18,5.
Por último, para calcular el percentil 75: (75x9)/100 = 6,75.
Así, 25 + 0,75(27 – 25) = 26,5.
Posteriormente volveremos a analizar estos datos.
4. Medidas de dispersión.
Como dice su nombre, sirve para saber si los datos están o no muy dispersos. La
muestra 4, 5, 5, 5, 6 tiene la misma media (5) que la muestra 1,1, 5, 9,9, y es obvio que
en el segundo caso los datos están mucho más dispersos que en el primero.
Para realizar las operaciones que vienen a partir de ahora usaremos la muestra del
apartado anterior dada por los valores 8, 10, 13, 17, 20, 25, 27 y 31.
Rango o recorrido: el dato mayor menos el menor, es decir, 31 – 8 = 23.
Rango intercuartílico: el tercer cuartil menos el primer cuartil o bien el percentil 75
menos el percentil 25; con los datos anteriores, 26.5 menos 10,75 = 15,75.
Desviación media: muy poco usada, ya que es la media de los valores absolutos de las
desviaciones con respecto de la media.
En la muestra de referencia, (8 + 10 + 13 + 17 + 20 + 25 + 27 + 31)/ 8 = 18,875.
Si hacemos las desviaciones, 8 – 18,875 en valor absoluto es 10,875.
De la misma forma tenemos 10 – 18.875 es 8,875 en valor absoluto y para el resto de
valores tenemos 5,875; 1,875; 1,125; 6,125; 8,125 y 12,125.
Sumando todos da 55, dividido por 8 da 6,875 como desviación media.
Varianza muestral, es la suma de las diferencias de cada uno de los valores respecto de
la media al cuadrado dividido por la muestra menos uno.
Hay que tener cuidado ya que algunos libros escriben en el denominador tan sólo la n,
pero por propiedades estadísticas que no son objetivos del curso usaremos la fórmula de
referencia.
Así; S2 = ∑ (xi – med)2/ n -1
En el ejemplo, 118,26 + 78,76 + 34,51 + 3,51 + 1,26 + 37,51 + 66 + 147 da 486,81;
dividido por 7 tenemos 69,54.
La desviación típica es la raíz cuadrada de la varianza, es decir, 8,339.
Sin embargo, la dispersión depende de las unidades de medida. No queda la misma
dispersión si mido salarios en euros o si los mido en pesetas. Por lo tanto, lo mejor es
usar un índice de dispersión relativa que se denomina coeficiente de variación y que es
capital en estadística.
El coeficiente de variación es igual a la desviación típica dividida por la media; en
nuestro caso, 8,339 dividido por 18,875 nos da 0,441.
Es decir, CV = S / med = 0,441.
Este indicador se usa para comparar dispersiones en muestras calculadas a partir de
medidas diferentes, pero además tiene muchas otras implicaciones importantes:
Decimos que una media es representativa de los datos si el CV es menor que uno (en
este caso es cierto).
Decimos que una muestra es homogénea si el coeficiente de variación es menor que
0,25 (o multiplicado por 100, menor que el 25%), cosa que en este caso no se cumple.
Es MUY IMPORTANTE observar que en una muestra como la de referencia en la que
cambiamos el 31 por 310 la media ya no sería representativa de los datos debido a que
tenemos uno extremo.
Esto nos lleva a una conclusión capital en estadística debido a que a veces la mejor
referencia de tendencia central es la media (se toma como medida de dispersión la
desviación típica) y a veces la mejor referencia de tendencia central es la mediana (se
toma como medida de dispersión el rango intercuartílico aunque muchas veces se dan el
primer y el tercer cuartil para que se vea mejor la referencia).
Aunque volveremos a ello, en el primer caso se supone que la muestra sigue una
distribución normal y lo mejor es realizar los denominados análisis paramétricos
mientras que en el segundo la muestra no sigue una distribución normal y entonces se
realizan análisis no paramétricos.
Así mismo, cuando desarrollemos en el segundo bloque la inferencia estadística
obtendremos el denominado error estándar de la media que se calcula dividiendo la
desviación típica por la raíz cuadrada del tamaño de la muestra:
EE (med) = S /√n = 8,339 / 2,82 = 2,957.
Veremos sus implicaciones a partir del tercer bloque de estudio.
5. Medidas de forma:
La asimetría nos indica si la muestra se encuentra “equilibrada” en torno a la mediamediana o no.
Una intuición muy sencilla viene dada por estas distribuciones de notas:
Primero, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6 es claramente una distribución simétrica.
Si tenemos 4, 4, 4, 4, 5, 5, 5, 5, 10, 10 tendríamos una distribución simétrica a derecha.
Si tenemos 0, 0, 4, 4, 4, 4, 5, 5, 5, 5 tendríamos una distribución asimétrica a izquierda.
La fórmula matemática para calcular este índice sería:
As = ∑ (xi – med)3/ nS3
Se supone que su cálculo no es objetivo del curso, sí su interpretación.
Eso sí, hay que tener mucho cuidado con la misma ya que una distribución asimétrica a
derecha tiene todos los datos agrupados a la izquierda y viceversa como veremos en los
estudios estadísticos que acompañan este curso.
La curtosis (leptocúrtica, mayor que cero; mesocúrtica, cercana a cero; platicúrtica,
menor que cero) nos indica si los datos están muy agrupados o no en torno a la media.
Como siempre, usamos la analogía de las notas de clase para intuir el concepto con más
claridad;
Caso leptocúrtico: 0, 0, 0, 5, 5, 5, 9, 9, 9.
Caso mesocúrtico: 2, 3, 4, 5, 5, 5, 6, 7, 8.
Caso platicúrtico: 4, 4, 4, 5, 5, 5, 6, 6, 6.
La fórmula matemática para calcular este índice sería:
Curt = ∑(xi – med)4/ nS4 – 3.
Una manera sencilla de memorizar estos nombres es tener en cuenta que están en orden
alfabético (l, m, p).
Por otro lado, ¿hasta qué punto una distribución es asimétrica o no lo es?
Se da la circunstancia de que una muestra puede tener una asimetría de 0,5, otra una
asimetría de 4 y que la primera sea asimétrica y la segunda no. Eso depende del valor
del error estándar de la asimetría (nos lo debe dar siempre el programa informático).
Así, tenemos que si el coeficiente de asimetría entre su error estándar es menor que 2
(en valor absoluto) la distribución se considera simétrica mientras que en caso contrario
se considera asimétrica.
Si en el primer caso el error estándar es 0,2, dividiendo 0,5 por 0,2 obtenemos 2,5. Al
ser mayor que dos en valor absoluto y ser 0,5 positivo, consideramos la distribución
asimétrica a derecha.
Si en el segundo caso la distribución tiene de error estándar 5, 4 dividido por 5 da 0,8
que es menor que dos con lo cual consideraríamos que esta distribución es simétrica.
Lo mismo ocurre para el caso de la curtosis.
Hay que saber relacionar los conceptos de asimetría y curtosis con los gráficos (cosa
que ya hemos intuido) e incluso con los percentiles.
Si hay mucha más distancia entre el cuartil 3 y el cuartil 2 que entre el cuartil 2 y el
cuartil 1 consideramos que la distribución es simétrica a derecha, ya que el gráfico
asociado sería más plano a la derecha.
De la misma forma, si la distancia entre el cuartil 2 y el cuartil 1 es mucho mayor que la
distancia entre el cuartil 3 y el cuartil 2 consideremos la distribución asimétrica a
izquierda.
6. Diagramas: histograma, sectores, tallos y hojas, boxplot (outlier normal 1,5 RI;
outlier extremo 3 RI).
90
80
70
60
50
40
30
20
10
0
Este
Oeste
Norte
1er
trim.
2do
trim.
3er
trim.
4to
trim.
Aquí tenemos un ejemplo muy sencillo de un histograma en el cual se visualizan las
ventas de una empresa por trimestres según las diferentes zonas.
En los diagramas de sectores realizamos la misma idea según los conocidos “quesitos”.
1er trim.
2do trim.
3er trim.
4to trim.
El diagrama de tallos y hojas funciona así:
1 33344
1 5555578999
2 022
2 589
31
37
En este caso tendría un total de 23 datos que van desde el 13, 13, 13, 14, 14, 15, hasta el
28, 29, 31 y 37.
Es útil “girar” el diagrama hacia la izquierda para comprobar así que la distribución es
simétrica a derecha (¿Por qué?).
Por último están los diagramas de cajas o boxplot.
En los mismos, aparece en forma de “nave espacial” todos los datos, de forma que
tenemos una caja que tiene marcada una línea con la mediana, de manera que el extremo
inferior es el percentil 25 y el extremo superior es el percentil 75.
Los bigotes indicarían más o menos los valores extremos, de manera que el bigote
inferior es el primer número superior al primer cuartil menos 1,5 veces el rango
intercuartílico mientras que el bigote superior es el primer número inferior al tercer
cuartil más 1,5 veces el rango intercuartílico.
Todos los valores que están fuera de este rango serían extremos o “outliers”.
Para comprenderlo bien, volvemos a la muestra (8, 10, 13, 17, 20, 25, 27, 31) con Q1 =
10,75, Q2 = 18,5 y Q3 = 26,5. Hemos visto que RI = Q3 – Q1 = 15,75.
Así, el extremo inferior sería el primer número superior a 10,75 – 1,5 x 15,75 = -12,875
que es el primero de la muestra, el 8.
Por otro lado, el extremo superior sería el primer número inferior a 26,5 + 1,5 x 15,75 =
50,125 que es el mayor de la muestra, el 31.
En este caso no tendríamos valores extremos.
7. Otras ideas:
Existen diversas propiedades o conceptos que se aplican a nivel teórico y que merece la
pena resaltar de cara a la prueba final. Aparecen al final del formulario a memorizar
para la parte de estadística.
Referencia: 1, 2, 4.
MEDIA GEOMÉTRICA: es la raíz enésima del producto de todos los valores de la
muestra. Se usa si la variable sólo puede tener signos positivos y la media geométrica
está cerca de la mediana. No es habitual; lo lógico es que la media aritmética esté cerca
de la mediana y en ese caso se usa la media de toda la vida.
Cálculo: la raíz cúbica de 1 x 2 x 4 es 8.
MEDIA ARMÓNICA: total de datos dividido por la suma de los inversos de cada
observación de la muestra. Se usa cuando los datos son tasas de variación (velocidades).
Cálculo: 3 dividido por 1/1 + 1/2 + 1/4 = 1,75, es decir, 3 / 1,75 = 1,714.
MEDIA PONDERADA: es igual que la media aritmética con el matiz de que cada dato
se multiplica por el número de veces que sale y después se hace la división entre el total
de datos. Otra forma de verlo son las asignaturas en las que tenemos un parcial y
después un final que vale doble; se suma la primera nota más la segunda dividida por
dos y se divide por tres.
Cálculo: si en el ejemplo la última referencia vale doble, (1 + 2 + 8)/4 = 2,75.
TRANSFORMACIONES DE UNA MUESTRA RELACIONADAS CON LA MEDIA
Y LA VARIANZA:
Es obvio que la muestra 1, 2, 4 tiene de media 7/3 = 2,33.
La varianza sería 1,332 + 0,332 + 1,672 dividido por 2 es decir: 4,666.
Si sumamos a todos los datos una cantidad, por ejemplo 3 (4, 5, 7), a la media anterior
se le suma 3, quedando 5,33. La varianza no sufriría variación alguna.
Si multiplicamos todos los datos por 3 (3, 6, 12) la media quedaría multiplicada por 3
quedando 7, mientras que la varianza quedaría multiplicada por 3 al cuadrado (9 por
4,666).
Resumiendo: si a todos los elementos de una muestra les sumo un valor a constante, la
nueva media será la anterior más “a” y la varianza no sufrirá ninguna variación.
Si todos los valores de la muestra los multiplico por un valor “a”, la media queda
multiplicada por a y la varianza queda multiplicada por a2.
TIPIFICACIÓN:
Si a cada valor le restamos la media y dividimos por la desviación típica estamos
tipificando los datos.
En el ejemplo, los datos son 1, 2, 4, la media es 2,33 y la desviación típica es la raíz de
4,666 = 2,16.
Los datos tipificados serían (1 – 2,33) / 2,16 = - 0,615; (2 – 2,33) / 2,16 = - 0,152 y (4 –
2,33) / 2,16 = 0,773.
Estos datos cumplen la propiedad de que su media es 0 y su desviación típica es 1.
Tienen la ventaja de que son útiles para hacer comparaciones relativas: ver la situación
de una observación respecto de su grupo. En este contexto, puede ocurrir que dentro de
las notas de un examen un alumno ya que haya sacado un 7 en una clase en términos
relativos esté peor que un alumno que haya sacado un 6 en otra clase. La intuición es
muy sencilla, a lo mejor el primer examen era muy sencillo y la media global fue de 8
mientras que el segundo fue muy difícil y la media global fue de 5.
2. Probabilidad y variables aleatorias.
1. Definición y conceptos asociados a probabilidad.
Un EXPERIMENTO ALEATORIO es aquel en el que no podemos predecir un
resultado; por ejemplo, el lanzamiento de un dado. Lo contrario de un experimento
aleatorio es un EXPERIMENTO DETERMINISTA que se daría si queremos medir el
tiempo de caída del dado. Es claro que la cinemática nos da el resultado con exactitud.
El ESPACIO MUESTRAL de un experimento aleatorio está formado por los posibles
resultados del mismo. Continuando con el ejemplo del dado, el espacio muestral estaría
formado por el 1, 2, 3, 4, 5 y 6.
Un SUCESO es un subconjunto del espacio muestral. El suceso “par” se daría si
obtenemos en una tirada un 2, un 4 ó un 6. El suceso “menor o igual que tres” se daría si
obtenemos un 1, un 2 ó un 3.
La PROBABILIDAD DE UN SUCESO sería la frecuencia relativa con la que se da
dicho suceso. Si bien usamos la fórmula de Laplace “casos favorables dividido por
casos posibles” y así sabemos que la probabilidad de sacar par es 0,5 (3 dividido por 6)
la intuición obedece a un límite que vendría dado por el número de veces que sale par
dividido por número de tiradas cuando las mismas tienden a infinito.
Aunque existen diferentes axiomáticas para definir la probabilidad no entraremos en las
mismas y nos quedaremos con una idea básica: una probabilidad es un atributo de un
suceso, el cual es un subconjunto de un espacio muestral el cual está formado por los
posibles resultados de un experimento aleatorio.
En términos de bioestadística no se estudian probabilidades de dados o de juegos de
azar (eso lo dejaremos para los aficionados al casino) si no que se hacen estudios para
evaluar la posible incidencia de un hábito (fumar) en una enfermedad (cáncer).
Es por eso que vamos a estudiar las propiedades de la probabilidad usando de referencia
un estudio. En el mismo, supondremos que si de 200 personas tienen cáncer 40, la
probabilidad de tener cáncer es de 40 dividido por 200, es decir, 0,2.
El estudio que usamos de modelo serviría si dividimos todos los valores por el total de
la muestra, 200. Vamos, pues, con ello.
2. Propiedades de la probabilidad:
Fumador
No fumador
Cáncer
30
10
40
No cáncer
70
90
160
100
100
200
Observemos que p(C) = 40/200 = 0,2 es la probabilidad de tener cáncer.
P(F) = 100/200 = 0,5 es la probabilidad de fumar.
P(F∩C) = 30/200 = 0,15 es la probabilidad de fumar y tener cáncer (INTERSECCIÓN).
P(F/C) = 30/40 = 0,75 es la probabilidad de fumar SI tiene cáncer (es la llamada
PROBABILIDAD CONDICIONADA; en la misma es fundamental observar que el
denominador viene dado por la condición consistente en este caso en el total de
personas con cáncer que son 40).
P(C/F) = 30/100 = 0,3 es la probabilidad de tener cáncer SI se fuma.
P(nC) = 160/200 = 0,8 es la PROBABILIDAD CONTRARIA O
COMPLEMENTARIA; simplemente, probabilidad de no tener cáncer.
P(F∩nC) = 70/200 = 0,35 es la probabilidad de fumar y no tener cáncer o bien la
probabilidad que tiene una persona de que SÓLO SE DE UN SUCESO, en este caso
fumar.
P(FUC) = (30 + 70 + 10)/200 = 0,55 es la probabilidad de fumar o tener cáncer
(UNIÓN)
Las propiedades de la probabilidad relacionan todas estas probabilidades entre sí (se
aconseja al alumno pensar de memoria los números):
La probabilidad de un suceso está siempre entre 0 y 1. Si es cero hablamos del suceso
imposible (en un dado, sacar a la vez menos de 2 y más de 5); si es de uno, hablamos
del suceso seguro (en un dado, sacar menos de 8).
P(nF) = 1 – P(F); ésta es la más intuitiva. Hasta un niño sabe que si la probabilidad de
que llueva es del 80%, la probabilidad de que no llueva es del 20%.
P(FUC) = P(F) + P(C) – P(F∩C) = 0,5 + 0,2 – 0,15.
P(F∩nC) = P(F) – P(F∩C)
P(C/F) = P(C∩F)/P(F) = 0,3 = 0,15/0,5
Observar que la probabilidad de tener cáncer si fumas (el 30%) es mayor que la
probabilidad de tener cáncer (el 20%). Eso sugiere que hay una hipotética relación entre
el hecho de fumar y tener cáncer. La inferencia estadística, como veremos en el
siguiente apartado, nos dirá si esa relación es o no significativa.
Dos sucesos son INDEPENDIENTES si P(C/F) = P(C); la intuición es muy sencilla ya
que sería lo mismo tener cáncer que tener cáncer si fumo. Eso quiere decir que una cosa
no tiene nada que ver con la otra.
En un estudio real es casi imposible que se de esta igualdad exacta ya que sería una gran
casualidad. De lo que se trata es de evaluar si los datos están MUY ALEJADOS o no de
la igualdad.
En el caso de tener sucesos independientes es inmediato comprobar que siempre se
cumple la siguiente igualdad P(F∩C) = P(F) x P(C)
La independencia se da cuando lanzamos dos tiros seguidos a una diana (suponiendo
que el primero no nos inspire) o cuando tomamos dos personas que no tienen nada que
ver entre sí. Esto es básico en el momento de hacer este tipo de estudios.
Dos sucesos son DISJUNTOS O INCOMPATIBLES si no pueden ocurrir a la vez;
como ha quedado explicado al tirar un dado no me puede quedar a la vez un número
menor que dos y mayor que cuatro.
Las LEYES DE MORGAN son relaciones más retorcidas:
P(nC∩nF) = P(nC) U P(nF)
P(nCUnF) = P(nC) ∩P(nF)
En la teoría de la probabilidad es común analizar fórmulas como la probabilidad total,
Bayes (en honor al reverendo que comenzó estas investigaciones), la odds o el factor de
Bayes, pero de momento las omitimos.
3. Variable aleatoria.
Consiste en asignar una probabilidad a cada resultado numérico de un experimento
aleatorio.
Si bien este desarrollo no es materia de examen, es fundamental para comprender todos
los temas posteriores. Así, supongamos el experimento aleatorio “lanzar dos veces una
moneda” el cual usamos para definir la variable aleatoria “número de caras”.
Es claro que vamos a obtener cero, una o dos caras y que sus probabilidades respectivas
(muy intuitivas) son 0,25; 0,5 y 0,25.
Lo vemos en la siguiente tabla:
X
0
1
2
P(X)
0,25
0,5
0,25
1
F(X)
0,25
0,75
1
Mientras que la primera columna nos da de manera directa todas las probabilidades en
la segunda tenemos lo que se llama FUNCIÓN DE DISTRIBUCION en la que vienen
todas las probabilidades acumuladas.
Es capital, ahora, distinguir la estadística descriptiva (dada en el tema anterior) de la
estadística aleatoria (que vemos ahora). Aunque se definen media y varianza, sus
expresiones son diferentes.
En la ESTADÍSTICA ALEATORIA la media se denota como µ = ∑ XiP(Xi) = E(X)
Haciendo las operaciones tenemos (0 x 0,25) + (1 x 0,5) + (2 x 0,25) = 1
Su interpretación es que si lanzamos dos veces al aire una moneda ESPERAMOS
obtener una cara. Puede que no la obtengamos o incluso el resultado me podría haber
quedado en decimales pero su interpretación es la que es.
La varianza se denota como σ2 = Var(X) = ∑ (Xi – E(X))2 = ∑ Xi2P(Xi) – E(X)2
La mejor expresión para operar es la segunda que nos da de manera sencilla
(02 x 0,25) + (12 x 0,5) + (22 x 0,25) – 12 = 0,5
La desviación típica sería σ = √ 0,5 que indicaría como en el caso de la estadística
descriptiva si el experimento aleatorio tiene mucha desviación respecto de la media o
esperanza. A más desviación, menos representativa es la media. En este contexto se
podría calcular el COEFICIENTE DE VARIACIÓN con las fórmulas anteriores para
ver además de la representatividad la posibilidad de que los datos sean o no
homogéneos.
En el ámbito de la bioestadística existen tres modelos que son muy habituales. Los
distinguiremos como distribuciones discretas (si sólo pueden dar valores puntuales
como el número de enfermos) o distribuciones continuas (si los datos van por rangos;
por ejemplo el peso o el nivel de colesterol).
6. Variables discretas.
La VARIABLE ALEATORIA BINOMIAL se da cuando repetimos n veces un
experimento que sólo tiene dos posibilidades que denominaremos como forma reducida
“éxito” o “fracaso”.
Por ejemplo, tomamos 10 personas y estudiamos la variable “número de personas con
gripe”. Su rango de valores es de 0 a 10 (en general, a n). Si la probabilidad de tener
gripe es del 20% podemos calcular la probabilidad de que tengan gripe un número
cualquiera de personas.
En estadística existen numerosos programas informáticos que compiten entre sí; otras
áreas de conocimiento como la matemática tienen todo más unificado. En todo caso, su
manejo suele ser sencillo. Los programas más usados son SPSS (se debe pagar licencia),
Gretl, Stata, R, Rcomander o Eviews entre otros.
Volviendo a la binomial, se denota como B(n,p) = B(10; 0,2).
Su esperanza es E(x) = np = 10 x 0,2 = 2.
Tiene sentido ya que el 20% de 10 personas es 2, por lo tanto lo esperado es que de 10
personas tengan gripe 2.
La varianza es Var(x) = npq = 10 x 0,2 x 0,8 = 1,6.
Observar que si p es la probabilidad de éxito (si podemos considerar como tal tener
gripe) q = 1 – p es la probabilidad de fracaso.
La varianza es mayor conforme p se acerca a 0,5. También tiene lógica ya que si p fuese
0,01 los resultados serían muy bajos y menos oscilantes.
Para hacer cálculos se realiza la operación P(X=k) = k! pk qn-k/ n! (n-k)!
Los más expertos habrán visto como aparece implícitamente un número combinatorio.
En todo caso, para calcular p(X=3) = 3! 0,230,87/ 10! 7!
Si de 10 personas están enfermas 8 se comprueba que p(X=8) es muy baja. En otras
palabras, es muy difícil que pase lo que está pasando. Es decir, posiblemente estemos
dentro de una epidemia.
La VARIABLE ALEATORIA DE POISSON se da en fenómenos más extraños que
tienen que ver con el paso del tiempo referenciados a una población.
Por ejemplo, número de enfermos de tuberculosis en Pamplona, número de accidentes
laborales en una fábrica determinada. No sería válido introducir el número de enfermos
de gripe en Pamplona debido a que ese tipo de enfermedad es habitual. Además,
debemos referenciar el tiempo. Si el número de enfermos es puntual (más extraño) o es
en una semana o un mes, por ejemplo.
Siempre que estemos en una variable de Poisson habrá un valor de referencia (λ=5) que
será el número medio de enfermos. En términos de probabilidad iremos la función va
creciendo hasta dicho valor de referencia y luego va bajando suave de forma que en
teoría el rango de valores de la variable de Poisson iría desde 0 hasta infinito.
En términos técnicos, se denota como P(λ) = P(5), siendo E(X) = λ, Var(X) = λ.
Para realizar operaciones, la fórmula de referencia es P(X=k) = e-λλk/k!
Si hacemos P(X=3) = e-553/3!
Hay que tener en cuenta que se puede pasar de una variable Binomial a otra de Poisson
cuando np es menor que 5 si n es grande, ya que en ese caso la esperanza nos diría que
el fenómeno es raro.
Si tenemos 4000 personas y la probabilidad de tener tuberculosis es del 0,001, lo
esperado (multiplicando ambas) es que sólo haya 4 personas con tuberculosis (de 4000
se puede considerar un fenómeno raro).
En ese caso, si nos piden calcular la probabilidad de que 5 personas tengan tuberculosis
podemos usar la binomial de la forma típica o la fórmula de Poisson con λ=5.
Por último, en Poisson se cumplen regularidades con el tiempo, por eso es fundamental
tenerlo en cuenta. Si un año los enfermos de tuberculosis siguen con λ=5 y otro año se
cumple la misma distribución, para calcular la probabilidad de que en dos años haya 7
enfermos usaremos la propiedad sumativa y tendremos en cuenta que estamos en una
variable de Poisson P(λ = 5+5 = 10).
El mismo fenómeno se puede reducir. Si en lugar de medir en número de coches que
pasan por un peaje al día medimos el número de coches que pasa a la hora hay que
tomar el λ inicial y dividirlo por 24.
7. Variables continuas; la normal.
La variable aleatoria normal tiene forma de campana (de Gauss) y su nombre viene
debido a que antiguamente se pensaba que todas las variables continuas seguían la
misma distribución con la siguiente regularidad:
Si una variable como el “peso de las personas” era N(70, 5), es decir, una normal de
media 70 y desviación típica 5 (la notación general es N(µ, σ)), teníamos que
aproximadamente el 69% de las personas estaba entre 65 y 75; el 95,5% de las personas
estaba entre 60 y 80 y el 99.9% estaba entre 55 y 85.
Es decir, vamos construyendo intervalos restando y sumando una vez la desviación
típica respecto de la media; luego hacemos eso dos veces y por último hacemos eso tres
veces.
Curiosamente podemos pensar en otra variable como la “edad” de una población. La
forma de la misma depende de la evolución de un país; un país que esté prosperando
tiene más jóvenes que mayores; llegado a un nivel este aspecto se equilibra (es cuando
la distribución más se parece a la campana de Gauss) y cuando llega la “decadencia”
tiende a haber más mayores que jóvenes.
Para calculara probabilidades con la variable normal se usa siempre un programa
informático y en caso de no tenerlo debemos tipificar los datos para transformarlos en
una normal de media uno y desviación típica cero, la cual permite usar las tablas de
probabilidad de la z= N(0,1).
Por ejemplo, si dada la N(70,5) nos piden la probabilidad de que una persona pese
menos de 60 kgs usando un programa informático tendremos que aplicar un comando
semejante a normal(60,70, 5). Si no tenemos el programa, debemos tipificar y hacer
P(X≤60) = P(X≤(60-70)/5) = P(X≤-2) = 0,0228.
Como siempre, la tipificación viene dada por la fórmula (X-µ)/σ
La normal cumple propiedades importantes como que la combinación lineal de
variables aleatorias normales mantiene la normalidad (de media y varianza calculadas a
partir de las propiedades que veremos en el siguiente punto).
Hay que recordar que una combinación lineal consiste en sumar y restar variables que
puedan estar multiplicadas por constantes.
Por otro lado, la suma de 30 o más variables de distribución desconocida se convierten
en variables aleatorias normales a partir del TEOREMA CENTRAL DEL LIMITE O
LEY DE LOS GRANDES NÚMEROS (la media y varianza se calculan como antes).
Por último si tenemos una variable de la que desconocemos su distribución el
TEOREMA DE CHEBICHEV nos permite aproximarnos a sus probabilidades.
PROPIEDADES DE E(X), Var(X), APLICACIONES.
E(X±Y) = E(X) ± E(Y).
E(aX) = aE(X)
E(a) = a
Var (X±Y) = Var(X) + Var(Y) ± cov(X,Y).
Var(aX) = a2Var(X)
Var (a) = 0
Var (aX±bY) = a2Var(X) + b2Var(Y) ± 2abCov(X,Y).
Si una empresa tiene unos ingresos que siguen una N(70,4) y unos gastos que siguen
una N(65,3) para calcular los beneficios tenemos:
B = I – G = N(5, 5=√25)
E(I-G) = E(I) – E(G) = 70 – 65 = 5
Var(I-G) = Var(I) + Var(G) – 2Cov(I,G) = 16 + 9 – 0 (suponemos siempre por
simplicidad que no hay relación entre los ingresos y los gastos, es decir, que son
independientes lo que supone que su covarianza – estudiada en estadística
bidimensional- es nula).
Si queremos calcular la probabilidad de tener beneficios:
P(B≥0) = 1 – norm (0, 5, 5) = 1 – p(Z≤-1) = 0,8413.
La misma lógica se usaría si aplicamos el teorema central del límite; si una empresa
vende cada día de media 40kgs de melocotones con una desviación típica de 5, la
probabilidad de que en 50 días venda más de 2100 kgs se calcularía con el teorema
central del límite (TCL):
Las ventas totales seguirían una normal de media 45 x 50 = 2000 y de varianza 50 x 25
= 1250. Así, V sería N(2000, √1250 = 35,35).
Para calcular p(V≥2100) haríamos 1 – p(V≤2100) = 1 – normal(2100, 2000; 35,35)
Hemos visto como se podía pasar de una variable binomial o otra de Poisson. Se puede
pasar también de una variable binomial a una normal siempre que n sea lo
suficientemente grande (más de 50 aunque los autores no se ponen de acuerdo) y a la
vez np junto con nq sean mayores que 5 (si no se cumple esto podemos pasar de
binomial a Poisson). Es el denominado Teorema de Moivre.
También se puede pasar de Poisson a Normal siempre que λ≥25 (tampoco aquí los
autores se ponen de acuerdo).
DESIGUALDAD DE TCHEBICHEV:
Para cualquier distribución desconocida se cumple que:
P( µ - kσ ≤ X ≤ µ + kσ) ≥ 1 – 1/k2
Lo aplicamos al caso del frutero que vendía cada día de media 40 kilogramos de
melocotones con una desviación típica de 5.
Para calcular la probabilidad de que un día determinado venda entre 30 y 50 kilogramos
de melocotones (observar que el intervalo debe estar centrado en la media que es 40)
tenemos que la distribución es desconocida (si fuese normal la operación sería sencilla).
En este caso, se puede calcular la desigualdad de Tchebichev:
Si voy al extremo inferior del intervalo (es lo mismo tomar uno u otro) tenemos que:
40 – k5 = 30, de donde k = 2.
Así, la probabilidad mínima será de 1 – 1/4 = 0,75.
En definitiva, la probabilidad de vender entre 30 y 50 kgs es al menos el 75%. En
consecuencia, la probabilidad de vender menos de 30 kgs o más de 50 kgs será como
mucho del 25%.
Observar que la probabilidad de vender más de 50 kgs será como mucho también del
25% (ignoramos dónde está toda la probabilidad “sobrante”) a no ser que nos digan que
la distribución es simétrica en cuyo caso esta probabilidad sería de la mitad, un 12,5%.
Así termina el análisis de la probabilidad y de las variables aleatorias.
Pasamos al tercer bloque: la inferencia estadística, la cual está basada en el estudio de
intervalos de confianza y de contrastes de hipótesis.
3. Intervalos de confianza y contrastes de hipótesis.
PREVIO: VARIABLES ALEATORIAS RELEVANTES.
Ya hemos analizado la variable aleatoria normal.
Hemos visto como para calcular probabilidades se puede tipificar para llegar a la
reducida N(0,1) = z.
Por ejemplo, p(z≤1,96) = 0,025, de donde se puede usar la notación Z0,025 = 1,96 para
indicar “punto que deja delante un área de 0,025” lo cual nos indica que dejará detrás,
claro está, un área de 0,975. No obstante, algunos autores usan la referencia al revés
dejando en el subíndice 0,975.
Así mismo, hay que tener en cuenta que debido a la simetría de la normal el punto -1,96
dejará detrás un área de 0,025.
Vamos a las otras variables:
Distribución chicuadrado (Pearson):
Una variable aleatoria chicuadrado o jicuadrado de n grados de libertad consiste en la
suma de n variables normales N(0,1) al cuadrado.
X2n = Z21 + ……..+ Zn2 si bien la notación habitual es χ2 con n grados de libertad.
Esta distribución tiene de esperanza n y de varianza 2n.
Su expresión es una campana achatada que comienza desde el 0 como se muestra en el
anexo que se usará de modelo para realizar estos desarrollos.
La notación χ212;0,05 indica que punto que deja delante del mismo un área de 0,05 en una
jicuadrado con 12 grados de libertad.
En este caso no tiene sentido la simetría debido a que la distribución parte del origen.
Distribución tsutdent:
Descubierta por Gosset, una t-student con n grados de libertad consiste en una z
dividida por la raíz cuadrada de una jicuadrado de ngrados de libertad dividida por n.
Entenderemos que esta fórmula no es exigible para el examen y que se deberá tener en
cuenta que:
E(tn) = 0
Var (tn) = n/(n-2) siempre que n≥3
Si n es muy grande (en general es válido para n≥30) la distribución converge a una
normal.
Por lo tanto se mantiene la simetría de la normal y la notación: T25;0,025 sería el punto
que en una t-student con 25 grados de libertad deja delante un área de 0,025.
Distribución F Snedecor-Fisher:
Usada para comprobar la igualdad de varianzas o en análisis avanzados (todos los
realizados con el ANOVA) sólo diremos que su expresión es una jicuadrado con m
grados de libertad dividido por m entre otra jicuadrado con n grados de libertad dividida
por n.
Fm,n = (χ2m/m)/(χ2n/n)
Su forma es la de la campana de la jicuadrado y la notación F5,7;0,1 indica punto que deja
delante de él un área de 0,1 en una F de Fisher Snedecor con 5 grados de libertad del
numerador y 7 grados de libertad del denominador.
1. El contraste de hipótesis.
En inferencia estadística se usa como referencia básica el denominado contraste de
hipótesis. Se supone (es como en los juicios) cierto mientras no se demuestre lo
contrario.
Supongamos que vemos en un atlas que el peso de los monos de Senegal sigue una
distribución N(40, 5) y queremos verificar si dicha distribución es cierta. Para ello nos
iríamos de safari a Senegal y tomaríamos una muestra de monos. Es lógico pensar que
si su peso medio es cercano a 40 la hipótesis nula será cierta y en caso contrario no lo
será. El test se plantea así;
Hipótesis nula;
Hipótesis alternativa;
H0 µ = 40
H1 µ ≠ 40
Si en una muestra de (n =) 25 monos observamos que el peso medio es de 43
kilogramos y tomamos un error tipo I (ver el siguiente punto) de α = 0,05, se aplica la
expresión:
(Med - µ)/(σ/√n) = z; tomamos como límite los puntos que dejan en cada esquina un
área de 0,025 (α/2), es decir, -Zα/2 y Zα/2 que correspondería a -1,96 y 1,96.
Como el punto nos queda (43-40)/(5/√25) = 3, estamos en zona de rechazo, es decir,
consideramos que el peso de los monos es significativamente distinto de 40 kilogramos.
Hay veces que deseamos comprobar si un valor ha subido, entonces se realiza el
denominado CONTRASTE UNILATERAL DERECHO.
Supongamos una granja con unos cerdos que pesan de media 300 kgs. Queremos probar
una dieta para ver si los animalitos engordan de forma significativa.
En este caso no os interesa ver si el peso ha variado de 300 kgs, lo que queremos es ver
si el peso ha subido de 300 kgs.
Tendríamos;
H0 µ = 300
H1 µ > 300
Si en una muestra de 100 cerdos que han seguido la nueva dieta el peso medio es de 310
kgs y consideramos que σ = 50 con un α de 0,05, habría que repetir la fórmula anterior
teniendo en cuenta que toda la zona de rechazo queda a la derecha: Z0,05 = 1,64.
Como la operación matemática me da (310 – 300)/ (50/√100) = 2 rechazo la hipótesis
nula y consideramos con una significación del 5% que el peso de los cerdos aumenta.
Por supuesto, a veces deseamos comprobar si un valor ha bajado, en cuyo caso
aplicamos un CONTRASTE UNILATERAL IZQUIERDO.
Supongamos un grupo de enfermos de colesterol con un nivel de 200 al que le
aplicamos una dieta para ver si les baja dicho nivel. Así, tenemos que en una muestra de
64 personas el nivel medio queda en 195 con σ = 60 y α = 0,01.
Tenemos:
H0 µ = 200
H1 µ < 200
Ahora el punto de referencia estaría a la izquierda y sería –Z0,01 = - 2,33.
La operación matemática queda: (195 – 200)/ (60/√64) = -0,66 de donde no rechazo la
hipótesis nula, concluyendo así que la dieta no logra reducir el nivel de colesterol.
Debemos tener en cuenta que el espíritu de la investigación hará que el contraste sea
bilateral (si deseo comprobar si algo ha cambiado o no), unilateral derecho (si deseo
comprobar que ha subido) o unilateral izquierdo (si deseo comprobar que ha bajado).
Por último en la hipótesis nula se da siempre la igualdad.
2. Conceptos básicos.
EL P VALOR.
Sería un poco simplista pensar en el que los problemas de contrastes de hipótesis sean
siempre del estilo blanco – negro (o no rechazo la hipótesis nula o la rechazo según
donde me caiga el estadístico de contraste que usa como referencia el punto de la tabla).
En ese sentido, mucho cuidado. Nunca debemos decir “acepto la hipótesis nula” (sería
equivalente a decir en un juicio que alguien es inocente) si no que lo que haremos será
ver si “no rechazo la hipótesis nula” (persona no culpable) o si “rechazo la hipótesis
nula” (persona culpable).
Lo reitero: no se pueden encontrar pruebas que nos digan que la hipótesis nula sea
cierta. Sólo existen para comprobar que la hipótesis nula es falsa, de la misma forma
que en los juicios sólo se demuestra la culpabilidad. De hecho, si seguimos con la
analogía, tenemos que en los juicios existe la “verdad real” y la “verdad judicial”. De la
misma forma, en los contrastes tenemos la “verdad real” y la “verdad estadística”. Y
como todos sabemos, una no coincide necesariamente con la otra.
Volvemos a la idea de “blanco-negro”. Es importante evaluar el grado de aceptación (no
rechazo) y rechazo de la hipótesis nula.
Para ello se usa el p-valor que es la probabilidad de que los datos muestrales sean
iguales o más extremos que los obtenidos si realmente la hipótesis nula es cierta. Un pvalor de 0,001 indica que hay un uno por mil de probabilidades de que la muestra sea la
que ha sido o una más extrema si la hipótesis nula es cierta. Es decir, podemos
rechazarla.
No es objetivo del curso saber calcular el pvalor ya que todos los programas
informáticos nos lo dan de forma directa, pero sí hay que saber que las reglas son:
Pvalor < 0,01 = α, rechazo la hipótesis nula (test muy significativo).
0,01 ≤ pvalor ≤ 0,05, rechazo la hipótesis nula (test significativo).
0,05 < pvalor ≤ 0,1, “zona de nadie” (ni acepto, ni rechazo).
0,1 < pvalor, no rechazo la hipótesis nula.
De forma simplificada se rechaza si el pvalor es menor que 0,05 y no se rechaza en caso
contrario. La igualdad es irrelevante ya que el pvalor tiene tantos decimales que es muy
difícil que coincida con alguno de esos valores.
ERRORES.
En el momento de hacer los contrastes podemos cometer errores.
Se llama error tipo α, significación o error de tipo I a la probabilidad de rechazar la
hipótesis nula cuando es cierta, técnicamente: p(rechazar H0/ H0 cierta) = α.
Lo contrario de este error sería aceptar la hipótesis nula cuando es cierta, es un concepto
llamado especificidad del contraste:
Especificidad = p(aceptar H0/H0 cierta) = 1 – α
El otro tipo de error es el de tipo beta (o tipo II) que sería la probabilidad de aceptar la
hipótesis nula cuando es falsa.
Técnicamente:
β = P(aceptar H0/ Ho falsa).
Lo contrario de este error sería rechazar la hipótesis nula cuando es falsa, concepto
fundamental en estadística (ya que permite detectar cambios en las procesos) que se
llama potencia o sensibilidad del contraste.
Así:
Potencia = p(rechazar H0/H0 falsa) = 1 – β
Resumimos estas ideas así:
H0 cierta
H0 falsa
Acepto H0
Especificidad
Error tipo II, β
Rechazo H0
Error tipo I, α
Potencia, sensibilidad
Para comprender mejor la diferencia entre los dos errores pensemos en el caso del
colesterol (el contraste unilateral izquierdo) cuando una empresa quería comprobar si su
dieta o medicina bajaba el colesterol.
La hipótesis nula es siempre cierta mientras no nos digan lo contrario y es la que se usa
de referencia;
H0 “El colesterol queda igual con la dieta”
H1 “El colesterol baja con la dieta”
Si rechazo H0 cuando es cierta, pensaré que la dieta es efectiva cuando realmente no lo
es. Eso me lleva a una ruina absoluta, ya que estoy comercializando algo que no cumple
lo que prometía.
Si acepto H0 cuando es falso, pensaré que mi dieta no es efectiva cuando realmente lo
es. Y sí, dejo de ganar dinero ya que no voy a comercializar algo útil. Pero no me puedo
arriesgar a tener un error de tipo α ya que es muchísimo más grave. Y es que si me
confundo en el análisis de los monos no es muy grave, pero en estudios basados en
personas es evidente que la cosa tiene que cambiar.
3. Intervalos de confianza.
Un intervalo de confianza es un rango de valores entre los que se encuentra un
parámetro poblacional desconocido con un nivel de confianza (¡no de probabilidad!
mucho cuidado) 1 – α.
Si hacemos un intervalo de confianza para la media de una población (µ) y nos da que
va de 70 a 80 diremos que con una confianza del 95% (α = 0,05 es el valor de
referencia) la media de la población se encuentra entre esos valores. Se supone que si
hacemos 100 intervalos diferentes a partir de muestras en 95 estará el valor buscado.
Para calcular el intervalo se hace siempre la misma fórmula:
Estimador ±Zα/2 x Error Estándar del Estimador
Lo vamos a ver en tres casos diferentes: la media poblacional, la mediana (recordar que
unas veces la media era el mejor indicador de posición central de la muestra y que en
otros el mejor era la mediana; se usan siempre en variables cuantitativas) y la
proporción (cuando estamos midiendo una variable dicotómica como fumar – no fumar
y deseamos evaluar la proporción poblacional a partir de una muestra).
a. El caso de la media poblacional en una distribución normal (variable cuantitativa).
El intervalo será: µ ϵ (med ± Zα/2 EE(med)) siendo EE(med) = σ/√n
Si no conocemos la desviación de la población σ (que es lo más normal ya que de la
misma forma que no sabemos µ no tenemos razones para saber σ) tendríamos que
aplicar la t-student siendo el intervalo:
µ ϵ (med ± Tn-1; α/2 EE(med)) siendo EE(med) = S/√n
Si en el caso de los monos de Senegal tomamos una muestra de 25 monos con S=5
tomando α = 0,05 (observar que ahora la notación cambia y estamos hablando de error
de confianza, no de significación) y con med = 43, el intervalo será:
µ ϵ (43 ± T24;0,025 5/√25)
Con los mismos datos, se cumple que si planteamos la hipótesis nula de media
poblacional igual a 40, si acepto H0 40 estará incluido en el intervalo y si rechazo H0 no
estará incluido.
b. El caso de la proporción poblacional (variable cualitativa dicotómica).
Si denotamos la proporción poblacional como ∏ y la proporción muestral como p,
siguiendo el patrón anterior el intervalo será:
∏ ϵ (p ± Zα/2 EE(p)) siendo EE(p) = √p(1 – p) /n
Si de una muestra de 200 personas fuman 50 (p = 0,25) y queremos estimar la
proporción de fumadores con un nivel de confianza del 99% (α = 0,01) el intervalo será
∏ ϵ (0,25 ± Z0,001 (0,25 x 0,75 / 200)1/2) siendo Z0,001 = 2,57 con orden informática,
según el programa, semejante a invnormal(0,001) = 2,57.
Estos intervalos suelen ser algo más anchos, es decir, menos precisos.
c. El caso de la mediana.
Medpob ϵ (medianam ± Tn-1; α/2 1,253 S/√n ); obviamente, EE(medianam = 1,253 S/√n)
Es menos preciso que el de la media al tener su error estándar el de la media
multiplicado por 2,253.
MUY IMPORTANTE: existen autores que dan otro valor estándar a la media.
Existen intervalos de confianza para la diferencia de medias que sirven para detectar
ciertas causalidades; si a un grupo de cerdos le damos una dieta (y calculamos la media
de peso y desviación típica de la muestra) y otro grupo de cerdos le damos otra dieta (y
hacemos lo mismo) para ver si existen diferencias significativas en el peso tendríamos
que hacer el intervalo, de forma que:
IC (µx - µy) = (-3, -1) indicaría que la segunda dieta es mejor que la primera con una
confianza supuesta del 95%.
IC (µx - µy) = (-1, 2) indicaría que no existen diferencias significativas entre una dieta y
otra y finalmente:
IC (µx - µy) = (1, 4) indicaría que la primera dieta es mejor que la segunda con una
confianza del 95%.
La clave está en el cero.
4. Relaciones de causalidad.
En bioestadística es fundamental relaciones de causalidad entre diferentes variables.
Como hemos reducido las variables en cuantitativas y cualitativas, vamos a ver las
relaciones en 3 bloques: cualitativo – cualitativo, cualitativo – cuantitativo, cuantitativo
– cuantitativo. Son los más usados con diferencia.
Por último, el anexo nos dará otras posibilidades de estudio en todo este contexto.
1.- Variables cualitativas – cualitativas.
La referencia viene dada por una tabla de contingencia, que relaciona, por ejemplo,
situación laboral (parado, contratado, fijo) con tipo de estudios (primario, formación
profesional, universitario). La tabla clave sería:
OBSERVADOS
Primario
Secundario
Universitario
Parado
25
12
8
45
Contratado
15
27
16
58
Fijo
5
11
26
42
45
50
50
145
Se calcula un coeficiente de contingencia basado en comparar el resultado observado
con el esperado si no habría relación entre el tipo de estudios y la situación laboral.
El valor esperado para cada casilla se calcula multiplicando su fila por su columna
correspondiente y dividiendo entre el total. Por ejemplo, el primer valor esperado sería
(45 x 45) / 145 = 13,9 (todos los valores esperados deben ser mayores que 5; en caso
contrario lo mejor es agrupar la tabla).
ESPERADOS
Primario
Secundario
Universitario
Parado
13,9
15,5
15,5
45
Contratado
18
20
20
58
Fijo
13,1
14,5
14,5
42
45
50
50
145
Se calcula una valor dado por ∑ (OBS – ESP)2/ ESP = χ2
De aquí, el valor C = (χ2/(χ2 + n))1/2 es el coeficiente de contingencia de Pearson. A
mayor valor, mayor relación entre las variables. Si nos queda nulo quiere decir que no
hay ninguna relación entre las dos variables y que son completamente independientes.
También se puede resolver el problema mediante el test:
H0 Independencia (no hay relación entre los estudios y la situación laboral).
H1 Dependencia (existe relación entre los estudios y la situación laboral).
Si la hipótesis nula es cierta, el estadístico de contraste χ2 es una χ2 con (c-1)(f-1) grados
de libertad.
Este tipo de contraste es siempre unilateral derecho.
Si sólo tengo dos modalidades por variable (fumar: sí – no; cáncer: si – no) el punto
crítico es una χ20,025 = 3,84.
La parte de análisis multivariante que profundiza en este tipo de estudios se llama
ANÁLISIS FACTORIAL DE CORRESPONDENCIAS.
Otras técnicas a tener en cuenta cuando estudiamos la relación entre dos variable
cualitativas:
Si la tabla es 2 x 2 y alguna frecuencia esperada es menor que uno no se puede hacer el
análisis convencional de jicuadrado y se usa el TEST DE FISHER.
Si la tabla es 2 x 2 y la muestra es razonablemente grande se pueden comparar las dos
variables mediante un INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE
PROPORCIONES (viendo si el cero está incluido o no) o un CONTRASTE DE
HIPÓTESIS PARA LA DIFERENCIA DE PROPORCIONES, en el cual contrastamos
H0 ∏x - ∏y = 0
H1 ∏X - ∏Y ≠ 0
Se usaría como estimación en el ejemplo estándar fumar – cáncer como estimadores la
proporción de enfermos de cáncer en fumadores y la proporción de enfermos de cáncer
en no fumadores. El estadístico de contraste sigue una distribución normal.
Si la tabla es 2 x 2 y el estudio es emparejado se usa el TEST DE MCNEMAR. En este
caso evaluaríamos cómo reacciona la MISMA persona a dos tratamientos; así puede ser
que una persona mejore con los dos, empeore con los dos, mejore con el primero y
empeore con el segundo o empeore con el primero y mejore con el segundo. El
estadístico de contraste sigue una jicuadrado con un grado de libertad.
Más complejo es el TEST DE COCHRAN que es una ampliación del de McNemar, en
el que cada persona tiene, en lugar de dos tratamientos, tres o más tratamientos.
En este caso plantearíamos como hipótesis nula que no hay diferencia en los tres (o
más) tratamientos y como alternativa que al menos hay diferencia en dos. El estadístico
de contraste es una jicuadrado con el número de grupos menos uno como grado de
libertad.
Si rechazamos la hipótesis nula compararíamos los grupos dos a dos, precisamente, con
el test de McNemar.
Si una variable tiene dos niveles (hombre – mujer) y otra variable es cualitativa o
categórica ordinal (poco colesterol, algo, bastante, mucho) se puede usar el TEST DE
RELACIÓN LINEAL, en el cual se calcula un estadístico que se compara con una
jicuadrado con un grado de libertad.
Si las variables son nominales u ordinales y la tabla es mayor que en el caso anterior
también se puede calcular el COEFICIENTE DE CRAMER, que en términos técnicos
sería:
V = (χ2/n(m-1))1/2 siendo n el número de observaciones, m el mínimo de las filas
y columnas y χ2 el valor calculado.
No depende del tamaño de la tabla y varía entre 0 (no habría relación) y 1
(relación perfecta).
Si comparamos dos variables ordinales o de escala (una persona puede tener un nivel de
adhesión a la dieta mediterránea baja y un nivel alto de actividad física, por ejemplo) se
usa el COEFICIENTE DE CORRELACION DE SPEARMAN, que en términos
técnicos sería:
r = 1 - 6∑di2/(n3 – n)
Va de menos uno a uno, de forma que si está cercano a uno la relación es intensa
y positiva, si está cercano a -1 la relación es intensa y negativa y si está cercano a 0 no
hay relación entre las variables.
Para saber si la correlación es o no significativa se plantearía:
H0 rpob = 0
H1 rpob ≠ 0
Siendo el estadístico de contraste: r√(n-2) / √(1 – r2)
Pasamos a la siguiente fase:
2. Variables cualitativas – cuantitativas
Consideramos la variable cualitativa como causal y la variable cuantitativa como efecto.
Por ejemplo, podemos ver si en dos grupos (vegetarianos – no vegetarianos) el nivel de
glucosa en sangre, que es cuantitativo, es el mismo o no.
Vamos a suponer en una primera escala que sólo tengo dos grupos de referencia y que
deseo comparar si la glucosa es o no la misma.
Sabemos que las características de la variable cuantitativa hacen que el análisis sea de
una u otra forma (media, mediana).
Llegamos a la novedad principal, y consideraremos que la variable cuantitativa puede
seguir una distribución normal (en cuyo caso el test se llamará paramétrico y la
referencia es la media) o puede no seguir una distribución normal (en cuyo caso el test
será no paramétrico y la referencia será la mediana).
Así, ¿cómo sabemos si una variable es o no paramétrica?
Tests para saber si una variable cuantitativa sigue una distribución normal:
En todos ellos:
H0 X sigue una distribución normal.
H1 X no sigue una distribución normal.
No suele haber estadístico de contraste, basta comparar el pvalor con α.
a/ Si la muestra es grande (n ≥ 30) por el teorema central del límite la variable sigue una
distribución normal.
b/ Test de Kolmogorov Smirnov.
c/ Test de Shapiro Wilk.
d/ Ver que la asimetría no es significativa (asimetría entre su error estándar es menor
que 2 en valor absoluto).
e/ Ver que la curtosis no es significativa (curtosis entre su error estándar es menor que
dos en valor absoluto).
f/ Si giramos el diagrama de barras la distribución se parece a una campana de Gauss.
g/ El Box Plot está equilibrado y no contiene valores extremos.
h/ No hay mucha diferencia entre las restas Q3-Q2 y Q2-Q1.
i/ Todos los valores de la muestra están entre la media muestral más menos 3 veces la
desviación típica.
j/ Los diferentes programas informáticos permiten comprobar la normalidad mediante
diferentes salidas.
k/ Si pese a todo no hay normalidad, se pueden transformar los datos logarítmicamente
para “suavizarlos” (curiosamente así se mide la bolsa de valores).
Sabiendo todo esto, pasamos al análisis global:
Dos grupos:
Si son independientes entre sí (un grupo de personas con un tratamiento, otro grupo de
personas con otro tratamiento) debemos comprobar la igualdad de varianzas en cada
uno de los grupos mediante un TEST DE LEVENE O UN TEST DE BARLETT.
Si las varianzas quedan iguales (no se detectan diferencias) se usa el TEST DE LA TSTUDENT PARA MUESTRAS INDEPENDIENTES, VARIANZAS IGUALES ; si las
varianzas son distintas se usa el test de tstudent para muestras independientes, varianzas
distintas más conocido como TEST DE WELCH.
Todos los tests están basados en la igualdad de medias (o de varianzas) y permiten su
análisis mediante intervalos de confianza.
Para el caso no paramétrico se usa la U de MANN WHITNEY, que ha evolucionado en
diferentes formas de cálculo a lo largo de los años.
Este test está basado en la igualdad de medianas y no permite intervalos de confianza
asociados.
Si las muestras son dependientes, emparejadas o pareadas (cada persona tiene dos
tratamientos y comparo sus valores finales con cada uno) se usa el TEST DE LA TSTUDENT PARA MUESTRAS DEPENDIENTES.
Este test plantea como hipótesis nula que la media de la diferencia es cero y permite
intervalo de confianza asociado.
Para el caso no paramétrico se usa el TEST DE WILCOXON, que como todo test no
paramétrico no permite el cálculo de intervalos de confianza.
Tres o más grupos:
Desarrollaré el estudio desde el caso paramétrico indicando en cada situación el nombre
del contraste no paramétrico asociado.
Las técnicas estadísticas que permiten resolver este tipo de problemas se llaman de
Análisis de la Varianza o ANOVA y para poder aplicarlas son necesarios los siguientes
requisitos teóricos:
a/ Normalidad (ya hemos visto todas las formas de controlarla).
b/ Homogeneidad de varianzas (Levene, Barlett).
c/ Independencia de la muestra (TEST DE RACHAS).
En teoría se deben cumplir los 3 supuestos, pero el fundamental es el primero.
Supondremos que cada grupo tiene un nivel de factor, de manera que si medimos la
relación entre el tipo de fertilizante (A, B o C) y la cantidad de cosecha el factor (tipo de
fertilizante) tiene tres niveles: los susodichos A, B y C.
Como a cada campo solo le echo un fertilizante hablamos de muestras independientes.
H0 µx = µy = µz
H1 Al menos hay diferencia entre dos grupos.
Se usan unas tablas especiales llamadas ANOVA de manera que si acepto (no rechazo)
la hipótesis nula no hay diferencias entre los grupos, es decir, el tipo de fertilizante no
influye en la cosecha, y si rechazo la hipótesis nula el tipo de fertilizante influye en la
cosecha.
El estadístico de contraste sigue una distribución dada por una F de Snedecor con k-1,
n-k grados de libertad siendo k el número de grupos y n el total de datos.
En caso de rechazar la hipótesis nula se pueden comparar los grupos por varias vías:
SCHEFFE (el más conservador y más usado), BONFERRONI, DUNNET, STUDENTNEUMANN-KEULS.
Si no se cumple el primer supuesto teórico el contraste no paramétrico asociado se llama
TEST DE KRUSKAL WALLIS. (ji cuadrado con k – 1 grados de libertad).
Si no se cumple el segundo supuesto teórico se puede hacer el ANOVA normal si el
estudio es equilibrado (cada grupo tiene el mismo número de datos) aunque para hacer
las comparaciones dos a dos para saber entre que grupos hay diferencias se usa un nivel
de significación menor de referencia (αb = α/nro comparaciones; AJUSTE DE
BONFERRONI). A este tipo de análisis se le llama PROCEDIMIENTO DE
TAMHANNE).
Todavía hay más; estos análisis permiten una investigación previa mediante
CONTRASTES ORTOGONALES y CONTRASTES NO ORTOGONALES, en los
cuales no entraremos.
Por otro lado, si el agricultor tiene pocos campos puede separar cada campo en tres
parcelas de forma que a cada una le echo un tipo de fertilizante. En ese caso estaríamos
en muestras emparejadas.
H0 µx = µy = µz
H1 Al menos hay diferencia entre dos grupos.
El análisis es igual que en el caso anterior con el matiz de que ahora el estadístico de
contraste es una F con (k-1), (k-1)(j-1) grados de libertad siendo j el total de elementos
(campos en este caso).
El contraste no paramétrico asociado sería el TEST DE FRIEDMANN, que sigue una
jicuadrado con k-1 grados de libertad.
3. Variables cuantitativas – cuantitativas.
El ejemplo tipo lo estudiamos cuando relacionamos cantidad de siembra con cantidad de
cosecha. Lo vemos en una tabla muy sencilla:
X
7
8
11
13
16
55
Y
10
14
16
17
18
75
(X-Medx)
-4
-3
0
2
5
0
(Y-Medy)
-5
-1
1
2
3
0
Px,y
20
3
0
4
15
42
(X-Medx)2
16
9
0
4
25
54
(Y-Mdy)2
25
1
1
4
9
40
Esta tabla la usaremos de referencia para todo el estudio;
El COEFICIENTE DE CORRELACIÓN DE PEARSON viene dado por la fórmula:
r = ∑ Px,y/ (∑(X-Medx)2(Y-Medy)2)1/2 = 42 / (54 x 40)1/2 = 0,88 = 0,9
Como la interpretación es la misma que la del coeficiente de correlación de Sperman,
diremos que la relación entre la cantidad de siembra y la cantidad de cosecha es alta,
positiva, y para ver si es significativa (siendo tan cercana a uno es muy difícil que no lo
sea por pequeña que sea la muestra) se usa el test de la tstudent, en el que comparamos
con una t de student con n-2 grados de libertad con el estadístico:
r√(n-2)/√(1-r2) = 3,57 es mayor que T3; 0,025 = 2,4 (aprox).
Por lo tanto, la correlación es significativa.
Es muy útil estudiar los gráficos por puntos para evaluar la posible relación entre las dos
variables.
Se puede analizar el resultado previo de la COVARIANZA, el cual es el numerador del
coeficiente de correlación de Pearson.
La verdad es que no da mucha información, tan sólo el signo de la relación entre x e y.
De hecho, ese valor como tal no significa nada ya que si una covarianza es muy grande
si el denominador es todavía mayor el cociente queda muy pequeño y eso hace que la
correlación, que es lo que en realidad importa, no sea significativa.
En todo caso recordar lo sustancial: en una primera escala, la correlación es únicamente
una medida de asociación entre dos variables x e y. Para medir la posible existencia de
relación pasamos a valorar la REGRESIÓN LINEAL, que será, de momento, el último
punto del análisis.
Si establecemos la igualdad Yi = ar + br Xi + Ui
Estaríamos diciendo que la cosecha es igual a una constante que no depende de nada (se
supone que incluso sin siembra cosecharía) más la cantidad de siembra por lo que sube
la cosecha por unidad de siembra (br, pendiente de la recta de toda la vida) más un valor
que incluye todo lo que nos podamos imaginar: humedad, temperatura, número de
cucarachas por metro cuadrado…en sí, una especie de “cajón de sastre”.
En este contexto, podemos estimar los parámetros de la recta mediante la fórmula:
b = ∑Px,y/∑(X-Medx)2 = 42/54 = 0,77
a = Medy – bMedx = 15 – (0,77 x 11) = 6,44.
Así, la recta de regresión vendría dada por:
Yest = 6,44 + 0,77X
Para saber si existe relación de causalidad plantearíamos:
H0 br = 0
H1 br ≠ 0
Siendo el estadístico de contraste: b/ EE(b) el cual se compararía con una t de student
con b-2 grados de libertad (omitimos la fórmula de EE(b)).
ANEXO.
Definiciones básicas en estadística:
Una población está formada por todos los sujetos (personas, animales, cosas) que
deseamos estudiar. Pueden ser habitantes de Francia, gorilas de Camerún o capitales de
Europa.
Si la población es muy grande usamos muestras de la misma, es decir, un subconjunto
de la población.
El muestreo es una técnica estadística usada para seleccionar una muestra de la forma
más homogénea posible. Así, si tomo los habitantes de Francia debo tener hombres y
mujeres, jóvenes y mayores, fumadores y no fumadores; es decir, se trata de que la
muestra sea representativa de la población.
En general, la característica que deseamos estudiar es numérica (peso, altura, nivel de
glucosa). Por supuesto, también puede ser cualitativa (tener cáncer o no tenerlo). En
todo caso, dicha característica suele seguir una distribución aleatoria.
Por ejemplo, si seguimos tomando como referencia los habitantes de Francia el peso, la
altura o el nivel de glucosa de una persona siguen una distribución normal de la que
desconocemos su media y su desviación típica. El objetivo es aproximarnos a ellas a
partir de una muestra. A esta media o desviación típica se le llama parámetro
desconocido y el objetivo primordial de la inferencia estadística es acercarnos al
mismo.
Si estudiamos el número de enfermos de tuberculosis en Pamplona (suceso raro)
tenemos que esta variable sigue una distribución de Poisson.
El hecho de que una persona esté con tuberculosis o no sigue una distribución que se
llama Binaria o de Bernouilli(o estás enfermo o no lo estás).
Dada una muestra de 30 personas de Pamplona el número de enfermos de tuberculosis
sigue una distribución Binomial.
Por lo tanto, la situación es la siguiente. Tenemos una característica de una población
(peso, número de enfermos, tener una enfermedad) que sigue una variable aleatoria de
la que desconocemos sus parámetros.
Tomamos una muestra de la población y calculamos una serie de indicadores (media
muestral, desviación típica). A estos indicadores, que son operaciones matemáticas
hechos con los elementos de una muestra, se les llama estadísticos.
Cuando un estadístico se usa para aproximarnos a un parámetro desconocido de la
variable aleatoria que sigue una característica de cada elemento de la población se le
llama estimador.
Por ejemplo, la media muestral es un estadístico que es estimador de la media
poblacional.
La desviación típica muestral es un estadístico que es estimador de la desviación
poblacional.
El número de enfermos de una muestra dividido por el total de elementos de la muestra
(que se llama proporción muestral) es un estimador de la proporción de enfermos de
la población.
Un parámetro desconocido puede tener más de un estimador (los métodos de
obtención de estimadores son complejos; se calculan mediante métodos como el de
máxima verosimilitud, los momentos o mínimos cuadrados ordinarios).
Es obvio que como todo estimador es estadístico y que como un estadístico se calcula a
partir de los elementos de una muestra la cual se ha tomado (con cuidado ya que se han
aplicado técnicas de muestreo) al azar, todo estimador es variable aleatoria.
Así:
a/ Un estimador es insesgado si su media o esperanza es precisamente el
parámetro poblacional que estamos buscando. Si un estimador no es insesgado es
sesgado y la diferencia entre su esperanza y el parámetro que estamos buscando se
llama sesgo.
b/ Un estimador es eficiente (términos absolutos) si su varianza es mínima (lo
cual ocurre cuando es igual a la cota de Cramer Rao).
c/ Un estimador es más eficiente que otro (términos relativos) si su varianza es
menor que la del otro estimador.
d/ Para comparar dos estimadores vía sesgadez-eficiencia se usa el Error
Cuadrático Medio, que consiste en elevar al cuadrado su sesgo y sumarle su varianza.
El mejor estimador es el de menor ECM (Error cuadrático medio).
e/ Un estimador es consistente si conforme la muestra es más grande más se
aproxima al parámetro buscado (en términos técnicos, cuando n tiende a infinito la
probabilidad de encontrar alguna diferencia entre el estimador y el parámetro
desconocido es cero).
f/ Un estimador es suficiente si aprovecha toda la información de la muestra.
Una vez que hemos calculado el estimador ya se pueden hacer intervalos de confianza o
contrastes de hipótesis, objetivo básico de la inferencia estadística.
Cuando planteamos una hipótesis nula (que la media poblacional es 40) es casi
imposible que la media de una muestra sea 40, oscilará un poco.
Es claro que conforme más alejada esté la media muestral de la media poblacional es
más fácil rechazar la hipótesis nula.
En este contexto, hay que tener claro que:
Si una media es 40 y la muestra queda 40,5; 39,8; 40,1; 39,7 hablamos de datos exactos
y precisos (error aleatorio).
Si la muestra queda 42,1; 41,8; 41,9; 42,2 hablamos de datos precisos inexactos (error
sistemático).
Si la muestra queda 37; 43; 42; 45 hablamos de datos exactos imprecisos (ya que hay
mucha oscilación; error aleatorio).
Si la muestra queda 45,1; 46,7; 52; 53,4 hablamos de datos inexactos e imprecisos
(error sistemático).
En esencia, la exactitud se refiere a la insesgadez y me indica si estoy “apuntando” bien
al objetivo de 40.
La precisión se refiere a la eficiencia y me indica si los datos oscilan mucho o no
respecto de cualquier objetivo (observar que en la segunda muestra los datos oscilan
respecto de 42; como no apuntan al dato buscado son inexactos pero son precisos ya que
todos están cerca de 42).
Por último, indicar los procedimientos estadísticos usados para estimar los valores
desconocidos de la población:
a/ El principio de verosimilitud considera la distribución de probabilidad de la
muestra no como función de sus valores sino como función del parámetro θ
desconocido.
b/ El principio de condicionalidad dice que los mecanismos aleatorios que no
dependen del parámetro a determinar no proporcionan evidencia sobre el mismo.
c/ El principio de suficiencia elimina la información superflua y se queda con la
relevante.
d/ El teorema de Birnbaum relaciones los tres principios anteriores y dice que
el principio de verosimilitud es equivalente al de condicionalidad y suficiencia.
Ampliación de relaciones entre variables cualitativas – cuantitativas.
Esta materia es muy amplia y sólo se usa ya en términos de expertos. De hecho,
la única carrera en la que se examinan todas las ampliaciones de los diferentes métodos
ANOVAS es en Biología (Diseño de experimentos). Administración y dirección de
empresas lo estudiaba en la asignatura de Análisis Multivariante pero los nuevos planes
la han suprimido.
Los tipos de diseños son:
a/ Factoriales cuando los individuos reciben combinaciones de diferentes
tratamientos.
b/ Secuenciales cuando los individuos entran por separado y con cada uno se
decide la hipótesis nula, la alternativa o la entrada de otro individuo.
c/ Muestras independientes cuando cada individuo recibe un único tratamiento
(cada campo tiene sólo un único tipo de fertilizante).
d/ Muestras dependientes o pareadas cuando cada individuo recibe todos los
tratamientos (campos separados en parcelas recibiendo cada tipo de fertilizante).
d/ Diseños cruzados cuando la mitad de la muestra recibe un tipo de tratamiento
y la otra mitad el contrario.
e/ Diseños estratificados o anidados cuando los grupos se dividen por tipos de
factores de riesgo; se dice que cada grupo está en un nivel diferente.
Recordar que tenemos:
a/ ANOVA de una vía: un factor (tipo de fertilizante), variable dependiente
cantidad de cosecha. (No paramétrico, Kruskal Wallis).
b/ ANOVA de datos emparejados: todos los niveles de factor (tipo de
fertilizante) se aplican a todos los sujetos (campos). Variable dependiente: cantidad de
cosecha. (No paramétrico, Friedman).
c/ ANOVA de dos factores: a cada sujeto se le aplican dos factores (tipo de
fertilizante A-B-C; clima seco-húmedo). Variable dependiente: cantidad de cosecha.
(No paramétrico, ANOVA con rangos).
d/ MANOVA: cuando hay más de dos variables dependientes. Por ejemplo, un
factor (tipo de fertilizante) y dos variables dependientes (cosecha de manzanas Golden,
cosecha de manzanas reinetas).
e/ ANCOVA: cuando en cada nivel de factor tenemos una relación cuantitativa
cuantitativa; por ejemplo, tres tipos de fertilizantes y en cada campo evaluamos su
temperatura media en relación con la cantidad de cosecha globlal que es la variable
dependiente que realmente estamos estudiando).
f/ CUADRADO LATINO: cuando se combinan tres variables independientes
con el mismo número de niveles (5 tipos de fertilizante, de humedad y de altura) para
ver cómo influyen en una variable independiente (cantidad de cosecha).
Relaciones combinadas:
Existe un ratio de correlación entre variables cuantitativas continuas y variables
categóricas:
η2 = (∑ nj(medy-j – medy)2)/ (∑(yi – medy)2 siendo medy-j la media en la categoría j, nj el
número de datos de cada categoría e yi cada dato particular.
Este ratio se interpreta como el tanto por uno de la variabilidad de Y explicada por X,
luego lo peor es que sea 0 (no se explica nada) y lo mejor que sea 1 (X explica Y
completamente).
Si la variable X es cuantitativa pero discreta y si sólo hay dos categorías este ratio es
siempre igual que r2; en caso contrario será siempre mayor y tendrá la ventaja de
capturar la relación no lineal entre X e Y.
El coeficiente de Correlación Biserial Puntual evalúa la correlación entre datos
continuos y variables dicotómicas tomando valores entre -1 y 1.
rpbi = (Medcat1 – Meddatos continuos)/Desvdatos continuos x (Freccat1/Freccat0)1/2
Su interpretación es la del coeficiente de correlación de siempre.
El coeficiente de correlación Tetracórico se usa cuando evaluamos la relación entre
dos variables dicotomizadas.
La regresión lineal simple relacionaba una variable cuantitativa (cantidad de siembra)
con una variable cuantitativa (cantidad de cosecha).
Si hay más variables independientes (además de la cantidad de siembra la cantidad de
agua, la temperatura media; incluso pueden existir variables cualitativas –tipo de climaque se codifican como variables cuantitativas mediante variables dummy o dicotómicas)
hablamos de regresión lineal múltiple:
Yi = a + b1X1 + ……+bpXp + Ui
Los supuestos teóricos para realizar estos análisis son amplios:
a/ Se debe cumplir la relación lineal.
b/ La muestra debe tomar valores distintos.
c/ Las X son variables no relacionadas la U.
d/ Cada Ui (perturbación) debe cumplir E(Ui) = 0.
e/ Var (Ui) = σ2 (Homoscedasticidad o varianzas iguales).
f/ cov (Ui, Uj) = 0 para todo i≠j (ausencia de autocorrelación).
g/ Las variables X no deben estar relacionadas entre sí (ausencia de
multicolinealidad).
Pese a sus limitaciones, es lo más usado en el mundo de la investigación estadística.
Además de los típicos contrastes, se puede calcular R2 que es el coeficiente de
determinación y nos da la proporción de variabilidad de Y explicada por X (es también
un coeficiente de bondad de ajuste y está siempre entre O y 1).
La interpretación de cada bi es obvia; lo que sube Y por cada unidad que sube Xi.
Si en el caso anterior la variable dependiente es dicotómica (tener cáncer) se usa la
Regresión Logística:
Logit(p) = a + b1X1 + ……+bpXp + Ui
Así se puede calcular la probabilidad de que una persona tenga cáncer a partir de su
edad, sexo o hábitos (tabaco, bebida, deporte…) sabiendo que Logit(p) = Ln(p/(1-p)).
La misma utilidad tiene el Modelo Probit; en éste una vez que sustituimos los valores
en la regresión calculamos la probabilidad de tener cáncer a partir de la distribución
normal.
Si la variable dependiente es el tiempo que tarda en darse cierto sujeto hablamos de
Regresión de Cox:
Ln(λi) = b1X1 + ……+bpXp + Ui
Si la variable dependiente es cualitativa con más de dos niveles usamos el Análisis
Discriminante; Yi = b1X1 + ……+bpXp + Ui
Se calculan unos rangos para Yi que determinan la categoría de la variable dependiente.
Ejemplo: tipo de accidente (leve, grave, muy grave) en función de la potencia y
antigüedad del coche y de la edad del conductor.
Si de cada sujeto tenemos muchos datos y queremos reducirlos para simplificar la
información se habla de Análisis de Componentes Principales (ACP). Si
posteriormente agrupamos los sujetos por semejanzas usaremos el Análisis Cluster
para dejar los sujetos en conglomerados.
Ejemplo: de un país tenemos muchos indicadores económicos. Lo mejor es resumirlos
en unos pocos (IDH, índice de desarrollo humando: riqueza media, esperanza de vida,
nivel educativo).
Para ver si una serie de datos (piezas de una fábrica, latidos del corazón de una persona)
siguen una tendencia se usan diferentes gráficos de control, siendo el más usado el de
Levey Jennings. Cuando los datos salen de unos rangos hablamos de cambios de
tendencia.
Una serie temporal es una sucesión de observaciones ordenadas en el tiempo. Se usan
para predecir el futuro a partir del pasado teniendo en cuenta que toda serie nos da una
tendencia a largo plazo, unas variaciones cíclicas (ciclos económicos), unas variaciones
estacionales (desempleo en el verano) y las variaciones irregulares.
La tendencia se determina por los métodos Gráficos, de Medias Móviles o de Mínimos
Cuadrados y los métodos para determinar las Variaciones Estacionales son dos: el del
Porcentaje Medio (un mes es un porcentaje de un año) y el del Porcentaje de
Tendencia (un mes es un porcentaje de valores de tendencia mensual).
Javier Otazu Ojer.
Academia Universitaria Mecarapid.