Download Variables cuantitativas

Document related concepts

Rango intercuartílico wikipedia , lookup

Valor atípico wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Cuantil wikipedia , lookup

Transcript
¿ Cómo describir e interpretar
los resultados de un estudio
de investigación quirúrgica ?
Variables cuantitativas
Sesión de Residentes
13 de febrero, 2012
ÍNDICE
Diferencia entre población y muestra.
Diferencia entre teoría de la probabilidad y estadística.
Descripción de una variable cuantitativa. La
tendencia actual en utilizar la mediana (índices
basados en ordenaciones) sobre la típica media
(índices basados en momentos).
La gran utilidad del diagrama de cajas (boxplot) al
describir la distribución de caracteres cuantitativos.
POBLACIÓN Y MUESTRA
CUESTIONARIO-AUTOEVALUACION
Población diana
es el subconjunto de la población que
se encuentra disponible durante el
estudio
Población accesible
son los diferentes índices estadísticos
descriptivos de toda una población
Muestra representativa
es una fórmula en la que intervienen
los valores observados en la muestra
Parámetro
es el gran conjunto de pacientes al
que se generalizaran los resultados.
Estadístico
es un reducido grupo de individuos de
la población seleccionados
aleatoriamente. Integrados por
individuos o sujetos
POBLACIÓN Y MUESTRA
Población, el conjunto completo de individuos a
los cuales se les referirán las conclusiones del
estudio.
– Población diana, que es el gran conjunto de
pacientes al que se generalizaran los resultados.
– Población accesible, que es el subconjunto de la
población diana que se encuentra disponible durante
el estudio.
POBLACIÓN Y MUESTRA
Figura 1
Probabilidad y Estadística: Población y Muestras
Muestra
representativa, es un
reducido grupo de
individuos de la
población
seleccionados
aleatoriamente.
Integrados por
individuos o sujetos
POBLACION
parámetro μ = 66,2 años
Teoría de la
PROBABILIDAD
azar
(predicción)
MUESTRA
estadístico x = 64,7 años
ESTADISTICA
(inferencia)
x
x
POBLACIÓN Y MUESTRA
Parámetro, son los
diferentes índices
estadísticos
descriptivos de toda
una población (μ =
66,2 años ). Valor
único
Estadístico, que es
una fórmula en la
que intervienen los
valores observados
en la muestra (x =
64,7 años). Valor por
cada muestra
Figura 1
Probabilidad y Estadística: Población y Muestras
Accesible
POBLACION
parámetro μ = 66,2 años
Teoría de la
PROBABILIDAD
azar
(predicción)
MUESTRA
estadístico x = 64,7 años
ESTADISTICA
(inferencia)
POBLACIÓN Y MUESTRA
Figura 1
Probabilidad y Estadística: Población y Muestras
estadística inferencial,
se busca obtener
conclusiones a partir
de los datos
observados en una
muestra
Las técnicas
estadísticas se basan
en el hecho de que
esta variabilidad,
propia del muestreo,
sigue una leyes
conocidas, por lo que
puede ser
cuantificada.
POBLACION
parámetro μ = 66,2 años
Teoría de la
PROBABILIDAD
azar
(predicción)
MUESTRA
estadístico x = 64,7 años
ESTADISTICA
(inferencia)
POBLACIÓN Y MUESTRA
CUESTIONARIO-AUTOEVALUACIÓN
es el subconjunto de la población que
se encuentra disponible durante el
estudio
Población diana
Población accesible
son los diferentes índices estadísticos
descriptivos de toda una población
Muestra representativa
es una fórmula en la que intervienen
los valores observados en la muestra
Parámetro
es el gran conjunto de pacientes al
que se generalizaran los resultados.
Estadístico
es un reducido grupo de individuos de
la población seleccionados
aleatoriamente. Integrados por
individuos o sujetos
PUNTUACIÓN:
/5
¿Cómo describiremos una
variable cuantitativa?
A partir de momentos
A partir de ordenaciones
VARIABLE CUANTITATIVA BASADA EN MOMENTOS
CUESTIONARIO-AUTOEVALUACIÓN
Medidas basadas momentos
Medidas basadas en ordenaciones
Concepto de Media
Concepto de Varianza
Concepto de Desviación estándar
Variancia
Varianza
Correcto
Su valor se obtiene tras la suma de todos
los datos de la distribución dividida por el
número de casos de la misma
Incorrecto
La mediana, la moda, La amplitud
intercuartil, la desviación cuartil, rango
Es la medida de dispersión que se define
como la media de la suma de la diferencia
entre cada valor de la variable y la media,
elevado al cuadrado
media, la variancia, la desviación estándar,
el coeficiente asimetría
Es la raíz cuadrada positiva de la variancia
DESCRIPCIÓN DE DATOS CUANTITATIVOS
BASADOS EN MOMENTOS
Tendencia central (posición): media
Su dispersión (variabilidad): la variancia o
la desviación estándar
Su asimetría (forma) : el coeficiente
asimetría
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS
EN MOMENTOS
LA MEDIA
Figura 2
Su valor se obtiene tras la
suma de todos los datos de la
distribución dividida por el
número de casos de la misma.
Sus unidades de medida son
las misma que las de la
variable que se describe
Parámetro: μ
Estadístico: x
Tendencia central
μ=
∑x
N
Dispersión:
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS
EN MOMENTOS
VARIANCIA
Es la medida de dispersión
que se define como la
media de la suma de la
diferencia entre cada valor
de la variable y la media,
elevado al cuadrado
Figura 2
Tendencia central
Parámetro: σ2
Estadístico: s2
Ejemplo: 95,1 años2
No utilizar “Varianza”
μ=
∑x
N
Dispersión:
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS
EN MOMENTOS
DESVIACION ESTÁNDAR
Es la raíz cuadrada positiva de
la variancia.
Figura 2
Tiene las misma unidades que
la variable que describe.
Tendencia central
Se simboliza por σ DE o por
SD (“Standard Deviation” en
inglés)
Estadístico: s. En nuestro
ejemplo s = 9,75 años (raíz
cuadrada de 95,1 años2)
μ=
∑x
N
Dispersión:
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
SIMÉTRICA: Media y D.E.
para caracterizar una distribución simétrica, se
da la desviación estándar junto a la media
⎯x = 64,7 años (DE = 9,8 años)
⎯x = 64,7 ± 9,8 años
←
incorrecto
(Esta presentación es confusa y debe ser evitada porque no aclara si lo que hay
detrás del signo ± es la desviación estándar, el error estándar o si se trata de un
intervalo )
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS
EN MOMENTOS
ASIMETRIA
Cuando los valores se
concentran en posiciones
inferiores o superiores al
promedio de la
distribución, se indica la
presencia de asimetría
Figura 3
Esta es negativa (Γ < 0)
cuando existen valores
anormalmente bajos
respecto a la media
Asimetria: Γ 1=
⎛ x − μ⎞
∑ ⎜⎝ i σ ⎟⎠
N
3
DESCRIPCIÓN DE DATOS CUANTITATIVOS
BASADOS EN MOMENTOS
La media, la variancia y la asimetría se denominan medidas
basadas en momentos porque su cálculo se obtiene a partir de la
diferencia de cada valor de la distribución respecto a la media de la
misma:
– La media es el momento de orden 1
– La variancia el momento de orden 2
– La asimetría el momento de orden 3
Son medidas muy utilizadas para describir distribuciones
cuantitativas simétricas.
Cuando se presenta una marcada asimetría, la media y la
desviación estándar no son apropiados porque se ven afectados
por los valores anormalmente alejados
VARIABLE CUANTITATIVA BASADA EN MOMENTOS
CUESTIONARIO-AUTOEVALUACIÓN
Medidas basadas momentos
Medidas basadas en ordenaciones
Concepto de Media
Su valor se obtiene tras la suma de todos
los datos de la distribución dividida por el
número de casos de la misma
Incorrecto
Concepto de Varianza
La mediana, la moda, La amplitud
intercuartil, la desviación cuartil, rango
Concepto de Desviación estándar
Variancia
Varianza
PUNTUACIÓN:
Correcto
Es la medida de dispersión que se define
como la media de la suma de la diferencia
entre cada valor de la variable y la media,
elevado al cuadrado
media, la variancia, la desviación estándar,
el coeficiente asimetría
/7
Es la raíz cuadrada positiva de la variancia
VARIABLE CUANTITATIVA BASADA EN ORDENACIONES
CUESTIONARIO-AUTOEVALUACIÓN
Percentiles
Indica el valor central del conjunto
ordenado de observaciones
Cuartiles
Se define como la mitad de la amplitud
cuartil
La mediana
Es el valor de la variable más frecuente en
la distribución
La moda
Son cada uno de los 99 valores de la
variable que particionan los datos
ordenados en 100 grupos de igual tamaño.
La amplitud intercuartil
Son cada uno de los 3 valores de la
variable que particionan la muestra
ordenada en 4 grupos de igual tamaño
La desviación cuartil
Es una medida de dispersión de valor igual
a la longitud del intervalo que contiene el 50
% central de los individuos de la
distribución
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN
ORDENACIONES
Consiste en derivar índices a partir de la
ordenación de los datos (Con este procedimiento los valores
más extremos pierden peso y no afectan el valor del índice descriptivo)
Cuentan con una excelente representación
gráfica: el diagrama de caja (boxplot)
El índice de posición genérico se llama cuantil
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN
ORDENACIONES: Cuantiles
Son medidas de posición que se obtienen dividiendo el
conjunto ordenado de datos a describir en q partes
iguales.
A partir de ellos se definen:
– Percentiles (Px): son cada uno de los 99 valores de la variable
que particionan los datos ordenados en 100 grupos de igual
tamaño. El percentil (de orden) k corresponde al valor de la
variable que deja por debajo el k por 100 de los sujetos de la
población
– Cuartiles (Qx): son cada uno de los 3 valores de la variable que
particionan la muestra ordenada en 4 grupos de igual tamaño.
Sus valores corresponden a los percentiles: Q1 = P25 ; Q2 =
P50 ; Q3 = P75
Índices de ordenación que miden la
tendencia central: la mediana y la moda
La mediana (Md), indica el
valor central del conjunto
ordenado de observaciones.
En el caso de nuestro ejemplo
de la figura, es de 25 col/ml y
se corresponde con el valor
del percentil 50 (P50),
segundo cuartil (Q2)
250
48
200
150
46
45
100
50
0
La moda, se representa por
Mo, es el valor de la variable
más frecuente en la
distribución. Nuestro ejemplo
corresponde a 59 años (en 5
ocasiones repetida)
-50
N=
19
colonias aisladas /
Índices de ordenación que miden la dispersión:
la amplitud intercuartil, la desviación cuartil y
la amplitud o rango
La amplitud intercuartil (IQR) es una medida de
dispersión de valor igual a la longitud del
intervalo que contiene el 50 % central de los
individuos de la distribución.
– Se puede calcular a partir de los percentiles o
cuartiles: IQR=P75-P25 = Q3 - Q1
– En nuestro estudio es de 60 col/ml, lo que indica que
en el 50 % central de los pacientes, el nº col/ml varía
entre unos a otros como máximo en 60 col/ml
Índices de ordenación que miden la dispersión:
la amplitud intercuartil, la desviación cuartil y
la amplitud o rango
La desviación cuartil (QD), se define como la
mitad de la amplitud cuartil
La amplitud o rango, se representa por A y es la
medida de dispersión que corresponde a la
diferencia entre el valor máximo (225 col/ml) y
mínimo (14 col/ml) de la distribución (rango: 211
col/ml)
La moda y la amplitud, aunque son medidas
poco fiables porque en su cálculo intervienen
solo unos pocos valores de la distribución
VARIABLE CUANTITATIVA BASADA EN ORDENACIONES
CUESTIONARIO-AUTOEVALUACIÓN
Percentiles
Indica el valor central del conjunto
ordenado de observaciones
Cuartiles
Se define como la mitad de la amplitud
cuartil
La mediana
Es el valor de la variable más frecuente en
la distribución
La moda
Son cada uno de los 99 valores de la
variable que particionan los datos
ordenados en 100 grupos de igual tamaño.
La amplitud intercuartil
Son cada uno de los 3 valores de la
variable que particionan la muestra
ordenada en 4 grupos de igual tamaño
La desviación cuartil
PUNTUACIÓN:
/6
Es una medida de dispersión de valor igual
a la longitud del intervalo que contiene el 50
% central de los individuos de la
distribución
Diagrama de caja (“boxplot”)
CUESTIONARIO-AUTOEVALUACIÓN
Figura 4
Marca la posición de la mediana
250
48
200
150
46
45
100
Q3
50
Mediana
Q1
0
-50
N=
Amplitud
intercuartil
19
colonias aisladas /
Qué representan las dos bases
Qué representa el trazo grueso
horizontal
Nombre de los dos trazos horizontales
Todo valor que se aleja más de 3
veces la amplitud intercuartil
Valores fuera de las patillas
Representan los cuartiles primero y
tercero (Q1 y Q3).
Todo valor de la distribución que se
aleja del cuartil primero (Q1) o del
cuartil tercero (Q3), una distancia
superior a 1,5 veces la amplitud
intercuartil
Valor anómalo
Patillas
Valor alejado
Valor extremo
PUNTUACIÓN:
/6
Diagrama de caja (“boxplot”)
Las dos bases representan
los cuartiles primero y
tercero (Q1 y Q3), que
señalan el 50 % central de
la distribución
Un trazo grueso horizontal,
en el interior del rectángulo,
marca la posición de la
mediana
Dos nuevos trazos
horizontales, llamados
patillas
Figura 4
250
48
200
150
46
45
100
Q3
50
Mediana
Q1
0
-50
N=
19
colonias aisladas /
Valores fuera de las
patillas: valores anómalos
Amplitud
intercuartil
Diagrama de caja (“boxplot”)
Valor alejado todo valor de la
distribución que se aleja del
cuartil primero (Q1) o del
cuartil tercero (Q3), una
distancia superior a 1,5 veces
la amplitud intercuartil
Figura 4
250
48
200
150
46
45
100
Valor extremo todo valor
que se aleja más de 3 veces
la amplitud intercuartil. El
sistema SPSS lo representa
con un asterisco
Q3
50
Mediana
Q1
0
-50
N=
19
colonias aisladas /
Amplitud
intercuartil
Información del Diagrama de caja
(“boxplot”)
Localizar la tendencia
central de la distribución
(mediana).
Figura 4
250
Comprobar la dispersión
del 50 % central de la
distribución (longitud de
caja, amplitud
intercualtil).
48
200
150
46
45
100
Q3
50
Observar la posible
asimetría en el centro
de la distribución
(posición de la mediana
dentro de la caja).
Mediana
Q1
0
-50
N=
19
colonias aisladas /
Amplitud
intercuartil
Información del Diagrama de caja
(“boxplot”)
Observar la posible
asimetría de las colas
de la distribución
(patillas de diferente
longitud).
Detectar los valores
anómalos de la
distribución (valores
alejados y extremos)
Figura 4
250
48
200
150
46
45
100
Q3
50
Mediana
Q1
0
-50
N=
19
colonias aisladas /
Describir la evolución
de una variable a lo
largo del tiempo
Amplitud
intercuartil
Información del Diagrama de caja
(“boxplot”)
Muestran el incremento de los valores del CEA (antígeno
carcino-embrionario) a través del tiempo, de un grupo de
pacientes intervenidos de cáncer colorrectal que han
recidivado en los primeros 18 meses postoperatorios.
50
C
E 40
A
30
20
10
0
3
6
9
Seguimiento cáncer de colon
12
15
18
¿ Índices basados
en momentos u en
ordenaciones ?
Figura 4
250
48
200
150
Los datos que utilizamos
acostumbran a seguir una
distribución asimétrica
La mediana refleja una forma
más fidedigna que la media
46
45
100
Q3
50
Mediana
Amplitud
intercuartil
Q1
0
-50
N=
19
colonias aisladas /
Indices basados en momentos
La amplitud intercuartil (50% de
los datos, se encuentra 60 col/ml
(Q1= 18 y Q3 = 78)
Por lo que el valor medio de las
muestras obtenidas oscila más
alrededor del valor de la mediana
= 25 col/ml, que la media (50
col/ml)
Otro ejemplo claro: ESTANCIA
HOSPITALARIA
Media
50,7895 col/ml
Variancia
2
2
3137,509 col /ml
Desv. estand
56,0135 col/ml
Asimetria
3
3
2,1180 col /ml
Indices basados en ordenaciones
Mediana
25 col/ml
P5
14 col/ml
Amplitud
Intercuartil
60 col/ml
P10
15 col/ml
Amplitud o
rango
211 col/ml
Máximo
Mínimo
225 col/ml
14 col/ml
Percentiles
P25 (Q1)
P50 (Q2)
18 col/ml
25 col/ml
P75 (Q3)
78 col/ml
P90
136 col/ml
Diagrama de caja (“boxplot”)
CUESTIONARIO-AUTOEVALUACIÓN
Figura 4
Marca la posición de la mediana
250
48
200
150
46
45
100
Q3
50
Mediana
Q1
0
-50
N=
Amplitud
intercuartil
19
colonias aisladas /
Qué representan las dos bases
Qué representa el trazo grueso
horizontal
Nombre de los dos trazos horizontales
Todo valor que se aleja más de 3
veces la amplitud intercuartil
Valores fuera de las patillas
Representan los cuartiles primero y
tercero (Q1 y Q3).
Todo valor de la distribución que se
aleja del cuartil primero (Q1) o del
cuartil tercero (Q3), una distancia
superior a 1,5 veces la amplitud
intercuartil
Valor anómalo
Patillas
Valor alejado
Valor extremo
PUNTUACIÓN:
/6
PUNTUACIÓN FINAL
POBLACIÓN Y MUESTRA :
BASADA EN MOMENTOS
BASADA EN ORDENACIONES:
DIAGRAMA DE CAJA :
TOTAL:
/
/
/
/
5
7
6
6
/ 24
Quien haya obtenido 24 / 24
siento haberle hecho perder el tiempo