Download Estadística sanitaria: conceptos básicos

Document related concepts
no text concepts found
Transcript
Tema 12. Parámetros estadísticos: razón. Tasas. Índices que definen una distribución:
medidas de centralización y dispersión en estadística sanitaria. Análisis de muestras y
variables. Chi-cuadrado, F de Snedecor.
Parámetros estadísticos:
Razón: Valor obtenido al dividir una cantidad por otra (cociente).
Proporción: Tipo de cociente en que el numerador se incluye en el denominador. Es el cociente
entre una parte y el total, expresado como fracción decimal ó como porcentaje.
Tasa: Medida de frecuencia de un fenómeno. Consta de numerador, denominador, tiempo
en el que ocurren los hechos y un factor multiplicador que la convierte en un nº entero.
La diferencia esencial entre una proporción y una tasa es que el numerador de una proporción se
halla incluido en la población definida por el denominador, cosa que no ocurre necesariamente
así en una razón.
La cuantificación de la enfermedad y otros acontecimientos relacionados con la salud requiere
una definición clara de los casos (numerador), la población de riesgo (denominador) y el
intervalo de tiempo a los que se refieren los datos del numerador y del denominador.
Estadística sanitaria: conceptos básicos:
Definición:
Ciencia que se ocupa de RECOGER, ORDENAR, REPRESENTAR, RESUMIR Y
ANALIZAR el conjunto de “datos de una población”, procedente de la observación o
de la experimentación, con vista a obtener determinadas conclusiones de ellos. El
carácter esencial de los datos estadísticos es la variabilidad
En medicina, la estadística es el instrumento que se utiliza para estimar con un error
conocido el comportamiento general de una población frente un factor determinado, o el
comportamiento de una enfermedad en una población determinada.
Estadística descriptiva:
RECOGER, ORDENAR, REPRESENTAR, RESUMIR.
Estadística analitica (Estadística Inductiva, Inferencia Estadística):
ANALIZAR, EXTRAER CONCLUSIONES.
POBLACIÓN: Conjunto de datos/individuos que se desea estudiar.
MUESTRA: Modelo reducido y representativo de la población.
INDIVIDUO: Cada una de los componentes de la población y la muestra.
Los datos que se desean estudiar en una muestra, pueden tomar en cada uno de los
individuos diferentes valores, recibiendo el nombre de CARÁCTER O VARIABLE. Al
realizar un estudio las características que se miden constituyen las variables y los
valores que toman se denominan datos. Clásicamente se han dividido las variables en
variables cualitativas y cuantitativas.
Las variables cualitativas, denominadas también categóricas, nominales o atributivas,
son aquellas cuyos valores no numéricos pertenecen a una categoría determinada, como
por ejemplo el estado civil (casado, soltero, separado, etc). Cuando la variable sólo
puede tomar dos valores opuestos y excluyentes se denominan variables cualitativas
dicotómicas o binarias como es el caso del sexo (hombres/mujeres). Cuando la variable
puede tomar valores crecientes o decrecientes, recibe el nombre de variable ordinal,
como, por ejemplo el hábito tabáquico codificado como fumador, no fumador,
exfumador, fumador severo.
Las variables cuantitativas son aquellas que toman un valor numérico. Por ejemplo las
cifras de colesterol, la edad, o el número de hijos. Dentro de este grupo cabe diferenciar
entre variables cuantitativas discretas, cuyos valores son números finitos (número de
hijos), y variables cuantitativas continuas, que pueden tomara valores intermedios,
incluyendo números decimales (cifras de colesterol). En algunas ocasiones puede ser de
interés la realización de una transformación de variable. Por ejemplo, la variable
cuantitativa edad puede ser convertida en cualitativa construyendo grupos de individuos
según el valor que tome, formando categorías (< 15 años, de 15 a 24 años, de 25 a 34
años, etc). Sin embargo hay que tener en cuenta que esta transformación es una perdida
de información sobre la información obtenida. Siempre que se pueda es preferible
utilizar variables cuantitativas.
CUALITATIVAS (la variable no puede ser medida)
VARIABLES
DISCRETAS o DISCONTINUAS (no admiten valores
Intermedios)
CUANTITATIVAS
(puede medirse)
CONTINUAS (admite todas las dimensiones intermedias)
Escalas de medición:
- Nominal o de Categorías, para caracteres cualitativos. Presencia o
ausencia de un atributo. En función de las alternativas o
clasificaciones puede ser Dicotómica o Politómicas.
En esta escala, la medición descriptiva obvia e intuitiva es la
proporción o porcentaje de datos que presentan el atributo.
-
ORDINAL o de Rangos, cuando no podemos cuantificar los caracteres, pero si
ordenarlos adecuadamente. No es necesario suponer distancias iguales entre
categorías.
No permiten manipulaciones estadísticas tal como los cómputos de promedios y
exigen métodos especiales.
-
NUMÉRICA, no sólo es posible establecer orden dentro de las observaciones, sino
que también es posible conocer las distancias o grado que los separa, esto nos
permite apreciar el “cuanto”, diferenciándolo de la escala ordinal.
Se pueden distinguir dos clases: discretas y continuas.
La propiedad más importante de esta escala es que permite su manipulación
estadística.
Distribución de frecuencia. tabulación :
La estadística descriptiva, mediante la organización, presentación y síntesis de los datos,
intenta plasmar la información de una forma lógica.
Es muy difícil poder apreciar el comportamiento de una variable a partir de un larga
lista de valores. El primer paso es la tabulación y ordenación según categorías,
señalando la frecuencia con que se observa cada una de ellas. A menudo es útil
representarlas gráficamente para enfatizar las tendencias de su comportamiento.
Es la forma más simple, en estadística, de ordenar y agrupar los datos.
Nota.- 3
Nota.- 5
Nota.- 7
Nota.- 10
Totales
Frec.
Absoluta
2
4
3
1
10
Frec.
Relativa
0,2
0,4
0,3
0,1
1,0
Porcent.
20%
40%
30%
10%
100%
F. Absoluta
Acumulada
2
6
9
10
10
F. Relativa
Acumulada
0,2
0,6
0,9
1,0
1,0
%
Acumulado
20%
60%
90%
100%
100%
En la primera columna se detallan las diferentes modalidades del carácter o datos a
medir, denominándose clases.
La Frecuencia Absoluta es el número de veces que se repite cada una de los datos.
La Frecuencia Relativa de un dato, es el cociente entre la frecuencia absoluta. del dato y
el número total de datos.
Las Frecuencias Relativas nos permiten comparar dos o más tablas de datos del mismo
carácter, basándonos en tamaños muéstrales distintos.
El Porcentaje es la frecuencia relativa multiplicado por 100.
Lo anterior es válido para variables cualitativas y cuantitativas discretas.
Para construir una Distribución de Frecuencia con caracteres cuantitativos continuos,
hay que transformarlos en otros discretos mediante una operación llamada “SemiCuantificación”:
1. Se determinará la amplitud de la distribución: es decir el intervalo dentro del
cual varían los datos de la muestra. Para ello se resta la puntuación máxima de la
mínima.
Amplitud de la distribución = Puntuación máxima – Puntuación mínima.
2. Se fija el número de “intervalos de clases” (las llamadas clases en las otras
variables)que se van a utilizar. El número dependerá del tamaño de la muestra.
Algunos autores recomiendan que no supere el valor de la raíz cuadrada de n
(siendo n igual al número total de la muestra).
3º. Calcular la amplitud de los intervalos que se van utilizar. Esta amplitud se
representa por i y será igual:
i = Amplitud de la distribución / número de intervalos.
4º. Determinar el límite inferior del primer intervalo, es decir la puntuación más
pequeña a partir de la cual empezamos a contar, sin que exista una regla fija.
Para ciertos fines, es conveniente tomar un único valor como representante de cada
clase, denominándose “marcas de clase”, que se define como: (limite superior + límite
inferior)/2
Criterios para la construcción de una Distribución de Frecuencia:
 Las tablas deben llevar un enunciado que las explique totalmente, sin tener que
recurrir al texto.
 En cada tabla se deben indicar el total de cada una de las columnas correspondientes
a las frecuencias.
 Todos los datos de cada columna deben expresarse con el mismo número de
decimales.
 Las tablas deben indicar claramente las unidades de medida.
 Las clases no deben solaparse, ni producir huecos entre ellas.
 Para facilitar los cálculos y representaciones gráficas posteriores, es conveniente que
todos los intervalos de clase tengan la misma longitud (excepción hecha de los
intervalos extremos).
 El número de clases o intervalos de clase a tomar, suele ser norma general el que
está comprendido entre 5 y 20. El número de clases y por consiguiente la longitud
de ellas, está en relación con el tamaño de la muestra, aumentando con ella.
Representación de los datos:
Lo mismo que representamos al conjunto de datos de un modo ordenado para su mejor
comprensión mediante la Distribución de Frecuencias o Tabulación, podemos exponer
la información estadística de forma aún más fácil de comprender y retener mediante las
Representaciones Gráficas.
El principio general que inspira cualquier representación gráfica, es que las figuras
construidas para cada clase deben tener áreas proporcionales a sus frecuencias.
Histogramas
Las distribuciones de frecuencias se pueden ilustrar por medio de HISTOGRAMAS. Los
valores del carácter se representan sobre el eje de abscisas (horizontal) y en el eje de
ordenadas (vertical) se representa la frecuencia de cada clase, valor o intervalo de cada
clase.
Si el carácter es continuo, se levanta sobre cada intervalo de clase un rectángulo cuya
altura sea igual a su frecuencia.
Si el carácter es discreto, se levanta sobre cada valor un segmento cuya altura sea igual
a cada frecuencia. (diagrama de barras).
Si el carácter es cualitativo, se levantan rectángulos o barras de altura igual a la
frecuencia de cada clase; las bases de tales rectángulos deberán ser todas iguales
(Diagrama de Rectángulos)
Polígono de frecuencias
Está limitado a los casos de carácter cuantitativo.
Para cada clase de distribución, se localiza un punto cuya abscisa corresponda al valor
del carácter (caso cuantitativo discreto) o a la marca de clase (caso cuantitativo
continuo) y cuya ordenada (altura) es la frecuencia absoluta o relativa, o es proporcional
a ella. La serie de puntos obtenidos se conectan por segmentos de rectas.
Representan una ventaja sustancial sobre el histograma en los casos en que se desee
representar mas de una distribución de frecuencias sobre un mismo gráfico; en tal caso
los Polígonos de Frecuencias deberían ser de frecuencias relativas, a efectos de
comparación, y dibujarse con trazos perfectamente distinguibles con objeto de evitar
confusiones.
Diagrama de sectores
Se emplea en la representación de porcentajes o de variables cualitativas.
Se utiliza un circulo que representa el 100% y el porcentaje o frecuencia de cada clase
se representa mediante un sector cuyo ángulo es proporcional al porcentaje o magnitud
de la clase.
Pictogramas
Se utilizan para variables cualitativas.
En este caso, se representa las frecuencias de la tabla, mediante dibujos alusivos al
carácter que se estudia.
Hay dos posibilidades de representación: la repetición de la figura base, o bien la
ampliación proporcional de ella.
Gráfico lineal
Consiste en una línea quebrada que representa la evolución en el tiempo de una
variable. Los periodos de tiempo se colocan en el eje de abscisas y la variable en el eje
de ordenadas.
Primeramente se representan una serie de puntos que se obtienen por intersección de
cada valor de la ordenada en cada fracción de tiempo de abscisa. A continuación se
unen los puntos con una línea quebrada, que es la que define las características de la
variable en el tiempo. Este gráfico puede mostrar las variaciones en el tiempo de
diferentes grupos de datos.
Gráfico de correlación
Se utiliza para representar la existencia o no de correlación significativa entre dos
variables estudiadas en el mismo individuo. Una variable se representa en el eje de
ordenadas y otro en el de abscisas. Cada individuo se representa por un punto
localizado en la intersección de las dos coordenadas.
Criterios para las representaciones gráficas:
 Un gráfico debe contribuir a clarificar el material presentado. No deben ser
engañosos. Los gráficos son, probablemente, la forma de presentación de los datos
que más se presta a manipulaciones, por ejemplo exagerando ciertas escalas u
obviando el cero en las mismas, con la intención de conseguir un efecto visual que
distorsiona su interpretación.
 Los gráficos han de explicarse por sí solos, no teniendo que acudir al texto para
comprender dicha representación; de ahí que sea fundamental ponerle un título
totalmente explicativo.
 Deben de estar indicadas claramente las escalas y las unidades de medidas.
Variable
Cualitativa
Concepto
Tabulación
No puede ser medida.
Sus valores se presentan como modalidades o atributos
Frecuencias
Porcentaje
-
Cuantitativa
Discreta
Cuantitativa
Continua
Sus valores se presentan como
cualidades que pueden ser
contados y entre dos valores
consecutivos de la variable no
existen valores intermedios
Sus valores se presentan como
modalidades que pueden ser
medidos y entre dos valores
consecutivos de la variable existen
infinitos valores intermedios
-
Frecuencias
Porcentaje
Frec. Acumulada
Porcent.
Acumul.
Frecuencias
Porcentaje
Frec. Acumulada
Porcent.
Acumul.
-
Representación
Gráfica
Diagrama de
rectángulos /
barras
Diag de sectores
Pictogramas
-
Diagrama de
barras
Polígono de Frec.
-
Histograma
Polígono de Frec.
MEDIDAS DE CENTRALIZACIÓN Y DISPERSIÓN
Una distribución de frecuencias es una buena forma de expresar el patrón de
distribución seguido por los valores obtenidos de una observación o experimento. Pero
para poder obtener conclusiones estadísticas a partir de estos datos, es decir,
conclusiones aplicables a la población, es necesario una información mas completa:
describir la tendencia central de los valores obtenidos y su variación. Además permiten
sintetizar la información recogida y facilita el trabajo con pocas medidas que contienen
mucha información. Ello se consigue, respectivamente, con las medidas de
centralización y de dispersión.
Estas dos medidas son, juntamente con el tamaño de la muestra, los tres parámetros
básicos para la aplicación del método estadístico en cualquier estudio.
CENTRALIZACIÓN:
Tratan de elegir los valores más representativos de la serie estudiada en torno a los
valores más probables o más frecuentes.
Moda. Es el valor de la variable que se presenta con más frecuencia. Una distribución
puede tener más de una moda, llamándose según este criterio, unimodal, bimodal o
multimodales.
Mediana. En una serie ordenada de menor a mayor, es el término que ocupa el valor
central. Deja a la mitad por encima y a la otra mitad por debajo. Cuando el número de
la serie es par, se realiza la media aritmética de los dos centrales.
Percentiles. Valor de la variable por debajo del cual se encuentra un porcentaje
determinado de las observaciones.
Cuartiles. Valor de la variable que deja por debajo de sí el 25%, 50% y el 75%del total
de las observaciones.
Media aritmética. Se obtiene dividiendo la suma de los elementos de una serie o de
una distribución de frecuencias por el número de los mismos. Es la más frecuente, la
más estable y la más manipulable.
Media aritmética ponderada.- A cada valor xi del carácter se le asigna un peso wi
m
x
n
distinto, según la importancia dada bajo un criterio. En tal caso, los pesos juegan el
papel de las frecuencias en la media aritmética.
mp 
w x
i
i
wi
Media geométrica.- Es la raíz enésima del producto de los n factores de una serie.
* En las distribuciones que presenta un cierto grado de inclinación, la mediana
constituye una medición descriptiva mejor que la media.
* En caso de duda se emplea la media aritmética.
DISPERSIÓN:
Rango, recorrido o amplitud. Es la medida más sencilla y se de define como la
diferencia entre el valor máximo y el valor mínimo de la muestra.
Desviación media.- La Media Aritmética de los valores absolutos, de las diferencias de
cada término de una serie y su media aritmética.
Dm 
 ( x  m)
n
Varianza. La media Aritmética de los cuadrados de las diferencias entre la media de
una distribución y cada una de los términos de la misma.

 ( x  m)
2
n
Desviación típica o estándar.- Es la raíz cuadrada de la varianza.

 ( x  m)
2
n
Coeficientes de dispersión:
Coeficiente de varianza.- Es la relación de la desviación típica a la media aritmética,
expresada en tanto por ciento.
C.V . 

m
100
Coeficiente de sesgo (Pearson).
C.S 
media  mod a

* Distribuciones con:
- suficiente concentración: Desviación Típica no exceda de 1/3 de la Media.
- dispersiones grandes: Desviación Típica entre 1/3 y la ½.
- dispersiones execivas: Desviación Típca superiores a la ½ de Media.
DISTRIBUCIÓN NORMAL:
Las distribuciones de frecuencias reflejan como se reparten los individuos de una
muestra según los valores de una variable. Cuando se trata de poblaciones, el
comportamiento teórico de una variable puede conocerse mediante la distribución de
probabilidades, análogas a las de frecuencias.
Las variables cuantitativas pueden seguir diferentes tipos de distribuciones teóricas de
probabilidad. Cuando la variable es continua, referirse a la probabilidad de que un
individuo tenga un valor concreto no tiene ningún sentido, por que generalmente esa
probabilidad es cercana a cero. Será más útil conocer la probabilidad de que un
individuo se sitúe entre dos valores concretos. La mayoría de variables biológicas,
siguen una distribución de probabilidades denominada normal o gaussiana. El termino
normal no coincide con el termino normalidad empleado en medicina, sino que hace
referencia a ciertas características que la definen:
a. Es una distribución teórica de probabilidad continua definida por una función de
probabilidad.
b. El área comprendida bajo la curva de la distribución es igual a la unidad.
c. Se caracteriza por dos medidas: la media y la desviación estándar.
d. Es unimodal, simétrica alrededor de una media y acampanada.
La importancia de este tipo de distribuciones en medicina radica, no sólo en que la
mayoría de las mediciones clínicas la siguen, sino además es la base para la inferencia
estadística. La inferencia estadística es el proceso que permite obtener conclusiones
referidas a poblaciones a partir de resultados observados en muestras. Una primera
aplicación es la estimación de parámetros poblacionales. Ejemplo, supoganmos que se
desea estimar la media de edad de los diabéticos de un centro de salud, basandose en la
muestra de 100 individuos, que presentan una media de edad de 57 años y una
desviación estándar de 5 años.
A partir del listado de pacientes diabéticos del centro, pueden obtenerse infinitas
muestras de 100 individuos, cada una de las cuales presentaría una media de edad
diferente sólo por el azar. Estas muestras siguen una distribución normal. Esta
propiedad se cumple siempre que la variable de interés se distribuya en la población
como una distribución normal, y también en muestras grandes, mayores de 30
individuos, aunque la variable no se distribuya según una normal en la población. La
media de esta distribución (la media de las medias) es la media poblacional, y su
desviación estándar, es conocida como error estándar de la media. Esto indica que
cuanto mayor es el número de sujetos estudiados, menor es el error estándar de la
media, la media observada en la muestra es la mejor estimación de la media
poblacional.
La muestra. Tipo de muestreo y tamaño.
Tipo de muestra: La muestra debe ser representativa de la población objetivo del
estudio. Existen diferentes métodos de muestreo. Cabe destacar:
 El muestreo aleatorio simple: Implica obtener una muestra aleatoria de la población
objetivo.
 El muestreo estratificado: La población se divide por estratos, como por ejemplo los
grupos de edad o las provincias, y en cada uno de ellos se escoge una muestra. Este
tipo de muestreo se utiliza cuando se quiere sobrerrepresentar alguno de los estratos.
Así por ejemplo, si se quiere estudiar más específicamente la población que vive en
un municipio pequeño, esta área geográfica deberá sobrerrepresentarse.
 El muestreo por conglomerados: Se divide la población en conglomerados, como por
ejemplo, los municipios y se extrae una muestra de estos conglomerados (ejemplo:
50 de 300 municipios). Posteriormente se realiza un muestreo dentro de los
conglomerados seleccionados.
Es necesario disponer de alguna fuente de información fidedigna que permita obtener
los individuos a entrevistar y que será la base de muestreo. Habitualmente se suele
utilizar el censo, algún registro poblacional, registros electorales, directorios de
teléfonos, etc.
b) Unidad de análisis: Es necesario definir cual va a ser la unidad de análisis a utilizar.
Los dos métodos más utilizados son el individuo o el hogar (unidad familiar), en éste
último caso se trata de entrevistar a todos los componentes de la unidad familiar.
c) Tamaño de la muestra: Es necesario calcular el tamaño de la muestra a entrevistar.
Dependerá fundamentalmente del tamaño de la zona en que se quieren inferir los
resultados obtenidos. Se puede afirmar, que cuanto más pequeña sea la zona en
donde se quieran inferir los resultados mayor deberá ser el tamaño de la muestra. Así
por ejemplo, es distinto si se quieren dar resultados para el conjunto de Catalunya,
que para cada una de las regiones.
Inferencia estadística.
En primer lugar hacemos inferencia a partir de unas observaciones obtenidas a partir
de la población a las que vamos a extraer unas propiedades que se denominan
estadísticos muestrales. Además vamos a conocer la distribución de dichos
estadísticos (generalmente distribución normal) por lo que hacemos inferencia
paramétrica.
La inferencia paramétrica puede recogerse en una vertiente o en otra según el
parámetro a estimar; tenemos por un lado la estadística clásica (que es en la que nos
vamos a centrar) y por otro lado la estadística bayesiana.
La estadística paramétrica clásica plantea tres tipos de problemas:



Estimación puntual en la que pretendemos dar un valor al parámetro a estimar.
Estimación por intervalos (buscamos un intervalo de confianza)
Contrastes de hipótesis donde buscamos contrastar información acerca del
parámetro.
Tenemos un experimento, lo repetimos varias veces y obtenemos una muestra con
variables aleatorias independientes idénticamente distribuidas con función de
distribución conocida. (Por ejemplo tenemos las alturas de 30 varones españoles y
estimo que la altura media de los españoles es 1,77 estamos ante una estimación
puntual). Pues cualquier función de la muestra que no dependa del parámetro a estimar
es un estadístico y aquel estadístico que se utiliza para inferir sobre el parámetro
desconocido es un estimador. Ejemplos de estadísticos son el total muestral, la media
muestral, la varianza muestral, la cuasivarianza muestral, los estadísticos de orden,..
Conocemos los conceptos básicos para comenzar a trabajar, también sabemos que las
observaciones del experimento generalmente tienen distribución normal (esto es
inferencia paramétrica). Ahora bien, necesitamos determinar unas distribuciones en el
muestreo que estén asociadas con la distribución normal. Estas distribuciones son la chicuadrado, la t de Student y la F de Snedecor.
La chi-cuadrado es una suma de normales al cuadrado" más o menos se podía definir
así ya que si calculamos la distribución de una variable normal al cuadrado no podemos
aplicar cambio de variable y a partir de su función de distribución llegamos a una
función de densidad de una gamma con parámetros 1/2 y 1/2 que es una chi-cuadrado
con 1 grado de libertad. La gamma es reproductiva respecto al primer parámetro por lo
que sumas de normales (0,1) nos proporcionan gammas de parámetros n/2 y 1/2 o lo
que es lo mismo chi-cuadrado con n grados de libertad.
La F de Snedecor se crea a partir de dos chi-cuadrado independientes dividivas por sus
respectivos grados de libertad, así la F de Snedecor tiene dos parámetros que indican sus
grados de libertad:
X se distribuye como chi-cuadrado
con m grados de libertad
==> F=(X/m)/(Y/m) es F de snedecor con m,n grados de libertad
Y se distribuye como chi-cuadrado
con n grados de libertad
BIBLIOGRAFÍA
Colton, Theodore.: Estadística en Medicina. Salvat Editores, S.A.
Domenech Massons, Jóse.: M. Métodos Estadísticos en Ciencias de la Salud.
Estadística Descriptiva. Ed. Gráficas Signo S.A.. Barcelona,1989.
Carrasco de la Peña, J.L.:El método estadístico en la investigación médica. Ed. Ciencia
3, S.A. 1986.
Spiegel, M.R..: Estadística. Ed. Mc Graw-Hill. Madrid, 1985.