Download estadística

Document related concepts

Parámetro estadístico wikipedia , lookup

Desviación típica wikipedia , lookup

Muestra estadística wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Estadística wikipedia , lookup

Transcript
Introducción a Bioestadística
Dr. M. H. Rahbar
Profesor de Bioestadística
Departamento de Epidmeiología
Director, Centro de Coordinación de
Datos
Colegio de Medicina Humana
Universidad Estatal de Michigan
¿Qué significa “ESTADÍSTICA”?
La palabra “estadística” tiene varios significados:
1. Es usada frecuentemente al referirnos a datos
registrados
2. Estadística también denota características calculadas
para un grupo de datos, por ejemplo, media de la
muestra
3. Estadística también se refiere a metodología
estadística, técnicas y procedimientos tratando con el
diseño de experimentos, colección, organización,
análisis de la infromación contenida en un grupo de
datos para hacer inferencias acerca de los parámetros
de la población.
¿Qué hacen los estadísticos?
1. Guiar el diseño de un experimento o encuesta
antes de la colección de datos.
2. Analizar datos usando los procedimientos y
técnicas estadísticos adecuados
3. Presentar e interpretar resultados a los
investigadores y otros tomadores de decisiones
incluyendo al gobierno y a la industria
¿Por qué estudiar estadística?
1. Conocimiento de estadística es esencial para
personas que hacen investigación, manejo de
estudios
2. Entendimiento básico de estadística es útil para
conducir investigaciones y una presentación
efectiva
3. Entendimiento de estadística puede ayudar a
discriminar entre hechos y suposiciones en la
vida diaria
4. Un curso de estadística deberá ayudar a saber
cuando un estadístico deberá ser consultado.
Definición de población y muestra
Una población es un grupo de medidas de interés
para un investigador.
Ejemplos:
1. Ingreso de familias viviendo en Karachi
2. Número de niños en familias viviendo en Pakistán
3. Status de salud de adultos en una comunidad
Un subgrupo de la población es llamado muestra.
Una muestra es usualmente seleccionada de tal forma
que es representativa de la población.
Estadística descriptiva e inferencial
1. Estadística descriptiva trata con la
enumeración, organización y representación gráfica
de los datos
2. Estadística inferencial está interesada en
llegar a conclusiones de información incompleta, o
sea, generalizado desde la muestra
Un ejemplo de estadística inferencial incluye el uso
de información disponible acerca del status de
salud de las personas en una muestra para extraer
inferencias acerca de la población de la cual se
obtuvo la muestra
Estadística inferencial
El objetivo de la estadística inferencial es hacer
inferencias acerca de los parámetros de la
población basada en la información obtenida
de la muestra.
1. Estimación (e.g., estimando la prevalencia de
hipertensión entre adultos viviendo en Karachi)
2. Probando hipótesis (e.g., probando la
efectividad de un nuevo medicamento para
reducir los niveles de colesterol)
Fuentes de datos
1.
2.
3.
4.
5.
6.
Los datos pueden obtenerse de diferentes fuentes:
Sistemas de vigilancia (e.g., NIH)
Encuestas planeadas (Gobierno, universidades, ONG)
Experimentos (Compañías farmacéuticas)
Organizaciones de salud (Grupo de datos
administrativos)
Sector privado (Bancos, compañías, etc)
Gobierno (Todas las agencias gubernamentales)
Aquí, nos enfocaremos en encuestas y experimentos
¿Cuál es la diferencia entre una encuesta y un
experimento?
Diferencia entre encuestas y
experimentos
Datos de una encuesta representan observaciones
de eventos o fenómenos sobre los cuales pocos o
ningún, control se impone.
(e.g., evaluando la asociación entre diferentes
estilos de vida y enfermedad cardiaca)
En un experimento diseñamos una investigación
planeada a propósito para imponer controles
sobre la cantidad de exposición (tratamiento) a
una medicamento. (e.g., estudios clínicos)
Métodos de muestreo
1. Muestreo aleatorio (Simple)
2. Muestreo sistemático
3. Muestreo estratificado
4. Muestreo agrupado
5. Muestreo por conveniencia
6. Muestreo más complejo
Algunos estudios epidemiológicos
Estudios retrospectivos:
Reúnen datos del pasado de casos y controles
seleccionados para determinar diferencias, si las
hay, en la exposición a un factor de sospecha.
Comúnmente son llamados estudios de casocontrol
Estudios prospectivos:
Generalmente son estudios cohorte en los cuales
enrolamos a un grupo de personas sanas y las
seguimos durante un cierto periodo de tiempo
para determinar la frecuencia con la cual se
presenta una enfermedad.
Variables cualitativas y cuantitativas
Ejemplos de variables cualitativas son
ocupación, sexo, estado civil, etc.
Variables que producen observaciones que
pueden medirse, se considera que son
variables cuantitativas. Ejemplos de variables
cuantitativas son peso, estatura, edad.
Variables cuantitativas pueden clasificarse en
discretas o continuas
Tipos de variables
1. Variables categóricas (e.g., Sexo, estado civil,
categoría de ingreso)
2. Variables continuas (e.g., edad, ingreso,
peso, estatura, tiempo en lograr un resultado)
3. Variables discretas (e.g. número de niños en
una familia)
4. Variables dicotómicas o binarias (e.g.,
respuesta sí o no)
Escala de variables
• Escala de variable
– Escala nominal
– Escala ordinal
– Escala de intervalo
– Escala de razón de intervalo
Escala de datos
1. Nominal: estos datos no representan una cantidad (e.g.,
estado civil, sexo)
2. Ordinal: estos datos representan una serie de datos
ordenados (e.g., nivel de educación)
3. Intervalo: estos datos son medidos en una escala de
intervalo teniendo iguales unidades pero teniendo un 0
arbitrario (e.g.: temperatura en ° Fahrenheit)
4. Razón de intervalo: variable como peso para el cual
podemos comparar significativamente un peso contra
otro (digamos, 100 Kg es dos veces 50 Kg)
Variables en el protocolo
• Tipos de variable
– independiente
– dependiente
– intermedia
– confusora
Variable independiente
• La característica siendo observada y/o
medida que hipotéticamente influencia a un
evento o resultado (variable dependiente).
• NOTA
– La variable independiente no es
influenciada por el evento o el resultado,
pero puede causarlo o contribuir a su
variación.
Variable dependiente
• Una variable cuyo valor depende del
efecto de las otras variables (variables
independientes) en la relación siendo
estudiada. Sinónimo: variables resultado
o respuesta.
• NOTA
– Un evento o un resultado cuya variación
buscamos explicar o contabilizar por la
influencia de variables independientes.
Variable intermedia
• Una variable que ocurre en el camino causal
de una variable independiente a una variable
dependiente. Sinónimo: interventora,
mediadora
• NOTAS
– Produce variación en la variable
dependiente, y es causada por ña variable
independiente.
– Tal variable está “asociada” con la variable
dependiente e independiente.
Variable confusora
• Un factor (que es un determinante del
resultado), que distorsiona el efecto
aparente de una variable de estudio sobre
el resultado.
• NOTA
– Tal factor puede estar desigualmente
distribuido entre los expuestos y no
expuestos y por lo tanto influenciar la
magnitud aparente y aún, la dirección
del efecto.
Organizando los datos
1.
2.
3.
4.
5.
6.
7.
8.
9.
Tabla de frecuencias
Histograma de frecuencias
Histograma de frecuencias relativas
Polígono de frecuencias
Polígono de frecuencia relativa
Barras
Pastel
Tronco y hoja
Caja y línea
Tabla de frecuencias
Suponga que estamos interesados en estudiar el
número de niños en las familias viviendo en la
comunidad. Los datos siguientes fueron
reunidos basados en una muestra aleatoria de
n=30 familias de la comunidad.
2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0,
5, 8, 6, 5, 4 , 2, 4, 4, 7, 6
¡Organice estos datos en una tabla de
frecuencias!
X=No. de
niños
0
1
2
3
4
5
6
7
8
Cuenta
Frecuencia
(Frecuencia) relativa
2
2/30=0.067
3
3/30=0.100
5
5/30=0.167
5
5/30=0.167
6
6/30=0.200
4
4/30=0.133
2
2/30=0.067
2
2/30=0.067
1
1/30=0.033
6
5
4
3
Freq.
2
1
0
0
1
2
3
4
5
6
7
8
Tabla de frecuencias
Suponga que necesitamos construir una tabla de
frecuencias similar para la edad de pacientes con
problemas relacionados al corazón en una clínica.
Los siguientes datos han sido reunidos basados en
una muestra aleatoria de n=30 pacientes quienes
fueron a emergencias de la clínica por problemas
relacionados al corazón.
Las mediciones fueron: 42, 38, 51, 53, 40, 68, 62,
36, 32, 45, 51, 67, 53, 59, 47, 63, 52, 64, 61, 43, 56,
58, 66, 54, 56, 52, 40, 55, 72, 69.
Grupos de
edad
Frecuencia
Frecuencia
relativa
32 -36.99
37- 41.99
42-46.99
47-51.99
52-56.99
57-61.99
62-66.99
67-72
Total
2
3
4
3
8
3
4
3
n=30
2/30=0.067
3/30=0.100
4/30=0.134
3/30=0.100
8/30=0.267
3/30=0.100
4/30=0.134
3/30=0.100
1.00
Medidas de tendencia central
¿Dónde está el corazón de la distribución?
1. Media
2. Mediana
3. Moda
Media de la muestra
La media aritmética ( o simplemente media) es
obtenida sumando todas las observaciones en la
muestra y dividiéndola entre el número de
observaciones.
Para una muestra de 5 ingresos 6000, 10,000,
10,000, 14000, 50,000 la media de la muestra es:
6000 + 10000 + 10000 + 14000 + 50000
X =
= 18000
5
Mediana de la muestra
En una lista ordenada del más pequeño al
mayor, la mediana es el valor de en medio
En nuestro ejemplo de cinco ingresos en
una vivienda, primero ordenamos las
mediciones
6,000, 10,000, 10,000, 14,000, 50,000
Mediana de la muestra 10,000
Medidas de dispersión o
variabilidad
1. Rango
2. Varianza
3. Desviación estándar
Fórmula para varianza y
desviación estándar (S) de la
muestra
n
 ( xi - x )
2
s =
2
i=1
n -1
Desviación estándar = S
Cálculo de varianza y desviación
estándar
2
2
2
2
2 (6000-18000 ) +(10000-18000 ) +(10000-18000 ) +(14000-18000)+(50000-18000 )
=
S=
5-1
2
S = 328,000,000
S  18110.77
Reglas empíricas
Para una distribución Normal, aproximadamente,
a) 68% de las mediciones caen dentro de una
desviación estándar alrededor de la media
b) 95% de las mediciones caen dentro de dos
desviaciones estándar alrededor de la media
c) 99.7% de las mediciones caen dentro de 3
desviaciones estándar alrededor de la media.
Suponga que el tiempo de reacción de una
droga en particular tiene una distribución
Normal con una media de 10 minutos y una
desviación estándar de 2 minutos
Aproximadamente,
a) 68% de los sujetos tomando el medicamento
tendrán la reacción entreo 8 y 12 minutos
b) 95% de los sujetos tomando la droga tendrán la
reacción entre 6 y 14 minutos
c) 99.7% de los sujetos tomando la droga tendrán
la reacción entre 4 y 16 minutos.