Download estadística
Document related concepts
Transcript
Introducción a Bioestadística Dr. M. H. Rahbar Profesor de Bioestadística Departamento de Epidmeiología Director, Centro de Coordinación de Datos Colegio de Medicina Humana Universidad Estatal de Michigan ¿Qué significa “ESTADÍSTICA”? La palabra “estadística” tiene varios significados: 1. Es usada frecuentemente al referirnos a datos registrados 2. Estadística también denota características calculadas para un grupo de datos, por ejemplo, media de la muestra 3. Estadística también se refiere a metodología estadística, técnicas y procedimientos tratando con el diseño de experimentos, colección, organización, análisis de la infromación contenida en un grupo de datos para hacer inferencias acerca de los parámetros de la población. ¿Qué hacen los estadísticos? 1. Guiar el diseño de un experimento o encuesta antes de la colección de datos. 2. Analizar datos usando los procedimientos y técnicas estadísticos adecuados 3. Presentar e interpretar resultados a los investigadores y otros tomadores de decisiones incluyendo al gobierno y a la industria ¿Por qué estudiar estadística? 1. Conocimiento de estadística es esencial para personas que hacen investigación, manejo de estudios 2. Entendimiento básico de estadística es útil para conducir investigaciones y una presentación efectiva 3. Entendimiento de estadística puede ayudar a discriminar entre hechos y suposiciones en la vida diaria 4. Un curso de estadística deberá ayudar a saber cuando un estadístico deberá ser consultado. Definición de población y muestra Una población es un grupo de medidas de interés para un investigador. Ejemplos: 1. Ingreso de familias viviendo en Karachi 2. Número de niños en familias viviendo en Pakistán 3. Status de salud de adultos en una comunidad Un subgrupo de la población es llamado muestra. Una muestra es usualmente seleccionada de tal forma que es representativa de la población. Estadística descriptiva e inferencial 1. Estadística descriptiva trata con la enumeración, organización y representación gráfica de los datos 2. Estadística inferencial está interesada en llegar a conclusiones de información incompleta, o sea, generalizado desde la muestra Un ejemplo de estadística inferencial incluye el uso de información disponible acerca del status de salud de las personas en una muestra para extraer inferencias acerca de la población de la cual se obtuvo la muestra Estadística inferencial El objetivo de la estadística inferencial es hacer inferencias acerca de los parámetros de la población basada en la información obtenida de la muestra. 1. Estimación (e.g., estimando la prevalencia de hipertensión entre adultos viviendo en Karachi) 2. Probando hipótesis (e.g., probando la efectividad de un nuevo medicamento para reducir los niveles de colesterol) Fuentes de datos 1. 2. 3. 4. 5. 6. Los datos pueden obtenerse de diferentes fuentes: Sistemas de vigilancia (e.g., NIH) Encuestas planeadas (Gobierno, universidades, ONG) Experimentos (Compañías farmacéuticas) Organizaciones de salud (Grupo de datos administrativos) Sector privado (Bancos, compañías, etc) Gobierno (Todas las agencias gubernamentales) Aquí, nos enfocaremos en encuestas y experimentos ¿Cuál es la diferencia entre una encuesta y un experimento? Diferencia entre encuestas y experimentos Datos de una encuesta representan observaciones de eventos o fenómenos sobre los cuales pocos o ningún, control se impone. (e.g., evaluando la asociación entre diferentes estilos de vida y enfermedad cardiaca) En un experimento diseñamos una investigación planeada a propósito para imponer controles sobre la cantidad de exposición (tratamiento) a una medicamento. (e.g., estudios clínicos) Métodos de muestreo 1. Muestreo aleatorio (Simple) 2. Muestreo sistemático 3. Muestreo estratificado 4. Muestreo agrupado 5. Muestreo por conveniencia 6. Muestreo más complejo Algunos estudios epidemiológicos Estudios retrospectivos: Reúnen datos del pasado de casos y controles seleccionados para determinar diferencias, si las hay, en la exposición a un factor de sospecha. Comúnmente son llamados estudios de casocontrol Estudios prospectivos: Generalmente son estudios cohorte en los cuales enrolamos a un grupo de personas sanas y las seguimos durante un cierto periodo de tiempo para determinar la frecuencia con la cual se presenta una enfermedad. Variables cualitativas y cuantitativas Ejemplos de variables cualitativas son ocupación, sexo, estado civil, etc. Variables que producen observaciones que pueden medirse, se considera que son variables cuantitativas. Ejemplos de variables cuantitativas son peso, estatura, edad. Variables cuantitativas pueden clasificarse en discretas o continuas Tipos de variables 1. Variables categóricas (e.g., Sexo, estado civil, categoría de ingreso) 2. Variables continuas (e.g., edad, ingreso, peso, estatura, tiempo en lograr un resultado) 3. Variables discretas (e.g. número de niños en una familia) 4. Variables dicotómicas o binarias (e.g., respuesta sí o no) Escala de variables • Escala de variable – Escala nominal – Escala ordinal – Escala de intervalo – Escala de razón de intervalo Escala de datos 1. Nominal: estos datos no representan una cantidad (e.g., estado civil, sexo) 2. Ordinal: estos datos representan una serie de datos ordenados (e.g., nivel de educación) 3. Intervalo: estos datos son medidos en una escala de intervalo teniendo iguales unidades pero teniendo un 0 arbitrario (e.g.: temperatura en ° Fahrenheit) 4. Razón de intervalo: variable como peso para el cual podemos comparar significativamente un peso contra otro (digamos, 100 Kg es dos veces 50 Kg) Variables en el protocolo • Tipos de variable – independiente – dependiente – intermedia – confusora Variable independiente • La característica siendo observada y/o medida que hipotéticamente influencia a un evento o resultado (variable dependiente). • NOTA – La variable independiente no es influenciada por el evento o el resultado, pero puede causarlo o contribuir a su variación. Variable dependiente • Una variable cuyo valor depende del efecto de las otras variables (variables independientes) en la relación siendo estudiada. Sinónimo: variables resultado o respuesta. • NOTA – Un evento o un resultado cuya variación buscamos explicar o contabilizar por la influencia de variables independientes. Variable intermedia • Una variable que ocurre en el camino causal de una variable independiente a una variable dependiente. Sinónimo: interventora, mediadora • NOTAS – Produce variación en la variable dependiente, y es causada por ña variable independiente. – Tal variable está “asociada” con la variable dependiente e independiente. Variable confusora • Un factor (que es un determinante del resultado), que distorsiona el efecto aparente de una variable de estudio sobre el resultado. • NOTA – Tal factor puede estar desigualmente distribuido entre los expuestos y no expuestos y por lo tanto influenciar la magnitud aparente y aún, la dirección del efecto. Organizando los datos 1. 2. 3. 4. 5. 6. 7. 8. 9. Tabla de frecuencias Histograma de frecuencias Histograma de frecuencias relativas Polígono de frecuencias Polígono de frecuencia relativa Barras Pastel Tronco y hoja Caja y línea Tabla de frecuencias Suponga que estamos interesados en estudiar el número de niños en las familias viviendo en la comunidad. Los datos siguientes fueron reunidos basados en una muestra aleatoria de n=30 familias de la comunidad. 2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0, 5, 8, 6, 5, 4 , 2, 4, 4, 7, 6 ¡Organice estos datos en una tabla de frecuencias! X=No. de niños 0 1 2 3 4 5 6 7 8 Cuenta Frecuencia (Frecuencia) relativa 2 2/30=0.067 3 3/30=0.100 5 5/30=0.167 5 5/30=0.167 6 6/30=0.200 4 4/30=0.133 2 2/30=0.067 2 2/30=0.067 1 1/30=0.033 6 5 4 3 Freq. 2 1 0 0 1 2 3 4 5 6 7 8 Tabla de frecuencias Suponga que necesitamos construir una tabla de frecuencias similar para la edad de pacientes con problemas relacionados al corazón en una clínica. Los siguientes datos han sido reunidos basados en una muestra aleatoria de n=30 pacientes quienes fueron a emergencias de la clínica por problemas relacionados al corazón. Las mediciones fueron: 42, 38, 51, 53, 40, 68, 62, 36, 32, 45, 51, 67, 53, 59, 47, 63, 52, 64, 61, 43, 56, 58, 66, 54, 56, 52, 40, 55, 72, 69. Grupos de edad Frecuencia Frecuencia relativa 32 -36.99 37- 41.99 42-46.99 47-51.99 52-56.99 57-61.99 62-66.99 67-72 Total 2 3 4 3 8 3 4 3 n=30 2/30=0.067 3/30=0.100 4/30=0.134 3/30=0.100 8/30=0.267 3/30=0.100 4/30=0.134 3/30=0.100 1.00 Medidas de tendencia central ¿Dónde está el corazón de la distribución? 1. Media 2. Mediana 3. Moda Media de la muestra La media aritmética ( o simplemente media) es obtenida sumando todas las observaciones en la muestra y dividiéndola entre el número de observaciones. Para una muestra de 5 ingresos 6000, 10,000, 10,000, 14000, 50,000 la media de la muestra es: 6000 + 10000 + 10000 + 14000 + 50000 X = = 18000 5 Mediana de la muestra En una lista ordenada del más pequeño al mayor, la mediana es el valor de en medio En nuestro ejemplo de cinco ingresos en una vivienda, primero ordenamos las mediciones 6,000, 10,000, 10,000, 14,000, 50,000 Mediana de la muestra 10,000 Medidas de dispersión o variabilidad 1. Rango 2. Varianza 3. Desviación estándar Fórmula para varianza y desviación estándar (S) de la muestra n ( xi - x ) 2 s = 2 i=1 n -1 Desviación estándar = S Cálculo de varianza y desviación estándar 2 2 2 2 2 (6000-18000 ) +(10000-18000 ) +(10000-18000 ) +(14000-18000)+(50000-18000 ) = S= 5-1 2 S = 328,000,000 S 18110.77 Reglas empíricas Para una distribución Normal, aproximadamente, a) 68% de las mediciones caen dentro de una desviación estándar alrededor de la media b) 95% de las mediciones caen dentro de dos desviaciones estándar alrededor de la media c) 99.7% de las mediciones caen dentro de 3 desviaciones estándar alrededor de la media. Suponga que el tiempo de reacción de una droga en particular tiene una distribución Normal con una media de 10 minutos y una desviación estándar de 2 minutos Aproximadamente, a) 68% de los sujetos tomando el medicamento tendrán la reacción entreo 8 y 12 minutos b) 95% de los sujetos tomando la droga tendrán la reacción entre 6 y 14 minutos c) 99.7% de los sujetos tomando la droga tendrán la reacción entre 4 y 16 minutos.