Download Bioestadística - Clas Chancayllo

Document related concepts

Muestra estadística wikipedia , lookup

Muestreo (estadística) wikipedia , lookup

Estadístico muestral wikipedia , lookup

Variable aleatoria wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Transcript
Conceptos Básicos
BIOESTADÍSTICA
LA ESTADISTICA
 La estadística es una ciencia con base
matemática referente a la recolección,
análisis e interpretación de datos, que busca
explicar condiciones regulares en fenómenos
de tipo aleatorio
ESTADÍSTICA DESCRIPTIVA
Definición
 La estadística descriptiva es una ciencia que
analiza series de datos (por ejemplo, edad de
una población, altura de los estudiantes de
una escuela, temperatura en los meses de
verano, etc) y trata de extraer conclusiones
sobre el comportamiento de estas variables.
Tipos de Variables
 Variables cualitativas o atributos: no se
pueden medir numéricamente (por ejemplo:
nacionalidad, color de la piel, sexo).
 Variables cuantitativas: tienen valor
numérico (edad, precio de un producto,
ingresos anuales).
Tipos de Variables
 Variables unidimensionales: Sólo recogen
información sobre una característica (por
ejemplo: edad de los alumnos de una clase).
 Variables bidimensionales: Recogen
información sobre dos características de la
población (por ejemplo: edad y altura de los
alumnos de una clase).
 Variables pluridimensionales: Recogen
información sobre tres o más características
(por ejemplo: edad, altura y peso de los
alumnos de una clase).
Variables Cuantitativas
 Discretas: Sólo pueden tomar valores enteros (1, 2, 8, 4, etc.). Por ejemplo: número de hermanos (puede ser 1,
2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45).
 Continuas: Pueden tomar cualquier valor real dentro
de un intervalo. Por ejemplo, la velocidad de un vehículo
puede ser 80,3 km/h, 94,57 km/h...etc.
Conceptos Básicos
 Individuo: Cualquier elemento que porte información
sobre el fenómeno que se estudia. Así, si estudiamos la
altura de los niños de una clase, cada alumno es un
individuo.
 Población: Conjunto de todos los individuos (personas,
objetos, animales, etc.) que porten información sobre el
fenómeo que se estudia. Por ejemplo, si estudiamos el
precio de la vivienda en una ciudad, la población será el
total de las viviendas de dicha ciudad.
 Muestra: Subconjunto que seleccionamos de la
población. Así, si se estudia el precio de la vivienda de
una ciudad, lo normal será no recoger información sobre
todas las viviendas de la ciudad (sería una labor muy
compleja), sino que se suele seleccionar un subgrupo
(muestra) que se entienda que es suficientemente
representativo.
Distribución de Frecuencias
 Es la representación estructurada, en forma de tabla, de
toda la información que se ha recogido sobre la variable que
se estudia.
Ejemplo
 Medimos la altura de los niños de una clase y
obtenemos los siguientes resultados (cm):
Ejemplo
 Con la información brindada podemos armar la siguiente
tabla de frecuencias
Medidas de Posición
 Nos facilitan información sobre la serie de
datos que estamos analizando
 Tipos:
 Medidas de posición central: informan
sobre los valores medios de la serie de
datos.
 Medidas de posición no centrales:
informan de como se distribuye el resto
de los valores de la serie.
Media
 Es el valor medio ponderado de la serie de datos.
 Lo más positivo de la media es que en su cálculo
se utilizan todos los valores de la serie, por lo que
no se pierde ninguna información.
 Su valor (tanto en el caso de la media aritmética
como geométrica) se puede ver muy influido por
valores extremos, que se aparten en exceso del
resto de la serie, perdiendo ésta
representatividad.
 Se pueden calcular diversos tipos de media:
 Aritmética
 Geométrica
Media Aritmética
 Se calcula multiplicando cada valor por el
número de veces que se repite. La suma de
todos estos productos se divide por el total de
datos de la muestra
Media Geométrica
 Se eleva cada valor al número de veces que se ha
repetido. Se multiplican todo estos resultados y al
producto final se le calcula la raíz "n" (siendo "n" el total
de datos de la muestra).
 La media geométrica se suele utilizar en series de datos
como tipos de interés anuales, inflación, etc., donde el
valor de cada año tiene un efecto multiplicativo sobre el
de los años anteriores
Mediana
 Es el valor de la serie de datos que se sitúa
justamente en el centro de la muestra (un 50% de
valores son inferiores y otro 50% son superiores).
 No presentan el problema de estar influido por los
valores extremos, pero en cambio no utiliza en su
cálculo toda la información de la serie de datos (no
pondera cada valor por el número de veces que se ha
repetido).
 Considerando X1, X2,X3….Xn los datos de una
muestra ordenada en orden creciente y designando la
mediana como Me
Si n es impar
 La mediana es el valor que ocupa la posición
(n+1)/2 una vez que los datos han sido
ordenados (en orden creciente o decreciente),
porque éste es el valor central.
 Por ejemplo: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9
M e  x n 1
2
x 51  x3  7
2
Si n es par
 La mediana es la media aritmética de las dos
observaciones centrales n/2 y (n/2)+1.
 Por ejemplo x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9, x6 =
10
xn  xn
Me 
2
2
1
2
x3  x4 7  8
Me 

 7.5
2
2
Moda
 Es el valor que más se repite en la muestra
Ejemplos
 La media Aritmética
 La Media Geométrica
 La Mediana
 Es 1,26 cm, ya que por debajo está el 50% de los
valores y por arriba el otro 50%. Esto se puede ver al
analizar la columna de frecuencias relativas
acumuladas.
 La Moda
 Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el
1,22 y el 1,28, por lo tanto esta seria cuenta con 3
modas
Medidas de posición no
centrales
 Permiten conocer otros puntos característicos de la
distribución que no son los valores centrales.
 Entre otros indicadores, se suelen utilizar una serie de
valores que dividen la muestra en tramos iguales:
 Cuartiles: son 3 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en
cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.
 Deciles: son 9 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos
concentra el 10% de los resultados.
 Percentiles: son 99 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en
cien tramos iguales, en los que cada uno de ellos
concentra el 1% de los resultados.
Ejemplo
 Vamos a calcular los cuartiles de la serie de datos
referidos a la estatura de un grupo de alumnos
 Los deciles y centiles se calculan de igual manera,
aunque haría falta distribuciones con mayor número de
datos.
Ejemplo
 1º cuartil: es el valor 1,22 cm, ya que por debajo suya se
situa el 25% de la frecuencia (tal como se puede ver en la
columna de la frecuencia relativa acumulada).
 2º cuartil: es el valor 1,26 cm, ya que entre este valor y el
1º cuartil se situa otro 25% de la frecuencia.
 3º cuartil: es el valor 1,28 cm, ya que entre este valor y el
2º cuartil se sitúa otro 25% de la frecuencia. Además, por
encima suya queda el restante 25% de la frecuencia.
 Atención: cuando un cuartil recae en un valor que se ha
repetido más de una vez (como ocurre en el ejemplo en
los tres cuartiles) la medida de posición no central sería
realmente una de las repeticiones.
Medidas de Dispersión
 Estudia la distribución de los valores de la
serie, analizando si estos se encuentran más o
menos concentrados, o más o menos
dispersos.
 Existen diversas medidas de dispersión:
 Rango
 Varianza
 Desviación típica
 Coeficiente de desviación de Pearson
Rango
 Mide la amplitud de los valores de la muestra
y se calcula por diferencia entre el valor más
elevado y el valor más bajo.
Varianza
 Mide la distancia existente entre los valores de la serie y
la media. Se calcula como sumatorio de las diferencias al
cuadrado entre cada valor y la media, multiplicadas por
el número de veces que se ha repetido cada valor. El
sumatorio obtenido se divide por el tamaño de la
muestra.
• La varianza siempre será mayor que cero. Mientras más
se aproxima a cero, más concentrados están los valores
de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más
dispersos están.
2
xi  xm  ni

2
Sx 
n
Desviación Típica
 Se calcula como raíz cuadrada de la varianza.
  (S )
2
x
Coeficiente de variación de
Pearson
 Se calcula como cociente entre la desviación
típica y la media.
 Es un porcentaje que permite comparar el nivel
de dispersión de dos muestras. Esto no ocurre
con la desviación típica, ya que viene expresada
en las mismas unidas que los datos de la serie.
 Por ejemplo, para comparar el nivel de
dispersión de una serie de datos de la altura de
los alumnos de una clase y otra serie con el peso
de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene expresada en cm
y la otra en kg). En cambio, sus coeficientes de
variación son ambos porcentajes,
por lo que sí se

pueden comparar.
Cv 
Xm
Ejemplos
Ejemplos
 Rango:
 Diferencia entre el mayor valor de la muestra (1,30) y
el menor valor (1,20).
 El rango de esta muestra es 10 cm.
 Varianza:
 Recordemos que la media de esta muestra es 1,253.
Luego, aplicamos la fórmula:
Ejemplos
 Desviación típica: Es la raíz cuadrada de la
varianza.
  ( S x2 )  (0.010)  0.0320
 Coeficiente de variación de Pearson: Se calcula
como cociente entre la desviación típica y la
media de la muestra.

0.0320
Cv 

 0.0255
X m 1.253
PROBABILIDAD
Probabilidad
 Mide la frecuencia con la que aparece un resultado
determinado cuando se realiza un experimento.
 Ejemplo: tiramos un dado al aire y queremos saber
cual es la probabilidad de que salga un 2, o que salga
un número par, o que salga un número menor que 4.
 El experimento tiene que ser aleatorio, es decir,
que pueden presentarse diversos resultados, dentro
de un conjunto posible de soluciones, y esto aún
realizando el experimento en las mismas
condiciones.
Conceptos

Suceso elemental
 Hace referencia a cada una de las posibles soluciones que se pueden
presentar.
 Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la
cara y la cruz. Al lanzar un dado, los sucesos elementales son el 1, el 2, ..,
hasta el 6.

Suceso compuesto
 Subconjunto de sucesos elementales.
 Ejemplo: lanzamos un dado y queremos que salga un número par. El
suceso "numero par" es un suceso compuesto, integrado por 3 sucesos
elementales: el 2, el 4 y el 6
Espacio muestral
 Al conjunto de todos los posibles sucesos elementales. Cada
experimento aleatorio tiene definido su espacio muestral (es decir, un
conjunto con todas las soluciones posibles).
 Ejemplo: si tiramos una moneda al aíre una sola vez, el espacio muestral
será cara o cruz.

Relación entre Sucesos
 Un suceso puede estar contenido en otro
 Ejemplo: lanzamos un dado y analizamos dos sucesos:
a) que salga el número 6, y b) que salga un número par.
Vemos que el suceso a) está contenido en el suceso b).
 Siempre que se da el suceso a) se da el suceso b), pero
no al contrario. Por ejemplo, si el resultado fuera el 2,
se cumpliría el suceso b), pero no el el a).
 Dos sucesos pueden ser iguales
 Ejemplo: lanzamos un dado al aire y analizamos dos
sucesos: a) que salga número par, y b) que salga
múltiplo de 2. Vemos que las soluciones coinciden en
ambos casos.
Relación entre Sucesos




Unión de dos o más sucesos
 Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga
número par y b) que el resultado sea mayor que 3. El suceso unión estaría
formado por los siguientes resultados: el 2, el 4, el 5 y el 6
Intersección de sucesos
 Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos: a) que salga
número par, y b) que sea mayor que 4. La intersección de estos dos sucesos
tiene un sólo elemento, el número 6 (es el único resultado común a ambos
sucesos: es mayor que 4 y es número par).
Sucesos incompatibles
 Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un
número menor que 3, y b) que salga el número 6. Es evidente que ambos no
se pueden dar al mismo tiempo.
Sucesos complementarios
 Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un
número par, y b) que salga un número impar. Vemos que si no se da el
primero se tiene que dar el segundo (y viceversa).
Cálculo de probabilidades
 La probabilidad toma valores entre 0 y 1 (o expresados
en tanto por ciento, entre 0% y 100%)
 El valor cero corresponde al suceso imposible:
 Lanzamos un dado al aire y la probabilidad de que
salga el número 7 es cero.
 El valor uno corresponde al suceso seguro
 Lanzamos un dado al aire y la probabilidad de que
salga cualquier número del 1 al 6 es igual a uno (100%).
 El resto de sucesos tendrá probabilidades entre cero y
uno
 Que será tanto mayor cuanto más probable sea que
dicho suceso tenga lugar.
¿Cómo se mide la probabilidad?
 Uno de los métodos más utilizados es aplicando la Regla
de Laplace:
 Define la probabilidad de un suceso como el cociente
entre casos favorables y casos posibles.
 P(A) = Casos favorables / casos posibles
 Probabilidad de que al lanzar un dado salga un
número par: en este caso los casos favorables son tres
(que salga el dos, el cuatro o el seis), mientras que los
casos posibles siguen siendo seis. Por lo tanto:
 P(A) = 3 / 6 = 0,50 (o lo que es lo mismo, 50%)
Regla de Laplace
 El número de resultados posibles (sucesos) tiene que
ser finito.
 Si hubiera infinitos resultados, al aplicar la regla "casos
favorables / casos posibles" el cociente siempre sería
cero.
 Todos los sucesos tienen que tener la misma
probabilidad.
 Si al lanzar un dado, algunas caras tuvieran mayor
probabilidad de salir que otras, no podríamos aplicar
esta regla.
Combinaciones
 Determina el número de subgrupos de 1, 2, 3, etc.
elementos que se pueden formar con los "n" elementos
de una muestra.
 Cada subgrupo se diferencia del resto en los elementos
que lo componen, sin que influya el orden.
 Por ejemplo, calcular las posibles combinaciones de 2
elementos que se pueden formar con los números 1, 2
y 3. Se pueden establecer 3 parejas diferentes: (1,2),
(1,3) y (2,3). En el cálculo de combinaciones las parejas
(1,2) y (2,1) se consideran idénticas, por lo que sólo se
cuentan una vez.
Variaciones
 Calcula el número de subgrupos de 1, 2, 3, etc. elementos
que se pueden establecer con los "n" elementos de una
muestra.
 Cada subgrupo se diferencia del resto en los elementos
que lo componen o en el orden de dichos elementos (es
lo que le diferencia de las combinaciones).
 Por ejemplo, calcular las posibles variaciones de 2
elementos que se pueden establecer con los número 1,
2 y 3.
 Ahora tendríamos 6 posibles parejas: (1,2), (1,3), (2,1),
(2,3), (3,1) y (3,3). En este caso los subgrupos (1,2) y
(2,1) se consideran distintos.
Permutaciones
 Calcula las posibles agrupaciones que se pueden
establecer con todos los elementos de un grupo, por lo
tanto, lo que diferencia a cada subgrupo del resto es el
orden de los elementos.
 Por ejemplo, calcular las posibles formas en que se pueden
ordenar los número 1, 2 y 3.
 Hay 6 posibles agrupaciones: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3,
1, 2) y (3, 2, 1)
MUESTREO
Conceptos Básicos
 Elemento/Unidad: Cada uno de los componentes de la
muestra
 Marco Muestral: Enumeración exhaustiva de toda la
población o unidades muestrales
 Parámetro: Valor de la variable calculada sobre la población
 Error aleatorio del muestreo: Diferencia entre los resultados
obtenidos de una muestra y los obtenidos sobre un censo,
habiendo utilizado procedimientos idénticos para obtener la
información
 Error sistemático, ajeno al muestreo o no muestral: Se trata de
errores que no tienen que ver con el hecho de seleccionar una
muestra. Puede ser consecuencia de la naturaleza del diseño
del estudio y de las imperfecciones en su ejecución
Muestreos Probabilísticos
 Muestreo Aleatorio Simple o con Reposición
 Muestreo Aleatorio sin Reposición
 Muestreo Sistemático
 Muestreo Estratificado
 Muestreo por Conglomerados
Muestreo Aleatorio Simple o con
Reposición
 Se toma un elemento al azar, se analiza y se devuelve




antes de extraer el siguiente
Todos los elementos tienen la misma probabilidad de ser
extraídos
Las extracciones son independientes
Ejemplos:
 Urna con reposición (p. finita)
 Máquina produce piezas (p. infinita)
Una m.a.s. de tamaño n (X1, ..., Xn) donde todas las Xi:
 Son independientes
 Tienen la misma distribución
 Su distribución coincide con la de población
Muestreo Aleatorio sin
Reposición
 Se toma un elemento al azar, se analiza y no se devuelve




para próximas extracciones
No todos los elementos tienen la misma probabilidad de
ser extraídos
Las extracciones NO son independientes
Ejemplo: Urna sin reposición (p. finita)
Una m.a. sin reposición de tamaño n (X1, ..., Xn) donde
todas las Xi:
 Son dependientes
 Tienen la misma distribución
 Su distribución coincide con la de población
Muestreo Sistemático
 Para tomar una muestra de tamaño n:
 Numerar las unidades de la población de 1 hasta N.
 Dividir la población en n bloques de k elementos cada
uno k = N / n
 Tomar un elemento al azar del primer bloque
(elemento h: 1≤h≤k). Repetir de forma sistemática
 La muestra queda formada por los elementos: h + i•k i
= 0,..., n-1
 Ejemplo: Elección de jurados
Muestreo Estratificado





Dividir la población en L estratos (subgrupos)
 Elementos homogéneos dentro del estrato
 Estratos heterogéneos entre sí
Muestra total = Unión de las muestras de cada estrato. Cada submuestra
independiente del resto.
Ventajas:
 Permite aplicar técnicas de selección diferentes dentro de cada estrato
 Permite obtener estimaciones separadas en cada estrato
 Consigue mayor precisión
 Disminuye el tamaño de la muestra
Para seleccionar el tamaño de cada submuestra:
 Afijación uniforme
 Afijación proporcional (más usado)
 Afijación de mínima varianza
 Afijación óptima (costes asociados al muestreo)
Ejemplo: Estudios de mercado
Muestreo por Conglomerados
 Sustituir los elementos de la población por
grupos
 Cada unidad es ahora un grupo:
conglomerado
 Se seleccionan los conglomerados y dentro
de ellos se realiza el estudio
Muestreos no probabilísticos
 Muestreo de conveniencia
 Muestreo de juicios
 Muestreo por cuotas
 Muestreo de bola de nieve
Muestreo de Conveniencia
 La muestra estará formada por unidades
accesibles o favorables
 Se suele utilizar cuando se realiza una prueba
de un cuestionario o en un estudio
exploratorio
 Es un método de reducido coste
 Los estimadores no coincidirán con los
parámetros
Muestreo de Juicios
 Consiste en acudir a expertos para que nos
ayuden a determinar una muestra
representativa
Muestreo por Cuotas
 Construye una muestra a escala de la población
objeto de estudio fijándose las condiciones que
deben cumplir los elementos muestrales
 Conlleva una muy buena planificación del trabajo
de campo
 Pueden conseguirse resultados próximos a un
muestreo estratificado
Muestreo de Bola de Nieve
 Se elige una submuestra por alguno de los
métodos anteriores
 Se pide a sus componentes que elijan a otros
a partir de unas condiciones
Calculo del Tamaño de la
Muestra
 Fórmula para el cálculo del tamaño de la muestra cuando lo que se
estiman son medias:
z 2s2 N
n 2
e N  z 2s2
z = % de fiabilidad deseado para la media muestral (valor estandarizado)
e = error máximo permitido para la media muestral
s2 = varianza de la población.
N = Tamaño de la población.
 Si N tiende al infinito:
z 2s2
n 2
e
ESTADÍSTICA INFERENCIAL
Definición
 Rama de la estadística que estudia:
 Comportamiento y propiedades de las muestra
 Posibilidad y límites de la generalización de los
resultados de la población. Esta generalización de tipo
inductivo, se basa en la probabilidad
Objetivo
 Generalizar las propiedades de la población,
basado en los resultados de una muestra
representativa de la población.
Población
Sinónimo de conjunto
universal
Muestra
Subconjunto de la población
Representativa
Aleatoria
Estadística inferencial
 Comprende los métodos y procedimientos para deducir
propiedades (hacer inferencias) de una población, a partir de una
pequeña parte de la misma: la muestra representativa
 Estas inferencias pueden tomar la forma de:





Respuestas a preguntas si/no (prueba de hipótesis)
Estimaciones de características numéricas
Pronósticos de futuras observaciones
Descripciones de asociación (correlación)
Modelamiento de relaciones entre variables (análisis de regresión).
 Los dos tipos de problemas que resuelven las técnicas
estadísticas son


Estimación de parámetros
Contraste de hipótesis
Estimación
 Conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir
de los datos proporcionados por una muestra.
 Por ejemplo, una estimación de la media de una
determinada característica de una población de tamaño
N podría ser la media de esa misma característica para
una muestra de tamaño n.
Contraste de hipótesis
 Técnica de para juzgar si una propiedad que se supone
cumple una población estadística es compatible con lo
observado en una muestra de dicha población.
 Proceso relacionado con aceptar o rechazar afirmaciones
acerca de los parámetros de la población
Tamaño muestral
 El propósito es hacer inferencias sobre la población a
partir de una muestra y estimar la confianza con la que
estas inferencias pueden ser verdaderas.
 Para decidir el tamaño muestral:


En un problema de estimación hay que tener una idea de la
magnitud a estimar y del error aceptable.
En un contraste de hipótesis hay que saber el tamaño del efecto
que se quiere ver.
Método
 Planteamiento del problema
 Elaboración de un modelo
 Extracción de la muestra
 Análisis de los datos
 Parámetros de la población
 Contraste de la hipótesis
 Conclusiones
Histograma de Frecuencias
 Se llama Histograma de frecuencias a la
gráfica en la que en el eje de las abscisas se
grafican los intervalos y en el de las
ordenadas se grafican las frecuencias.
Polígono de Frecuencias
 Marca de clase: se llama al valor intermedio del
intervalo, el que va a representar a todos los
valores que caigan en el intervalo.
 Se llama polígono de frecuencias a la poligonal
que une los puntos medios de los extremos
superiores de las barras (marcas de clase)
empezando en una marca de clase antes y
terminando una después. Muchas veces se
grafican el histograma y el polígono de
frecuencia juntos, para lo cual se tiene que
agregar a la tabla de distribución de frecuencias
agrupada la columna con las marcas de clase.
Polígono de frecuencias