Download un estudio estadístico comprende los siguientes pasos

Document related concepts
no text concepts found
Transcript
UN ESTUDIO ESTADÍSTICO COMPRENDE
LOS SIGUIENTES PASOS
NOVAHIA ALVAREZ SANCHEZ
FEBRERO 2008
Planteamiento del problema
Suele iniciarse con una fijación de objetivos o algunas
preguntas como ¿cuál será la media de esta población
respecto a tal característica?, ¿se parecen estas dos
poblaciones?, ¿hay alguna relación entre... ?
En el planteamiento se definen con precisión la población,
la característica a estudiar, las variables, etcétera.
Se analizan también en este punto los medios de los que
se dispone y el procedimiento a seguir.
Variable es una característica (magnitud, vector o
número) que puede ser medida, adoptando diferentes
valores en cada uno de los casos de un estudio
Clasificación de las variables
Según la escala de medición:
• Variables cualitativas: Son las variables que expresan distintas cualidades,
características o modalidad. Cada modalidad que se presenta se denomina atributo o
categoría y la medición consiste en una clasificación de dichos atributos. Las
variables cualitativas pueden ser ordinales y nominales. Las variables cualitativas
pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y
no, hombre y mujer o son politómicas cuando pueden adquirir tres o más valores.
Dentro de ellas podemos distinguir:
– Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados
siguiendo una escala establecida, aunque no es necesario que el intervalo entre
mediciones sea uniforme, por ejemplo, leve, moderado, grave
– Variable cualitativa nominal: En esta variable los valores no pueden ser
sometidos a un criterio de orden como por ejemplo los colores o el lugar de
residencia.
• Variables cuantitativas: Son las variables que se expresan mediante cantidades
numéricas. Las variables cuantitativas además pueden ser:
– Variable discreta: Es la variable que presenta separaciones o interrupciones en
la escala de valores que puede tomar. Estas separaciones o interrupciones
indican la ausencia de valores entre los distintos valores específicos que la
variable pueda asumir. Un ejemplo es el número de hijos.
– Variable continua: Es la variable que puede adquirir cualquier valor dentro de un
intervalo especificado de valores. Por ejemplo el peso o la altura, que solamente
limitado por la precisión del aparato medidor, en teoría permiten que siempre
existe un valor entre dos cualesquiera.
Según la influencia que asignemos a unas
variables sobre otras, podrán ser:
• Variables independientes: Son las que el
investigador escoge para establecer
agrupaciones en el estudio, clasificando
intrínsecamente a los casos del mismo. Un tipo
especial son las variables de confusión, que
modifican al resto de las variables
independientes y que de no tenerse en cuenta
adecuadamente pueden alterar los resultados
por medio de un sesgo.
• Variables dependientes: Son las variables de
respuesta que se observan en el estudio y que
podrían estar influenciadas por los valores de
las variables independientes
• Elaboración de un modelo
• Se establece un modelo teórico de
comportamiento de la variable de estudio.
En ocasiones no es posible diseñar el
modelo hasta realizar un estudio previo.
• Los posibles modelos son distribuciones
de probabilidad
• Dada una variable aleatoria x la función de
distribución de probabilidad F(x) asigna a un
evento definido sobre x una probabilidad.
• Entonces la probabilidad es:
–
• Una función de distribución ha de cumplir 3
condiciones:
• 1- SISTEMAS DE PROBABILIDADES
• 2- Es continua por la derecha
• 3-Es monótona no decreciente
Función de densidad de
probabilidad
• Función de densidad de probabilidadLa función de densidad de
probabilidad se utiliza en estadística con el propósito de conocer
cómo se distribuyen las probabilidades de un evento en relación al
resultado del evento. En este caso se llama función de densidad de
probabilidad.
• Matemáticamente la FDP (función densidad de probabilidad) es la
derivada de la función distribución de probabilidad.
• Las propiedades de FDP (a veces visto como PDF del inglés) son:
• FDP(x) 0 para toda x.
• La integral de FDP(x) en el intervalo [ , ] es igual a 1.
• La probabilidad de que X tome un valor en el intervalo [a,b] es el
área bajo la curva de la función de densidad en ese intervalo o lo
que es lo mismo, la integral definida en dicho intervalo. La gráfica
FDP(x) se conoce a veces como curva de densidad.
• Algunas FDP están declaradas en rangos de a , como la de la
distribución normal.
Distribución normal
• La distribución normal, también llamada distribución
de Gauss o distribución gaussiana, es la distribución
de probabilidad que con más frecuencia aparece en
estadística y teoría de probabilidades. Esto se debe a
dos razones fundamentalmente:
• Su función de densidad es simétrica y con forma de
campana, lo que favorece su aplicación como modelo a
gran número de variables estadísticas.
• Es, además, límite de otras distribuciones y aparece
relacionada con multitud de resultados ligados a la
teoría de las probabilidades gracias a sus propiedades
matemáticas
GRAFICO DE DISTRIBUCIÓN NORMAL: distribución de Gauss
• donde (Μ) es la media y (sigma) es la desviación
estándar ( es la varianza).
• Muchas variables aleatorias continuas presentan una
función de densidad cuya gráfica tiene forma de
Campana.
• La importancia de la distribución normal se debe
principalmente a que hay muchas variables asociadas a
fenómenos naturales que siguen el modelo de la normal:
• Caracteres morfológicos de individuos
• Caracteres fisiológicos como el efecto de un fármaco
• Caracteres sociológicos como el consumo de cierto
producto por un mismo grupo de individuos
• Caracteres psicológicos como el cociente intelectual
• Nivel de ruido en Telecomunicaciones
• Errores cometidos al medir ciertas magnitudes
• Valores estadísticos muestrales como la media
Extracción de la muestra
Se usa alguna técnica de muestreo o un
diseño experimental para obtener
información de una pequeña parte de la
población
Tratamiento de los datos
En esta fase se eliminan posibles errores,
se depura la muestra, se tabulan los datos
y se calculan los valores que serán
necesarios en pasos posteriores, como la
media muestral, la varianza muestral
Estimación de los parámetros
Con determinadas técnicas se realiza una
predicción sobre cuáles podrían ser los
parámetros de la población
• En estadística se llama estimación al conjunto
de técnicas que permiten dar un valor
aproximado de un parámetro de una población a
partir de los datos proporcionados por una
muestra.
• En su versión más simple, una estimación de la
media de una determinada característica de una
población de tamaño N sería la media de esa
misma característica para una muestra de
tamaño n
ESTIMADOR
• Un estimador de un parámetro poblacional es una
función de los datos muestrales. En pocas palabras, es
una fórmula que depende de los valores obtenidos de
una muestra, para realizar estimaciones.
• Por ejemplo, un estimador de la media poblacional, μ,
sería la media muestral, , según la siguiente fórmula:
–
• donde (x1, x2, ..., xn) sería el conjunto de de datos de la
muestra.
• En el ejemplo se habla de una estimación puntual. Sin
embargo, el estimador es una variable aleatoria que
asigna a cada valor de la función su probabilidad de
aparición, esto es, la probabilidad de la muestra de la
que se extrae.
Estimación puntual
Consiste en la estimación del valor del
parámetro mediante un sólo valor,
obtenido de una fórmula determinada. Por
ejemplo, si se pretende estimar la talla
media de un determinado grupo de
individuos, puede extraerse una muestra y
ofrecer como estimación puntual la talla
media de los individuos.
Estimación por intervalos
•
•
•
•
•
Consiste en la obtención de un intervalo dentro del cual estará el valor del
parámetro estimado con una cierta probabilidad. En la estimación por
intervalos se usan los siguientes conceptos:
Intervalo de confianza
El intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2,
donde θ es el parámetro a estimar. Este intervalo contiene al parámetro
estimado con una determinada certeza o nivel de confianza.
Variabilidad del Parámetro no se conoce, puede obtenerse una
aproximación en los datos aportados por la literatura científica o en un
estudio piloto. También hay métodos para calcular el tamaño de la muestra
que prescinden de este aspecto. Habitualmente se usa como medida de
esta variabilidad la desviación típica poblacional y se denota σ.
Error de la estimacións una medida de su precisión que se corresponde
con la amplitud del intervalo de confianza. Cuanta más precisión se desee
en la estimación de un parámetro, más estrecho deberá ser el intervalo de
confianza y, si se quiere mantener o disminuír el error, más ocurrencias
deberán incluirse en la muestra estudiada. En caso de no incluir nuevas
observaciones para la muestra, más error se comete al aumentar la
precisión. Se suele llamar E, según la fórmula E = θ2 - θ1.
Limite de Confianza
• Es la probabilidad de que el verdadero valor del parámetro
estimado en la población se sitúe en el intervalo de confianza
obtenido. El nivel de confianza se denota por (1-α), aunque
habitualmente suele expresarse con un porcentaje ((1-α)·100%).
Es habitual tomar como nivel de confianza un 95% o un 99%, que
se corresponden con valores α de 0,05 y 0,01 respectivamente.
• Valor α
• También llamado nivel de significación. Es la probabilidad (en
tanto por uno) de fallar en nuestra estimación, esto es, la
diferencia entre la certeza (1) y el nivel de confianza (1-α). Por
ejemplo, en una estimación con un nivel de confianza del 95%, el
valor α es (100-95)/100 = 0,05.
•
•
•
Valor crítico e representa por Zα/2. Es el valor de la abscisa en una
determinada distribución que deja a su derecha un área igual a α/2, siendo
1-α el nivel de confianza. Normalmente los valores críticos están tabulados
o pueden calcularse en función de la distribución de la población. Por
ejemplo, para una distribución normal, de media 0 y desviación típica 1, el
valor crítico para α = 0,05 se calcularía del siguiente modo: se busca en la
tabla de la distribución ese valor (o el más aproximado), bajo la columna
"Área"; se observa que se corresponde con -0,64. Entonces Zα/2 = 0,64. Si
la media o desviación típica de la distribución normal no coinciden con las
de la tabla, se puede realizar el cambio de variable t =(X-μ)/σ para su
cálculo.
Con estas definiciones, si tras la extracción de una muestra se dice que "3
es una estimación de la media con un margen de error de 0,6 y un nivel de
confianza del 99%", podemos interpretar que el verdadero valor de la media
se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7
y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error,
para obtener el intervalo de confianza según las definiciones dadas.
Para un tamaño fijo de la muestra, los conceptos de error y nivel de
confianza van relacionados. Si admitimos un error mayor, esto es,
aumentamos el tamaño del intervalo de confianza, tenemos también una
mayor probabilidad de éxito en nuestra estimación, es decir, un mayor nivel
de confianza.
Contraste de hipótesis
Son técnicas que permiten simplificar el
modelo
Contraste de hipótesis
•
•
•
•
•
El contraste de hipótesis (también denominado test de hipótesis o
prueba de significación) es una técnica de inferencia estadística para
juzgar si una propiedad que se supone cumple una población estadística
es compatible con lo observado en una muestra de dicha población.
Por ejemplo, si sospechamos que una moneda ha sido trucada para que
se produzcan más caras que cruces al lanzarla al aire, podríamos
realizar 30 lanzamientos, tomando nota del número de caras obtenidas.
Si obtenemos un valor demasiado alto, por ejemplo 25 o más,
consideraríamos que el resultado es poco compatible con la hipótesis de
que la moneda no está trucada, y concluiríamos que las observaciones
contradicen dicha hipótesis.
La aplicación de cálculos probabilísticos permiten determinar a partir de
qué valor debemos rechazar la hipótesis garantizando que la
probabilidad de cometer un error es un valor conocido a priori.
Las hipótesis pueden clasificarse en dos grupos, según:
– Especifiquen un valor concreto o un intervalo para los
parámetros del modelo.
– Determinen el tipo de distribución de probabilidad que ha
generado los datos.
Un ejemplo del primer grupo es la hipótesis de que la media de una
variable es 10, y del segundo que la distribución de probabilidad es la
distribución normal.
Conclusiones
• Se critica el modelo y se hace un balance.
Las conclusiones obtenidas en este punto
pueden servir para tomar decisiones o
hacer predicciones.
• El estudio puede comenzar de nuevo a
partir de este momento, en un proceso
cíclico que permite conocer cada vez
mejor la población y características de
estudio