Download LIC. SANDRA IVONNE SANCHEZ HERNANDEZ ALUMNA

Document related concepts
no text concepts found
Transcript
LIC. SANDRA IVONNE SANCHEZ HERNANDEZ
ALUMNA: JOHANA JETZABEL ONTIVEROS
CHAVEZ
MATERIA: ESTADISTICA APLICADA A LA
EDUCACION II
¿QUE ES LA HIPOTESIS ESTADISTICA?
puede definirse como una solución provisional (tentativa) para un problema dado, el nivel
de verdad que se le asigne a tal hipótesis dependerá de la medida en que los datos
empíricos recogidos apoyen lo afirmado en la hipótesis. A esto se le conoce como
contrastación empírica de la hipótesis o bien proceso de validación de la hipótesis.
Se puede usar de dos modos: mediante confirmación para la hipótesis universal o mediante
verificación para la hipótesis existencial. Son proposiciones provisionales y explicatorias y
por lo tanto su valor de veracidad o falsedad depende críticamente de las pruebas
empíricas, en este sentido la replicabilidad de los resultados es fundamental para confirmar
una hipótesis como solución de un problema.
Es el primer método en desarrollarse, motivo por lo cual buena parte de la terminología de
las pruebas de hipótesis se derivan de él, este método ha cobrado popularidad a causa de
ser el más fácilmente aplicable a software de computo.
¿CUALES SON LOS TIPOS DE HIPOTESIS Y EN QUE CONSISTEN?
HIPOTESIS ESTADISTICA
Hipótesis estadística a una afirmación respecto a una característica de una población, contrastar
una hipótesis es comparar las predicciones que se deducen de ella con la realidad que
observamos; si hay coincidencia dentro del margen de error admisible, mantendremos la hipótesis
implica sustituirla por otra capaz de explicar los datos observados.
Afirmaciones son hipótesis estadísticas:
El tabaco produce cáncer de pulmón.
Disminuir los impuestos disminuye el fraude fiscal.
Las mujeres son más apasionadas que los hombres.
Conjunto de elementos de una o varias poblaciones.
Vemos que el contraste de hipótesis requiere como pasos previos:
Especificar la población de interés.
Definir la variable a que nos referimos y como medirla.
Relacionar la hipótesis con los parámetros de la o las poblaciones.
TIPOS DE HIPOTESIS
Las hipótesis estadísticas más habituales pueden clasificarse en dos grupos, según que:
Especifiquen un valor concreto o un intervalo para un parámetro de la distribución de una
variable.
Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o
más poblaciones.
El contraste de una hipótesis respecto a un parámetro está muy relacionado con la
construcción de intervalos de confianza y tiene frecuentemente una respuesta satisfactoria
en términos de estimación.
La comparación de dos o más poblaciones requiere en general un diseño experimental que
asegure la homogeneidad de las comparaciones.
Se hace una breve explicación de los fundamentos del contraste de hipótesis y se exponen los
elementos que deben ser considerados para seleccionar la prueba estadística adecuada a los
datos, acompañando la lectura de ejercicios que deberían ser resueltos y discutidos con el
facilitador para asegurar el aprendizaje deseado.
EJEMPLO DE HIPOTESIS SIMPLE
Se refiere a un solo valor del parámetro, es decir a un solo punto del espacio paramétrico,
quedando totalmente especificada la forma de la función de cuantía o de densidad de la población
al conocer ese valor del parámetro. Si la hipótesis no se refiere a un punto del espacio paramétrico
o valor del parámetro, sino que se refiere a una región del espacio paramétrico, diremos que se
trata de una hipótesis compuesta. La aplicación de los cálculos probabilísticos permite determinar
a partir de que valores debemos rechazar una hipótesis garantizando que la probabilidad de
cometer un error es un valor conocido a priori.
Llamaremos hipótesis simple a aquellas que especifican un único valor para el parámetro por
ejemplo: m=m0.
Las hipótesis pueden clasificarse en dos grupos
a)
Especifican un valor concreto o un intervalo para los parámetros del modelo
Ejemplo: La hipótesis de que la media de que una variable es 10.
b) Determina el tipo de distribución de probabilidades que ha generado los datos.
Ejemplo: Que la distribución de probabilidad es la distribución normal, aunque la metodología para
realizar el contrasté de hipótesis es análoga en ambos casos.
Distinguir ambos tipos de hipótesis es importante puesto que muchos problemas de contraste
de hipótesis respecto a un parámetro son en realidad problemas de estimación que tienen una
respuesta complementaria dando un intervalo de confianza para dicho parámetro, sin embargo la
hipótesis respecto a la forma de la distribución se suele utilizar para validar un modelo estadístico.
Planteamiento el contraste de hipótesis v Hipótesis nula (Ho): Es la hipótesis que se desea
contrastar o la suposición que se desea comprobar. El nombre de hipótesis nula indica que Ho
representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad y puede
entenderse por tanto en el sentido de neutra. La hipótesis Ho nunca se considera probada aunque
si puede ser rechazada por los datos. El enfoque actual considera también la definición de una
hipótesis alternativa a la hipótesis nula, la cual se denota H1, en los casos en los que no se
específica H1 en forma explícita se puede considerar que queda definida como implícitamente
como Ho es falsa, sin embargo existen casos en los que H1 no es la simple negación de Ho
cabria realizar otra hipótesis.
Suponiendo que se tiene una muestra X=(X1, X2,…Xn)2 de una población de estudio y que se
han formulado hipótesis, sobre un parámetro θ relacionado con la distribución estadística de la
población y suponiendo que se dispone de un estadístico t(x) cuya función con respecto a θ Fθ (t)
se conoce la hipótesis nula y alternativa, tienen la siguiente formulación:
a)
Para hipótesis simple:
a)
Para hipótesis compuesta:
Un contraste, prueba o test para dichas hipótesis sería una función de la muestra de la siguiente
forma:
Donde θ(x) = 1 significa que debe rechazarse la hipótesis nula H0 y θ(x) = 0 significa que
debe aceptarse la hipótesis nula H0 o que no hay evidencia estadística contra H0.
A omega se le denomina región de rechazo en esencia para construir al test deseado,
basta con escoger el estadístico del contraste t(x) y la región de rechazo, escogiendo un
área de rechazo de tal forma que la probabilidad de que t(x) caiga en su anterior sea baja
cuando se da H0.
EJEMPLO DE HIPOTESIS COMPUESTA
A las que especifiquen un intervalo de valores por ejemplo: m=m0; a m 2
una revisión de la controversia original. Criterios de decisión y nivel de significación.
una mejor aproximación al problema de la alteración en la tasa de statdrolona.
Se toma una muestra de cada grupo poblacional y a cada uno se le calculan las medidas de
resumen que se desean comparar. Si la hipótesis de investigación plantea que los grupos difieren
en cuanto a la variable estudiada, la hipótesis nula expresara que no existe diferencia significativa
entre los grupos resumidos bien sea por promedios, porcentajes, etc…
Muchas de estas pruebas se basan en el supuesto de que la población estudiada tiene una
distribución normal y por lo tanto, las propiedades de la curva normal son aplicables.
DEFINE ERROR DE TIPO I Y ERROR DE TIPO II
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.
Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en la mayoría
de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I.
Se denomina nivel de significación de un contraste a la probabilidad de cometer un error tipo I, se
denota por y, por tanto,
Fijar el nivel de significación equivale a decidir de antemano la probabilidad máxima que se está
dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige
el experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se
toma = 0'05, 0'01 o0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el conjunto de posibles
valores del estadístico de contraste:
La región de Rechazo, con probabilidad, bajo H0.
La región de Aceptación, con probabilidad 1 - , bajo H0.
Si el estadístico de contraste toma un valor perteneciente a la región de aceptación, entonces no
existen evidencias suficientes para rechazar la hipótesis nula con un nivel de significación y el
contraste se dice que estadísticamente no es significativo. Si, por el contrario, el estadístico cae en
la región de rechazo entonces se asume que los datos no son compatibles con la hipótesis nula y
se rechaza a un nivel de significación. En este supuesto se dice que el contraste es
estadísticamente significativo.
Por tanto, resolver un contraste estadístico es calcular la región de aceptación y la región de
rechazo y actuar según la siguiente regla de decisión:
Se obtiene la muestra = y se calcula el estadístico del contraste.
(1.8)
Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya región de rechazo
está formada por una cola de la distribución del estadístico de contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya región de rechazo
está formada por las dos colas de la distribución del estadístico de contraste, bajo H0.
Test de hipótesis estadística.
“La distribución del tamaño en Kb de los ficheros que resultan al digitalizar imágenes con un
determinado programa puede suponerse normal. El programa ha sido mejorado en su última
versión (versión B) hasta el punto de que quienes lo comercializan garantizan una disminución en
el tamaño medio de los ficheros resultantes superior a 6 Kb con respecto a la versión anterior
(versión A).
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error
de tipo I.
Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un
error de tipo II.
En ambos casos, se ha producido un juicio erróneo.
Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben diseñarse de
modo que minimicen los errores de la decisión; y no es una cuestión sencilla, porque para
cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de
un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y
debe alcanzarse un compromiso que disminuya el error más grave.
La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre
es posible.
EN QUE CONSISTE EL INTERVALO CONFIDENCIAL Y CUAL SU RELACION CON REGION
CRITICA
Se llama intervalo de confianza en estadística a un par de números entre los cuales se estima que
estará cierto valor desconocido con una determinada probabilidad de acierto. Estos números
determinan un intervalo que se calcula a partir de datos de una muestra y el valor desconocido es
un parámetro poblacional, la probabilidad del éxito en la estimación se representa por 1-a y se
denomina nivel de confianza, en estas circunstancias a es llamado error aleatorio o nivel de
significación esto es una medida de las posibilidades de fallar en la estimación mediante tal
intervalo.
Los contrastes de hipótesis están muy relacionados con la teoría de los intervalos de confianza.
En muchos casos se puede resolver la misma cuestión aplicada formulándola por cualquiera de
las dos vías. Por ejemplo, el contraste:
H0: θ = θ0
contra H1: θ ≠ θ0
Puede resolverse planteando el intervalo de confianza para θ, con coeficiente de confianza 1 − α.
Supongamos que el intervalo obtenido es [a; b]. Entonces, si:
Este contraste tendrá como nivel de significación α. Es posible proporcionar incluso el p-valor si se
ajusta la anchura del intervalo para que sea lo más ancho posible y al mismo tiempo excluya θ0.
Inversamente, es posible utilizar la región crítica de un contraste para proporcionar una estimación
por intervalo del parámetro. Los contrastes bilaterales corresponden a intervalos también
bilaterales centrados, mientras que los contrastes unilaterales derechos corresponden a
estimaciones unilaterales por exceso y los unilaterales izquierdos, a estimaciones por defecto.
Relación entre el intervalo y el contraste, relación con el intervalo de confianza para la media
(sigma conocida).
En estadística, se llama intervalo de confianza a un par o varios pares de números entre los
cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto.
Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una
muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la
estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α
es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de
fallar en la estimación mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo
más amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que para un
intervalo más pequeño, que ofrece una estimación más precisa, aumenta su probabilidad de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución
teórica que sigue el parámetro a estimar, θ.2 Es habitual que el parámetro presente una
distribución normal. También pueden construirse intervalos de confianza con la desigualdad de
Chebyshev.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro
poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo
[θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.
En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un grano de
valores calculado en muestra en el cual se encuentra el verdadero valor del parámetro, con una
probabilidad determinada.
Para construir un intervalo de confianza se puede comprobar que la distribución normal estándar
cumple 1 P (-1.96 z 1.96) = 0.95. Luego si una variable X tiene distribución N, entonces el 95% de
las veces se cumple.
DEFINE INTERVALO CONFIDENCIAL Y SU RELACION CON EL COEFICIENTE
CONFIDENCIAL
Las medias o desviaciones estándar calculadas de una muestra se denominan estadísticos,
podrían ser consideradas como un punto estimado de la media y desviación estándar real de la
población o de los parámetros.
De una población de media {\displaystyle \mu} \mu y desviación típica {\displaystyle \sigma} \sigma
se pueden tomar muestras de {\displaystyle n} n elementos. Cada una de estas muestras tiene a
su vez una media. Se puede demostrar que la media de todas las medias muéstrales coincide con
la media poblacional: {\displaystyle \mu _{\bar {x}}=\mu } {\displaystyle \mu _{\bar {x}}=\mu }
Pero además, si el tamaño de las muestras es lo suficientemente grande, o la distribución
poblacional es normal, la distribución de medias muéstrales es, prácticamente, una distribución
normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión:
{\displaystyle \sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}} {\displaystyle \sigma _{\bar {x}}={\frac
{\sigma }{\sqrt {n}}}}. Esto se representa como sigue: {\displaystyle {\bar {X}}\sim N(\mu ,{\frac
{\sigma }{\sqrt {n}}})} {\displaystyle {\bar {X}}\sim N(\mu ,{\frac {\sigma }{\sqrt {n}}})}. Si
estandarizamos, se sigue que: {\displaystyle {\frac {{\bar {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}=Z\sim
N(0,1)} {\displaystyle {\frac {{\bar {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}=Z\sim N(0,1)}
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un
determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z
≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una
distribución normal).
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se
encontrará la media poblacional si solo se conoce una media muestral ( {\displaystyle {\bar {x}}}
\bar{x}), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y
del 99 por ciento. A este valor se le llamará {\displaystyle 1-\alpha } {\displaystyle 1-\alpha }
(debido a que {\displaystyle \alpha } \alpha es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto {\displaystyle X_{\alpha /2}} {\displaystyle X_{\alpha /2}} —o,
mejor dicho, su versión estandarizada {\displaystyle Z_{\alpha /2}} {\displaystyle Z_{\alpha /2}} o
valor crítico— junto con su "opuesto en la distribución" {\displaystyle X_{-\alpha /2}} {\displaystyle
X_{-\alpha /2}}. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la
siguiente imagen:
ConfIntervNormalP.png
Dicho punto es el número tal que:
{\displaystyle \mathbb {P} [{\bar {x}}\geq X_{\alpha /2}]=\mathbb {P} [z\geq z_{\alpha /2}]=\alpha /2}
Y en la versión estandarizada se cumple que:
Así:
{\displaystyle \mathbb {P} \left[{\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar
{x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\right]=1-\alpha } {\displaystyle \mathbb {P} \left[{\bar {x}}z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt
{n}}}\right]=1-\alpha }
De lo cual se obtendrá el intervalo de confianza:
{\displaystyle ({\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}},{\bar {x}}+z_{\alpha /2}{\frac {\sigma
}{\sqrt {n}}})} {\displaystyle ({\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}},{\bar {x}}+z_{\alpha
/2}{\frac {\sigma }{\sqrt {n}}})}
Obsérvese que el intervalo de confianza viene dado por la media muestral {\displaystyle ({\bar
{x}})} {\displaystyle ({\bar {x}})} ± el producto del valor crítico {\displaystyle Z_{\alpha /2}}
{\displaystyle Z_{\alpha /2}} por el error estándar {\displaystyle ({\frac {\sigma }{\sqrt {n}}})}
{\displaystyle ({\frac {\sigma }{\sqrt {n}}})}.
Si no se conoce y n es grande (habitualmente se toma n ≥ 30):5
Aproximaciones para el valor {\displaystyle z_{\alpha /2}} {\displaystyle z_{\alpha /2}} para los
niveles de confianza estándar son 1,96 para {\displaystyle 1-\alpha =95\%} {\displaystyle 1-\alpha
=95\%} y 2,576 para {\displaystyle 1-\alpha =99\%} {\displaystyle 1-\alpha =99\%}.6
Ejemplo ilustrativo
Solución:
Realizando un gráfico ilustrativo en Winstats y Paint se obtiene:
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por
simetría se encuentra el otro valor Z = 1,96
Remplazando valores y realizando lo cálculos se obtiene:
Los cálculos en Excel se muestran en la siguiente figura:
Interpretación: Existe un 95% de confianza de que la media poblacional se encuentre entre 23,02
y 24,98
REFERENCIAS BIBLIOGRAFICAS
Ed. Alambra Universidad
Ed. McGraw-Hill
Ed. Addison-Wesley
Autor: Hildebrand
Autor: V. Quesada
Fisher, R. A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh
Freund, J. E. (1962). Mathematical Statistics. Prentice Hall, Englewood Cliffs, NJ.
Hacking, I. (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge.
Keeping, E. S. (1962). Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ.