Download Notas de clase Estadística R. Urbán R. Notas preliminares 1

Document related concepts
no text concepts found
Transcript
Notas de clase Estadística
R. Urbán R.
Inferencia estadística
Sabemos que una población puede ser caracterizada por los valores de algunos parámetros
poblacionales, por ello es lógico que en muchos problemas estadísticos se centre la atención sobre
esos parámetros poblacionales. En muchos casos no será posible determinar el valor de un
parámetro poblacional analizando todos los valores poblacionales, pues el proceso a seguir para
determinar el valor del parámetro puede ser destructivo, por ejemplo para medir la duración de
un foco, o nos puede costar mucho tiempo o mucho dinero el analizar cada unidad poblacional. En
estas situaciones la única salida que tenemos es utilizar, la inferencia estadística para obtener
información sobre los valores de los parámetros poblacionales, basándonos en la información
contenida en una muestra aleatoria.
El objetivo de la inferencia estadística es hacer inferencias o sacar conclusiones sobre la población
a partir de la información contenida en una muestra. Puesto que las poblaciones se caracterizan
por medidas descriptivas numéricas llamadas parámetros, la inferencia estadística consiste en el
proceso de selección y utilización de un estadístico muestral, mediante el cual, utilizando la
información que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre
características poblacionales.
Parámetros poblacionales importantes son la media, la desviación estándar, el área bajo la
distribución de probabilidad a partir de un valor de la variable aleatoria, o el área entre dos valores
Quizá la contribución más importante de las contribuciones a la preparación para el estudio de la
inferencia estadística ha sido el teorema del límite central. Este teorema justifica la normalidad
aproximada de la distribución de probabilidad de la media muestral cuando el tamaño de la
muestra es grande 1.
Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en un
estadístico muestral, es decir, en la información proporcionada por la muestra. La elección del
estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor
verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal
estadístico se denomina estimador.
Las inferencias sobre el valor de un parámetro poblacional O se pueden obtener básicamente de
dos maneras: a partir de estimación o bien a partir de la contrastación de hipótesis.
En la estimación, basta seleccionar un estadístico muestral cuyo valor se utilizará como estimador
del valor del parámetro poblacional.
En la contrastación de hipótesis, se hace una hipótesis sobre el valor del parámetro y se utiliza la
información proporcionada por la muestra para decidir si la hipótesis se acepta o no. Por ejemplo,
supongamos que estamos interesados en el parámetro proporción poblacional, es decir la
proporción de personas que no piensan votar en las próximas Elecciones Generales. Hacemos una
1
Los estadísticos utilizan la distribución normal como una aproximación a la distribución de muestreo
siempre que el tamaño de la muestra sea al menos de 30
Notas preliminares
1
Notas de clase Estadística
R. Urbán R.
hipótesis previa que podría ser: que el valor de la proporción poblacional p será 0,40 o mayor, p >
0,40. Se toma una muestra aleatoria de votantes de la población total, y la proporción muestral de
aquellos electores que no piensan votar se utilizan para decidir si la hipótesis formulada era
razonable o no.
Ambos métodos de inferencia estadística utilizan las mismas relaciones teóricas entre resultados
muestrales y valores poblacionales. Así pues, una muestra es sacada de la población y un
estadístico muestral es utilizado para hacer inferencias sobre el parámetro poblacional. En
estimación, la información muestral es utilizada para estimar el valor del parámetro. En el
contraste de hipótesis, primero se formula la hipótesis sobre el valor del parámetro y la
información muestral se utiliza para decidir si la hipótesis formulada debería ser o no rechazada.
No sería adecuado hablar de los objetivos y de los tipos de inferencia estadística sin establecer una
medida de su bondad. Para ello será necesario contar con una medida para poder comparar la
bondad de un estimador con la de otro. En el contraste de hipótesis la bondad de la inferencia se
mide por la probabilidad de que la decisión de rechazar o no rechazar el valor dado en la hipótesis
sobre parámetro poblacional sean correctos.
Cuál de los métodos de inferencia debe usarse, es decir, ¿se requiere estimar el parámetro? O
¿debe probarse una hipótesis acerca de su valor? La respuesta esta determinada por la situación
práctica a considerar y en ocasiones es cuestión de preferencia personal.
Tipos de estimadores.
Los procedimientos de estimación estadística se dividen en dos grandes grupos: la estimación
puntual y la estimación por intervalos.
La estimación puntual consiste en obtener un único número, calculado a partir de las
observaciones muestrales, y que es utilizado como estimación del valor del parámetro. Se le llama
estimación puntual porque a ese número, que se utiliza como estimación del parámetro, se le
puede asignar un punto sobre la recta real.
El procedimiento de estimación puntual utiliza la información en una muestra y la sintetiza en un
número, generalmente se expresa por medio de una formula; por ejemplo, la media muestral
∑𝑛𝑖=1 𝑦𝑖
𝑦=
𝑛
Es un estimador de la media de la población µ.
En la estimación por intervalo (o intervalo de confianza), se obtienen dos puntos (un extremo
inferior y un extremo superior) que definen un intervalo, el cual contendrá con cierta seguridad el
valor del parámetro. El número superior del intervalo se denomina límite superior de confianza
(LSC), y el menor se denomina Límite inferior de confianza (LIC).
Ambos tipos de estimadores se utilizan en el análisis de encuestas; sin embargo, es más común
utilizar los estimadores de punto. Por otro lado, en la experimentación industrial se utiliza
frecuentemente la estimación por intervalo.
Notas preliminares
2
Notas de clase Estadística
R. Urbán R.
Por ejemplo, si el parámetro poblacional es la vida útil de un foco, basándonos en la información
de una muestra podríamos obtener una estimación puntual de la media de duración µ, por
ejemplo de µ=600 horas, sin embargo, el intervalo de estimación para el parámetro µ se
presentaría como 600± 30, es decir, de 570 a 630 horas, con un cierto margen de seguridad.
Estimador y estimación.
Utilizaremos el término estimador cuando nos referimos a la función de las variables aleatorias
muestrales 𝒀𝟏 , 𝒀𝟐 , 𝒀𝟑 , … , 𝒀𝒏 y los valores que toma la función estimador para las diferentes
realizaciones o muestras concretas serán las estimaciones. El estimador es un estadístico y, por
tanto, una variable aleatoria y el valor de esta variable aleatoria para una muestra concreta
(𝒚𝟏 , 𝒚𝟐 , 𝒚𝟑 , . . . , 𝒚𝒏 ) será la estimación puntual.
Para clarificar la diferencia entre estimador y estimación consideremos el siguiente ejemplo:
supongamos que pretendemos estimar la renta media µ de todas las familias de una ciudad, para
ello parece lógico utilizar como estimador de la media poblacional µ la media muestral 𝒀 siendo
necesario seleccionar una muestra aleatoria que supondremos de tamaño n = 80, a partir de la
cual obtendríamos la renta media de la muestra, por ejemplo, 𝑌 = 3,200 pesos. Entonces el
estimador de la media poblacional µ será 𝜇̂ = 𝑌; es decir, el estadístico media muestral 𝑌 y la
estimación puntual será 𝜇̂ = 𝑌 = 3200 pesos. Observemos que designamos por 𝑌 la variable
aleatoria media muestral de las variables aleatorias muestrales 𝑌1 , 𝑌2 , 𝑌3 , … , 𝑌𝑛 y por 𝑦 designamos
una realización para una muestra específica (𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ), que nos da la correspondiente
estimación puntual del parámetro µ es decir, 𝜇̂ = 𝑦.
Bondad de un estimador.
Supongamos que nos interesa medir el comportamiento del consumidor en una determinada
comunidad, interrogamos a una muestra de personas y obtenemos que el 20% de los
entrevistados adquieran un cierto producto preferentemente. Estaría usted satisfecho con esta
afirmación. En otras palabras, ¿qué tanta fe tendría usted en esta estimación? ¿Cuál es la precisión
de este estimador de la media µ?
Desafortunadamente la respuesta es no. No podemos evaluar un procedimiento de estimación
con base en una sola estimación. Deben observarse los resultados de usar el procedimiento de
estimación repetidas veces al estimar el mismo parámetro de la población. Como los estimadores
son números, se construirá la distribución de frecuencias de las estimaciones obtenidas al tomar
repetidamente muestras y calcular el valor del estimador.
Supongamos que tomamos una muestra de los gastos diarios de 4 estudiantes que son $100,
$200, $300 y $400. El gasto promedio es de µ= $250. Para fines prácticos suponemos una
población pequeña de 4 estudiantes, bien podríamos suponer un número mayor y entonces se
complicarían los cálculos. Con fines ilustrativos vamos a suponer que calcular la media de 4
observaciones es complicado. Para esto vamos a seleccionar muestras de 2 observaciones para
Notas preliminares
3
Notas de clase Estadística
R. Urbán R.
estimar y comparar la media de los gastos. Se podrían entonces seleccionar aleatoriamente
C24 = 62. Estas seis muestras distintas se muestran en la tabla.
Muestra
Elementos
muestrales xi
100, 200
Media muestral x
100, 300
100, 400
200
250
4
200, 300
250
5
200, 400
300
6
300, 400
350
1
2
3
150
Cuatro de las seis muestras resultarán con algún error en el proceso de selección.
Podemos enumerar cada media muestral posible junto con su respectiva probabilidad. A la
distribución de probabilidad de un estimador se le denomina distribución muestral del estimador.
Media muestral x
150
Muestras con el mismo
promedio
1
200
250
1
2
300
1
350
1
Probabilidad de
P(x) xi
1⁄6
1⁄6
2⁄6
1⁄6
1⁄6
Las propiedades de un estimador puntual se encuentran en su distribución de probabilidad y
cuales son las propiedades más deseables.
2
Nótese que si tenemos una población de 500 estudiantes y tomamos muestras por ejemplo de 20
500!
500
=
= 2.6672𝑥1035 muestras diferentes.
tendríamos 𝐶20
480!20!
Notas preliminares
4
Notas de clase Estadística
R. Urbán R.
1) Que la distribución de las estimaciones se centre alrededor del parámetro de interés. En
nuestro ejemplo, estamos interesados en la estimación de la media µ, se desearía que la
distribución muestral del estimador estuviera centrada en µ. En nuestro ejercicio las
muestras 3 y 4 son iguales a la media del parámetro. Llamamos estimador insesgado
cuando la media muestral es igual al parámetro, en caso contrario se dice que el
estimador es sesgado.
2) La desviación estándar de la distribución muestral sea pequeña. Para la mayoría de los
estimadores la desviación estándar de la distribución muestral es controlable, es posible
hacerla tan pequeña como se desee al aumentar el tamaño de la muestra.
Cuatro de las seis muestras son diferentes al parámetro, es decir, resultan con algún error en el
proceso de estimación. Este error de estimación es la diferencia entre el parámetro poblacional y
el estadístico la muestra utilizado para estimar el parámetro. En nuestro ejercicio es la diferencia
entre µ y la media muestral que se utiliza para estimarlo (x − µ).
De hecho el error de estimación debe ser menor que dos desviaciones estándar de la distribución
muestral, con una probabilidad del 75%, por el teorema de Tchebysheff, y en una gran cantidad de
casos por la regla empírica, probabilidad de .95.
Estimación puntual de la media de una población.
Algunos problemas de decisión requieren estimar la media de la población. Se disponen de varios
estimadores para estimar este parámetro.
a) La mediana muestral.
b) Promedio entre la máxima y la mínima observación en la muestra y,
c) La media muestral.
Cada uno tiene asociada una distribución muestral generada por muestreo
particular la mediana muestral y el promedio de las observaciones extremas
calcular; sin embargo, la media muestral es mejor debido a que para algunas
desviación estándar de su distribución muestral es mínima y siempre
independientemente de la población.
repetitivo. En
son fáciles de
poblaciones la
es insesgada
Para el ejercicio anterior la media de las medias se calcula de la manera usual.
y� =
150 + 200 + 250 + 250 + 300 + 350
= 250
6
Debemos notar que esta media muestral es igual al parámetro µ = 250.
De la misma manera, la varianza de la distribución de las medias muestrales es,
σ2y =
∑(X − y� )2 ∑(X − µ)2
=
k
k
Donde K es el número de medias muestrales. Para las seis medias muestrales anteriores,
σ2y� =
(150 − 250)2 + (200 − 250)2 + (250 − 250)2 + (250 − 250)2 + (300 − 250)2 + (350 − 250)2
= 4,167
6
Notas preliminares
5
Notas de clase Estadística
R. Urbán R.
σy� = �σ2y = √4167 = 64.55 que es
La desviación estándar de la distribución muestral es,
pequeña.
En el caso de que no podamos encontrar la desviación estándar de esta forma, podremos utilizar
una aproximación cercana,
σ2y =
σ2
n
y
σy =
σ
√n
Esto es posible si la varianza poblacional σ2 es conocida. Esta forma de cálculo es apropiada si el
muestreo se realiza con remplazo, o si la muestra se toma de una población muy grande. Si el
muestreo se realiza sin remplazo y el tamaño de la muestra es más del 5% de la población debe
aplicarse el factor de corrección para poblaciones finitas y la formula para el error estándar es
entonces,
σy =
σ
N−n
�
√n N − 1
Si n es pequeño, menor al 5%, respecto a N, el fpc se aproxima a 1 y por tanto es innecesario su
cálculo.
Finalmente la cota de error para dos desviaciones estándar, como se explico anteriormente.
cota de error =
2σ
√n
Supongamos, en nuestro ejercicio, que deseamos obtener el gasto promedio diario de los
estudiantes; si durante 30 días se obtiene una media de y = 117.5 pesos y una desviación
estándar de s = 21 pesos.
La cota del error de estimación es σy =
σ
√n
=
2σ
,
√30
el valor de σ puede ser aproximado por s, el
estimador de σ. La cota del error de estimación es entonces.
2s
√n
=
2(21)
√30
=
42
= 7.67
5.477
Se puede confiar en que la estimación de 117.5 pesos se encuentra a menos de 7.67 pesos del
verdadero gasto promedio diario
Estimador por intervalo
Este tipo de estimador especifica el rango dentro del cual está el parámetro desconocido. La
probabilidad de que un intervalo contenga el parámetro que se estima se denomina coeficiente
de confianza.
Notas preliminares
6
Notas de clase Estadística
R. Urbán R.
Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de
confianza (LSC). Estos límites se obtienen al calcular primero la media muestral y y después se
suma 2σy para obtener el LSC, y la misma cantidad para obtener el LIC.
Ya mencionamos antes la razón de utilizar 2σy. La regla empírica nos dice que el 95.5% de todas
las medias muestrales caen a 2 desviaciones estándar de la media poblacional. Entonces la media
poblacional esta a lo mas a dos desviaciones estándar del 95.5% de todas las medias muestrales.
El intervalo de confianza establecido anteriormente es llamado intervalo de confianza de
muestras grandes, puesto que se requiere que el tamaño de muestra sea suficientemente grande,
n ≥ 30, por el teorema del límite central ya que nos garantiza la distribución aproximadamente
normal de y. Como que comúnmente se desconoce el valor de la desviación estándar σ, es
necesario utilizar la desviación estándar de la muestra s para estimar σ.
Si se desea construir un intervalo diferente al 95.5%, por ejemplo para el 95%, se debe dividir este
valor entre 2 como se muestra en la gráfica siguiente.
Los valores de z al 95% dividido entre 2 para repartir el porcentaje alrededor de la media es de
0.4750. Si buscamos en tablas este valor obtenemos una 𝑧 = 1.96. Así, para establecer un
intervalo de confianza del 95%, simplemente se especifica un intervalo de 1.96 errores estándar
por encima y por debajo de la media.
En resumen, el coeficiente de confianza de .95 corresponde a ∓2𝜎y, o mas preciso a ∓1.96𝜎y .
Ahora, si se recuerda que .90 de las observaciones en una distribución normal se encuentran
dentro de z=1.654 desviaciones estándar de la media, el intervalo de confianza al 90% será,
LIC = y − 1.645𝜎y = y − 1.645
LSC = y + 1.645𝜎y = y + 1.645
Notas preliminares
𝜎
√n
𝜎
√n
7
Notas de clase Estadística
R. Urbán R.
En general, para construir intervalos de confianza para cualquier coeficiente (1 − 𝛼) utilizamos la
siguiente formula,
Intervalo de confianza del (1 − 𝛼)100% para µ
basado en una muestra grande
y ∓ z𝛼⁄2
𝜎
√n
Los límites de confianza que se utilizan más frecuentemente son los siguientes,
Límites de confianza para µ
(1 − 𝛼)
.90
𝛼
.10
1.645
.95
.05
1.96
.99
.01
2.58
LIC
z𝛼⁄2
LSC
y − 1.645
y − 1.96
y − 2.58
𝜎
√n
𝜎
√n
𝜎
√n
y + 1.645
𝑦 + 1.96
y + 2.58
𝜎
√n
𝜎
√𝑛
𝜎
√n
Para encontrar los valores en tablas de z𝛼⁄2 procedemos como sigue. Por ejemplo para el 90% del
área indica que en las colas tendremos el 10%, es decir 5% en cada cola (0.05), restamos uno y
buscamos el resultado en tablas 1 − 0.05 = 0.95. Este valor en tablas nos da 1.645 para cada lado
de la gráfica.
Continuando con nuestro ejercicio anterior, recordemos que el gasto promedio diario de los
estudiantes por 30 días con una media de y = 117.5 pesos y una desviación estándar de
s = 21 pesos. Un intervalo de confianza al 90% para la media de la población. Utilizaremos 𝑠 para
estimar 𝜎
y ∓ 1.645
𝜎
√n
= 117.5 ∓ (1.645)
21
√30
= 117.5 ∓ 3.83
El gasto promedio diario µ cae en el intervalo de 113.67 a 121.33. el 90% de confianza implica que
en muestreo sucesivo si se determinan los intervalos de confianza para cada muestra, 90% de los
intervalos contendrán a µ.
Ejemplo.
Para determinar el rendimiento anual de ciertos valores, un grupo de inversionistas tomó una
muestra de n = 50 de esta clase de valores. La media y desviación estándar resultaron y = 8.71%
y s = 2.1%. Estime el verdadero rendimiento anual promedio para esta clase de valores usando
un intervalo de confianza del 90%.
y ∓ 1.645
𝜎
√n
= 8.71 ∓ (1.645)
2.1
√50
= 8.71 ∓ 0.4885
El rendimiento promedio anual se encuentra en el intervalo de 8.2214 a 9.1985.
Notas preliminares
8
Notas de clase Estadística
R. Urbán R.
Bibliografía
Mendenhall William, Reinmuth James. ESTADISTICA PARA ADMINISTRACIÓN Y ECONOMIA. Grupo
editoria Iberoamerica 1978. México
Webster Allen L. ESTADISTICA APLICADA A LOS NEGOCIOS Y LA ECONOMIA, tercera edición
McGraw-Hill 2000. México
Notas preliminares
9