Download estimación

Document related concepts

Muestra estadística wikipedia , lookup

Estimador wikipedia , lookup

Error estándar wikipedia , lookup

Estimación estadística wikipedia , lookup

Intervalo de confianza wikipedia , lookup

Transcript
La inferencia estadística comprende el establecer ciertos juicios con respecto a algo después de
examinar solamente una parte o muestra de ello. Así, se ofrece una muestra gratis de un nuevo producto
alimenticio en un supermercado; se prueba un pedazo de pastel para saber si ya está frío; y un cocinero
prueba la sopa para ver si necesita un poco más de sazón. En forma semejante, cuando se hojea un nuevo
libro o revista, se mide un traje, sale con una persona por primera vez o ve un programa de televisión
durante unos cuantos minutos antes de decidirse a cambiar de canal, en realidad está muestreando.
El muestreo estadístico es semejante a cada uno de los ejemplos anteriores, aunque sus métodos
son más formales y precisos, generalmente incluyen una proporción de probabilidad. La probabilidad y el
muestreo están estrechamente relacionados, y juntos constituyen la base de la teoría de la inferencia.
En este tema se examinan los conceptos básicos que comprenden el muestreo. Se exploran las
razones para el muestreo y planes de muestreo alternativos. Se concede particular atención al muestreo
aleatorio, debido a su importancia en el análisis.
Estadístico
En estadístico es una medida usada para describir alguna característica de una muestra, tal como
una media aritmética, una mediana o una desviación estándar de una muestra 


Parámetro
Un parámetro es una medida usada para describir, alguna característica de una población, tal
como una media aritmética, una mediana o una desviación estándar de una población 
Error estándar
La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente
llamado error estándar del estadístico. Por ejemplo, la desviación estándar de las medidas de todas las
muestras posibles del mismo tamaño, extraídas de una población, es llamada error estándar de la media.
De la misma manera, la desviación estándar de las proporciones de todas las muestras posibles del mismo
tamaño, extraídas de una población, es llamada el error estándar de la población. La diferencia entre los
términos ^desviación estándar^ y ^error estándar^ es que la primera se refiere a los valores originales,
mientras que la última está relacionada con valores calculados. Un estadístico es un valor calculado,
obtenido con los elementos incluidos en una muestra.
Error muestral o error de muestreo
La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado el cual
deberíamos haber obtenido de la población (el parámetro correspondiente) se llama el error muestral o
error de muestreo. Un error de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta
completa de la población, sino que se toma una muestra para estimar las características de la población. El
error muestral es medido por el error estándar del estadístico, en términos de probabilidad, bajo la curva
normal. El resultado de la medida indica la precisión de la estimación de la población basada en el estudio
de la muestra. Mientras más pequeño el error muestral, mayor es la precisión de la estimación. _
2
Una muestra debe ser representativa si va a ser usada para estimar las características de la
población. Los métodos para seleccionar una muestra representativa son numerosos, dependiendo del
tiempo, dinero y habilidad disponible para tomar una muestra y la naturaleza de los elementos
individuales de la población por lo tanto, se requiere un gran volumen para incluir todos los tipos de
métodos de muestreo.
Muestreo simple.
Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de
inferencia estadística. Puesto que solamente una muestra es tomada. El tamaño de la muestra debe ser lo
suficientemente grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado
dinero y tiempo.
Muestreo doble
Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es decisivo,
una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar
los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para
ahorrar costos y tiempo. Si la primera muestra arroja un resultado definitivo, la segunda muestra no puede
necesitarse.
Muestreo múltiple
El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el
número de muestras sucesivas requerido para llevar a una decisión es más de dos muestras
Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes: basados en el
juicio de una persona y selección aleatoria. Los métodos de muestras, clasificados de acuerdo con dos
maneras diferentes:
Muestreo de juicio
Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante
juicio personal. La persona que selecciona los elementos de la muestra, usualmente experto en la materia
dada. Una muestra de juicio es llamada una muestra no probabilística, puesto que este método está
basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser
empleada para medir el error de muestreo. Las principales ventajas de una muestra de juicio son la
facilidad de obtenerla y el costo es usualmente bajo.
Javier Alvarez Noyola
3
Muestreo aleatorio.
Una muestra se dice que es extraída al azar cuando la manera de selección, es tal que cada
elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también
llamada muestra probabilística. Puesto que cada elemento tiene una probabilidad conocida. Las muestras
probabilísticas son generalmente preferidas por los estadísticos porque la selección de la muestra es
objetiva y el error muestral puede ser medido en términos de la probabilidad bajo la curva normal.
Muestreo aleatorio simple Una muestra aleatoria simple es seleccionada de tal manera que cada
muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población.
Para tener una muestra aleatoria simple, cada elemento en la población
probabilidad de ser seleccionado.
debe tener igual
Muestreo sistemático Una muestra sistemática es obtenida cuando los elementos son
seleccionados en una manera ordenada. La manera de selección depende del número de elementos
incluidos en la población y el tamaño de la muestra. El número de elementos de la población es, primero,
dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo, o cada
centésimo elemento de la población va a ser seleccionado.
Primero el elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática
puede dar la misma precisión de estimación acerca de la población, que una muestra aleatoria simple
cuando los elementos en la población están ordenados al azar.
Muestreo estratificado Para obtener una muestra aleatoria estratificada, primero se divide la
población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los
elementos de la muestra son entonces seleccionados al azar o por un método sistemático de cada estrato.
Las estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión
(o menor error muestral) que si la población entera fuera muestreada mediante muestreo aleatorio simple.
Muestreo de conglomerados. Para obtener una muestra de conglomerados, primero dividir la
población en grupos que son convenientes para el muestreo. Enseguida, seleccionar una porción de los
grupos al azar o por un método sistemático, finalmente toma todos los elementos o parte de ellos al azar o
por un método sistemático de los grupos seleccionados para obtener una muestra. Bajo este método,
aunque no todos los grupos son muestreados, cada grupo tiene una probabilidad de ser seleccionado.
Una muestra de conglomerados, usualmente produce un mayor error muestral ( por lo tanto, da
menor precisión de las estimaciones acerca de la población).
..
Javier Alvarez Noyola
4
LA ESTIMACION es el proceso de utilizar datos muéstrales para estimar los valores de
parámetros desconocidos de una población. Esencialmente, cualquier característica de la población se
puede estimar a partir de una muestra al azar, entre los valores más comunes están la media y la
desviación estándar de una población y la proporción de la misma.
La estimación se emplea de innumerables maneras. Por ejemplo, los políticos generalmente
intentan estimar la proporción de los votantes que concuerdan con sus puntos de vista económicos o
sociales. Las fábricas a menudo deben calcular el porcentaje de productos defectuosos de un lote de
artículos o productos. Las características de desempeño de un producto se deben establecer tomando en
consideración aspectos tales como la resistencia promedio, el peso o el tiempo de vida. Las grandes
tiendas de departamentos deben predecir la demanda de diversos artículos. Así, la estimación comprende:
la valuación de inventarios, la estimación de costos de proyectos, la evaluación de nuevas fuentes
energéticas, la predicción del desempeño en el trabajo y la elaboración de estimaciones razonables de
tiempos de determinación de tareas asignadas.
Una estimación de un parámetro puede ser expresada de dos maneras: una estimación de punto y
una estimación de intervalo. Una estimación de punto es el número único que es usado para representar la
estimación del parámetro. Una estimación de intervalo es un recorrido establecido dentro del cual
podemos esperar que éste el parámetro.
Intervalos, límites y coeficientes de confianza.
Cuando una distribución en el muestreo de la media (o la proporción ) es normal, la probabilidad
de que las medias muéstrales (o proporciones) estén dentro de la máxima ordenada (Y o) y la ordenada en
Z, puede ser obtenida. La probabilidad de que las medidas muéstrales estén dentro de un recorrido.
de  + 1x a  -1x es 68.268 %, donde z = 1
El área bajo la curva normal entre Yo y z es = ± 1 es
0.34134 + 0.34134 = 0.68268 o 68.268%
Estimador insesgado.
Un estadístico que es usado para estimar un parámetro se llama un estimador, tal como una media
muestral cuando es usada para estimar la media de la población. Un estimador es insesgado cuando el
valor esperado del estadístico es igual al valor del parámetro. El valor esperado del estadístico ( o
expresado simbólicamente, E [del estadístico] =) es la distribución. Puesto que la media de la distribución
en el muestreo de la media (o la media de las medias de todas las muestras posibles del mismo tamaño
extraídas de la misma población, o el valor esperado de la media muestral) es igual a la media de la
población, una media muestral es un estimador insesgado o dicho de otra manera.
X es una estimación insesgada de , puesto que E(X) = 

De la misma manera, puesto que la media de la distribución en el muestreo de la proporción de
la población, una proporción muestral es un estimador insesgado, o
p es una estimación insesgada de P, puesto que E(p) = P
Sin embargo, la media de la distribución en el muestreo de la varianza (s²) no es igual a la
varianza de la población (²), o s² es una estimación insesgada de ² puesto que E (s²) = ².
El valor de la varianza s² o ², se calcula dividiendo la suma del cuadrado de las desviaciones con
respecto a la media x² por n (tamaño de la muestra) o por N (tamaño de la población); es decir,
Javier Alvarez Noyola
5
x
( X  X )2
s 

n
n
2
2
y

2
x
N
2
( x  ) 2

N
Por otra parte, si la suma del cuadrado de las divisiones con respecto a la media x² es dividida
por ( n - 1 ) para la muestra, denotada por s², o por ( N - 1 ) para la población, denotada por ², la media de
la distribución en el muestreo de la varianza modificada s² es igual a la varianza modificada de la
población ², o s² es una estimación insesgada de ², puesto que E(s²) = ²

( X  X )2
S2  x 
n 1
n 1
x
N 1
2
2
y
2
Javier Alvarez Noyola

( X  )2
N 1
6
El número de variables que pueden variar libremente en un conjunto de variables bajo ciertas
condiciones, es frecuentemente referido como el número de grados de libertad. supongamos que tenemos
un conjunto de 3 variables A, B, C, y la suma de las variables es 10, o:
A + B + C =
10
Si entonces un valor para A y un valor para B, tales como A = 1 y B = 3, entonces el valor de la
tercera variable es automáticamente determinado, puesto que:
1 + 3 + C = 10 ,
C = 10 - 4 = 6
Por lo tanto el número de la variable que puede variar libremente en el conjunto es 2. Decimos
entonces que hay 2 ( o 3 - 1) grados de libertad cuando la suma de las tres variables. Similarmente, si
tenemos n variables y la suma de las variables es u valor fijo ( o una constante ), decimos que el número
de grados de libertad es n - 1.
El término grados de libertad es frecuentemente usado en trabajo estadístico concerniente a la
influencia. Por ejemplo, al encontrar una varianza muestral insesgada, uno debe dividir la suma del
cuadrado de las desviaciones x² por el tamaño de la muestra menos 1, o (n - 1). La cantidad (n - 1) es
también referida como los grados de libertad.
Javier Alvarez Noyola
7
La desviación estándar es una distribución, en el muestreo de un estadístico, es frecuentemente
llamado el error estándar del estadístico. La diferencia entre los términos " desviación estándar "y "
error estándar ". La relación entre el tamaño de la muestra y el error estándar.


p
x



n
PQ
n
Suponga que el promedio mensual de ingreso de 10,000 trabajadores de la repartidora de refrescos
es de $500, la desviación estándar es de $100, ¿Cuál es la probabilidad de seleccionar una muestra
aleatoria simple de 400 trabajadores que tengan de $510 o más por mes?
Este ejercicio es un error estándar de la media de la población finita
N = 10,000
 = 500
 =
100
n = 400
x = 510
Supongamos que el 40 % de los 5,000 estudiantes de la Facultad de Comercio son mujeres.
¿Cuál es la probabilidad de seleccionar una muestra aleatoria simple de 150 estudiantes en la cuál el
número de mujeres sea 35% o menos ( - )
N
P
Q
n
Pº
= 5,000
= 40% = 0.4
= 60% = 0.6
= 150
=
35% = 0.35
Javier Alvarez Noyola
8
Una maquina para cubrir cerezas con chocolate se ajusta de manera que el espesor promedio del
recubrimiento sea de 3mm., el proceso esta normalmente distribuido con una desviación estándar de
1mm.. Si el proceso funciona como se espera (es decir con una media de 3mm y una desviación estándar
de 1mm.) ¿Cuál es la probabilidad de obtener una muestra de 25 cerezas cubiertas con chocolate de un
total de 160? encontrar un promedio muestral de más de 3.4mm.
Un proceso para llenar botellas de soda, presenta una producción en la que el 10% de las botellas
no están completamente llenas si mediante este proceso se selecciona al azar una muestra de 225 botellas
de un lote de 625 envases llenos, ¿Cuál es la probabilidad de que la proporción muestral de botellas
parcialmente llenas se encuentre en el intervalo que va de 9 al 11%?
Javier Alvarez Noyola
9
Es el proceso de utilizar datos muéstrales para estimar los valores de parámetros desconocidos de
una población:
TIPOS DE ESTIMADOS:
Estimado puntual.- Es el número único que es usado para estimar un parámetro desconocido de la
población.
Estimación de intervalo.- Estimación que incluye un intervalo de valores posibles en el que se
considera que esta comprendido un parámetro de la población.
El valor verdadero recibe el nombre de Intervalo
igual a 1 - P (error)
de confianza. y la confianza es
Un intervalo de confianza proporciona un intervalo de valores centrado en el valor estadístico de
la muestra, en el cual supuestamente se ubica el parámetro de la población, con un riego de error
conocido.
El intervalo de confianza presenta la forma x ± Z x
Estimación de la media de la población.
Estimación de un punto de : x
Estimación de intervalo de  : x ± Z  x

2

x
n
Encontrar un intervalo de confianza para x cuando se tiene x como dato:
tamaño de la muestra
n = 36
x = 3
x = 24.2
Confianza
deseada
90%
95%
99%
Z
1.65
1.96
2.58
fórmula
cálculos
e
intervalo
24.2 ± 0.825 23.375 a 25.025
23.2 ± 0.980 23.220 a 25.180
24.2 ± 1.290 23.110 a 25.690
Observe que n > 30 no tiene sentido la pregunta de si la población es ó no normal.
Javier Alvarez Noyola
10
Estimación de la media cuando no se conoce x : la distribución
Para utilizar la tabla de valores t se deben conocer dos cosas:
El nivel de confianza deseado
y
los grados de libertad
Los grados de libertad se conocen con la formula:
gx 
gx
n-1
( x  x )
n 1
= desviación estándar de la muestra
= grados de libertad
Valores de t para una confianza de 95% ( 0.025 en cada cola )
tamaño de la
muestra
n
8
13
23
28
grados de
libertad
n-1
valor t
7
12
22
27
El intervalo de confianza para una media muestral cuando se usa gx es muy semejante al
intervalo con x de este modo el intervalo es:
valor de la muestra

x t 
gx
n
gx desviación estándar de la muestra
n población o tamaño de la muestra
Intervalo de confianza utilizando valores t
Valor de la muestra 20
Desviación estándar de la media 1.5
tamaño de la muestra 25 (los grados de libertad son n - 1 = 24)
Confianza
deseada
90%
95%
99%
t
1.711
2.064
2.797
fórmula
cálculos
intervalo
20.0 ± 0.5133
20.0 ± 0.6192
20.0 ± 0.8391
Javier Alvarez Noyola
11
Cuando la población es finita y el tamaño de la muestra constituye más del 5% de la población se
debe usar el factor finito de corrección para modificar las desviaciones estándar de las formulas.
Intervalo de confianza
con x conocida x  z 
x N  n

n
N1
con no x conocida x  t 
x N  n

n
N1
error
z
x N  n

n
1
t
x N  n

n
1
Determinar un intervalo de confianza del 95% para los dos siguientes casos:
a).-
x = 15.0
x =
2.0
n = 100
N 1,000
b).- x
gx
n
N
= 15.0
=
2.0
= 16
= 200

Javier Alvarez Noyola
12
Solamente límite superior
Solamente límite inferior
con x conocida
con x no conocida
x + z x
x + t x
x - z xx -x
Una muestra al azar de 100 observaciones tiene una media de 30.0 y una desviación estándar de 5
a).- Obtenga un valor con el cuál usted tenga 95% de confianza de que no excederá la media
de la población ?
b).- Cuál es la probabilidad (riesgo) de que  > 31.0?
A partir de una muestra de 200 observaciones, se encontró que en una remesa, había 20
acumuladores defectuosos, utilizando un intervalo de confianza del 99% calcule el error estimado
JAN

ESTADISTICA
Javier Alvarez Noyola