Download Estadística II

Document related concepts
no text concepts found
Transcript
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Estadística II
2. MUESTREO ALEATORIO SIMPLE
3. MUESTREO ESPECIFICADO
3.1. Características
Como ya se mencionó en el Tema 1, el muestreo aleatorio simple consiste en
seleccionar una muestra de modo que cada uno de los elementos o personas de
la población tenga las mismas posibilidades de ser incluido. La selección de los
individuos puede hacerse utilizando una tabla de números aleatorios, una tómbola,
o bien un paquete de computación que cuente con esa función.
El muestreo especificado se refiere a los tipos de muestreo no probabilísticos, que
como ya se vio (también en el tema 1), comparten la característica de que la
selección de los elementos de la muestra no depende de la probabilidad sino de
las características de la investigación.
3.2. Determinación del intervalo de confianza
Para explorar el procedimiento que se sigue para encontrar un intervalo de
confianza, ampliaremos un ejemplo anterior. Supón que la muestra aleatoria de
100 alumnos de una universidad marca un ingreso anual medio de $140,000.
Como estos datos provienen de una sóla muestra aleatoria, no podemos estar
seguros de que el ingreso medio reportado sea realmente un reflejo de la
población de ex – alumnos.
Sin embargo, sí sabemos que el 68.26% de todas las medias muestrales
aleatorias, en la distribución muestral de medias, caerán entre –1DE y +1DE de la
verdadera media poblacional. Estimando la desviación estándar de la distribución
muestral (supón que es δ x = $20,000) y usando nuestra media muestral
$140,000 como una estimación de la media poblacional, podemos establecer el
rango dentro del cual hay 68 oportunidades entre 100 (redondeando) de que la
verdadera media poblacional caiga. Este rango de ingresos medios es conocido
como el intervalo de confianza del 68% y se ilustra gráficamente a continuación:
Intervalo de confianza. Un rango de valores que se construye a partir de datos de
la muestra de modo que el parámetro ocurre dentro de dicho rango con una
probabilidad específica. La probabilidad específica se conoce como nivel de
confianza.
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
El intervalo de confianza del 68% se puede obtener mediante la siguiente fórmula:
Donde:
X = una media muestral
Z = puntaje correspondiente al nivel de confianza que se desee de acuerdo a la
tabla del “porcentaje del área bajo la curva normal entre x y z”
δ
x
= el error estándar de la media
Aplicando la fórmula anterior, el intervalo de confianza del 68% sería igual a:
$140,000
(1 * $20,000) = $140,000
Es decir; $120,000
$20,000
$160,000
Por lo tanto, el investigador reportaría que tiene un 68% de confianza en que el
ingreso medio poblacional de los ex – alumnos sea de $140,000, más o menos
$20,000. En otras palabras, hay 68 oportunidades en 100 (P=0.68) de que la
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
verdadera media poblacional caiga realmente dentro de un rango entre $120,000 y
$160,000 ($140,000 - $20,000 = $120,000 y $140,000 + $20,000 = $160,000)
Se pueden calcular intervalos de confianza para cualquier nivel de probabilidad,
aunque se ha convenido en una cuestión convencional utilizar un intervalo de
confianza más amplio, menos preciso, que tiene mejores probabilidades de hacer
una estimación exacta de la media poblacional. Generalmente este intervalo de
confianza es de 95% y algunas veces de 99%.
Si aplicamos el intervalo de confianza del 95% a nuestra estimación del ingreso
medio entre los ex – alumnos universitarios, encontramos que:
$140,000
(1.96 * $20,000) = $140,000
Es decir; $100,800
$39,200
$179,200
Esto quiere decir que tenemos un 95% de confianza en que la verdadera media
poblacopnal cae entre los $100,800 y los $179,200.
Un intervalo de confianza aún más riguroso sería el del 99%. Con respecto a
nuestro ejemplo, los cálculos serían como sigue:
$140,000
(2.58 * $20,000) = $140,000
Es decir; $88,400
$51,600
$191,600
Estimación de proporciones
Hasta aquí nos hemos centrado en el procedimiento para estimar medias
poblacionales. Sin embargo, es también muy común que el investigador social
busque presentar una estimación de una proporción poblacional con base en la
proporción que obtiene de una muestra aleatoria. Una circunstacia conocida es la
del encuestador cuyos datos sugieren que una cierta proporción de los votos irán
hacia un determinado candidato político para un cargo público. Cuando un
encuestador informa que la intención de voto es del 45% a favor de un
determinado candidato, lo hace sabiéndolo con una precisión menor al 100%. En
general este tipo de estudios manejan un nivel de confianza del 95% de que su
proporción estimada cae dentro de la estensión del rango (por ejemplo, entre 40 y
50%).
Estimamos las proporciones por medio del procedimiento que utilizamos para
estimar medias. Todos los estadísticos (incluyendo las medias y las proporciones)
tienen sus distribuciones muestrales.
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Tal como encontramos el error estándar de la media, podemos buscar ahora el
error estándar de la proporción. La fórmula es:
Donde:
δP = el error estándar de la proporción (una estimación de la desviación estándar
de la distribución muestral de proporciones)
P = una proporción muestral
n = el tamaño de la muestra
Sólo para poner un ejemplo, digamos el que el 45% de una muestr aleatoria de
100 estudiantes universitarios informa que éstos están a favor de la legalización
de la marihuana. El error estándar de la proporción sería:
δP = 0.05
Para encontrar el intervalo de confianza del 95% multiplicamos el error estándar
de la proporción por 1.96 y sumamos y restamos este producto a la proporción
muestral.
0.45 (1.96 * 0.05) = 0.45
Es decir;
0.35
0.098
0.55
Tenemos un 95% de confianza en que la verdadera proporción poblacional no es
ni menor a 0.35 ni mayor de 0.55. Más específicamente, entr el 35 y el 55% de la
población de estudiantes universitarios están a favor de la legalización de la
marihuana. Existe un 5% de probabilidad de que nos equivoquemos.
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
3.3. Determinación del tamaño de la muestra con la media y con la
proporción
Una cuestión que por lo general surge cuando se diseña un estudio estadístico es:
“¿cuántos elementos debo incluir en la muestra?”. Si una muestra es demasiado
grande, se desperdicia tiempo y dinero recolectando datos. Por el contrario, si la
muestra es demasiado pequeña, las conslusiones resultantes serán inciertas.
Cuando se calcula una muestra para la estimación de una media o de una
proporción, el tamaño de la muestra depende de tres factores:
a) El nivel de confianza deseado. Tú, como investigador, seleccionas el nivel
de confianza. Como ya dijimos en secciones anteriores, es una convención
que se utilice un nivel de confianza del 95% (z=1.96), o bien del 99%
(z=2.58). Mientras más alto sea el nivel de confianza, mayor será el tamaño
de la muestra.
b) El margen de error que se puede tolerar. El error máximo permisible, que se
designa como E, es la cantidad que se suma y/o resta de la media de la
muestra, para determinar los puntos extremos del intervalo de confianza
correspondiente. Es la cantidad de error que tú como investigador deseas
tolerar. También es la mitad de la amplitud del intervalo de confianza
correspondiente. Un error permisible pequeño requerirá una muestra
grande, mientras uno grande requerirá una muestra pequeña.
c) La desviación estándar de la población o la variabilidad en la población que
se estudia. Si la población tiene una dispersión amplia, se requiere una
muestra grande. Por otra parte si la población está concentrada (es
homogénea), el tamaño requerido de la muestra será pequeño.
Cuando no se conoce la desviación estándar de la población es necesario
hacer una estimación de ella. Algunos métodos para hacer esta estimación
son los siguientes:
-
El enfoque del estudio comparativo. Este se utiliza cuando con
anterioridad se ha realizado estudios estadísticos sobre la misma
población. Si los datos obtenidos por estos estudios se consideran
confiables se puede utilizar la desviación estándar encontrada por
ellos.
-
La aproximación basada en rango. Para utilizar este método es
necesario conocer o tener una estimación de los valores máximos y
mínimos de la población. Recurda que la regla empírica establece
que, suponiendo que la distribución es normal, dentro del rango de
+ – 3 DE de la media se encuentran prácticamente la totalidad de las
observaciones de una distribución (99.7%). De esta manera la
distacia entre el valor menor y el mayor debe ser, en teoría, algo muy
cercano a 6 DE. Se podría entonces estimar la DE como una sexta
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
parte del rango. Por ejemplo supón que quieres estimar la DE de la
cantidad de cheques que expiden al mes los alumnos de la
universidad, supón que el mínimo de cheques expedidos es de 2 y el
máximo de 50, de esta manera el rango sería de 48 (50-2). En este
ejemplo la estimación de la DE sería de 8 cheques, que se obtiene
de 48/6.
-
Estudio piloto. Consiste en aplicar un estudio previo a una pequeña
muestra de la población y en tomar como DE la que se obtenga de
esta pequeña muestra.
-
El error estandar de la media o de la proporción. Consiste en aplicar
el procedimiento visto en el tema anterior.
La fórmula para calcular el tamaño de la muestra para estimar una media es la
siguiente:
Donde:
n = es el tamaño de la muestra
z = es el valor estándar normal que corresponde al nivel deseado de confianza
s = es una estimación de la desviación estándar de la población
E = es el máximo error permisible
Un ejemplo puede ser el siguiente: Un estudiante de administración desea
determinar la cantidad media que perciben los empleados del Municipio de
Atotonilco del Rincón. El error para estimar la media es de $1,000, con un nivel de
confianza del 95%. El estudiante encuentra un informe en INEGI que estima la
desviación estándar en $10,000. ¿Cuál es tamaño requerido de la muestra?
n = ((1.96*$10,000)/$1,000)2
n = 384.16, es decir 385
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Si se desea un nivel mayor de confianza, por ejemplo del 99%, la muestra deberá
ser mayor.
n = ((2.58*$10,000)/$1,000)2
n = 665.64, es decir 666 (the number of the beast)
El procedimiento que se describe arriba se puede adaptar para el cálculo del
tamaño dela muestra para el cálculo de una proporción. También es necesario
identificar tres criterios:
a) El nivel de confianza deseado.
b) El margen de error que se puede tolerar.
c) Un estimado de la proporción de la población. Esta estimación se puede
obtener por los mismo métodos de la estimación de la media, aunque
cuando no se cuenta con información es común que se utilice 0.50
La fórmula que se utiliza en este caso es la siguiente:
Donde:
n = es el tamaño de la muestra
z = es el valor estándar normal que corresponde al nivel deseado de confianza
P = es una estimación de la proporción de la población
E = es el máximo error permisible
Un ejemplo puede ser el siguiente: El estudio del ejemplo anterior también estima
la proporción de colonias del Municipio que cuentan con servicio de recolección de
basura. El estudiante desea que la estimación esté dentro del 10% de la
proporción de la población, el nivel deseado de confianza es de 90% y no se
dispone de una estimación para la proporción de la población. ¿Cuál es el tamaño
de la muestra requerido?
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
n = (0.50)*(0.50) (1.65/0.10)2
n = 68.06
El estudiante necesita entonces una muestra de 69 colonias.