Download ESTIMACIÓN DE PARÁMETRO

Document related concepts
no text concepts found
Transcript
ESTIMACIÓN DE PARÁMETRO
HAMLET MATA MATA PROF. DE LA UNIVERSIDAD
POLITÉCNICA DE EL TIGRE-VENEZUELA
INTRODUCCIÓN
Es muy interesante conocer las características de las muestras. El cálculo de los estadísticos o índices
que las definen y describen son netos y muy rentable. Pero en ocasiones nos preguntamos por las
características de la población de origen de donde proceden las muestras. El objetivo parece ambicioso:
se trata de conocer lo que por definición es inalcanzable. Normalmente las poblaciones son
inabarcables puesto que son infinitas, o en el mejor de los casos cuasi-infinitas, lo cual nos deja como
estábamos.
Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los
estadísticos o estadígrafos en las muestras. Un estadístico es una función de la muestra, esto es,
depende sola y exclusivamente de nuestra muestra. Varía y está sometido al error (variabilidad) del
muestreo. Los parámetros no varían, son constantes y además desconocidos. Contienen las
características de la población. En una población cuya distribución es conocida pero desconocemos
algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa.
La inferencia estadística se ocupa, entre otras cuestiones, de los procedimientos de estimación de
parámetros desconocidos de la distribución de una variable aleatoria o de la población, a partir de la
información suministrada por una muestra de tamaño reducido, extraída al azar. La estimación de
parámetros por intervalos, permite construir un intervalo que contendrá el parámetro a estimar con
una confianza fijada a priori por el experimentador.
El objetivo más importante de la Estadística es obtener una inferencia con respecto a la población
basándose en la información contenida en una muestra. Como las poblaciones se describen mediante
medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones
estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población.
Se han estudiado, hasta el momento, las nociones fundamentales de distribución de probabilidades; se
está en condiciones, entonces, de tratar los métodos de inferencia estadística, los cuales comprenden los
procedimientos para estimar parámetros de poblaciones y probar (contrastar) si una afirmación
provisional sobre un parámetro poblacional se ve apoyada o desaprobada ante la evidencia de la
muestra.
Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia
deductiva es un juicio o generalización que se basa en un razonamiento o proceso dialéctico a priori.
Por ejemplo, se supone que dos monedas están perfectamente equilibradas y que entonces la
probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o número esperado de "caras" en
la jugada de las monedas deber ser 1 (conclusión). Si las premisas son ciertas, las conclusiones no
pueden ser falsas.
Una inferencia inductiva, por otra parte, es un juicio o generalización derivado de observaciones
empíricas o experimentales; la conclusión sobre el número promedio de "caras" con base en los
resultados de una muestra de prueba. Si los resultados de las pruebas son diferentes, la conclusión
también será diferente. No se requiere una suposición a priori sobre la naturaleza de las monedas. La
inferencia estadística es primordialmente de naturaleza inductiva y llega a generalizaciones respecto de
las características de una población al valerse de observaciones empíricas de la muestra.
Es muy probable que una estadística muestral sea diferente del parámetro de la población y sólo por
coincidencia sería el uno exactamente igual al otro. La diferencia entre el valor de una esta dística
muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Sólo se
sabría cuál es el error si se conociera el parámetro poblacional, pero éste por lo general se desconoce.
La única manera de tener alguna certeza al respecto es hacer todas las observaciones posibles del total
de la población en la mayoría de las aplicaciones prácticas, lo cual, desde luego, es imposible o
impracticable.
Y en efecto, la razón de ser de la inferencia estadística es la falta de conocimientos acerca de las
características de la población. Pero que tales características se desconozcan no impide el que se actúe.
Las inferencias estadísticas se hacen por posibilidades o probabilidades. De la media de la muestra se
hacen inferencias sobre la media de la población. No se sabe exactamente cuál es la diferencia entre
estas dos medias, ya que la última es desconocida en la mayoría de los casos. No obstante, si se sabe
que es más bien poca la probabilidad de que esta diferencia sea mayor que, por ejemplo, tres a aún dos
errores estándares.
Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos clases: los
problemas de estimación y los de prueba de hipótesis. Como al estimar un parámetro poblacional
desconocido se suele hacer una afirmación o juicio este último ofrece solamente una estimación. Es un
valor particular obtenido de observaciones de la muestra. No hay que confundir este concepto con el de
estimador, que se refiere a la regla o método de estimar un parámetro poblacional. Por ejemplo, se dice
que X es un estimador de  porque la media muestral proporciona un método para estimar la media
de la población. Un estimador es por naturaleza un estadístico y como tal tiene una distribución. El
procedimiento mediante el cual se llega a la obtención y se analizan los estimadores se llama
estimación estadística, que a su vez se divide en estimación puntual y estimación por intervalos. En
una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar
dicho parámetro a partir de una muestra representativa.
Uno de los principales objetivos de la estadística inferencial es estimar parámetros poblacionales.
Desde el punto de vista matemático, los parámetros son valores que definen la forma y localización de
un modelo probabilístico. Los parámetros poblacionales son constantes que caracterizan una
población. Estos parámetros pueden ser de ubicación (como la media, mediana, proporción) o de
dispersión (como la varianza o coeficiente de variación). Los parámetros se estiman mediante el
muestreo de la población. Los valores que se calculan a partir de muestras para estimar parametros se
llaman estimadores. Los estimadores se calculan mediante reglas matemáticas (fórmulas) a partir de los
elementos de la muestra. Por ejemplo, la media muestral, un estimador de la media poblacional se
calcula como:
La selección de elementos en una muestra se puede hacer de distintas formas, El muestreo aleatorio es
la selección al azar de los elementos que constituyen una población. El muestreo puede ser sin
reemplazo, en este caso, los elementos que se extraen no son devueltos. El muestreo con reemplazo
ocurre cuando el elemento extraído es devuelto a la población. En el caso de que el tamaño de la
población sea muy grande, el muestreo sin reemplazo no afecta las estimaciones, de lo contrario debe
considerarse el efecto de la extracción de los elementos de la población. La selección y extracción
aleatoria de los elementos de la población para realizar inferencias sobre atributos poblacionales es
necesaria para evitar sesgos, lograr independencia entre las observaciones y mantener objetividad en
las inferencias realizadas. Puesto que los elementos de la muestra varían de manera impredecible (si la
extracción es aleatoria), los estimadores también varían. Por lo tanto, los estimadores son variables
aleatorias.
Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y
permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas
técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas
(padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición,
medianas o cuartiles. Esto es lógico cuando hablamos de dinero.
La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la
estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un
intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho
intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones
puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es
recomendable presentar también el error estándar y tamaño de muestra
2
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporción observada en la muestra es un estimador de la proporción en la población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más
probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el
riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución
de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos
medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y
la desviación típica, también denominada error típico de estimación, que indica la desviación
promedio que podemos esperar entre el estimador y el valor del parámetro.
Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará
el parámetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al
parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parámetro. Se indica por 1   habitualmente se da en porcentaje (1-  )100%. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá
al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el (1-  )% de los intervalos así construidos contendría al verdadero
valor del parámetro. Por lo general los nivele de confianza más utilizados son: 99, 95 y 90 %, a estos
se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo
contenga el valor desconocido del parámetro; estos son simplemente convencionales.
Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza
(LSC). Esos limites se encuentran calculando primero la media muestral, X . Luego se suma una cierta
cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC, estos valores
que se suman y restan a la media muestral se les denominan errores de estimación.
Confianza e Intervalos de confianza
La estimación de parámetros mediante un solo valor se conoce como estimación puntual. Es bastante
arriesgada puesto que no conocemos ni la imprecisión ni se establece el grado de confianza que nos
merece el resultado. Estos dos inconvenientes se obvian con la estimación por intervalos
confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo
de confianza. Por otro proporcionan un valor de la fiabilidad que nos debería merecer nuestra
estimación, o nivel de confianza.
Afortunadamente algo tan sutil como la confianza se puede cuantificar, y no sólo eso sino que se
mueve en unos límites tan cómodos para el pensamiento como son entre el cero y el cien por ciento.
Por convenio, y nadie parece en desacuerdo, para la mayoría de las ocasiones una confianza del 95%
parece suficiente. Este es el valor que gobierna la longitud del intervalo de confianza.
¿Como se interpreta una confianza del 95%?. Si llevamos a cabo un experimento 100 veces
obtendríamos 100 distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100
intervalos, 95 de ellos cubrirían el valor del verdadero parámetro poblacional. Desgraciada o
afortunadamente, nosotros solo realizamos el experimento una sola vez. Con lo que nunca sabremos si
nuestro intervalo es uno de esos 95 que contienen el parámetro de estudio.
Técnicamente, aunque esto suene a una sofisticación innecesaria, no podemos asociar el concepto de
nivel de confianza con el concepto de probabilidad. Así no se puede establecer que tenemos una
probabilidad del 95% de que el parámetro buscado este dentro de nuestro intervalo.
Las técnicas de estimación de parámetros poblacionales se incluyen dentro de la estadística inferencial.
Un Teorema Importante
Todos los parámetros poblacionales pueden ser estimados a partir de técnicas de estimación. La
mayoría de los estimadores se basan en la distribución de los estadísticos en el muestreo y toman como
base algunas propiedades deseables del teorema del límite central. Este teorema tiene unas propiedades
tan deseables que es la base de la estadística analítica. Viene a decir fundamentalmente dos cosas:
3
1.- Que las muestras individualmente son diferentes de las poblaciones pero en conjunto son muy
parecidas
2. Que las muestras no son gobernadas por el azar, sino que en conjunto siguen, no importa de lo que
estemos tratando, las leyes universales de las funciones teóricas de probabilidad. La función de
probabilidad normal rige, en la mayoría de las ocasiones cuando las muestras son mayores de 30, estas
distribuciones muestrales.
Otro Enfoque
Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y
permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas
técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas
(padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición,
medianas o cuartiles. Esto es lógico cuando hablamos de dinero.
La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la
estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un
intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho
intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones
puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es
recomendable presentar también el error estándar y tamaño de muestra.
ESTIMACIÓN DE PARÁMETROS
La teoría clásica de la Inferencia Estadística trata de los métodos por los cuales se selecciona una
muestra de una población y, basándose en las pruebas de las muestras, se trata de:
* Estimar el valor de un parámetro desconocido, por ejemplo θ.
* Verificar si θ es o no igual a cierto valor predeterminado, por ejemplo θ 0.
El primero de estos dos procedimientos, de inferir de una muestra a una población, se llama estimación
de un parámetro; el segundo, prueba de una hipótesis acerca de un parámetro. Dentro del primer
procedimiento, la estimación de un parámetro puede tener por resultado un solo punto (estimación
puntual), o un intervalo dentro del cual exista cierta probabilidad de encontrarlo (estimación por
intervalos).
Un estimador puntual es un único punto o valor, el cual se considera va a estimar a un parámetro. La
expresión E( ) =  sugiere que el único valor de es un estimador puntual insesgado o no viciado de
 .
Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero además,
proporciona algún grado de exactitud del estimador. Como el término lo sugiere, un estimador por
intervalo es un rango o banda dentro de la cual el parámetro se supone va a caer.
Las técnicas estadísticas de estimación intentan conocer el valor de estos parámetros. La media de edad
de un conjunto de personas es fácilmente calculable y no está sometido a ninguna clase de imprecisión.
La media de edad de la población de donde proviene esa muestra es desconocida. Si la muestra cumple
la condición de ser aleatoria, es posible intentar calcular la media poblacional. El cálculo de los
parámetros se basa en la información suministrada por la muestra.
En el proceso de ir de la información de la muestra (estadísticos) al estimado de los parámetros
poblacionales ocurren dos cosas, una buena y otra mala:
a.- Ganamos en generalización. Esto es, pasamos de la parte al todo. De las muestras a las poblaciones
b.- Perdemos precisión o lo que es lo mismo, ganamos en imprecisión. La estimación de parámetros
poblacionales se realiza construyendo intervalos (segmentos) que suponemos cubren o contienen el
parámetro buscado.
4
ESTIMACIÓN CON Y SIN SESGO
Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente
parámetro de la población, el estadístico se llama un estimador sin sesgo del parámetro; si no, se
denomina un estimador sesgado. Los correspondiente valores de tales estadísticos se llaman
estimaciones sin sesgo y sesgadas, respectivamente.
ESTIMACIÓN EFICIENTE
Si las distribuciones de muestreo de los estadísticos tienen las mismas medias (o esperanza
matemática), el de menor varianza se llama un estimador eficiente de la media, mientras que el otro se
llama un estimador ineficiente. Los valores correspondientes de esos estadísticos se llaman
estimación eficiente e estimación ineficiente, respectivamente. Si consideramos todos los posibles
estadísticos cuyas distribuciones de muestreo tienen la misma media, aquel de varianza mínima se
llama a veces el estimador de máxima eficiencia, o sea el mejor estimador.
ESTIMACIÓN - GENERALIDADES
El uso principal de la inferencia estadística en la investigación empírica, es lograr conocimiento de una
gran clase de unidades estadísticas (seres humanos, plantas, parcelas de tierra), de un número
relativamente pequeño de los mismos elementos.
Los métodos de inferencia estadística emplean el razonamiento inductivo, razonamiento de lo
particular a lo general y de lo observado a lo no observado.
Cualquier colección o agregación grande de cosas que deseamos estudiar o de las cuales deseamos
hacer inferencias, se llama población. El término población tiene más significado cuando se lo junta
con la definición de muestra de una población: una muestra es una parte o subconjunto de una
población. Una muestra de n elementos de la población de N elementos, debería ser seleccionada de
forma tal que las características de la población puedan ser estimadas con un margen de error conocido.
Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros.
Para las muestras, estas mismas medidas descriptivas se llaman estadísticos o estadígrafos.
Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media,
mediana, moda y desviación estándar. Cuando estos términos describen las características de una
muestra se denominan estadísticos o estadígrafos y cuando describen las de una población se
denominan parámetros, con lo que podemos decir que:" Un estadístico es una característica de una
muestra y un parámetro es una característica de una población." Un parámetro describe una población
de la misma manera que un estadígrafo describe a una muestra. Los investigadores de la estadística
usan la palabra población para referirse no sólo a personas sino a todo los elementos que han sido
escogidos para su estudio; mientras que emplean la palabra muestra par describir una porción escogida
de la población. La notación utilizada empleada para denotar estadísticos de muestra es de letras latinas
minúsculas y para representar parámetros de una población se utilizan letras griegas o latinas
mayúsculas.
MUESTRA
ESTADÍSTICO
POBLACIÓN
PARÁMETRO

Media Aritmética
Variancia
S²
2
Desvío Estándar
S

r

n

Coeficiente
Correlación
Tamaño
de
Un estadígrafo o estadístico calculado a partir de una muestra es un estimador del parámetro en la
población. Una estimación es alguna función de los resultados de una muestra que produce un valor,
llamado estimador. El estimador da alguna información respecto al parámetro. Por ejemplo, la media
de la muestra, , es un estimador de la media  en la población. Las poblaciones pueden ser infinitas
o finitas. Para la mayoría de los propósitos de investigación, se supone que las poblaciones son
infinitas, no finitas, en tamaño, las cuales son algo artificial o imaginario. Una población finita puede
ser extremadamente grande. Es posible concebir un proceso de conteo de los elementos de la
5
población, el cual puede ser computado; luego la población es técnicamente finita. Afortunadamente no
es necesario crear problemas en cuanto a la distinción entre poblaciones infinitas y finitas.
El método usado para seleccionar la muestra es muy importante al juzgar la validez de la inferencia que
se hace de la nuestra a la población. Para que una muestra sirva adecuadamente como base para obtener
estimadores de parámetros poblacionales, debe ser representativa de la población. El muestreo al azar
de una población producirá muestras que "a la larga" son representativas de la población. Si una
muestra se extrae aleatoriamente, es representativa de la población en todos los aspectos, esto es, el
estadígrafo diferirá del parámetro solo por azar. La habilidad para estimar el grado de error debido al
azar (error de muestreo), es un rasgo importante de una muestra al azar.
PROPIEDADES DE UN BUEN ESTIMADOR
Para poder utilizar la información que se tenga de la mejor manera posible, se necesita identificar los
estadígrafos que sean buenos estimadores, cuyas propiedades son:

Insesgabilidad:  , estimador de es una variable aleatoria y por lo tanto tiene una distribución de
probabilidad con una cierta media y variancia. Se puede definir estimador insesgado diciendo: Si se


utiliza un estadístico muestral  para estimar el parámetro de la población , se dice que  es un

estimador insesgado de , si la esperanza matemática de  coincide con el parámetro que desea
estimar.

En símbolos:  es insesgado  E ( )  
O sea que es de esperar que si se toman muchas muestras de igual tamaño partiendo de la misma


distribución y si de cada una se obtiene un valor  , la media de todos los valores de  ha de estar
muy cerca de .
* La media muestral es un estimador insesgado de la media poblacional, o sea que E( ) = 
* La variancia muestral, ¿es un estimador insesgado de la variancia poblacional?
La respuesta depende de como se defina la variancia muestral.
Si
S
2
( xi  X 2 ) 2


, entonces S² es un estimador sesgado de
E (S 2 ) 
n
 2 pues
. Mas aún,
n 1 2
 . Pero el sesgo se puede corregir alterando la definición de variancia muestral.
n
En efecto, si S*2
( xi  X ) 2


n 1
es la variancia muestral corregida, entonces ( E )  S*2   2 y S² es un
estimador insesgado de  2 .
Eficiencia: si se utilizan dos estadísticos o estadígrafos como estimadores del mismo parámetro,
entonces aquel cuya distribución muestral tenga menor variancia, es un estimador más eficiente o más
eficaz que el otro. Es decir:
es eficiente
mínima.
Consistencia: Si es un estimador muestral calculado a partir de una muestra de tamaño n y si
es el
parámetro de población que se va a estimar, entonces es un estimador consistente de si la
probabilidad de que el valor absoluto de la diferencia entre y su esperanza
iguale o supere a e
(error admitido que tiende a cero, o sea que es tan pequeño como se quiera), tienda a cero cuando el
número de elementos de la muestra tienda a infinito. Es decir, la consistencia se refiere a que al
aumentar el tamaño de muestra, el estimador se aproxima al parámetro.
Suficiencia: La suficiencia se refiere a que el estimador haga uso de toda la información de la muestra
para estimar al parámetro. La media muestral hace uso de todas las observaciones. Un estimador
suficiente del parámetro  es aquel que agota toda la información pertinente sobre  que se puede
disponer en la muestra. Por ejemplo, si se toma una muestra de n = 30 valores con el fin de estimar  ,
pueden utilizarse como estimadores la primera, la décimo quinta o la última observación, o el promedio
6
entre la primera y la quinta observación. Pero estos estimadores no son suficientes pues no contienen
toda la información disponible de la muestra. La media aritmética calculada con las 30 observaciones
sí lo es pues tiene en cuenta todas las observaciones. En definitiva, por ejemplo la media aritmética
muestral y la forma corregida de la variancia muestral, son estadísticas que satisfacen los criterios o
propiedades de "buenos" estimadores.
Evaluación de la bondad de un Estimador
Para evaluar si un estadístico es mejor estimador que otro, se evalúan cuatro criterios:
Imparcialidad: Se dice que un estadístico es un estimador imparcial si, en promedio, tiende a tomar
valores que están por encima del parámetro de la población que se está estimando con la misma
frecuencia y la misma extensión con la que tiende a asumir valores por debajo del parámetro que se
está estimando. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una
media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de
la misma población es igual a la media de la población misma. Podemos decir que una estadística es un
estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del
parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del
parámetro de población que se está estimando.
Eficiencia: Esta característica se refiere al tamaño del error estándar del estadístico, mientras más
pequeño sea el error estándar, en más eficiente el estimador. Se refiere al tamaño del error estándar de
la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir
cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error
estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un
estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de
producir una estimación más cercana al parámetro de población que se está considerando.
Coherencia: Un estadístico es un estimador coherente de un parámetro de población si al aumentar el
tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al
valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos
tamaños de muestras más grandes.
Suficiencia: Un estimador es suficiente si utiliza una cantidad de la información contenida en la
muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el
parámetro de la población.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de un
único valor. Esta estimación no es muy conveniente pues con ella no se puede determinar el error de
muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Existen otros
métodos para estimar parámetros poblacionales que son mucho más precisos. Por ejemplo:
* Método de los mínimos cuadrados.
* Método de los momentos.
* Método de la máxima verosimilitud se basa en el principio de que generalmente ocurre lo más
probable.
* Método de estimación por intervalos de confianza, este será el que se desarrollara en este curso.
El procedimiento de determinar un intervalo (a, b) que comprenda un parámetro de población  con
cierta probabilidad 1   , se llama estimación por intervalos. Se verán los casos paramétricos, es
decir, aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial,
Normal, etc.).
DISTRIBUCIONES MUESTRALES
Este concepto se relaciona con la idea de variación o fluctuaciones al azar, para lo cual todas las
posibles muestras de un tamaño N en una población dada (con o sin reposición). Para cada muestra,
podemos calcular un estadístico (tal como la media o la desviación típica) que variará de muestra a
muestra. De esta manera obtendremos una distribución del estadístico que se llama su distribución de
7
muestreo. Si, por ejemplo, el estadístico utilizado es la media muestral, entonces la distribución se
llama la distribución de muestreo de medias, o, distribución de muestreo de la media. Análogamente,
podríamos tener distribuciones de muestreo de la desviación típica, de la varianza, de la mediana, de
las proporciones, etc. Para cada distribución de muestreo podemos calcular la media, la desviación
típica, etc. Así pues, podremos hablar de la media y la desviación típica de la distribución de muestreo
de medias, etc.
DISTRIBUCIÓN DE MUESTREO DE MEDIAS
Es una distribución probabilística que consta de una lista de todas las medias muestrales posibles de un
tamaño dado de una población y la probabilidad de ocurrencia asociada con cada media muestral. Si
tomamos varias muestras de una población con el objetivo de obtener la media poblacional,
observaríamos que cada una de ellas posiblemente nos dan diferentes valores de dicha media. Si se
organizaran las medias de todas las muestras posibles de un tamaño específico tomadas de una
población se obtendría lo que se conoce como una distribución muestral de medias.
Para muestras de tamaño N, sin reposición, de una población finita de tamaño Np>N tenemos,
X  
y X 

n
NP  N
NP 1
Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a:
X  
y X 

n
Para valores grandes de N (N30), la distribución de muestreo de medias, es aproximadamente normal
con media  X y desviación típica  X , independientemente de la población (en tanto en cuanto la
media poblacional y la varianza sean finitas y el tamaño de la población sea al menos doble que el de la
muestra). Este resultado para una población infinita es un caso especial del teorema del límite central
de teoría avanzada de probabilidades, que afirma que la precisión de la aproximación mejora al crecer
N. Esto se indica en ocasiones diciendo que la distribución de muestreo es asintóticamente normal.
Debemos anotar que las características de la población serán las mismas que tendrán las diferentes
muestras de la misma:
Si la población no tiene distribución normal, la distribución muestral de medias de cualquier manera
tenderá a aproximarse a la forma normal.
La dispersión en la distribución de las medias muestrales es siempre menor que la dispersión de la
población y será mucho más pequeña mientras más grande sea el tamaño de la muestra.
ESTIMACIONES DE INTERVALO DE CONFIANZA PARA PARÁMETROS DE
POBLACIÓN
Sean x la media y la desviación típica (error típico) de la distribución de muestreo de un estadístico S.
Entonces, si la distribución de S es aproximadamente normal (que como hemos visto es cierto para
mucho estadísticos si el tamaño de la muestra N30), podemos esperar hallar un estadístico real S que
esté en los intervalos  s -s a  s +s,  s -2s a  s+s, o  s -s a s +3s alrededor del 68.27 %, 95,45
% y 99.73 % de la curva normal, respectivamente.
Equivalentemente, podemos esperar hallar (o sea, podemos estar confiados en encontrar) s en los
intervalos S - s a S + s, S - 2s a S + 2s, o S - 3s a S + 3s alrededor del 68.27%, 95.45% y
99.73% , de la curva normal, respectivamente. Por esta razón, llamamos a ese respectivos intervalos
los intervalos de confianza 68.27%, 95.45% y 99.73% para estimar  s. Los números extremoso de estos
intervalos se llaman entonces los límites de confianza 68.27%, 95.45% y 99.73%.
Análogamente, S ± 1.96s. y S ± 2.58s son los límites de confianza 95% y 99% (o sea 0.95 y 0.99)
para S. El porcentaje de confianza se suele llamar nivel de confianza. Los números 1.96 y 2.58, etc. en
los límites de confianza se llaman coeficientes de confianza o valores críticos, y se denotan por z c. De
8
los niveles de confianza que no aparecen en la tabla, los valores de z c se pueden encontrar gracias a las
tablas de áreas bajo la curva normal.
NIVELES DE CONFIANZA
NIVEL
DE 99.73% 99%
CONFIANZA
3.00
2.58
ZC
98%
96%
95.45%
95%
90%
80%
68.27%
50%
2.33
2.05
2.00
1.96
1.645
1.28
1.00
0.6745
Una normal de media  y desviación  se transforma en una z. De acuerdo a las siguientes figuras.
Llamando z al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de
, es decir, que la probabilidad que la variable sea mayor que ese valor es  (estos son los valores que
X 
ofrece la tabla de la normal). Podremos construir intervalos de la forma Z1 2 
 Z 2 ,

n
para los que la probabilidad es 1 - .
ERRORES TÍPICOS:
La desviación típica de una una distribución de muestreo de un estadístico se suele llamar su error
típico. En la siguiente tabla, se presentan errores típicos de distribución de muestreo para varios
estadísticos bajo las condiciones de muestreo aleatorio de una población infinita (o muy grande) o de
muestreo con reposición de una finita. También recoge observaciones particulares que garantizan la
validez de estos resultados y otras notas pertinentes.
Se debe tomar en cuenta que si el tamaño de la muestra es lo bastante grande, las distribuciones de
muestreo son normales o casi normales. Por ellos, los métodos se conocen como métodos de grandes
muestras. Cuando N30, las muestras se llaman pequeñas. Cuando los parámetros de la población, tales
como ro, son desconocidos, pueden ser estimados con precisión por sus correspondientes
estadísticos muestrales, a saber, s, X , y r, si las muestras son suficientemente grandes.
9
DISTRIBUCIÓN
DE MUESTREO
ERROR TÍPICO
OBSERVACIONES
Esto es cierto para muestras grandes y
pequeñas. La distribución muestral de medias
es casi normal para 30, incluso cuando la
población no es normal.
Medias
 x   , la media de la población, en todos
lo casos.
La nota precedente para las medias se aplica
aquí
también
Proporciones
 p  p , en todos los casos.
Desviaciones Típicas
(1)
(2)
Varianzas
(1)
Para 100, la distribución muestral de s es
casi
normal.
s viene dada por (1) sólo si la población es
normal (o aproximadamente normal). Si la
población no es normal, se puede usar (2).
Note, que (2) se reduce a (1) cuando  2=2
y  4=4, lo cual es cierto para poblaciones
normales.
Para 100, s= muy aproximadamente
Las observaciones hechas sobre la desviación
típica son aplicables también aquí. Debemos
notar que (2) da (1) en el caso de poblaciones
normales.
s2=2(N-1)/N, que es casi igual a 2 para N
grandes.
(2)
Intervalo de Confianza para μ; con σ Conocida
Si X es la media de una muestra aleatoria de tamaño n de una población con varianza conocida  2 ,
un intervalo de confianza de (1   )100% para  esta dado por X  Z 2

   X  Z 2

,
n
n
donde Z 2 es el valor de z que delimita un area de  2 a su derecha. Este teorema se cumple en el
caso de muestras de tamaño n ≥ 30.
 Es la probabilidad de que el intervalo no incluya al verdadero valor del parámetro. 1   es el nivel
de confianza, es una medida de la fiabilidad de la estimación. Por ejemplo, si se toma  = 10%,
entonces 1   = 90% y se dice que se tiene un intervalo de confianza del 90% y que la probabilidad de
que el intervalo contenga al verdadero valor del parámetro es del 90%. Es decir, que si repetidamente
se muestra y se construye tal intervalo una y otra vez, 90 de cada 100 de estos intervalos, contendrá al
parámetro y 10 de ellos no. Se puede pensar que 1 significa certeza, seguridad y  significa riesgo. La
seguridad menos el riesgo, es decir 1   da, por lo tanto, el coeficiente de confianza de nuestras
afirmaciones.
En general, es posible construir intervalos de confianza para cualquier coeficiente de confianza
(1   )100% para  basado en una muestra grande
X  Z 2

n
, es decir:
10
X  Z 2
X  Z 2

n

n
, es el límite inferior del intervalo de confianza y
, el límite superior del intervalo de confianza.
Una vez determinado el intervalo, es decir, una vez calculados numéricamente los limites inferiores y
superiores, ya no debe hablarse en términos de confiabilidad ni en términos probabilísticos, pues la
situación pasa a ser completamente determinística. De tal manera, asociado a un intervalo de confianza
ya calculado, se tiene una probabilidad 0 ó 1 de que contenga al parámetro a estimar y no hay otra
opción, ya que lo contiene o no lo contiene. Resumiendo, los extremos del intervalo son variables
aleatorias, mientras que el parámetro a determinar es constante.

Muestras diferentes originaran valores distintos de X y, consecuentemente originaran diferentes
estimaciones por intervalos del parámetro  . Mientras mayor sea el valor que se elija para Z 2 ,
más amplio serán los intervalos y abra mayor confianza de que la muestra seleccionada en particular
dará un intervalo que contenga al parámetro desconocido  .
Figura: Intervalo de confianza para la media.
En general, los pasos a seguir para estimar un parámetro por el método de los intervalos de confianza,
son:
* Fijar el coeficiente de confianza que se desea en la estimación.
* Extraer la muestra y calcular el o los estadísticos necesarios.
* Determinar la distribución en el muestreo que tiene el estadístico empleado.
CASO 1 Con  conocido:
Sea X .., N (  ,  ) donde  es desconocido y  conocido.
Sea x1 , x2, ... , xn una muestra aleatoria de la variable aleatoria X y sea
la media muestral.
  
Se sabe que X .., N   ,
 independientemente del valor de n, por el teorema central del límite.
n

11
Z  
X 

, N (0,1)
n
Luego, tipificando:
Z   Z 2
1
2
Se plantea:
entonces:


 
P X  Z 2
   X  Z 2
  1  
n
n

Observaciones:
Si las muestras se toman sin reposición de una población finita de tamaño N, debe emplearse el factor
de corrección por finitud y el intervalo será:


 X  Z 2

n

N n

; X  Z 2
n 1
n
N n 

n  1 
Si la población es sólo aproximadamente normal, la igualdad sigue siendo válida en forma aproximada.
Figura: La distribución N (0,1) y el intervalo más pequeño posible cuya probabilidad es 1   . Por
simetría, los cuartiles Z 2 y Z1 2  sólo difieren en el signo.
Ejemplo 1: Un grupo de investigadores en Medicina desea estimar el cambio medio de presión
sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar de 30 pacientes y se
12
halló que
puls/seg. Los investigadores saben que la desviación estándar de los cambios de
presión sanguínea para todos los pacientes es σ = 3 puls/seg según estudios anteriores. Ellos desean
estimar el cambio medio de la presión sanguínea por paciente con un intervalo del 95% de confianza,
suponiendo que la variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución
normal de probabilidad.
Respuesta:
X = cambio en la presión sanguínea por paciente del sanatorio (en pulsaciones por segundo)
,  = 3, 1 -  = 0.95
n = 30,
Por tabla:
Z 2  1.96
Entonces:
3
Límite inferior (LIC) = 5  1.96
30
Límite superior (LSC) = 5  1.96
 5  1,073  3.9
3
30
 5  1,073  6.1
Por lo tanto resulta el Intervalo del 95% de confianza para la media: (3,9; 6,1). Entonces, se puede
afirmar que el cambio medio en la presión sanguínea por paciente, pertenece al intervalo (3,9; 6,1)
pulsaciones, con un nivel de confianza del 95%.
En cuanto al tamaño óptimo de muestra, e 
Z
determina el error máximo admitido de muestreo
n
e indica la precisión de la estimación. Lógicamente se pretende que sea lo más pequeño posible. Por
otra parte, (1 - ) es el coeficiente de confianza y se pretende que sea lo más grande posible. Pero
Z 2 depende del valor de  y al hacer mayor el coeficiente de confianza (1 - ), el valor Z 2 será
mayor y por lo tanto el error aumentará. Esto se puede regular aumentando el tamaño de la muestra con
lo que el error disminuirá.
Para el ejemplo 1, e  1.96
3
30
 1,073 puls / seg
con un nivel de confianza del 95%.
Si se utiliza X como una estimación de  , se puede tener una confianza de (1   )100% de que el
error será menor que una cantidad especificada e cuando el tamaño de la muestra es
Z2 2 *  2
Z 2 * 
Z 2 * 
 Z 2 * 
e
 n
n 
 n  
e
e
n
e2

2

 .


Si se desea elevar el nivel de confianza a 99% en el problema anterior, pero sin aumentar el error e de
estimación, el tamaño de la muestra debería ser:
 Z 2 * 
n  
e





2
Z 2  2,575..;   3..; e  1,073..; Entonces ,
n
(2,575) 2 32
(1,073) 2
 n  51.8  52.0
Es decir, que se debe tomar una muestra de aproximadamente 52 pacientes en lugar de 30.
Por el contrario, si el investigador deseara un error de estimación menor, por ejemplo 1 puls/seg,
manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido será:
13
n
(1,96) 2 (3) 2
(1) 2
 34.6  35.0 Pacientes.
EJEMPLO 1A.-Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de
167 cm. Por estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm.
Construye un intervalo de confianza para la estatura media de la población al 95%.
Datos:   8,....n  81,...Z 2  1.96(95%),...X  167


 
P X  Z 2
   X  Z 2
  1  
n
n

167  1.96
8
81
   167  1.96
8
81
 167  1.96 x0.89    167  1.96 x0.89
167  1.74    167  1.74  (165,26;..168,74)
Entonces el intervalo de confianza buscado es: (165.26; 168.74)
Por lo tanto resulta el Intervalo del 95% de confianza para la media: (165.26, 168.74). Entonces, se
puede afirmar que el cambio medio en la estura de esa población, pertenece al intervalo (165.26,
168.74), con un nivel de confianza del 95%.
El estudiante debe calcular los intervalos para los niveles de confianza de 90% y de 99%.
EJEMPLO: La media y la desviación estándar para los promedios de puntuación de una muestra
aleatoria de 36 estudiantes de un Tecnológico son 2.6 y 0.3, respectivamente. ¿De qué tamaño debería
ser la muestra si se desea tener una confianza de 95 % de que la estimación de  es menor que0.05?
SOLUCIÓN: Puesto que el tamaño de la muestra es grande, la desviación estándar  puede
aproximarse mediante s  0.3 , Z 2  1.96 y e = 0.05. Aplicando la siguiente formula se tiene:
 Z 2 * 
n  
e

2
2

  n   (1.96)(0.3)   n  138

 0.05 

Por lo tanto, se puede tener una confianza de 95 % de que una muestra aleatoria de tamaño 138
proporcionará una estimación de la media aritmética de la muestra que será diferente de la media
aritmética de la población en una cantidad menor que 0.05.
EJEMPLO: La desviación típica de la altura de los habitantes de un país es de 8 cm. Calcular el
tamaño mínimo que ha de tener una muestra de habitantes de dicho país para que el error cometido al
estimar la altura media sea inferior a 1 cm. con un nivel de confianza del 90%.
 Z 2 * 
SOLUCIÓN: Se aplica la formula para calcular el tamaño de la muestra n  
e

Z 2  1,645 de acuerdo con la tabla; e =1;   8 , entonces
2

 , donde


2
(13.16) 2
 (1,645)(8) 
n
 173.
 
1


12
Por lo tanto, se puede tener una confianza de 90 % de que una muestra aleatoria de tamaño 173
proporcionará una estimación de la media aritmética de la muestra que será diferente de la media
aritmética de la población de ese país en una cantidad menor que 1 cm.
14
Para estimar  se debe utilizar el desvío estándar muestral corregido así: S 
 ( xi  X ) 2 ,
ya que
n 1
según se ha visto, es un estimador insesgado del correspondiente parámetro poblacional .
S
Reemplazando en la variable tipificada
por S X 
resulta el siguiente teorema:
n
Intervalo de Confianza de Muestras Pequeñas para μ; con σ desconocida
Si X y S son la media y la desviación estándar de una muestra aleatoria de tamaño n < 30, tomada
de una población aproximadamente normal con varianza desconocida  2 , un intervalo de confianza
S
S
, donde t 2 es el valor
   X  t 2
(1   )100% para  viene expresada por, X  t 2
n
n
t con v = n – 1 grados de libertad, que delimitan un área de x / 2 a su derecha.
Por lo tanto:
P [ X  t 2
S
n
   X  t 2
S
n
]  1
Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad probabilística:


X 

P  t 2 
 t 2   1   , donde
S


n
verificando P(T  t 2 )   2.
t 2 es el valor critico dela variable T de Student
La expresión anterior es equivalente a: P( X  t 2
S
n
   X  t 2
a que con una probabilidad 1- el intervalo aleatorio ( X  t 2
S
S
n
)  1   que hace referencia
, X  t 2
S
) contendrá el valor
n
n
medio . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media
muestral y desviación típica muestral, tratándose de variables aleatorias. La probabilidad a que se
refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizás más clara: "Si
15
consideramos todas las muestras distintas de tamaño n que puedan ser extraídas de la población X, y
con las observaciones de cada una construimos los correspondientes intervalos, según la estructura
anterior, el (1- de estos intervalos contendrán el parámetro "
Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2 ,..., xn ,
calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el
S
S
parámetro  ( X  t 2
, X  t 2
) que, en función de la interpretación informal anterior,
n
n
contendrá dicho parámetro con una confianza (1- 
Observación: el nivel de confianza establece en alguna medida la longitud del correspondiente
intervalo de confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud
(menor precisión).
Figura: La distribución de Student tiene las mismas
propiedades de simetría que la normal tipificada
Ejemplo 2: Una muestra de 15 pollos tomadas al azar en un galpón con 5000 pollos, (que elabora
alimentos balanceados), permitió establecer un aumento de peso promedio de 90 g por semana y por
pollo, y un desvío típico de 10 g. Se busca estimar el incremento de peso promedio para los 5000 pollos
del establecimiento con un intervalo de confianza del 90%.
Respuesta:
X = aumento de peso por ave
n = 15;
= 90g; S = 10 g.
Por tabla:
t 2  1,761
X  t 2
S
n
y el intervalo resultante será:
 90  1,761
10
15
 90  4,55  (85,5;..94,6)
Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento
está entre 85,5 y 94,6 gramos, con un 90% de confianza.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS
ESTIMACIÓN DE LA DIFERENCIA DE DOS MEDIAS
CASO 1: Poblaciones normales y μ1 y μ2 con σ1 y σ2 conocidos.
Si se tienen dos poblaciones con medias 1 y  2 y varianzas  12 y  22 respectivamente, un
estimador puntual de la diferencia entre 1 y  2 esta dado por el estadístico X 1  X 2 . Por lo cual,
1   2 , se seleccionaran dos muestras aleatorias
para obtener una estimación puntual de
16
independientes, una de cada población, de tamaño n1 y n2 , y se calculara la diferencia X 1  X 2 de las
medias maestrales.
Si la selección de las muestras se realizaron independientemente a partir de poblaciones normales o en
caso contrario, n1 y n2 son mayores que 30, se puede establecer un intervalo de confianza para
1   2 considerando la distribución muestral de X 1  X 2 . De acuerdo con este planteamiento puede
esperarse que la distribución muestral de X 1  X 2 tenga una distribución aparentemente normal con
 2   2 
 . De acuerdo con
media  X  X  1   2 y desviación estándar  X  X   1    2
n1
n2 
1
2
1
2

 

este planteamiento se puede afirmar con una probabilidad de 1   que la variable normal estándar es:
Z
( X 1  X 2 )  ( 1   2 )
y caerá entre  Z 2 y Z 2 , entonces , P(Z 2  Z  Z 2 )  1  
  12    22 




n1  
n2 

 

y ahora sustituyendo Z por su valor, se expresa en forma equivalente que





( X 1  X 2 )  ( 1   2 ) 

  1
P  Z 2 

2
2
 1   2  


 


n1  
n1  




 

Intervalo de Confianza para μ1 – μ2; con σ2 1 y σ 2 2Conocidas
Si X 1 y X 2 son las medias de muestras aleatorias independientes del tamaño de n 1 y n2 a partir de
poblaciones con varianzas conocidas  12 .. y.. 22 , respectivamente, un intervalo de confianza de
(1   )100% para 1   2 esta dada por la formula matemática siguiente:
( X 1  X 2 )  Z 2
 12
2
2 2
 2  1   2  ( X 1  X 2 )  Z 2 1  2 , donde Z 2 es el valor Z
n1 n2
n1 n2
que delimita un área de  2 a su derecha.
En forma general se tiene:
( X 1  X 2 )  Z 2
 12

 2 .
n1 n2
2
Observación: En la fórmula también puede utilizarse  2  1
X 2  X 1 en lugar de X 1  X 2 .
y en ese caso debe considerarse
El grado de confianza es exacto cuando se seleccionan muestras a partir de poblaciones normales.
Cuando las poblaciones no son normales, se obtienen un intervalo de confianza aproximado muy
aceptable cuando n1..y..n2  30 .Cuando se desconocen  12 y  22 y las muestras son suficientemente
grandes, se puede reemplazar  12 por
intervalo de confianza.
S12 y  22 ... por...S 22 sin que se afecte en forma alguna el
Ejemplo 3: Al determinar la superficie en miles de hectáreas de las explotaciones agrícola-ganaderas de
cierta zona, una muestra de 40 explotaciones dio una superficie media de 900 ha, con una desviación
típica de 300 ha. En otra zona, al muestrear también 40 explotaciones, la superficie media fue de 600
ha con una desviación típica de 150 ha. Suponiendo que en ambas zonas la variable "superficie en ha
por explotación" se distribuye normalmente, estimar por un intervalo de confianza del 90%, la
diferencia entre las superficies medias de las explotaciones de ambas zonas.
17
Respuesta:
X1 = superficie de cada explotación agropecuaria de la primera zona
X2 = superficie de cada explotación agropecuaria de la segunda zona
, n = 40; S12  300.., S 22  150 , por ser una muestra grande se
,
puede remplazar S 2 .. por.. 2 sin que se afecte el intervalo de confianza.
Por tabla:
Z 2  1,645 Luego aplicando la formula se tiene:
300 2 150 2
IC0.90  (900  600)  1,645

 IC0.90  300  1,645 x53,033  IC0.90  300  87.24.
40
40
Entonces, IC0.90 = (212,8; 387,2)
Interpretando este resultado, se puede afirmar que la diferencia entre las superficies medias de las
explotaciones agrícola-ganaderas de ambas zonas, se encuentra entre 212,8 y 387,2 ha, con un 90% de
confianza.
EJEMPLO 4. Cincuenta alumnas y setenta y cinco alumnos del IUJAA presentan una prueba de
Estadística. Las muchachas obtuvieron una calificación promedio de 76 puntos, con una desviación
típica de 6, mientras que los muchachos lograron un promedio de 82, con una desviación estándar de
8. Encuentre el intervalo de confianza de 96 % para la diferencia de 1   2 , donde 1 es la
puntuación media de todos los alumnos y  2 es la puntuación promedio de todas las alumnas que
presentaron esa prueba.
SOLUCIÓN: La estimación puntual de 1   2 es
X1  X 2  82  76  6. Puesto que n1...y...n2
son grandes, se puede sustituir  1.. por..S1  8.. y.. 2.. por..S 2  6 . Por tabla Z 2  2.05 , por lo tanto,
sustituyendo en la formula estos datos, el intervalo de confianza de 96 % es:
( X 1  X 2 )  Z 2
6  2.05
 12
n1

 22
n2
, ( X 1  X 2 )  6..,  12  8,..n1  75,.. 22  6,..n2  50. .
64 36

 6  2.05 x1,254  6  2.57  (3.43,..8.57) , luego el intervalo buscado es:
75 50
(3.43; 8.57), o también,
3.43  1  2  8.57
DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES
Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito)
es p, mientras la probabilidad de que no ocurra es q =1 – p. Por ejemplo, la población puede ser la de
todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p = ½.
Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas
determinemos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de caras en
N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media  p y cuya
desviación típica p viene dada por
p  p
y
p 
pq

n
p(1  p)
n
Para valores grandes de N (N30), la distribución de muestreo está, muy aproximadamente,
normalmente distribuida, Nótese que la población está binomialmente distribuida. Las ecuaciones
anteriores son válidas también para una población en la que se hace muestreo con reposición. Para
18
poblaciones finitas en que se haga muestreo sin reposición, dichas ecuaciones quedan sustituidas por
y
.
Intervalo de confianza para p, a partir de una muestra grande


Si p Es la proporción de éxito en una muestra aleatoria de tamaño n, y q  1  p , un intervalo de
confianza aproximado de (1   )100% para el parámetro binomial p esta dado por la siguiente
formula matemática:


pq
pq

, donde
 p  p  Z 2
n
n
general la formula se puede expresar así:

p  Z 2

p  Z 2
Z 2 es el valor de
x / 2 a su derecha. En forma

pq
.
n

La proporción p de la muestra se utiliza como estimación de p en... pq  porque se desconoce el
n 

valor de p y se trata de la cantidad que se debe estimar. Para estar seguro de su confiabilidad, se


requiere que los productos np... y...nq sean mayores o iguales a 5.
EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la
ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. Obtenga un intervalo de
confianza de 95 % para estimar la proporción real de familias en la ciudad mencionada que se
suscribieron a Cables El Tigre.

SOLUCIÓN: La estimación puntual de
p..es.. p  340 / 500  0.68. Por tabla se sabe que



Z 2  1.96 ; p  0.68;...q  1  p  0.32, luego el intervalo de confianza aplicando la formula general
será:
0.68  1.96
(0.68)(0.32)
 0.68  1.96 x0.021  068  0.04  El .. int ervalo..de..confianza ..es :
500
(0.64  p  0.72)
Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80
curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.
 80



p
 0.80;..q  1  p  q  0.20;..Z 2  1.96;..n  100 .
100
Intervalo de confianza al 95 %: 0.80  1.96
(0.80)(0.20)
 0.80  1.96(0.04)  0.80  0.0784
100
Luego el intervalo de confianza al 95 % es:(0.72; 0.88)
¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre,
aproximadamente,
72%
y
88%
con
un
95%
de
probabilidad.
¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.
EJEMPLO: Una máquina fabrica piezas de precisión y en una caja de 200 piezas, recibida por un
cliente han aparecido 7 piezas defectuosas, a un nivel de confianza del 99% ¿entre qué valores se puede
esperar que esté la verdadera proporción de piezas defectuosas fabricadas por la máquina?
19
7

SOLUCIÓN: Se calcula la proporción de de piezas defectuosas en la muestra: p 
 0.035 , luego
200

pq




,
q  1  p  q  0.965 , por tabla Z 2  2,575 , ahora aplicando la formula general p  Z 2
n
se tiene:
(0.035)(0.965)
 (0.035)  2,575(0.013)  (0.035)  (0.033) ,
200
buscado es: (0.002; 0.068).
(0.035)  2,575
luego
el
intervalo
Se deja al estudiante que calcule los intervalos para los niveles de confianza de 90% y 95%

Si p es valor central de un intervalo de confianza de (1   )100% , entonces p estimará sin error el

valor de p. Sin embargo, la mayoría de las veces p no será exactamente igual a p, y la estimación

puntual será errónea. El tamaño de ese error será la diferencia positiva que separa p y p , y puede

pq
tenerse una confianza de (1   )100% de que esa diferencia no excederá de Z 2
. De acuerdo
n
con este planteamiento se afirma que:

Si p se utiliza como una estimación de p, puede tenerse una confianza de (1   )100% de que el error

pq
no excederá de Z 2
. Por lo tanto, se puede afirmar que:
n

Si p se utiliza como una estimación de p, puede tenerse una confianza de (1   )100% de que el
error será menor que una cantidad especificada e cuando el tamaño de la muestra es

Z2 2 pq
aproximadamente de n 
.
e2
EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la
ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe
ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro
de 0.02?
SOLUCIÓN: Se tomarán las 500 familias como una muestra preliminar que proporcionará una

Z2 2 pq
 340
 0.68 ; por tabla Z 2  1.96 ; e = 0.02. Luego se aplica la formula n 
muestra p 
500
e2
n
(1.96) 2 (0.68)(0.32)
(0.02) 2
 2090.
Por lo tanto, si la estimación de p se basa en una muestra aleatoria de tamaño 2090, se puede tener una
confianza de 95 % de que la proporción de la muestra no será diferente de la proporción real en más de
0.02.
Algunas veces será poco práctico obtener una estimación de p que habrá de utilizarse al determinar el
tamaño de la muestra para un grado de confianza especificado. Si esto ocurre, se establece un límite
 


superior para n, observando que pq  p(1  p), lo cual debe ser por lo menos igual a ¼, ya que p
debe estar entre 0 y 1. De acuerdo con este planteamiento se puede enunciar lo siguiente:

Si p se utiliza como una estimación de p, se puede tener por lo menos una confianza de (1   )100%
de que el error no excederá de una cantidad especificada e cuando el tamaño de la muestra sea
Z2 2
 Z 2 

n
 

4e 2  2e 
2
20
EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la
ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe
ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro
de un 2 %?
SOLUCIÓN: En este caso a diferencia del ejemplo anterior, se supondrá ahora que no se ha tomado
ninguna muestra preliminar para tener una estimación de p. Por lo tanto, puede tenerse por lo menos 95
% de confianza de que la proporción en la muestra no será diferente de la proporción verdadera en más
2
 Z 2 
 así:
de 0.02 si se elige una muestra de tamaño aplicando la formula n  

 2e 
Datos: Z 2  1.96,..e  0.02 y como se desconoce p esta se toma como p = 05.
2
 1.96 
  2401.
n  
 (2)(0.02) 
EJEMPLO: Imagina que queremos estimar con un error máximo del 3%, el porcentaje de audiencia de
un programa de TV, y queremos un 95% de confianza para nuestros resultados. No disponemos de
información previa sobre el posible valor de p. ¿Cuántos teleespectadores deberán ser encuestados?
SOLUCIÓN: Puesto que desconocemos p, tomaremos p = 0,5. Para un nivel de confianza del 95%
deberemos tomar Z 2 =1,96. Aplicando la formula
 Z 2 

n  

2
e


2
, entonces se tiene:
 1.96 
2  3,8416  3,8416  1067
n
 2(0.03) 2 
4(0.0009) 0.0036


Con lo que n =1067. Tenemos pues un 95% de confianza en que el porcentaje que encontremos se
halle a menos de tres puntos porcentuales de la proporción exacta.
Estimación de la diferencia entre dos proporciones
Considérese el problema en el que se desea estimar la diferencia entre dos parámetros binomiales, p1 y
p2. Por ejemplo, se puede considerar que p1 es la proporción de fumadores con cáncer pulmonar y p2 la
de los que no fuman y tienen también cáncer pulmonar. El problema, entonces, es estimar la diferencia
entre estas dos proporciones. En prímer lugar, se seleccionan muestras aleatorias independientes de
tamaño n1 y n2 a partir de las dos poblaciones binomiales con medías n1 p1 y n2 p2, y variancia n1p1 q1 y
n2p2q2 , respectivamente; luego se determinan los números x1 y x2 de personas de cada muestra con


padecimiento de cáncer pulmonar y se forman las proporciones p  x1 n1
y p  x2 n2 . Un
estimador puntual de la diferencia entre las dos proporciones p1  p2 está dado por el estadístico




p1  p2 . Así la diferencia de las proporciones de muestra, p1  p2 será utilizada como estimación


puntual de p1  p2 .
Un intervalo de confianza para p1  p 2 puede establecerse considerando la distribución muestral de




p1  p2 . Se sabe que p1 y p 2 están distribuidos aproximadamente en forma normal cada uno, con
medias p1 y p2 y variancias p1q1/n1 y p2q2 /n2, respectivamente. Eligiendo muestras independientes a


partir de las dos poblaciones, las variables p1 y p 2 serán independientes; luego, por la propiedad de


la distribución normal, se concluye que p1 y p 2 está distribuida de modo aproximadamente normal,
pq
p q
con media  p1  p 2  p1  p2 y varianza  2p  p  1 1  2 2 , por lo tanto, se puede aseverar
1
2
n1
n2
21
P( z 2  Z  z 2 )  1  
que
, donde


( p1  p 2 )  ( p1  p 2 )
Z
 p1q1   p 2 q 2 

  

 n1   n2 
después de realizar las
simplificaciones algebraicas usuales, se reemplazan p1, p2, q1, . y.q2 en el radical por sus estimaciones






p1  x1 n1 ; p2  x2 n2 , q1  1  p1. y..q2  1  p2. Siempre que
 
 
p1q1 p 2 q 2

mayores o iguales a 5, obteniéndose
.
n1
n2


n1 p1, n1q1, n2 p2,.y.n2 q2 sean todos
Intervalo de Confianza para p1 – p2, a Partir de Muestras Grandes
Si p1 y p2 son las proporciones de éxitos en muestras aleatorias de tamaño n 1 y n2 respectivamente, y




además q1  1  p1 y q2  1  p2 , entonces un intervalo de confianza p 1 – p2 , esta dado la
formula:


( p1  p2 )  Z x 2
 
 
p1q1 p2 q2



 p1  p2  ( p1  p2 )  Z x 2
n1
n2
 
 
p1q1 p2 q2

, donde
n1
n2
Z x 2 es el
valor que delimita un área de x 2 a su derecha.
EJEMPLOS: Un fabricante de insecticida en presentación aerosol desea comparar desea comparar dos
productos nuevos, A y B. En el experimento se emplean dos habitaciones del mismo tamaño, cada una
con 1000 mosquitos. En uno de los cuartos se rocía el insecticida A y en el otro se rocía el insecticida
B en igual cantidad. Después del experimento se obtiene un total de 825 y 760 mosquitos muertos por
acción de los insecticidas A y B respectivamente. Se desea estimar la diferencia de la proporción de
éxito para los dos insecticidas cuando se usan en condiciones similares a las experimentadas. Resuelva
el caso.
825 760


( p1  p2 

 0.065 . Por tabla
1000 1000
825
760




Z x 2  1.96 , p1 
 0.825,..q1  0.175;.. p2 
 0.76;..q2  0.24;..n  1000
1000
1000
SOLUCIÓN: El estimador puntual de (p1 – p2) es
El intervalo de confianza del 95 % es:
(0.825)(0.175) (0.76)(0.24)


( p1  p2 )  1.96

 (0.065)  1.96(0.018)  (0.065)  (0.035)
1000
1000
El intervalo resultante es: 0.03  p1  p2  0.1 .
Por lo tanto se estima que la diferencia ( p1  p2 ) de proporciones de éxito esta entre 0.03 y 0.100. Es
decir, se estima que p1 excede de p2 por al menos 0.03 y a lo más por 0.100, entonces se puede tener
buena confianza en esta estimación.
CONCEPTOS BÁSICOS

Estimación: valor específico de un estimador, calculado en base a una muestra dada.

Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población
desconocido.

Estimación de parámetros: Aproximación del valor de parámetros poblacionales
desconocidos mediante el empleo de estadísticos muestrales.

Estimación puntual: un solo número que se utiliza para estimar un parámetro de población
desconocido.

Estimador: estadístico de muestra utilizada para estimar un parámetro de población.
Conceptualmente es una variable aleatoria.
22

Estimador coherente: estimador que produce valores que se acercan más al parámetro de la
población conforme aumenta el tamaño de la muestra.

Estimador eficiente: estimador con un menor error estándar que algún otro estimador del
parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador,
más eficiente será ese estimador.

Estimador imparcial: estimador de un parámetro de población que, en promedio, asume
valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado,
con que tiende a tomarlos por debajo del parámetro de la población.

Estimador suficiente: estimador que utiliza toda la información disponible en los datos
correspondientes a un parámetro.

Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que
incluya el valor real del parámetro de la población.

Límites de confianza: límites inferior y superior de un intervalo de confianza.

Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo
de un parámetro de población, ésta indica qué tan seguros están de que la estimación de
intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un
intervalo de confianza incluya al valor del parámetro desconocido.

Propiedades de un buen estimador: características deseables de un estimador, para lograr la
mejor aproximación posible de un parámetro poblacional.
23