Download notas del curso probabilidad y estadística

Document related concepts

Parámetro estadístico wikipedia , lookup

Desviación típica wikipedia , lookup

Varianza wikipedia , lookup

Muestra estadística wikipedia , lookup

Distribución t de Student wikipedia , lookup

Transcript
NOTAS DEL CURSO
PROBABILIDAD Y ESTADÍSTICA
OSCAR COREÑO ALONSO
Febrero, 2013.
Introducción
Con el surgimiento de los métodos de control de calidad y de las normas
ambientales, en el campo de la ingeniería Civil y Ambiental se ha visto un número
creciente de aplicaciones en estos campos y entonces ahora se pueden exponer
en clase problemas aplicados en estas áreas, haciendo la clase más interesante
para los alumnos. Adicionalmente, los problemas de cambio climático son de
interés para las ramas de ingeniería Civil y Ambiental no sólo porque la existencia
del cambio climático se demuestra con datos estadísticos, sino porque como
consecuencia de este cambio, la estadística y la probabilidad se han hecho una
herramienta indispensable para poder predecir, al menos en forma aproximada,
los nuevos valores esperados de precipitación y temperatura para el futuro,
mismos que hasta hace algunos años se pensaba podían ser estimados en forma
relativamente sencilla.
Se pretende dar al alumno una herramienta de aprendizaje con la cual pueda
comprender los aspectos fundamentales del manejo de conjuntos de datos
numéricos, con ejemplos claros y sencillos de los temas tratados. El objetivo no es
cubrir de manera exhaustiva todos los tipos de problemas básicos de la materia,
sino servir de guía rápida para estudiar en casa y de apoyo para la resolución de
problemas en forma individual.
Objetivo
Estas notas pretender apoyar al alumno para que al final del curso sea capaz de
aplicar las técnicas y métodos estadísticos para análisis de datos, en la toma de
decisiones más confiables, en problemas del área de ingeniería bajo condiciones
de riesgo e incertidumbre.
Página No. 1
Índice
Introducción
1
Media, Mediana, Moda y otras medidas de tendencia central
3
1. La Desviación Típica y Otras Medidas de Dispersión
10
2. Momento, Sesgo y Curtosis.
14
Teoría Elemental de Probabilidades
17
Distribuciones.
26
Teoría Elemental de Muestreo
32
Teoría de la Estimación Estadística
50
Teoría Estadística de Decisiones
56
Teoría de Pequeñas muestras
65
El test Ji cuadrado
77
Ajuste de curvas y el método de mínimos cuadrados
83
Bibliografía
93
Página No. 2
I.- MEDIA, MEDIANA, MODA Y OTRAS MEDIDAS DE TENDENCIA CENTRAL.
1.1 Notación de Índices.
Se denota Xi (se lee X subíndice i) a cualquiera de los N valores X1, X2,X3, hasta
XN.
Notación de Suma.
Para denotar la suma de los valores de X desde X1 hasta XN se escribe:
∑
(1)
Ejemplos:
1.- ∑
(
2.- ∑(
∑
)
∑
)
∑
∑
1.2 Promedios o Medidas de Tendencia Central.
Un promedio es un valor con el que podemos representar un conjunto de datos. Si
ordenamos los valores de mayor a menor o viceversa, el promedio tiende a estar
en el centro de los valores ordenados, por lo que el promedio se conoce como
medida de tendencia central. Para describir el conjunto de datos podemos usar
otras medidas de tendencia central como el mediana, la moda, la media
geométrica y la media armónica, descritas a continuación.
1.3 La Media Aritmética es el valor que conocemos comúnmente como promedio
o media y para un conjunto de datos se representa como ̅
∑
⁄ .
(2)
Por ejemplo, la media de 1,2,3,7,8,9 es ̅
)⁄
(
Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN,
respectivamente, la media aritmética está dada por
∑
̅
∑
(3)
Donde el número total de datos es N = Σf.
Por ejemplo, si los números 2,3,4 y 5 ocurren con frecuencias respectivas 3,4, 5 y
10,
̅
respectivamente,
( ( )
( )
( )
(
la
))⁄
1.4 La media aritmética ponderada.
Página No. 3
media
aritmética
es
A veces, asignamos a los números X1, X2,,,XN, ciertos factores o pesos w1,
w2,,,wN, de pendientes de la relevancia asignada a esos números. En este caso la
media aritmética ponderada está dada por
∑
̅
∑
(4)
∑
Por ejemplo, si en un curso los exámenes cuentan 70%, las tareas 20% y la
asistencia a clase 10%, y alguien tiene 8 en los exámenes, 7 en las tareas y 9 en
asistencias, la calificación final es
(
̅
)
(
)
( )
Propiedades de la Media Aritmética.
1.- La suma algebraica de las desviaciones de un conjunto de números respecto
de la media aritmética es cero. Por ejemplo, hemos visto que la media de
1,2,3,7,8,9 es 5; las desviaciones respectivas de los números es -4,-3,-2,2,3 y 4.
Se ve claramente que la suma de estas desviaciones es cero.
2.- La suma de los cuadrados de las desviaciones de un conjunto de números Xi
respecto de un cierto número a es mínima si y sólo si a= ̅ .
3.- Si f1 números tienen media m1, f2números tienen media m2,,, fN tienen media
mN entonces la media de todos los números es
∑
̅
∑
(5)
4.- Si A es una media aritmética supuesta o conjeturada (puede ser cualquier
número) y si di =Xi - A son las desviaciones de Xi respecto a A, se puede expresar
la media como
̅
̅
∑
∑
∑
∑
∑
(6)
(7)
1.5 Datos Agrupados.
Al resumir grandes colecciones de datos es útil distribuirlos en clases o categorías
y determinar el número de individuos que pertenecen a cada clase, llamado
Página No. 4
frecuencia de clase. Una disposición tabular de los datos por clases junto con las
correspondientes frecuencias de clase se llama distribución de frecuencias. Por
ejemplo, la tabla siguiente es una distribución de frecuencias de alturas (con
precisión de una pulgada) de 100 estudiantes varones de una universidad.
Altura (in)
Número de
Estudiantes
60-62
7
63-65
22
66-68
38
69-71
28
72-74
5
La primera clase consta de las alturas entre 60 y 62, y se indica por el rango 60-62
y su frecuencia es 7. Los datos organizados en clases como en la tabla anterior se
llaman datos agrupados. El símbolo que define una clase, como 60-62, se llama
intervalo de clase. Los números extremos, 60 y 62 se llaman, respectivamente,
límite inferior y límite superior de clase. Con frecuencia se intercambian los
términos clase e intervalo de clase. Los intervalos que al menos en teoría carecen
de un límite superior o inferior indicado, se llaman intervalos de clase abiertos. Por
ejemplo, en las alturas se podría hablar del intervalo de 75 o más pulgadas como
un intervalo abierto.
Fronteras de clase.
Si se dan las alturas con precisión de una pulgada, el intervalo de clase 60-62
incluye teóricamente todas las medidas desde 59.5000 hasta 62.5000 in. Estos
números, indicados más brevemente por los números exactos 59.5 y 62.5, se
llaman fronteras de clase; el menor es la frontera inferior y el mayor, la frontera
superior. En la práctica, las fronteras de clase se obtienen promediando el límite
superior de una clase con el inferior de la siguiente.
Tamaño o anchura del intervalo de clase.
Página No. 5
El tamaño o anchura del intervalo de clase es la diferencia entre la frontera
superior y la frontera inferior. Si todos los intervalos de clase de una distribución
de frecuencias tienen la misma anchura, la denotaremos por c. En tal caso, c es
igual a la diferencia entre dos límites inferiores o superiores de clases sucesivas.
Por ejemplo, en la tabla anterior c = 62.5 - 59.5 = 3.
Marca de Clase.
La marca de clase es el punto medio del intervalo de clase y se obtiene
promediando los límites inferior y superior de clase. Así, la marca de clase del
intervalo 60-62 es (60+62)/2 = 61.
Cuando los datos se presentan en una distribución de frecuencias, todos los
valores que caen dentro de un intervalo de clase dado se consideran iguales a la
marca de clase, o punto medio del intervalo. Las fórmulas que hemos visto son
válidas para tales datos agrupados si interpretamos Xi como la marca de clase, fi
como su correspondiente frecuencia de clase, A como cualquier marca de clase
conjeturada y di = Xi – A como las desviaciones de Xi respecto a A.
Cálculo de la Media Aritmética para Datos Agrupados.
Si todos los intervalos de clase tienen idéntica anchura, c, las desviaciones di = Xi
– A pueden expresarse como cuj donde uj = 0, ±1, ±2, ±3, y se tiene
̅
∑
∑
(
)
(8)
1.6 La Mediana.
La mediana de un conjunto de datos ordenados en magnitud es el valor central o
la media de los dos valores centrales si se tiene un número para de datos.
Ejemplos:
1.- La mediana del conjunto 2,3,4,4,5,7,7,8,9 es 5.
2.- La mediana del conjunto 1,2,3,4,5,6,7,8,9,10 es ½(5+6) = 5.5
Para datos agrupados, la mediana obtenida por interpolación viene dada por:
Página No. 6
(
(∑ )
)
(9)
Donde
= frontera inferior de la clase de la mediana.
N = frecuencia total (número de datos).
(∑ ) = suma de frecuencias de las clases inferiores a la de la mediana.
= frecuencia de la clase de la mediana.
c = ancho del intervalo de clase de la mediana.
1.7 La Moda.
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia; es
decir, el valor más frecuente. La moda puede no existir, o en caso de existir, no
ser única.
Ejemplos:
1.- Para el conjunto 1,2,3,4,5,5,5,6,7,8 la moda es 5
2.- Para el conjunto 1,2,2,2,3,4,5,5,5,6,7,8 la moda está formada por 2 y 5
3.- Para el conjunto 1,1,1,3,3,3,5,5,5,7,7,7,8,8,8 no hay moda.
Para datos agrupados, la moda puede deducirse de una distribución de
frecuencias o de un histograma a partir de la fórmula
(
)
(10)
= frontera inferior de la clase modal (clase que contiene la moda)
= exceso de frecuencia modal sobre la de la clase inferior inmediata.
== exceso de frecuencia modal sobre la de la clase superior inmediata.
c = ancho del intervalo de clase modal.
Relación empírica entre Media, Mediana y Moda.
Para curvas de frecuencia unimodal que sean poco asimétricas tenemos las
siguientes relaciones empíricas:
Media – Moda = 3 (media – mediana)
Página No. 7
1.8 La Media Geométrica, G.
La Media Geométrica, G, de un conjunto de N números positivos, X1,
X2,,,XN, es la raíz N-esima del producto de los N números.
√
(11)
Ejemplo:
1.- Para el conjunto de números 2,3,4,5, la media geométrica es
√( )( )( )( )
1.9 La Media Armónica, H.
La Media Armónica, H, de un conjunto de N números X1, X2,,,XN es el recíproco de
la media aritmética de los recíprocos de esos números:
∑
(12)
∑
Ejemplo:
1.- La media armónica de 2,3,4,5 es
1.10 La Media Cuadrática, MQ.
La Media Cuadrática, MQ, de un conjunto de N números X1, X2,,,XN se define
como
√∑
(13)
Ejemplo:
1.- La media cuadrática de 2,3,4,5,6 es
√(
1.11 Cuartiles, Deciles y Percentiles.
Página No. 8
)
= 4.2426
Si tenemos un conjunto de datos ordenados en magnitud, la mediana es el valor
que divide al conjunto en dos mitades. De igual forma, podemos pensar en los
valores que dividen al conjunto en cuartos iguales, llamados primero, segundo y
tercer cuartil, Q1, Q2, y Q3. Si dividimos el conjunto en diez partes iguales, tenemos
nueve deciles, D1, D2,D3,,,D9; si ahora partimos el conjunto en cien partes iguales,
tenemos 99 percentiles P1, P2, P3, P99.
Página No. 9
II.- LA DESVIACIÓN TÍPICA Y OTRAS MEDIDAS DE DISPERSIÓN.
La media aritmética puede servir como una primera magnitud para describir un
conjunto de datos, pero para una mejor descripción, necesitamos un dato más que
nos indique que tan dispersos están los datos alrededor de la media. Tomemos un
ejemplo simple, el conjunto formado por los números 9,10 y 11 tiene la misma
media aritmética que el conjunto 1,10,19, es decir, 10, pero el segundo conjunto
tiene valores más dispersos respecto del promedio que el primer conjunto.
La dispersión o variación de los datos intenta dar una idea de que tan esparcidos
están los datos. Las medidas de dispersión más comunes son el rango, la
desviación media, el rango semi-intercuartil, el rango percentil 90-10 y la
desviación típica.
2.1 El Rango.
El rango de un conjunto de números es la diferencia entre el mayor y el menor de
todos ellos.
Ejemplo:
1.- El rango del conjunto 2,3,4,5,5,6,6,7,8,9,12,13,14 es 14-2 = 12.
2.2 La Desviación Media.
La Desviación Media o desviación promedio de un conjunto de N números X1,
X2,,,XN se representa como DMy se define como
∑
̅|
|
(14)
Ejemplos:
1.- La media aritmética del conjunto 2,3,4,5,6 es 4 y la desviación media es
|
| |
| |
| |
| |
|
Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN,
respectivamente, la desviación media está dada por
∑
|
̅|
(15)
2.- La media aritmética del conjunto 2,2,2,3,3,3,4,4,4,5,5,5,6,6,6 es 4 y la
desviación media es
Página No. 10
|
|
|
|
|
|
|
|
|
|
2.3 El Rango Semi-Intercuartil.
El Rango Semi-Intercuartil se denota por Q y se define como
Q = ½ (Q3 –Q1)
2.4 El Rango Percentil 10-90.
El Rango Percentil 10-90 de un conjunto de datos se define por
Rango Percentil 10-90 = P90 – P10.
Donde P90 y P10 son los nonagésimo y décimo percentiles, respectivamente, del
conjunto de datos.
2.5 La Desviación Típica.
La Desviación Típica, o desviación estándar de un conjunto de números X1, X2,
X3,,, XN se denota por s y se define como:
̅)
(
√∑
(16)
Para conjuntos de menos de 10 datos, se puede definir la fórmula anterior con el
denominador dado por N-1 en lugar de N dentro de la raíz.
Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN,
respectivamente, la desviación típica está dada por:
̅)
(
∑
√
Ejemplos:
1.- La media del conjunto 2,3,4,5,6 es 4 y la desviación típica es
(
)
√
(
)
(
)
(
)
(
)
2.- La media del conjunto 2,2,3,3,4,4,5,5,6,6 es 4 y la desviación típica es
√
(
)
Página No. 11
(
)
(
)
(
)
(
)
(17)
2.6 La Varianza.
La Varianza de un conjunto de números se define como el cuadrado de la
desviación típica y se representa por s2.
Ejemplos:
1.- La varianza del conjunto 2,3,4,5,6 es 2.
2.- La varianza del conjunto 2,2,3,3,4,4,5,5,6,6 es 2.
Propiedades de la Desviación Típica.
1.- La desviación típica puede definirse como
√∑
(
)
(19)
Donde a es un promedio distinto de la media aritmética. De tales desviaciones
típicas, la mínima es aquella para la cual a = ̅ .
2.- Para datos distribuidos normalmente (que siguen una distribución normal,
68.27% de los datos están en el rango ̅ ± s, 95.45% de ellos están en el rango ̅
± 2s y 99.73% de los mismos se encuentran dentro del rango ̅ ± 3s.
3.- Supongamos que dos conjuntos de números tienen frecuencias totales N1 y N2
y varianzas respectivas
y
, y tienen la misma media. Entonces, la varianza
combinada de ambos conjuntos está dada por:
(20)
Corrección de Sheppard para la Varianza.
Como resultado del agrupamiento de datos, el cálculo de la desviación típica es
algo erróneo, por lo que para corregirlo se usa la fórmula
Varianza corregida = Varianza de datos agrupados – (c2/12)
donde c es la anchura del intervalo de clase. La corrección c2/12 se llama
corrección de Sheppard.
Relaciones Empíricas entre Medidas de Dispersión.
Página No. 12
La dispersión medida con la desviación típica es una medida de dispersión
absoluta, pero supongamos que tenemos una desviación típica de 1 en
mediciones que están todas alrededor de 10 y también de 1 en mediciones que
están en el rango de 1000, claramente, en el primer caso la dispersión es mayor,
por lo que necesario introducir el concepto de dispersión relativa, dado por:
Dispersión Relativa = Dispersión Absoluta/Promedio
Si la dispersión absoluta es la desviación típica s y el promedio es la media, ̅ ,
entonces la dispersión relativa se llama coeficiente de variación, o coeficiente de
dispersión; se denota por V y se define como:
Coeficiente de Variación (V)= s/ ̅
(21)
2.7 Variables Tipificadas. Unidades Estándar.
La variable que mide la desviación de la medida en unidades de desviación típica
se llama variable tipificada, es adimensional y viene dada por
̅
Página No. 13
(22)
III. MOMENTO, SESGO Y CURTOSIS.
3.1 Momentos.
Si los números X1, X2, X3,,, XN son los valores de la variable X, definimos la
cantidad
∑
̅̅̅̅
(23)
Llamada r-ésimo momento. El primer momento, con r=1 es la media aritmética.
El r-ésimo momento respecto a la media se define como
̅)
(
∑
(24)
Si r =1, entonces m1=0. Si r= 2, entonces m2 = s2 es la varianza.
El r-ésimo momento respecto a cualquier origen A se define como
∑
(
)
(25)
Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN,
respectivamente, los momentos anteriores vienen dados por
∑
̅̅̅̅
∑
∑
(
(
̅)
)
(26)
(27)
(28)
3.2 Relaciones entre Momentos.
Existen algunas relaciones entre momentos respecto de la media mr y momentos
respecto de un origen arbitrario
Página No. 14
3.3 Momentos para datos Agrupados.
El
r-ésimo momento respecto a cualquier origen A se define para datos
agrupados como
∑
(29)
3.4 Correcciones de Sheppard para Momentos.
Las Correcciones de Sheppard para Momentos son como sigue:
m2 corregido = m2 – (c2/12)
m4 corregido = m4 – (m2c2/2) + (7c4/240)
3.5 Momentos Adimensionales.
Podemos definir los momentos adimensionales respecto de la media como
ar = mr / sr
1/2
donde s = (m2)
(30)
es la desviación típica.
3.6 Sesgo.
El sesgo es el grado de asimetría de una distribución, es decir, que tanto la curva
de distribución no es simétrica. Si la curva de frecuencias tiene a la derecha una
cola más larga que a la izquierda, se dice sesgada a la derecha o de sesgo
positivo; en caso contrario, es sesgada a la izquierda o de sesgo negativo.
Para distribuciones sesgadas, la media tiende a estar del mismo lado de la moda
que la cola larga. Una forma de medir la asimetría es con esta diferencia: media –
moda y podemos hacerla adimensional dividiendo entre la desviación típica, lo que
en conjunto se llama sesgo:
Sesgo = (media – moda)/desviación típica
o alternativamente
típica
Página No. 15
Sesgo = 3(media – mediana)/desviación
Las ecuaciones anteriores se conocen como primer y segundo momento de sesgo
de Pearson, respectivamente. El sesgo también se puede definir en términos de
cuartiles y percentiles
Coeficiente Cuartil de sesgo= (Q3 – 2Q2 + Q1)/(Q3 – Q1)
Coeficiente Percentil 10-90 de sesgo= (P90 – 2P50 + P10)/(P90 – P10)
Coeficiente momento de sesgo = a3 = m3/s3
3.7 Curtosis.
La curtosis mide que tan puntiaguda es una distribución, respecto a la distribución
normal. Si tiene un pico alto se dice leptocúrtica, si es aplastada se dice
platicúrtica. La distribución intermedia entre las dos anteriores se llama
mesocúrtica.
(a) Leptocúrtica
(b) Mesocúrtica
(c)
Platicúrtica
Figura 1. Tipos de curvas de distribución
Podemos medir la curtosis en términos del momento respecto de la media
en forma adimensional con el coeficiente momento de curtosis:
Coeficiente momento de curtosis = a4 = m4/s4
(31)
que suele denotarse por b2. Para una distribución normal b2= a4 = 3. Y entonces
se puede definir la curtosis como (b2 - 3), que es positivo para una distribución
leptocúrtica, negativo para una platicúrtica y cero para la normal.
Definimos el coeficiente percentil de curtosis (kappa) como:
κ = Q /(P90 – P10)
donde Q es el rango semi-intercuartil. Para la distribución normal, κ = 0.263.
Página No. 16
(32)
IV. TEORÍA ELEMENTAL DE PROBABILIDADES.
4.1 Definiciones de Probabilidad.
Definición Clásica.
Si un suceso E tiene h posibilidades de ocurrir entre un total de n posibilidades,
cada una de las cuales tiene la misma oportunidad de ocurrir que las demás,
entonces la probabilidad de que E ocurra se denota por p, donde
p = Pr{E} = h/n
(33)
La probabilidad de que no ocurra E se denota por q, donde
q = Pr{no E} = 1- (h/n) = 1 - Pr{E}
(34)
de donde se tiene que la suma de la probabilidades de que el suceso ocurra, p,
más la probabilidad de que el suceso no ocurra es uno.
Ejemplo.
1.-
Supongamos que lanzamos un dado no trucado y queremos tener las
probabilidades de que salga un número par, esto es, 2, 4 o 6. La probabilidad de
que ocurra el suceso E es
p = Pr{E} = h/n = 3/6
dado que al lanzar el dado pueden ocurrir seis eventos, los números 1,2,3,4,5 o 6.
Definición como Frecuencia Relativa.
La definición clásica de probabilidad tiene el problema de que las palabras
oportunidad y probabilidad son muy parecidas y se cae en un círculo, por lo que se
ha propuesto definir la probabilidad en términos de frecuencia relativa de
ocurrencia del suceso cuando el número de observaciones es muy grande. La
probabilidad misma es el límite de esa frecuencia relativa cuando el número de
observaciones crece indefinidamente.
Ejemplo:
1.- Supongamos que en 1000 lanzamientos de una moneda, sale águila 545
veces, y en otros 1000 lanzamientos sale águila 485 veces. Entonces, en estos
2000 lanzamientos la probabilidad de águila es (545+485)/2000 = .515. En el
límite, o sea tirando la moneda un número infinito de veces, se supone que la
probabilidad de águila debe ser 0.5, si la moneda no está trucada.
Página No. 17
4.2 Espacio Muestral.
Conjunto de resultados posibles de un experimento, por ejemplo, al lanzar un dado
S = {1,2,3,4,5,6}; al lanzar dos monedas S = {(A,A),(S,S),(S,A),(A,S)};
4.3 Evento.
Subconjunto de un espacio muestral, queremos saber si el resultado de un
experimento pertenece a él o no. Ejemplo, al lanzar un dado la suma sea 5, S =
{(4+1),(1+4),(2+3),(3+2)};
4.4 Probabilidad Condicional; Sucesos Independientes y Sucesos Dependientes.
Si E1 y E2 son dos sucesos, las probabilidades de que E2 ocurra dado que E1 ha
ocurrido se denotan por Pr{E2/E1} o Pr{E2 dado E1} y se llama probabilidad
condicional de E2 dado E1.
Si la ocurrencia o no de E1 no afecta para nada la ocurrencia de E2, entonces
Pr{E2/E1} = Pr{E2} y se dice que E1 y E2 son sucesos independientes, de forma
contraria, son sucesos dependientes.
Si denotamos por E2E1 el suceso de que ambos E2 y E1 ocurran, llamado suceso
compuesto, entonces
Pr{ E2E1} = Pr{E1}Pr{E2/E1}
(35)
Para sucesos independientes
Pr{ E2E1} = Pr{E1}Pr{E2}
(36)
Para tres sucesos E1, E2 y E3
Pr{ E2E1E3} = Pr{E1}Pr{E2/E1}Pr{E3/E1E2}
(37)
Si E1, E2y E3 son tres sucesos independientes, entonces
Pr{ E2E1E3} = Pr{E1}Pr{E2}Pr{E3 }
Ejemplos.
Página No. 18
(38)
1.- Sean E1 y E2 los sucesos salga un número par en el primer lanzamientos de un
dado y salga un número par en el segundo lanzamientos de un dado. E1 y E2 son
dos sucesos independientes y
Pr{ E2E1} = Pr{E1}Pr{E2} = (½)(½) = ¼
2.- Las probabilidades de que el equipo A gane son 0.6 y las probabilidades de
que el equipo B gane son 0.4, así que las probabilidades de que ambos ganen son
Pr{ E2E1} = Pr{E1}Pr{E2} = (0.6)(0.4) = 0.24
3.- Una caja tiene 5 bolas rojas y 3 bolas blancas, si E1 es la probabilidad de que
la primera bola extraída es roja y E2 es la probabilidad de que la segunda bola
extraída es blanca, si las bolas no se regresan a la caja la probabilidad de sacar
primero bola roja y luego bola blanca es
Pr{ E2E1} = Pr{E1}Pr{E2/E1} =(5/8)(3/7)=15/56
4.5 Sucesos Mutuamente Excluyentes.
Dos o más sucesos se llaman mutuamente excluyentes si la ocurrencia de
cualquiera de ellos excluye la de los otros; entonces, si E1 y E2 son sucesos E1 y
E2 son sucesos mutuamente excluyentes, entonces Pr{ E2E1} = 0.
Si E2 + E1 denota el suceso de que ocurran E2 o bien E1 o ambos a la vez,
entonces
Pr{ E2 +E1} = Pr{E1} + Pr{E2} - Pr{ E2E1}
(39)
Para sucesos mutuamente excluyentes
Pr{ E2 +E1} = Pr{E1} + Pr{E2}
(40)
Ejemplos:
1.- Sea E1 el suceso sacar un rey de la baraja y E2 el suceso sacar un siete,
entonces, la probabilidad de sacar un rey o un siete es
Pr{ E2 +E1} = Pr{E1} + Pr{E2} = (4/52) + (4/52) = 8/52 = 2/13
2.- Sea E1 el suceso sacar un rey de la baraja y E2 el suceso sacar un corazón,
entonces, la probabilidad de sacar un rey o un corazón es
Pr{ E2 +E1} = Pr{E1} + Pr{E2} - Pr{ E2E1} = (4/52) + (13/52) – (1/52) = 4/13
4.6 Regla de la Probabilidad Total.
Página No. 19
Si los sucesos E1, E2,,,EN constituyen una partición del espacio muestral,
entonces:
Pr{ A} = Pr{E1}Pr{A/E1} + Pr{E2}Pr{A/E2} +…+Pr{EN}Pr{A/EN}
(41)
Ejemplo:
1.- 50% de las lámparas de una universidad se compran al proveedor X, 40% al
proveedor Y y 10% al proveedor Z. Según los registros 2% de las lámparas
comprada a X resultan defectuosas, 5% de las compradas a Y resultan
defectuosas y 4% de las compradas a Z resultan defectuosas. Determine la
probabilidad de que al comprar una lámpara ésta resulte defectuosa. Sea D el
suceso lámpara defectuosa, entonces
Pr{ D} = Pr{X}Pr{D/X } + Pr{Y}Pr{D/Y } +Pr{Z}Pr{D/Z }
Pr{ D} = Pr{0.5}Pr{0.02} + Pr{0.4}Pr{0.05} +Pr{0.1}Pr{0.04} = 0.034
4.7 Teorema de Bayes.
Este teorema sirve para calcular una probabilidad posterior P(A j/B) a partir de
probabilidades previas dadas P(Ai) y probabilidades condicionales P(B/Ai). Sean
A1, A2,,,AN un conjunto de eventos mutuamente excluyentes con probabilidades
previas P(Ai). Entonces, para cualquier otro evento B para el cual P(B) > 0, la
probabilidad posterior de Aj dado que B ha ocurrido es
(
)
(
) (
)
( )
(
∑
) (
(
)
) (
(42)
)
Ejemplo:
1. Determinar la probabilidad de que una lámpara defectuosa haya sido comprada al
proveedor Y.
(
)
( ) (
( )
4.8 Distribuciones de Probabilidad.
Discretas.
Página No. 20
)
(
)
Si una variable X puede tomar un conjunto discreto de valores X1, X2, X3,,,XN y
puede ocurrir con probabilidades p1, p2,p3,,,pN donde p1+ p2+p3+,,,+pN =1, se dice
que se tiene definida una distribución de probabilidad discreta para X. La función
p(X) que tiene valores de p1, p2,p3,,,pN para X = X1, X2, X3,,,XN, se llama función
de probabilidad. Como X puede tomar ciertos valores con ciertas probabilidades,
se llama una variable aleatoria discreta.
Ejemplo.
1.- La tabla muestra las probabilidades de obtener X puntos al lanzar un par de
dados.
X
2
3
4
5
6
7
8
9
10
11
12
p(X)
1/36
2/36
3/36
4/35
5/36
6/36
5/36
4/36
3/36
2/36
1/36
Continuas.
Extendamos los conceptos del punto anterior para una variable X que puede tomar
un conjunto continuo de valores. Se tendrá entonces una curva continua de
ecuación Y = p(X). El área total bajo la curva es 1, y el área comprendida entre X =
a y X = b es la probabilidad de que X tome valores entre a y b. Llamamos a p(X)
una función de densidad de probabilidad o función de densidad, y a X una variable
aleatoria continua.
p(X)
a b
X
Figura 2. Gráfica de una función de Densidad de Probabilidad.
4.9 Esperanza Matemática.
Página No. 21
Si p es la probabilidad de que una persona reciba una cantidad S de dinero, la
esperanza matemática se define como pS.
Ejemplo:
1.- Si la probabilidad de que alguien gane 5 millones de pesos en la lotería es 3 x
10-5, su esperanza matemática es 5X 106(3 x 10-5) = 150.
Si X denota una variable aleatoria discreta que puede tomar valores X1, X2, X3,,,
XN con probabilidades p1, p2,p3,,,pN donde p1+ p2+p3+,,,+pN =1, la esperanza
matemática de X, o valor esperado de X, se denotada como E(X) y se define como
E(X) = p1X1+ p2X2+p3X3+,,,+pNXN = ∑
(43)
Ejemplo:
1.- La tabla muestra las probabilidades de que en una universidad los alumnos
inscritos cursen X número de cursos. ¿Cuál es el valor esperado de número de
cursos que toma un alumno?
X
(#
de
1
2
3
4
5
6
7
0.01
0.03
0.13
0.25
0.39
0.17
0.02
cursos)
P(X)
E(X) = 0.01(1) + 0.03(2) + 0.13 (3) + 0.25 (4) + 0.39(5) + 0.17 (6) + 0.02 (7) = 4.57
cursos.
Relación entre Población, Media Muestral y Varianza.
Si seleccionamos una muestra de tamaño N al azar de una población (suponemos
que todas las muestras son igualmente probables), entonces es posible mostrar
que el valor esperado de la media muestral, m, es la media poblacional, μ. Sin
embargo, el valor esperado de la varianza muestral no es la varianza de la
población sino (N – 1)/ N veces dicha varianza poblacional.
Página No. 22
4.10 Análisis Combinatorio.
Principio Fundamental. Si un suceso puede ocurrir de n1 maneras y un segundo
suceso de n2 maneras, entonces el número de maneras en que ambos pueden
ocurrir en el orden especificado es n1n2.
Ejemplo:
1.- Si se tienen 5 camisas y 7 corbatas, entonces ambas pueden combinarse de
5(7) = 35 formas.
Factorial de n.
Se denota por n! y se define como n!= n(n-1)(n-2)•••1. El factorial de 4 es 4! =
4X3X2X1 = 24. Por definición, 0! = 1.
4.11 Regla de la Multiplicación.
Si un proceso consiste de K pasos, el primero de los cuales se puede hacer de n1
maneras, el segundo de n2 maneras, el tercero de n3 maneras y así
sucesivamente hasta el paso K, que se puede hacer de nK maneras, entonces el
proceso completo se puede hacer de n1n2n3…nK maneras diferentes.
Ejemplo:
1.- Se lanza un dado, se saca una pelota de una caja que tiene rojas, verdes,
azules y amarillas y finalmente, se lanza una moneda, ¿cuántos resultados
posibles tenemos?
S= (6)(4)(2)
4.12 Permutaciones.
Una permutación de n objetos tomados de r en r es una colección ordenada de r
objetos entre n. El número de permutaciones de n objetos tomados de r en r se
denota por nPr, P(n,r) o Pn,r y viene dado por
nPr=
n(n-1)(n-2)•••(n-r+1) = n!/(n-r)!
(44)
Ejemplo:
1.- El número de permutaciones que se pueden dar de las letras a,b,c,d tomadas
de dos en dos es
4P2=
12. Son ab, ac, ad, bc, bd, ba, cd, ca, cb,da, db y dc.
El número de permutaciones de n objetos de los que n1 son iguales, n2 son
iguales,,,, es
Página No. 23
n!/(n1!n2!•••)
2.- El número de permutaciones de letras de la palabra statistics es
10!/(3!3!1!2!1!) = 50,400
4.13 Combinaciones.
Una combinación de n objetos tomados de r en r es una selección de r de ellos sin
tomar en cuenta el orden de los r escogidos. El número de combinaciones de n
objetos tomados de r en r se denota por nCr y viene dado por
nCr=
n(n-1)(n-2)•••(n-r+1)/r! = n!/(n-r)!r!
(45)
Ejemplo:
1.- El número de combinaciones que se pueden dar de las letras a,b,c,d tomadas
de dos en dos es
4C2=6.
Son ab, ac, ad, bc, bd, cd.
4.14 Relación de la Probabilidad con la Teoría de Conjuntos.
En la teoría moderna de probabilidad se piensa en los posibles resultados de un
ensayo, experimento, etc, como
puntos de un espacio (puede ser de 1,2,3,,,
dimensiones) llamado espacio muestral. Si S contiene un número finito de puntos,
a cada punto está asociados un número no negativo, llamado probabilidad, tal que
la suma de todos ellos es 1. Un suceso es un conjunto de puntos de S, tal como
C1 o C2, esta figura se llama diagrama de Venn-Euler.
Un suceso C1 + C2 es el conjunto de puntos que están en C1 o C2 o en ambos. El
suceso C1C2 es el conjunto de puntos comunes a C1 y C2. La probabilidad de C1 +
C2 es la suma de las probabilidades asociadas a todos los puntos contenidos en el
conjunto C1 + C2. El conjunto C1 + C2 se denota como C1 U C2 y se llama conjunto
unión de los dos conjuntos. El conjunto C1C2 se denota por C1∩C2y se llama
intersección de los dos conjuntos.
Para denotar un conjunto sin puntos, conjunto vacío, se usa el símbolo φ.
Página No. 24
C1∩C2
C1
C2
Figura 3. Diagrama de Venn – Euler.
Página No. 25
V. DISTRIBUCIONES.
5.1 Distribución Binomial.
Si p es la probabilidad de que ocurra un suceso en un solo intento (llamada
probabilidad de éxito) y q= 1 – p es la probabilidad de que no ocurra en un solo
intento, entonces la probabilidad de que ocurra exactamente X veces en N
intentos, o sea X éxitos y
N –X fracasos viene dada por
p(X)=NCXpXqN-X
(46)
Ejemplo:
1.- La probabilidad de obtener 4 caras en 10 tiradas de una moneda es
10C4(½
)4(½)10-4=0.2051
2.- La probabilidad de obtener al menos 7 caras en 10 tiradas de una moneda es
10C7(½
)7(½)10-7 + 10C8(½ )8(½)10-8 + 10C9(½ )9(½)10-9 + 10C10(½ )10(½)10-10 = 0.1719
3.- En 80 tiradas de una moneda el número medio de caras es μ = Np =80(0.5)=
40 y la desviación típica es
√
√
(
)
)
.
4.- El conteo por sección de un tipo particular bacterias en agua en 10 muestras
produjo los siguientes resultados: 17,21, 23, 25, 17, 26, 24, 19, 21 y 17. Si la
media 21 y la varianza es 10.6 y las muestras siguen una distribución binomial,
determine el valor de N (el número máximo de bacterias que una muestra puede
tener) y p, la probabilidad de encontrar un organismo en cada ensayo realizado en
una porción de una muestra de prueba, usando los valores de la media y la
varianza.
Como μ = Np y σ2=Np(1-p) tenemos:
1-p = σ2/Np = 10.6/21= 0.505→p = 0.495 y N=μ/p = 21/.495= 42.42 ≈ 43
5.2 Distribución Normal.
La distribución continua más usada en estadística es sin duda la distribución
normal o distribución gaussiana definida como
Página No. 26
(
)
(47)
√
Donde μ es la media y la desviación típica es σ. El área limitada por la ecuación de
la distribución entre X=a y X = b es la probabilidad de que X esté entra a y b.
Si expresamos X en unidades estándar, Z= (X-μ)/σ, tenemos la forma canónica de
la distribución normal
(48)
√
La variable z está normalmente distribuida con media 0 y varianza 1.
Relación entre la distribución binomial y la distribución normal.
Si N es grande y ni p ni q son muy próximos a cero, la distribución binomial puede
aproximarse estrechamente con la distribución normal con variable canónica dada
por Z= (X-Np)/√
. En la práctica la aproximación es mejor si tanto Np como Nq
son mayores que 5.
Ejemplo.
1.- Calcular la probabilidad de obtener exactamente 40 caras en 80 lanzamientos
de una moneda. En este caso el número medio de caras es μ = Np =80(0.5)= 40 y
la desviación típica es σ=√
=√
(
)
)
. Ahora bien, en el
lanzamiento de una moneda los resultados son cantidades discretas, esto es, no
se pueden obtener resultados como 2.15 o 3.21 caras, pero para utilizar una
distribución continua, como lo es la distribución normal, debemos expresar en
número deseado de caras con una corrección por continuidad; en este caso, 40
caras pasa a ser un número que va de 39.5 a 40.5 caras y en unidades continuas
esto es
Z1= (39.5-40)/4.4721=-0.1118
y Z1= (40.5-40)/4.4721=0.1118
y de las tablas de distribución normal, la probabilidad de que Z esté entre ± 0.1118
es 2(0.0446) = 0.0892.
Página No. 27
5.3 Distribución de Poisson.
La distribución continua de Poisson está definida como
( )
X = 0, 1, 2,,,,
(49)
λ es igual la media y a la varianza de la distribución.
Ejemplo.
1.- La tabla presenta el número de partículas de polvo por unidad de volumen en
un examen de 100 muestras. Estime el número
de partículas esperadas por
unidad de volumen si se supone una distribución de Poisson.
# Partículas
#
las
Muestras
que
0
1
2
3
4
>4 (6)
13
24
30
18
7
8
11.76
25.18
26.94
19.22
10.28
1.57
en
se
observó
#
las
Muestras
que
en
se
espera ver
El número medio de partículas observadas por muestra es: μ = [0(13) + 1(24)
+2(30) +3(18)+4(7)+6(8)]/100 = λ = 2.14 y la probabilidad de encontrar X partículas
en una muestra es
( )
con esta ecuación se llenó el tercer renglón de tabla anterior.
2.-
En una planta de tratamiento de agua se usan bombas iguales y se ha
determinado que en un periodo de 4 semanas fallan 2 en promedio. El gerente
estima que el problema no es serio si durante las cuatro semanas no hay más de
4 fallas. ¿cuál es la probabilidad de que esto ocurra?.
Dado que λ = 2,
Página No. 28
( )
(
)
∑
5.4 Distribucion Log-Normal.
Si un fenómeno surge del efecto multiplicativo de un gran número de factores no
correlacionados, la distribución tiende a ser lognormal (o logarítmica normal), esto
es, el logaritmo de la variable está distribuido en forma normal. Muchos
fenómenos en la naturaleza tales como magnitud e intervalo de tiempo entre
terremotos, esfuerzos de ruptura en materiales o distribución de contaminantes en
suelos siguen esta distribución. Este razonamiento puede extenderse a la
ocurrencia de inundaciones y sequias.
Tomemos X como una variable aleatoria positiva y definamos Y = ln(X), con media
y desviación estandar μy y σy, distribuidas normalmente. Usando una
trasformacion uno a uno en la ecuación de la distribución normal, se tiene la
función de distribución de la probabilidad lognormal.
(
( )
La media es
( )
( ))
( )
( )√
[
( )
( )]
(50)
[
y la varianza es
( )
]. Con estas
dos ecuaciones podemos definir el coeficiente de variación Vx como
⁄
(
( )
)
De las ecuaciones anteriores se tiene
( )
[(
)
]y
( )
[
(
)
]
(51)
Ejemplo: (regresar a verlo luego de cubrir intervalos de confianza)
1.- La resistencia media de 165 muestras de madera para construcción fue de
39.33 N/mm2, con desviación típica de 9.44 N/mm2. Utilice la distribución
Página No. 29
lognormal para establecer los intervalos de confianza de a)95%, b)99% y c) la
probabilidad de que la resistencia sea mayor a 30 N/mm2
⁄
( )
[(
) ]
y
[
( )
]
(
)
a) Para el intervalo de 95% zc= ± 1.645
± 1.645 = (y-3.644)/0.237→ y1= 3.2541
x1= 25.90 N/mm2
y2= 4.0339
x2= 56.48N/mm2
b) Para el intervalo de 99% zc= ±2.58
± 2.58 = (y-3.644)/0.237
→
y1= 3.0325
x1= 20.75 N/mm2
y2= 4.2555
x2= 70.49N/mm2
c) z= (ln(30)-3.644)/0.237=-1.024→ p = 0.5+.3471
5.5 Distribución Multinomial.
Si los sucesos E1,E2,E3,,,EN, pueden ocurrir con frecuencias p1,p2,p3,,,pN,
respectivamente, entonces las probabilidades de que E1,E2,E3,,,EN, ocurran X1, X2,
X3,,, XN veces, respectivamente, es
(52)
Donde X1+X2+X3+,,,+ XN= 1.
Ejemplo:
1.- Se lanza una dado 9 veces, la probabilidad de obtener 1,3,5 una vez cada uno
y 2,4,6 dos veces cada uno es
( ) ( ) ( ) ( ) ( ) ( )
Página No. 30
5.6 Distribución Hipergeométrica.
Suposiciones que dan lugar a la distribución hipergeométrica.
1.- La población tiene N individuos.
2.- Cada individuo se caracteriza como éxito, S o fracaso, F y hay M éxitos en la
población.
3.- Se elige una muestra de n individuos sin reemplazo; cada subconjunto de n
individuos tiene las mismas probabilidades de ser elegido.
Ejemplo:
1.- Suponga que se tienen 20 impresoras de las cuales 8 son laser y 12 de
inyección de tinta, tomamos una muestra de 5 al azar ¿cuál es la probabilidad de
tener 3 impresoras laser en la muestra?
P(X=3) = 8C3(12C2)/20C5 =0.2384
Si X es el número de éxitos en una muestra completamente aleatoria de tamaño n,
extraída de una población que consiste de M éxitos y M-N fracasos, entonces, la
distribución de probabilidad de X, denominada distribución Hipergeométrica está
dada por
(
( )
)
(53)
Ejemplo:
1.- Suponga una región con 25 animales en peligro de extinción, de los cuales 5
han sido marcados; si se toma una muestra de 10 animales, ¿cuál es la
probabilidad de que 2 estén marcados?
( )
Página No. 31
(
)
VI.- TEORÍA ELEMENTAL DE MUESTREO.
6.1 Muestreo en Estadística.
En estadística se conoce como muestreo a la técnica para la selección de una
muestra a partir de una población.
Si el tamaño de la muestra es más pequeño que el de la población, se pueden
extraer dos o más muestras de la misma población. Al conjunto de muestras que
se pueden obtener de la población se le denomina espacio muestral. La variable
que asocia a cada muestra su probabilidad de extracción sigue la llama
distribución muestral. Existen dos técnicas para seleccionar muestras de
poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio. Cuando
este último cumple con la condición de que todos los elementos de la población
tienen alguna oportunidad de ser escogidos de la muestra, si la probabilidad
correspondiente a cada sujeto de la población es conocida de antemano, recibe el
nombre de muestreo probabilístico. Una muestra seleccionada por muestreo de
juicio puede basarse en la experiencia de alguien con la población. Algunas veces
una muestra de juicio se usa como guía tentativa para decidir cómo tomar una
muestra aleatoria más adelante.
Muestreo Estratificado: consiste en la división previa de la población de estudio en
grupos o clases que se suponen homogéneos, con respecto a alguna de las
características que se van a estudiar. A cada uno de estos estratos se le asigna
una cuota que determina el número de miembros del mismo que compondrán la
muestra.
Muestreo por Cuotas. En primer lugar es necesario dividir a la población de
referencia en varios estratos definidos por alguna variable de distribución conocida
(género, edad, etc.). Posteriormente se calcula el peso proporcional de cada
estrato, es decir, la parte proporcional de la población que representa. Finalmente,
se multiplica cada peso por el tamaño de la muestra para determinar la cuota
precisa en cada estrato.
Ahora bien, sin consideramos una aplicación práctica de muestreo, en particular
para suelos, la Norma Mexicana NMX-AA-132-SCFI-2006 para MUESTREO DE
SUELOS PARA LA IDENTIFICACION Y LA CUANTIFICACION DE METALES
Página No. 32
YMETALOIDES, Y MANEJO DE LA MUESTRA. (entendiendo por éstos el
arsénico, bario, berilio, cadmio, cromo hexavalente, mercurio, níquel, plata, plomo,
selenio, talio y vanadio), establece los siguientes tipos de muestreo (punto 8 de la
norma):
- Muestreo Exploratorio.
- Muestreo de Detalle.
- Muestreo de Fondo.
- Muestreo de Comprobación posterior a la Remediación.
Una vez determinado el número de puntos de muestreo de acuerdo al tipo de
muestreo seleccionado, la norma establece que se debe escoger un método para
determinar la localización y distribución de los mismos, de entre los que se
señalan a continuación:
- Muestreo a Juicio de Experto
- Muestreo Estratificado o Zonificado
- Muestreo Sistemático
- Muestreo Simple Aleatorio
- Métodos indirectos debidamente validados.
6.2 Teoría de Muestreo.
La teoría de muestreo estudia la relación entre una población y las muestras
tomadas de ella y es de gran utilidad en muchos campos. Por ejemplo, para
estimar magnitudes desconocidas de una población, tales como media o varianza,
llamadas a menudo parámetros de la población, a partir del conocimiento de esas
magnitudes sobre la muestra, que se llaman estadísticos de la muestra. Este sería
el caso de querer estimar la concentración promedio de un contaminante en un
terreno a partir de las concentraciones promedio en varias muestras.
La teoría de muestreo también es útil para determinar si las diferencias
observadas entre dos muestras son debidas a variaciones fortuitas o sin son
realmente significativas. Tales cuestiones aparecen, por ejemplo, al probar un
nuevo medicamento para tratar una enfermedad o al decidir si un proceso de
Página No. 33
producción es mejor que otro. Las respuestas implican el uso de los llamados
contrastes de hipótesis y de significación, importantes en la teoría de decisiones.
En general, un estudio de las inferencias hechas sobre una población a partir de
las muestras de la misma, con indicación de la precisión de tales inferencias, se
llama inferencia estadística.
6.3 Muestras Aleatorias.
Para que las conclusiones de la teoría de muestreo y de la inferencia estadística
sean válidas, las muestras deben escogerse representativas de la población. El
análisis de los métodos de muestreo y problemas relacionados se llama diseño
experimental.
Una forma de obtener una muestra representativa es mediante muestreo aleatorio,
de acuerdo con el cual cada miembro de una población tiene igual probabilidad de
ser incluido en la muestra. Lo cual se puede hacer usando números aleatorios,
como los que se pueden generar en la calculadora de mano o en las hojas de
cálculo.
6.4 Muestreo con y sin Reposición.
Si sacamos una pelota de una caja con pelotas de varios colores, podemos volver
a meterla a la caja o no. De esta forma, la pelota puede volver a ser extraída
muchas veces en el primer caso o no en el segundo. En el primer caso, hablamos
de muestreo con reposición y en el segundo de muestreo sin reposición.
Las poblaciones pueden ser finitas o infinitas. Sacar una baraja de un mazo de
barajas es un caso de muestreo en una población finita, pero contar los puntos en
10 lanzamientos de un dado es muestreo en una población infinita. Una población
finita en la que se efectúa muestreo con reposición puede considerarse infinita
teóricamente pues se pueden tomar infinitas muestras sin agotarla. En la práctica,
una muestra muy grande se puede considerar infinita, como la población del
Distrito Federal.
6.5 Distribuciones de Muestreo.
Página No. 34
Consideremos todas las posibles muestras de tamaño N en una población dada
(con o sin reposición). Para cada muestra podemos calcular un estadístico como
la media o la desviación típica, que variará de muestra en muestra. De esta
manera obtenemos una distribución del estadístico que se llama distribución de
muestreo.
Si, por ejemplo, el estadístico utilizado es la media muestral, entonces la
distribución de muestreo se llama distribución de muestreo de medias, pero
también podríamos tener distribución de muestreo de medianas, de varianzas o de
desviaciones típicas y para cada distribución de muestreo podemos calcular la
media, la desviación típica, etc.
6.6 Distribución de Muestreo de Medias.
Supongamos que se toman todas las posibles muestras de tamaño N, sin
reposición, de una población infinita de tamaño Np > N. Si denotamos la media y la
desviación típica de la distribución de muestreo de medias por
población por
̅
̅
y las de la
, respectivamente, entonces
(
̅
)
̅
√
√
(55)
Si la población es infinita o si el muestreo es con reposición, los resultados
anteriores se reducen a
̅
(
)
̅
(57)
√
Para valores grandes de N, (N≥30), la distribución de muestreo de medias es
aproximadamente
normal
con
media
̅
y
desviación
típica
̅,
independientemente de la población. En el caso de que la población esté
normalmente distribuida, la distribución de muestreo de medias también lo está,
incluso para valores pequeños de N (N <30 ).
Página No. 35
Ejemplo:
1.- Una muestra de 1000 niños mexicanos de 12 años dio un peso promedio de
36.6 Kg con desviación estándar de 1.2 kg. Si se toman 25 muestras de 30 niños
cada una, ¿cuál serán las media y la desviación típica esperadas de la resultante
distribución de muestreo de medias, si el muestreo se hizo (a) con y (b) sin
reposición?
(a)
(b)
̅
̅
̅
̅
√
√
√
√
6.7 Distribución de Muestreo de Proporciones.
Supongamos que una población es infinita (o finita con reposición) y que la
probabilidad de ocurrencia de un suceso es p, mientras que la probabilidad de que
no ocurra es q= 1 –p. Consideremos todas las posibles muestras de tamaño N de
tal población, y para cada una de ellas determinamos la proporción de éxitos P. En
el caso de una moneda, P sería la proporción de caras en N tiradas. Obtenemos
así una distribución de muestreo de proporciones cuya media
típica
̅
y desviación
vienen dadas por
y
̅
√
(58)
Para valores grandes de N, (N≥30), la distribución de muestreo de proporciones es
muy aproximadamente normal.
Nótese que la población está binomialmente
distribuida.
Ejemplo:
1.- Hallar la probabilidad de que en 200 lanzamientos de una moneda entre el 45%
y el 55 % de los lanzamientos sean águila.
Página No. 36
En 200 lanzamientos de una moneda, el 45% y 55% de los lanzamientos son 90 y
110, respectivamente, que aplicando la corrección por continuidad equivale a entre
89.5 y 110.5 águilas, por tanto
(
)
y
̅
√
√
(
)(
)
Z1= (89.5 – 100)/7.071 = -1.4849
Z2= (110.5 – 100)/7.071 = 1.4849
La probabilidad pedida es p = 2(.4312)= 0.8624
6.8 Distribución de Muestreo de Diferencias y Sumas.
Supongamos dos poblaciones. Para cada muestra de tamaño N1 de la primera,
calculamos un estadístico S1, con lo que tenemos la distribución de muestreo para
S1 con media y desviación típica denotadas por
. Del mismo modo, para
cada muestra de tamaño N2 de la segunda, calculamos un estadístico S2, con lo
que tenemos la distribución de muestreo para S2 con media y desviación típica
denotadas por
. De todas las posibles combinaciones de estas muestras
de las poblaciones podemos tener una distribución de diferencias S1 - S2, que se
llama distribución de muestreo de diferencias de los estadísticos. La media y las
desviación típica de esta distribución de muestreo, denotadas respectivamente
por
vienen dadas por
(
)
√
(60)
supuesto que las muestras no dependen una de la otra, o sea, son
independientes.
Si S1 y S2 son las medias muestrales de ambas poblaciones, cuyas medias
denotamos por ̅̅̅
̅̅̅, respectivamente, entonces la distribución de muestreo de
diferencias de medias viene dada para poblaciones infinitas con medias y
desviaciones típicas
Página No. 37
y
, respectivamente, por
̅̅̅̅ ̅̅̅̅
̅̅̅̅
(
̅̅̅̅
)
̅̅̅̅ ̅̅̅̅
√
̅̅̅̅
̅̅̅̅
√
(62)
El resultado también es válido para poblaciones finitas si el muestreo es con
reposición.
Resultados correspondientes se pueden obtener para las distribuciones de
muestreo de diferencias de proporciones de dos poblaciones binomialmente
distribuidas con parámetros p1,q1 y p2,q2, respectivamente. En este caso S1 y S2
corresponden a la proporción de éxitos P1 y P2, y se tiene
(
)
√
√
(64)
Ejemplo:
1.- Las baterías de dos fabricantes tienen vidas promedio de 986 (A) y 928 (B)
disparos en cámaras digitales, con desviaciones típicas de 27(A) y 37 (B)
disparos, respectivamente. Si se toma una muestra de 80 pilas de cada marca,
¿cuál es la probabilidad de que las de la marca A duren en promedio al menos (a)
50 y (b) 70 disparos más que las de la marca B?.
̅̅̅̅ ̅̅̅̅
(a)
(̅̅̅̅
̅̅̅̅)
( ̅̅̅̅̅
̅̅̅̅ ̅̅̅̅
̅̅̅̅
√
̅̅̅̅
̅̅̅̅
̅̅̅̅
√
√
̅̅̅̅̅ )
̅̅̅̅̅ ̅̅̅̅̅
Probabilidad al menos 50 disparos más = 0.5 +0.4408 = 0.9408
(b)
(̅̅̅̅̅ ̅̅̅̅)
( ̅̅̅̅̅̅
̅̅̅̅̅ ̅̅̅̅̅
Página No. 38
̅̅̅̅̅ )
Probabilidad al menos 70 disparos más = 0.5 - .4904 = 0.0096
Si N1 y N2 son grandes (N1, N2 ≥ 30), la distribución de muestreo de diferencias de
medias o proporciones está casi normalmente distribuidas.
Para la distribución de muestreo de suma de estadísticos, la media y la
desviación típica están dadas por
(
)
√
(66)
Ejemplo:
1.- Dos resistencias de 40 y 20 KΩ, con desviaciones típicas de 1 y 1.5 KΩ,
respectivamente. Hallar la probabilidad de que al conectarlas en serie presenten
una resistencia de al menos (a) 62KΩ y (b) 57 KΩ.
̅̅̅̅
̅̅̅̅
̅̅̅̅
̅̅̅̅
√
̅̅̅̅
̅̅̅̅
̅̅̅̅
̅̅̅̅
√
(a) Z = (62 - 60)/1.8 = 1.11
Probabilidad 62 o más = 0.5 - 0.3665 = 0.1335
(b) Z = (57 - 60)/1.8 = -1.67
Probabilidad 57 o más = 0.5 + 0.4525 = 0.9525
6.9 Localización de Puntos Altamente Contaminados en Suelos.
Un tema especial de muestreo en suelos es cómo localizar puntos altamente
contaminados. Supongamos que se usa un muestreo sistemático con mallas
rectangulares, cuadradas o triangulares y que sólo hay un punto altamente
contaminado.
En esta sección trataremos de responder a las preguntas,
1.- ¿Qué espaciamiento de malla se requiere para localizar un punto altamente
contaminado con cierta confianza?.
Página No. 39
2.- Dado un espaciamiento de malla, ¿Qué probabilidad hay de localizar un punto
altamente contaminado con tamaño dado?
3.- ¿Qué probabilidad existe de que un punto altamente contaminado exista
cuando no se ha encontrado ninguno por muestreo usando una malla?
Los métodos de esta sección requieren las siguientes suposiciones:
1.- El punto tiene forma circular o cilíndrica. Para puntos bajo la superficie, esto se
aplica a la proyección del punto sobre la superficie.
2.- Las muestras o las mediciones se toman sobre una malla rectangular,
cuadrada o triangular como en la figura 1.
3.- La distancia entre puntos de la red es mucho mayor que el área muestreada,
esto es, sólo una parte muy pequeña del área bajo estudio puede ser medida en la
práctica.
4.- La definición de punto muy contaminado es clara y sin ambigüedades. Esta
definición implica que los tipos de mediciones y los niveles de contaminación que
definen un punto altamente contaminado están bien establecidos.
5.- No se cometen errores a la hora de decidir si un punto altamente contaminado
se ha encontrado.
G
2G
1.155G
G
Figura 1. Configuraciones de malla para encontrar puntos de alta contaminación, el
muestreo se debe realizar en los nodos de la red.
Se estima que la red triangular es más efectiva que la red de cuadrada para
estimar la densidad de puntos contaminados en un área y que si los puntos están
distribuidos en forma aleatoria se puede usar ya sea una la red triangular o una
red de cuadrada.
Determinación del Espaciamiento en la Malla.
Página No. 40
El espaciamiento requerido de malla para encontrar un punto contaminado de
forma y tamaño predefinidos, con una confianza especificada, puede calcularse
con el siguiente procedimiento:
1. Especifique L, la longitud del semieje mayor del menor punto contaminado
importante a ser detectado (L es un medio del eje mayor de la elipse supuesta).
2. Especifique la forma esperada (S) de la elipse contaminada con la relación
S = longitud del eje menor / longitud del eje mayor
S debe estar entre 0 y 1. Si S no se conoce de antemano, una aproximación
conservadora es asumir una elipse delgada, tal vez S = 0.5, para dar el menor
espaciamiento posible entre puntos de la red que si se supone una elipse más
gruesa o un círculo. Esto es, muestreamos en una red más fina para compensar la
falta de conocimiento acerca de la forma del punto contaminado.
3. Especifique una probabilidad aceptable,β, de no encontrar el punto altamente
contaminado. El valor de β se conoce como el riesgo del consumidor. Por ejemplo,
podríamos aceptar un riesgo de 100β% = 10% como probabilidad de no encontrar
un punto altamente contaminado, dijéramos de L = 10 cm, pero si el punto fuera
mucho mayor, como de 10 m, tal vez sólo aceptaríamos β = 0.01.
4. Las figuras 2, 3 y 4 dan la relaciones entre β y la relación L/G, donde G es el
espaciamiento entre líneas de la malla. Usando la curva correspondiente para la
forma de interés, S, encuentre L/G para G, el espaciamiento requerido de la malla.
El número total de puntos de la red (posiciones a muestrear) se puede calcular ya
que el área a ser muestreada es conocida.
Ejemplo:
Suponga que se usa una malla cuadrada y que queremos que la probabilidad de
que no detectemos un círculo de radio L = 100 cm o mayor, no exceda el 10%, o
sea, β = 0.1. Usando la figura 2 para S = 1, tenemos L/G = 0.56 para β = 0.1.
Despejando G, se tiene que es igual a 180 cm. Entonces, si se toman muestras en
una red cuadrada con espaciamiento entre líneas de 180 cm, aseguramos que la
probabilidad de que no detectemos un punto de alta contaminación de 100 cm o
mayor de radio no es mayor de 10%.
Página No. 41
VII.-TEORÍA DE ESTIMACIÓN ESTADÍSTICA.
Estimación de Parámetros.
Figura 2. Gráfica de probabilidad de no encontrar un punto altamente contaminado vs. la relación
eje mayor de la elipse/ separación entre líneas de la malla, para una malla cuadrada.
Página No. 42
Figura 3. Gráfica de probabilidad de no encontrar un punto altamente contaminado vs. la relación
eje mayor de la elipse/ separación entre líneas de la malla, para una malla rectangular.
Figura 4. Gráfica de probabilidad de no encontrar un punto altamente contaminado vs. la relación
eje mayor de la elipse/ separación entre líneas de la malla, para una malla triangular.
Tamaño del Punto Altamente Contaminado que es Probable Localizar.
Página No. 43
Las figuras 2,3 y 4 también se pueden usar para encontrar el radio máximo de un
punto contaminado que puede encontrarse para un riesgo del consumidor dado.
Suponga, por ejemplo, que sólo tenemos recursos para muestrear 25 puntos en
una malla cuadrada. ¿Qué tamaño de blanco elíptico (caracterizado por L)
podemos esperar encontrar con una confianza 1- β (la probabilidad de encontrar
un punto al menos una vez). El procedimiento general es especificar β, G y S y
usar entonces las gráficas 2-4 para encontrar L.
Ejemplo:
Suponga, por ejemplo, que sólo tenemos recursos para muestrear 25 puntos en
una malla cuadrada en un área cuadrada de 10 m de lado, o sea, G = 200 cm.
¿Qué tamaño de blanco circular podemos esperar encontrar con una confianza de
al menos 90%, o sea, con probabilidad de no encontrarlo de 10% o menos?.
Como hemos visto en la figura 2, para S = 1 y β = 0.1 tenemos L/G = 0.56.
Entonces, L = 200 cm (0.56) = 112 cm. Por lo tanto, estimamos que un círculo con
radio de 112 cm o mayor tiene probabilidades no mayores a 10% de no ser
encontrado cuando se usa una red con espaciamiento de 200 cm. Si el blanco
tiene un radio L menor a 112 cm, la probabilidad de no localizarlo es mayor a 10
%. En forma inversa, si el radio es mayor a 112 cm, la probabilidad de no
localizarlo es menor a 10%. Si se requiere una probabilidad de localizar el blanco
de sólo
50%, la curva para S da L/G = 0.4 o L = 200cm (0.4)= 80 cm.
Si calculamos L como en el ejemplo anterior para diferentes valores de β y G,
podemos generar curvas que den la probabilidad de encontrar un blanco circular o
elíptico de cualquier tamaño. Estas curvas para espaciamientos de malla de 100,
200 y 300 unidades para dos formas de blanco, S = 1 y S = 0.5 se muestran en la
figura 5.
Ejemplo:
Suponga que se tiene un blanco circular (S = 1) en una malla cuadrada con
espaciamiento G= 100 unidades. Entonces, la probabilidad β de no encontrar un
blanco circular de radio L = 50 unidades (las mismas que G) es de cerca de 20%.
Si el blanco es menor, digamos L = 20 unidades, entonces β sube hasta cerca de
87%.
Página No. 44
Figura 5. Probabilidad de no encontrar un blanco (riesgo del consumidor, β) vs. longitud del
semieje mayor del blanco elíptico para dos formas de blanco.
Probabilidad de no Encontrar un Punto Altamente Contaminado
Las figuras 2-4 también pueden usarse para estimar el riesgo del consumidor, β,
de no localizar un punto altamente contaminado de un tamaño y forma dados
cuando se usa un espaciamiento de malla especificado.
Ejemplo:
¿Cuál es la probabilidad promedio de no encontrar un punto contaminado de
forma elíptica que es dos veces más lago que ancho y para el cual el simieje
mayor (L) es 0.4 del espaciamiento G entre puntos de la malla.
Suponga que se usa una malla rectangular, entonces, de la figura 3 y usando S =
0.5 y L/G = 0.4 se tiene β≈0.87. Entonces, hay un 87 % de posibilidades de que
este tamaño y forma de blanco no sea localizado muestreando en los puntos de la
malla. El valor real de β podría ser algo mayor o menor dependiendo de la
orientación del blanco relativo a la malla.
Tomando en Cuenta la Información Previa.
Hasta ahora, hemos considerado que un punto altamente contaminado realmente
existe. En la práctica, esta suposición no se puede garantizar. En esta sección
consideraremos como se puede usar la información previa sobre la probabilidad
Página No. 45
de que un punto contaminado exista para tener una estimación más realista de β.
Tomemos
A = evento de que un punto altamente contaminado de tamaño L o mayor exista.
B = evento de que un punto altamente contaminado de tamaño L o mayor sea
localizado al tomar mediciones en una malla.
Por la ley de las probabilidades condicionales.
P(B/A) = P(A,B)/P(A)
= Probabilidad de que un punto de tamaño L
o mayor es encontrado dado que el punto existe
Donde P(A,B) = Probabilidad de que un punto de tamaño L o mayor
existe y es encontrado al muestrear en la malla.
Cuando hay duda de si existe o no un punto contaminado de tamaño L, entonces
lo que interesa es P(A,B). Despejando de la ecuación anterior
P(A,B)=P(B/A)P(A)
Ahora, tenemos que P(B/A) es 1 – β. Entonces P(A,B) se puede calcular usando
las figuras 2-4 y especificando un valor para P(A). En muchas situaciones se tiene
la certeza de que el punto de dimensiones L o mayor existe así que P(A) = 1 y
P(A,B)=P(B/A). Si no se tiene la certeza de la existencia del punto, se puede hacer
una estimación basándose en muestreos anteriores y con otra información
disponible.
Ejemplo:
Suponga un punto contaminado circular de radio L= 100 cm y β= 0.1, para el cual
ya se ha calculado
un espaciamiento de malla G= 180 cm. Suponga que
información previa del sitio sugiere que la probabilidad de que dicho punto exista
es muy baja, así que P(A) = 0.01. Entonces, como P(B/A) = 1 – β = 0.9, tenemos
que P(A,B)= (0.9)(0.01)= 0.09. Entonces, si se usa un espaciamiento de malla de
180 cm, la probabilidad de que un punto contaminado de 100 cm o mayor de radio
exista y es encontrado es de sólo 0.09, suponiendo P(A) = 0.01.
Probabilidad de que un Punto Altamente Contaminado Exista Cuando no se ha
Encontrado Ninguno.
Página No. 46
Suponga que se toman muestras en una malla descrita por S, L, y β, pero que no
se encuentra ningún punto contaminado de tamaño L o mayor. Entonces, es
natural preguntarse ¿Cuál es la probabilidad de que
un punto altamente
contaminado exista cuando no se ha encontrado ninguno?. El procedimiento para
hacer esto es el siguiente:
Tomemos
A = evento de que un punto altamente contaminado de tamaño L o mayor exista.
̅ = evento de que un punto altamente contaminado de tamaño L o mayor no
exista.
B = evento de que un punto altamente contaminado de tamaño L o mayor sea
localizado al tomar mediciones en una malla.
̅ =evento de que un punto altamente contaminado de tamaño L o mayor no sea
localizado al tomar mediciones en una malla.
Entonces:
P(A/ ̅ ) = P(A, ̅ )/P( ̅ )
= Probabilidad de que un punto altamente contaminado de tamaño L o
mayor exista cuando no ha sido encontrado en el muestreo. Como
P( ̅ /A)P(A) y dado que debe ocurrir
A o
̅, entonces
P(A, ̅ )=
P( ̅ ) = P( ̅ A)P(A)
+P( ̅ / ̅)P( ̅) y por lo tanto
P(A/ ̅ ) = [P( ̅ /A)P(A)]/[ P( ̅ A)P(A) + P( ̅ / ̅ )P( ̅ )]
Podemos simplificar la expresión anterior tomando en cuenta que P( ̅ / ̅ ) = 1 y
P( ̅ ) = 1 – P(A). Entonces
P(A/ ̅ ) = βP(A)/ [1 -P(A)(1 - β) ]
Ejemplo:
Suponga que podemos tolerar un riesgo del consumidor no mayor al 10% de no
encontrar un punto contaminado circular de radio 100 cm o mayor. Como hemos
visto en el primer ejemplo, esto conduce a un espaciamiento de malla de 180 cm.
Ahora, suponga que podemos estimar la probabilidad de que el punto de tamaño L
o mayor exista como P(A) = 0.01. Si no se encuentra el punto contaminado con
espaciamiento de malla de 180 cm, la probabilidad de que dicho punto exista se
estima como
Página No. 47
P(A/ ̅ ) = βP(A)/ [1 -P(A)(1 - β) ] = (0.10)(0.01)/[1-(0.01)(1-0.10)] = 0.001
La probabilidad P(A/ ̅ ) se grafica en la figura 6 para varios valores de β y P(A). En
la figura se puede observar que P(A) tiene un fuerte efecto sobre el valor de
P(A/ ̅ ) y que es importante seleccionar un valor pequeño de β si queremos tener
una alta confianza de que el punto contaminado no ha sido omitido.
Ejemplo:
Suponga que tomamos un punto circular de radio L = 100 cm con P(A) = 0.50 y β
= 0.10. Entonces, P(A/ ̅ ) = 0.091, lo cual quiere decir que existe 9.1% de
probabilidad de que el punto de 100 cm de radio o mayor existe aun cuando no ha
sido encontrado. Si cambiamos β = 0.50, entonces P(A/ ̅ ) se incrementa a 0.33.
P(A/ ̅ ) se incrementa con
β debido a que mayores β´s implican mayores
espaciamientos de malla y por tanto menores probabilidades de encontrar el punto
contaminado.
Selección del Riesgo del Consumidor.
La figura 6 se puede usar para ayudar a decidir el valor del riesgo del consumidor,
β. Suponga que tenemos la especificación de P(A/ ̅ ) no mayor a un valor,
digamos 0.01. Esto es, queremos un 99% de confianza de que un punto
contaminado no exista, dado que el mismo no ha sido encontrado. Si en la etapa
de planeación de un esfuerzo de inspección se puede determinar un valor
razonable para P(A), entonces β puede determinarse usando la figura 6. Por
ejemplo, para P(A/ ̅ ) =0.01 y P(A)= 0.50, encontramos β = 0.01. Este valor de β
puede usarse entonces para determinar el espaciamiento de la malla.
Página No. 48
Figura 6. Relación entreP(A/ ̅ ), P(A) y el riesgo del consumidor,β.
Página No. 49
VII. TEORÍA DE LA ESTIMACIÓN ESTADÍSTICA.
En la sección anterior vimos cómo se puede usar la teoría de muestreo para
recabar información acerca de las muestras aleatorias tomadas de una población
conocida. En la práctica, es más importante como inferir información sobre una
población a partir de muestras suyas. De esto trata la inferencia estadística, que
usa los principios de la teoría de muestreo.
7.1 Estimación sin Sesgo.
Si la media de las distribuciones de muestreo de un estadístico es igual que la del
correspondiente parámetro de la población, el estadístico se llama estimador sin
sesgo del parámetro; si no, se llama estimador sesgado. Los correspondientes
valores de tales estadísticos se llaman estimaciones sin sesgo y sesgadas,
respectivamente.
Ejemplo:
La media de las distribuciones de muestreo de medias,
media poblacional,
̅,
es igual a la
Por lo tanto, la media muestral ̅ es un estimador sin sesgo
de la media poblacional
Ejemplo:
La media de las distribuciones de muestreo de varianza es
(67)
Donde
es la varianza de la población y N es el tamaño de la muestra. Así pues,
la varianza de la muestra s2 es una estimación sesgada de la varianza de la
población
.
7.2 Estimación Eficiente.
Si las distribuciones de muestreo de
dos estadísticos tienen la misma media, el
de menor varianza, se llama un estimador eficiente de la media, mientras que el
otro se llama un estimador ineficiente. Los valores correspondientes de los
estadísticos
se
respectivamente.
Página No. 50
llaman
estimación
eficiente
y
estimación
ineficiente,
Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo
tiene la misma media, aquel de varianza mínima se llama a veces el estimador de
máxima eficiencia, o sea, el mejor estimador.
Ejemplo:
Las distribuciones de muestreo de media y mediana tiene ambas la misma media,
a saber, la media de la población. Sin embargo, la varianza de la distribución de
muestreo de medias es menor que la varianza de la distribución de medianas. Por
tanto, la media muestral da una estimación eficiente de la media de la población,
mientras que la mediana de la muestra da una estimación ineficiente de ella.
7.3 Estimación de Punto y Estimación de Intervalo.
Una estimación de parámetros de la población dada por un solo número se llama
estimación de punto del parámetro. Una
estimación de parámetros de la
población dada por dos números, entre los cuales se puede considerar encajado
el parámetro se llama una estimación de intervalo del parámetro.
Las estimaciones de intervalo indican la precisión de una estimación y son por lo
tanto preferibles a las estimaciones de punto.
Ejemplo: si decimos que una distancia ha sido medida como 10.15 m, estamos
dando una estimación de punto. Por otra parte, si decimos que la distancia es
10.15 ± 0.05 estamos dando una estimación de intervalo.
El margen de error (o la precisión) de una estimación nos informa de su fiabilidad.
7.4 Estimación de intervalo de Confianza para Parámetros de Población.
Sean μS y σS la media y la desviación típica de la distribución de muestreo de un
estadístico S. Entonces, si la distribución de muestreo de S es aproximadamente
normal (lo cual es cierto para muchos estadísticos si el tamaño de la muestra es
N≥ 30), podemos esperar hallar el estadístico muestral real S en los intervalos μS
± σS, μS ± 2σS,μS ± 3σS, alrededor del 68.27%, 95.45% y 99.73% del tiempo,
respectivamente.
Alternativamente, podemos estar confiados en encontrar μS en los intervalos S ±
σS, S
± 2σS,S ± 3σS, alrededor del 68.27%, 95.45% y 99.73% del tiempo,
respectivamente. Los números extremos de estos intervalos se llaman entonces
los límites de confianza 68.27%, 95.45% y 99.73%.
Página No. 51
Análogamente, S ± 1.96 σS y S ± 2.58 σS son los límites de confianza del 95% y
99% para S. El porcentaje de confianza se suele llamar nivel de confianza. Los
números 1.96, 2.58, 3, etc., en los límites de confianza se llaman coeficientes de
confianza o valores críticos y se denotan por zc.
La tabla 1 muestra los valores de
zc correspondientes a varios niveles de
confianza usados en la práctica.
Nivel
de 99.73% 99% 98% 96% 95.45% 95%
90%
80%
50%
Confianza
zc
3.00
2.58
2.33
2.05
2.00
1.96 1.645 1.28 0.6745
Tabla 1. Niveles de confianza y valores zc.
7.5 Intervalos de Confianza para Medias.
Si el estadístico S es la media muestral, ̅ , entonces los límites de confianza 95%
y 99% para estimar la media μ de la población vienen dados por ̅
̅
̅
̅
respectivamente. Más en general, los límites de confianza para estimar la
media de la población μ vienen dados por ̅
̅
donde zc se puede leer en la
tabla anterior. Los límites de confianza para la media de la población están dados
por
̅
√
(68)
Si el muestreo es de una población infinita o de una finita con reposición, y vienen
dados por
̅
√
√
(69)
Si el muestreo es sin reposición de una población finita de tamaño Np.
Generalmente, la desviación típica de la población, σ, no es conocida; así pues,
para obtener los anteriores límites de confianza usamos la estimación muestrals o
̂ . Lo cual es satisfactorio para N ≥ 30.
Página No. 52
Ejemplos:
1.- Una muestra de 80 billetes de 100 pesos tuvieron una vida promedio entre
enero de 2002 y septiembre de 2013 de 21.6 meses y desviación estándar de 2.2
meses. Estimar los intervalos de confianza de a) 95% y b) 99% para la vida de
dichos billetes.
a) para el 95%:
21.6 ± 1.96[2.2/√80] = 21.6 ± 0.482
b) para el 99%:21.6 ± 2.58[2.2/√80] = 21.6 ± 0.635
2.- Una muestra de 50 botellas de salsa tipo cátsup presentaron un contenido
promedio de sólidos de tomate de 5.61%, con desviación típica de 2.5%.
Determine los intervalos de confianza de a) 95% y b) 99% para el lote total de 500
botellas.
a) para el 95%:
b) para el 99%:
√
√
√
√
0.8661
7.6 Intervalos de Confianza para Proporciones.
Si el estadístico S es la proporción de éxitos en una muestra de tamaño N sacada
de una población binomial en la que p es la proporción de éxitos, entonces los
límites de confianza para p vienen dados por P
̅,
donde P es la proporción
de éxitos en la muestra de tamaño N. Los límites de confianza para la proporción
en la población vienen dados por
√
(70)
Si el muestreo es de una población infinita o finita con reposición y por
√
Página No. 53
√
(71)
si el muestreo es sin reposición de una población finita de tamaño Np.
Para calcular estos límites de confianza podemos usar la estimación muestral P
para p, que es generalmente satisfactoria para N≥ 30.
7.7 Intervalos de Confianza para Diferencias y Sumas.
Si S1 y S2 son dos estadísticos muestrales con distribuciones de muestreo
aproximadamente normales, los límites de confianza para la diferencia de
parámetros de población correspondientes a S1 y S2 vienen dados por
√
(72)
Mientras que los límites de confianza para la suma de parámetros de población
vienen dados por
√
(73)
supuesto que las muestras sean independientes.
Por ejemplo, los límites de confianza para la diferencia de dos medias
poblacionales, en el caso de poblaciones infinitas, se calculan como
̅̅̅
Donde ̅̅̅,
, N1 y ̅̅̅,
̅̅̅
̅̅̅̅
̅̅̅̅
̅̅̅
̅̅̅
√
(74)
, N2 son las respectivas medias, desviaciones típicas y
tamaños de las dos muestras sacadas de las poblaciones.
Ejemplo:
1.- 20 botellas de salsa cátsup de la marca A tienen un contenidos de sólidos de
tomate de 11.1% con desviación típica de 2.3% y 25 botellas de la marca B tienen
un contenidos de sólidos de tomate de 9.4% con desviación típica de 2.8%. Hallar
los intervalos de confianza de a) 95% y b) 99% para la diferencia de los
contenidos medios de sólidos de tomate.
a) Para el 95%:(
Página No. 54
)
√
= 1.7 ± 1.133
b) Para el 99%:
(
)
√
= 1.7 ±1.492
De forma similar, los límites de confianza para la diferencia de proporciones
poblacionales, con poblaciones infinitas, se calculan como
√
(
)
(
)
(75)
donde P1 y P2 son las dos proporciones muestrales, N1 y N2 los tamaños de las
dos muestras y p1y p2 las proporciones en las dos poblaciones (estimadas por P1 y
P2).
7.8 Intervalos de Confianza para Desviaciones Típicas.
Los límites de confianza para la desviación típica de una población normalmente
distribuida, estimados con una muestra con desviación típica s, vienen dados por
s± zcσc = s± zcσ/√
(76)
Ejemplo:
1.- 80 billetes de 100 pesos tuvieron una vida promedio entre enero de 2002 y
septiembre de 2013 de 21.6 meses y desviación estándar de 2.2 meses. Estimar
los intervalos de confianza de a) 95% y b) 99% para la desviación típica de las
vidas medias de estos billetes.
a) Para el 95%: 2.2± 1.96(2.2/√
) = 2.2 ± 0.341 meses
b) Para el 99%:
) = 2.2 ± 0.449 meses
Página No. 55
2.2± 2.58(2.2/√
VIII. TEORÍA ESTADÍSTICA DE DECISIONES.
8.1 Decisiones Estadísticas.
En la práctica nos vemos obligados con frecuencia a tomar decisiones relativas a
una población sobre la base de información proveniente de la muestra. Tales
decisiones se llaman decisiones estadísticas.
8.2 Hipótesis Estadísticas.
Para tomar una decisión se pueden hacer hipótesis sobre la población implicada.
Tales hipótesis pueden o no ser ciertas y se llaman hipótesis estadísticas. En
general son enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
8.3 Hipótesis Nula e Hipótesis Alternativa.
En muchos casos formulamos hipótesis estadísticas con el único propósito de
rechazarla o invalidarla y de esta forma tener una idea alternativa acerca de la
distribución de probabilidad de la población. Por ejemplo, supongamos que
tenemos una moneda y formulamos dos hipótesis, la primera, que llamamos nula
(representada por H0), es que la moneda es buena y la segunda hipótesis, que
llamamos alternativa (representada por H1), es que la moneda está alterada. Bajo
la primera hipótesis, la probabilidad de que la moneda caiga águila o sol debe ser
cercana a 0.5 dentro de un cierto intervalo que nosotros fijaremos. Si lanzamos la
moneda muchas veces pueden suceder dos cosas. Si el número de águila o soles
cae dentro del intervalo fijado aceptamos la primera hipótesis, en caso contrario,
aceptamos la segunda hipótesis.
8.4 Contraste de Hipótesis y Significación o Reglas de Decisión.
Si suponemos que una hipótesis particular es cierta pero vemos que los resultados
hallados en una muestra aleatoria difieren notablemente de los esperados bajo tal
hipótesis (o sea, esperados por puro azar, por la teoría de muestreo), entonces
diremos que las diferencias observadas son significativas y nos vemos obligados a
rechazar la hipótesis ( o al menos a no aceptarla ante la evidencia obtenida). Así,
si lanzamos una moneda 30 veces y salen 25 águilas,
es muy probable que
rechacemos la hipótesis de que la moneda es buena, aunque como sabemos
existe la posibilidad de que salgan hasta 30 águilas (aunque la probabilidad de
Página No. 56
que esto suceda es muy baja) y al rechazar la hipótesis nos podemos equivocar al
decir que está trucada.
Los procedimientos que nos califican para determinar si las muestras observadas
difieren significativamente de los resultados esperados, y por lo tanto nos ayudan
a decidir si aceptamos o rechazamos las hipótesis, se llaman contrastes (o tests)
de hipótesis o de significación o reglas de decisión.
8.5 Errores Tipo I y Tipo II.
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que hemos
cometido un error tipo I. Si aceptamos una hipótesis que debiera ser rechazada,
diremos que se ha cometido un error tipo II. En ambos casos se ha producido un
juicio erróneo.
Para que las reglas de decisión sean buenas, deben diseñarse de modo que
minimicen los errores de decisión. Esto no es sencillo pues para cualquier tamaño
de muestra un intento por disminuir un error de un tipo suele ir acompañado del
crecimiento de otro tipo de error. En la práctica, un tipo de error puede ser más
grave que otro, y debe alcanzarse un compromiso que disminuya el error más
grave. La única forma de disminuir ambos a la vez es aumentar el tamaña de la
muestra, los cual no siempre es posible.
8.6 Nivel de Significación.
Al contrastar una cierta hipótesis, la máxima
probabilidad con que estamos
dispuestos a correr el riesgo de equivocarnos con un error de tipo I se llama nivel
de significación del contraste. Esta probabilidad se denota a menudo por α y
normalmente se especifica antes de tomar la muestra para que los resultados
obtenidos no influyan en la elección de α.
Se suelen tomar niveles de significación de 0.01 o 0.05, aunque se puede tomar
cualquier otro nivel deseado. Un valor de α de 10% quiere decir que tenemos un
10% de posibilidades de equivocarnos rechazando una hipótesis que debió ser
aceptada y 90% de posibilidad de aceptarla correctamente.
Página No. 57
8.7 Contraste Mediante la Distribución Normal.
Supongamos que bajo cierta hipótesis la distribución de muestreo de un
estadístico S está normalmente distribuida con media μS y desviación típica σS.
Entonces, la distribución de la variable tipificada z dada por z = (S-μS)/σS es la
distribución normal canónica.
Como se observa en la figura
si tenemos una confianza del 95% de que la
hipótesis nula es verdadera, el valor de z para el estadístico muestral S está en el
rango ± 1.96. Sin embargo, si al escoger una sola muestra al azar hallamos un
valor de z fuera del rango, debemos concluir que tal suceso podría ocurrir con una
probabilidad de sólo 0.05 (el área sombreada en ambas colas de la figura) si la
hipótesis nula fuera cierta. Diremos entonces que z difiere en forma significativa de
lo que podemos esperar bajo la hipótesis nula y nos veríamos forzados a rechazar
la hipótesis nula.
Región
Región
crítica
crítica
z = -1.96
z = 1.96
Figura 7. Regiones críticas para tests de dos colas
El área sombreada en ambas colas de la figura, 0.05, es el nivel de significación
del contraste. Representa la probabilidad de equivocarnos al rechazar la hipótesis
(o sea, un error del tipo I). Así pues, decimos que la hipótesis se rechaza a un
nivel de significación de 0.05, o que el valor de z del estadístico muestral dado es
significativo al nivel de 0.05.
El conjunto de z fuera del rango ± 1.96 se llama región crítica de la hipótesis,
región de rechazo de la hipótesis o región de significación. El conjunto de z en el
rango ± 1.96 se llama región de aceptación de la hipótesis o región de no
significación.
Entonces, podemos formular la siguiente regla de decisión (o contraste de
hipótesis o significación):
Página No. 58
-
Rechazar la hipótesis al nivel de significación de 0.05 si el valor de z para el
estadístico S está fuera del rango ± 1.96. Esto equivale a decir que el estadístico
muestral observado es significativo al nivel 0.05.
-
Aceptar la hipótesis en caso contrario ( o si se desea, no tomar decisión alguna).
8.8 Contrastes de Una y Dos Colas.
En el test de la sección anterior estábamos interesados en los valores extremos
del estadístico S o en su correspondiente valor z a ambos lados de la media. Tales
tests se llaman contrastes de dos colas o bilaterales.
Con frecuencia, estaremos interesados en sólo uno de los valores extremos a
cualquiera de los dos lados de la media, como cuando se contrasta la hipótesis de
si un proceso es mejor que otro. Tales contrastes se llaman unilaterales o de una
sola cola. En tales situaciones, la región crítica es una región situada a un lado de
la distribución, con un área igual al nivel de significación.
La tabla 2 da los valores críticos de z para contrastes de una o dos colas en varios
niveles de significación.
Tabla 2. Niveles de significación y valores zc para test de una y dos colas.
Nivel de significación,
0.1
0.05
0.01
0.005
0.002
Valores críticos de z
-1.28 o
-1.645 o
-2.33 o
-2.58 o
-2.88 o
para tests unilaterales
1.28
1.645
2.33
2.58
2.88
Valores críticos de z
-1.645 y
-1.96 y
-2.58 y
-2.81 y
- 3.08 y
1.645
1.96
2.58
2.81
3.08
α
para tests bilaterales
8.9 Contrates Especiales.
Para grandes muestras, las distribuciones de muestreo de muchos estadísticos
son distribuciones normales (o casi normales), y los contrastes anteriores pueden
aplicarse a los z correspondientes. Los siguientes casos especiales son algunos
Página No. 59
casos de interés práctico. Los resultados son válidos para poblaciones infinitas o
para muestreos con reposición.
1.- Medias. Aquí S = ̅ la media muestral;
̅=
̅
, la media de la población y
⁄√ , donde σ es la desviación típica de la población y N el tamaño de
la muestra. El valor de z viene dado por
̅
(77)
⁄√
se puede usar la desviación típica muestral como estimación de s.
2.- Proporciones. Ahora S= P, la proporción muestral,
, donde
p es la proporción de éxitos en la población y N el tamaño de la muestra;
√
⁄
El valor de z viene dado por
√
(78)
⁄
En el caso P = X/N, donde X es el número real de éxitos en una muestra, z
es
(79)
√
esto es, μX= μ= Np, σX = σ = √
y S = X.
Ejemplo:
1.- La salsa cátsup en México tiene un promedio de sal de 2.33%. Una muestra de
40 frascos seleccionados al azar en un supermercado presentó un contenido
promedio de 2.51% con desviación típica de 0.67%. Contrastar la hipótesis de que
su contenido de sal a) es mayor y b) es distinto al de la cátsup comercial con un
nivel de significación de 0.05.
a) Primero establecemos las hipótesis nula y alternativa
H0: ̅
H1: ̅
Como segundo paso, calculamos el valor de zexp:
Finalmente, comparamos zexp con zcr:
Página No. 60
⁄√
1.699 > 1.645.
Conclusión: la muestra si tiene mayor contenido de sal que la cátsup comercial.
b) Primero establecemos las hipótesis nula y alternativa
H0: ̅
H1: ̅
Como segundo paso, calculamos el valor de zexp:
Finalmente, comparamos zexp con zcr :
⁄√
1.699 < 1.96.
Conclusión: la muestra no tiene contenido de sal distinto al de la cátsup comercial.
2.- De acuerdo con la norma NMX-F-346-S1980, la salsa de tomate cátsup debe
tener al menos 12% de sólidos de tomate para poder recibir ese nombre. Una
muestra de 5 frascos de una marca presentó un contenido de promedio de sólidos
de tomate 11.5% con desviación estándar de 0.65%. Contrastar la hipótesis de
que la muestra de cátsup de dicha marca no cumple con la norma con un nivel de
significación de a) 0.1 y b) 0.05
a) Primero establecemos las hipótesis nula y alternativa
H0: ̅
H1: ̅
Como segundo paso, calculamos el valor de zexp:
⁄√
Finalmente, comparamos zexp con zcr :-1.72<-1.28.
Conclusión: la muestra no cumple con la norma con un nivel de significación de
0.05.
b) La hipótesis nula y alternativa, así como el valor de zexp siguen siendo iguales, sólo
queda comparar
zexp con zcr:-1.72 < - 1.645
Conclusión: la muestra tampococumple con la norma con un nivel de significación
de 0.10.
Página No. 61
8.10 Contraste Mediante Diferencias Muestrales.
Diferencias de Medias.
Sean ̅̅̅
̅̅̅ las medias muestrales obtenidas de grandes muestras de tamaño N1
y N2 tomadas de poblaciones con medias respectivas
típicas
y
y
y desviaciones
. Consideremos la hipótesis nula de que no hay diferencia entre las
medias de las poblaciones ( o sea
) que es como afirmar que las muestras
han sido tomadas de dos poblaciones que tienen la misma media.
Bajo esta hipótesis, la distribución de muestreo de diferencia de medias está casi
normalmente distribuida, con media y desviación típica dadas por
̅̅̅̅ ̅̅̅̅
y
̅̅̅̅ ̅̅̅̅
√
(79)
donde podemos usar como aproximación para las desviaciones típicas
poblacionales las desviaciones típicas muestraless1 y s2.
El valor de z viene dado por
̅̅̅̅ ̅̅̅̅
̅̅̅̅ ̅̅̅̅
(80)
Ejemplo:
1.- En el examen de admisión de diciembre de 2012, los 38 alumnos que
presentaron para ingeniería ambiental tuvieron calificación promedio de 3.32 con
desviación típica de 1.1, mientras que los 115 que presentaron para ingeniería civil
tuvieron calificación promedio de 3.6 con desviación típica de 1.66, con un nivel de
significación de 0.05 determinar si a) hay diferencia entre los dos grupos de
aspirantes y b) los que presentan para ingeniería civil son mejores que los que
presentan para ingeniería ambiental.
a) Primero establecemos las hipótesis nula y alternativa
H0:
H1:
Página No. 62
Como no tenemos ninguna razón para pensar que los alumnos que eligen estudiar
una carrera deben ser mejores que los que deciden estudiar otra, tenemos que
bajo la hipótesis H0:
̅̅̅̅ ̅̅̅̅
y
̅̅̅̅ ̅̅̅̅
√
segundo paso, calculamos el valor de zexp:
Finalmente, comparamos zexp con zcr :
-1.185> -1.96.
Conclusión: Los alumnos que presentan a ambas ingenierías son iguales con un
nivel de significación de 0.05.
b) Primero establecemos las hipótesis nula y alternativa
H0:
H1:
El valor de zexp sigue siendo el mismo, pero ahora el valor de z crítico cambia a 1.645 por ser un test de una cola. Y tenemos que:
-1.185 > -1.645
Conclusión: Los alumnos que presentan a ingeniería civil no son mejores que los
que presentan a ambiental con un nivel de significación de 0.05.
Diferencias de Proporciones.
Sean P1 y P2 las proporciones muestrales obtenidas en grandes muestras de
tamaño N1 y N2 tomadas de poblaciones con proporciones respectivas p1 y p2.
Consideremos la hipótesis nula de que no hay diferencia entre los parámetros de
las poblaciones (o sea p1 = p2) que es como afirmar que las muestras han sidas
tomadas de la misma población.
Bajo esta hipótesis, la distribución de muestreo de diferencia de proporciones está
casi normalmente distribuida, con media y desviación típica dadas por
Página No. 63
(
)
√
√
(
)
(82)
Donde
(
) se usa como estimación de la proporción poblacional y la
variable tipificada viene dada por
(83)
Página No. 64
IX. Teoría de Pequeñas Muestras.
9.1 Pequeñas Muestras.
En las secciones anteriores, vimos que para muestras grandes, N > 30, las
distribuciones de muestreo de muchos estadísticos son aproximadamente
normales, siendo la aproximación mejor en cuanto mayor sea N. Para muestras de
tamaño menor que 30, llamadas pequeñas muestras, esa aproximación no es
buena y empeora al decrecer N, de modo que es necesario hacer algunas
modificaciones.
El estudio de la distribución de muestreo para pequeñas muestras se llama teoría
de pequeñas muestras. Sin embargo, un nombre más correcto sería teoría exacta
de muestreo, pues sus resultados son válidos tanto para pequeñas muestras
como para muestras grandes.
9.2 Distribución t de Student.
Definamos el estadístico
̅
√
(84)
Si consideramos muestras de tamaño N tomadas de una población normal (o casi
normal) con media μ y si para cada una calculamos t, usando la media muestral ̅
y la desviación muestral s o ŝ, puede obtenerse la distribución de muestreo para t.
Esta distribución viene dada por
(
)
(
(
)
)
(85)
donde Y0 es una constante que depende de N tal que el área bajo la curva es 1, y
donde la contante ν= (N-1) se llama número de grados de libertad. Para grandes
valores de ν o de N la curva de la ecuación anterior se aproxima mucho a la curva
de la distribución normal, como se muestra en la figura 8.
Página No. 65
Figura 8. Distribución t de Student para varios valores de ν.
9.3 Intervalos de Confianza.
Al igual que se hizo con la distribución normal, se pueden definir intervalos de
confianza de 95%, 99%, etc., usando las tablas de distribución t de los libros de
estadística o de las hojas de cálculo. De esta forma podemos estimar la media de
la población dentro de los límites especificados. Por ejemplo, si t-0.975 y t0.975 son
los valores de t para los cuales el 2.5% del área bajo la curva están en cada cola
de la distribución t, entonces el intervalo de confianza del 95% para t es
̅
√
(86)
de donde vemos que μ estará en el intervalo
̅
̅
√
√
(87)
con el 95% de confianza.
En general, podemos representar los límites de confianza para medias
poblacionales por
̅
Página No. 66
√
(88)
donde los valores ± tc son llamados valores críticos o coeficientes de confianza,
dependen del nivel de confianza deseado y del tamaño de la muestra.
Ejemplo:
1.- Una muestra de 8 cervezas da un contenido de
alcohol de 5.03% con
desviación típica de 0.17%. Hallar los límites de confianza de a) 95% y b) 99%
para el contenido verdadero.
El número de grados de libertad es ν = 8-1 = 7 y los límites de confianza son:
a) 5.03 ± 2.36(0.17/√7) = 5.03 ±0.15
b) 5.03 ± 3.50(0.17/√7) = 5.03 ±0.22
9.4 Contrastes de Hipótesis y Significación.
Los contrastes de hipótesis y significación o reglas de decisión se extienden
fácilmente a pequeñas muestras. La única diferencia consiste en que el estadístico
z queda sustituido por el estadístico t.
̅
√
(89)
donde ̅ es la media de una muestra de tamaño N. Esto es análogo al uso del
estadístico z
̅
(90)
⁄√
para grandes N, excepto que se usa √
(
) en lugar de σ. La diferencia está
en que mientras z está normalmente distribuida, t sigue una distribución de
Student. Al crecer N ambas tienden a coincidir.
Ejemplo:
1.- Una muestra de 10 latas de cerveza dio un contenido promedio de alcohol de
4.37% y una desviación típica de 0.12%., mientras que las latas indican un
contenido de 4.5%. Puede sostenerse la afirmación de la marca con un nivel de
significación de a) 0.05 y b) 0.01.
Como siempre, el primer paso es plantear las hipótesis nula y alternativa
H0: ̅ = 4.50%
H1: ̅ < 4.50%
Página No. 67
√
El valor de tc experimental es
a) Para un nivel de significación de 0.05 la regla de decisión es aceptar H0 si tc es
mayor que –t0.95 para 9 grados de libertad que es -1.83 y por tanto aceptamos H1.
b) Para un nivel de significación de 0.01 la regla de decisión es aceptar H0 si tc es
mayor que –t0.99 para 9 grados de libertad que es -2.82 y por tanto aceptamos H1,
o sea, en ambos casos concluimos que la cerveza tiene menos de 4.5% de
alcohol.
1. Diferencias de Medias. Supongamos que se toman dos muestras aleatorias de
tamaño N1 y N2 de poblaciones normales cuyas desviaciones típicas son iguales
=
. Y supongamos además que estas dos muestras tienen medias ̅̅̅
̅̅̅ y
desviaciones típicas s1 y s2, respectivamente. Para contrastar la hipótesis H0 de
que las muestra provienen de la misma población ( o sea
̅̅̅̅ ̅̅̅̅
√
(91)
y
√
donde
=
),
(92)
Su distribución es una distribución t-Student con ν =
grados de
libertad.
Ejemplo:
1.- Se tomaron muestras de
14 g cada una de aceite comestible. 10
muestras de la marca A tienen contenido promedio de ácidos grasos
poliinsaturados de 8.76 g con desviación estándar de 0.17 g, mientras que 12
botellas de la marca B tienen contenido promedio de 8.55 g con desviación
estándar de 0.23 g. Determinar si hay diferencia significativa en los contenidos de
ácidos grasos poliinsaturados a nivel de significación de a) 0.05 y b) 0.01.
Primero establecemos las hipótesis nula y alternativa
H0: ̅
̅
H1: ̅
Bajo la hipótesis H0 ,
√
Página No. 68
̅
√
(
)
(
)
y
a) Para ν = 10 +12 -2 = 20 grados de libertad y un nivel de significación de 0.05, los
valores de tcr son ± 2.09 por lo que rechazamos H0 y si hay diferencia significativa
en los contenidos de ácidos grasos poliinsaturados.
b) Para un nivel de significación de 0.01, los valores de tcr son ± 2.84 por lo que
aceptamos H0 y no hay diferencia significativa en los contenidos de ácidos grasos
poliinsaturados.
9.5 Distribución Ji-Cuadrado, χ2.
Definamos el estadístico
(
̅)
(
̅)
(
̅)
(93)
Si se toman muestras de tamaño N de poblaciones normalmente distribuidas con
desviaciones típicas σ, y si para cada muestra calculamos χ2se obtiene para χ2
una distribución de muestreo llamada distribución de muestreo Ji-Cuadrado que
viene dada por
(
)
(
)
(94)
donde ν= (N-1) es el número de grados de libertad e Y0 es una constante que
depende de ν tal que el área total bajo la curva es 1. La distribución Ji-cuadrado
correspondiente a varios valores de ν se muestra en la siguiente figura.
2
Figura 9. Gráfica de la función χ para distintos valores de grado de libertad, ν.
9.6 Intervalos de Confianza para la Distribución Ji-Cuadrado.
Como se hizo con la distribución normal y la distribución t-Student, podemos
definir los intervalos y límites de confianza 95%, 99% u otros, usando las tablas de
Página No. 69
distribución Ji-cuadrado. De ese modo, podemos estimar, dentro de los límites
especificados, la desviación típica de la población en términos de una desviación
típica muestral.
Por ejemplo,
y
son los valores de
para los que el 2.5% de área está
en cada cola de la distribución, entonces el intervalo de confianza 95% es
(95)
del cual vemos que σ se estima estará en el intervalo
√
√
(96)
con el 95% de confianza.
Para grandes valores de ν (ν ≥ 30), podemos utilizar el hecho de que (√
√
) está casi normalmente distribuida con media 0 y desviación típica 1;
luego se pueden usar las tablas de la distribución normal si ν ≥ 30. Entonces, si
y zp son los p-ésimos percentiles de la distribución Ji-cuadrado y de la distribución
normal respectivamente, tenemos
(
√
)
(97)
9.7 Grados de Libertad
Para el cálculo de un estadístico como
o t, es necesario emplear tanto
observaciones de muestras como propiedades de ciertos parámetros de
población. Si estos parámetros son desconocidos, hay que estimarlos a partir de la
muestra.
El número de grados de libertad de un estadístico, generalmente denotado por ν,
se define como el número N de observaciones independientes de la muestra (o
sea, el tamaño de la muestra) menos el número k de parámetros de la población
que deben ser estimados a partir de observaciones muestrales. En símbolos ν = N
– k. Para los estadísticos
Ejemplo:
Página No. 70
o t se tiene
ν = N – 1.
1.- La desviación típica de la altura de 20 mexicanos entre 20 y 64 años fue de 2.9
cm, con media de 1.64 mts. Hallar los límites de confianza de a) 95% y b)99%
para la desviación típica de las alturas de todos los mexicanos.
El número de grados de libertad es ν = 20 – 1 = 19.
a) Los límites de confianza de 95% vienen dados por s√N/χ0.975 y s√N/χ0.025, o sea
2.9√20/5.74
y 2.9√20/2.98 que son 2.26 y 4.35
b) Los límites de confianza de 99% vienen dados por s√N/χ0.995 y s√N/χ0.005, o sea
2.9√20/6.21
y 2.9√20/2.62
que son 2.09 y 4.95.
2.- En el examen de admisión de diciembre de 2011 la desviación estándar fue de
1.42. Los 11 Alumnos que presentaron a ingeniería geomática tuvieron en sus
exámenes una desviación estándar de 1.79.¿ Es significativo el aumento de
variabilidad a un nivel de significación de a) 0.05 y b) 0.01?
Como siempre, primero establecemos las hipótesis nula y alternativa
H0: s = σ
H1: s > σ
Luego, calculamos el valor de χ2 experimental
(
) ⁄(
)
a) Para ν = 11 – 1 = 10 grados de libertad,
= 18.3
b) Para ν = 11 – 1 = 10 grados de libertad,
= 23.2
Como en ambos casos el
en menor que el valor crítico, concluimos que no
hay aumento en la variabilidad en los exámenes de los aspirantes a geomática a
los niveles considerados.
9.8 La Distribución F.
Como hemos visto, es importante en algunas aplicaciones conocer la distribución
de muestreo de la diferencia de medias ( ̅
̅ ) de dos muestras. De la misma
manera, podemos necesitar la distribución de muestreo de diferencia de varianzas
(
) Resulta sin embargo, que esta distribución es complicada, por lo que en
lugar de eso, consideramos el estadístico
, ya que un cociente grande o
pequeño indicará una gran diferencia, mientras que un coeficiente cercano a 1
indica una pequeña diferencia. Su distribución de muestreo se llama distribución F.
Página No. 71
Más concretamente, sean dos muestras 1 y 2, de tamaños N1 y N2,
respectivamente, tomadas de dos poblaciones normales (o casi), con varianzas
. Definimos el estadístico
(
)
(
)
(98)
La distribución de muestreo de F se llama distribución F de Fisher, con ν1 = N1 – 1
y
ν2 =N2 -1 grados de libertad. Esta distribución viene dada por
(
(
⁄ )
)(
(99)
)
donde C es una constante que depende de ν1 y ν2 tal que el área total bajo la
curva es 1.
9.9 Aplicación: Cálculo del Término de Concentración de la Guía para
la
Evaluación de Riesgo para Sitos Altamente Contaminados de la EPA: Vol. I –
Manual de Evaluación de la Salud Humana.
El Término de Concentración.
La Guía para la Evaluación de Riesgo para Sitos Altamente Contaminados Parte
A (RAGS, por sus siglas en inglés) presenta la evaluación de sitos altamente
contaminados en cuatro “pasos”: (1) recolección y evaluación de datos, (2)
evaluación de la exposición, (3) evaluación de la toxicidad y (4) caracterización del
riesgo. El término de concentración se calcula para ser usado en el paso de
evaluación de la exposición. La ecuación general que se utiliza para calcular la
exposición y en la cual aparece el término concentración, C, uno de los varios
parámetros necesarios para estimar la ingesta de contaminantes por un individuo
es la siguiente:
(100)
donde:
I = Ingesta (esto es, una medición cuantitativa de la exposición).
Página No. 72
C = Concentración del Contaminante.
CR = Tasa de Contacto.
EFD = Frecuencia de Exposición y Duración.
BW = Peso Corporal.
AT = Tiempo Promedio.
Para la evaluación de sitios altamente contaminados, el término de concentración
C en la ecuación de ingesta es una estimación de la concentración media del
contaminante basada en un conjunto de resultados de muestreo del sitio. Debido a
la incertidumbre asociada con la estimación de la concentración media real en el
sitio, se puede usar el límite de confianza superior del 95 % de la media aritmética.
El uso de la media para el término de concentración está basado en:
(1) Los criterios de toxicidad carcinogénicos y no carcinogénicos están basados en la
exposición promedio durante la vida; y, (sin embargo, cuando la toxicidad aguda
es lo más preocupante, en general no se debe usar una concentración promedio
de largo periodo para propósitos de evaluación de riesgo, ya que el enfoque debe
ser estimar las concentraciones pico de corta duración)
(2) La concentración promedio es la más representativa de las concentraciones que
estarán en contacto en un sitio, durante el tiempo.
Por ejemplo, si se supone que un individuo expuesto se mueve en forma aleatoria
a través de un área contaminada, entonces se puede usar la concentración en el
suelo promediada en el espacio para estimar el promedio real de concentración
con el que se tuvo contacto durante el tiempo. En este ejemplo, la concentración
promedio con la que se tuvo contacto durante el tiempo sería igual a la
concentración en el suelo promediada en el espacio en el área de exposición.
Aunque un individuo puede no presentar realmente un patrón aleatorio verdadero
de movimiento en el área, la suposición de tiempos iguales de permanencia en
diferentes partes del área es una aproximación simple pero razonable.
La mayoría de los criterios de salud de la EPA se basan en dosis diarias promedio
de largo término, que es simplemente la suma de todas las dosis diarias dividida
entre el número de días en el periodo promediado. Esta es la definición de media
aritmética, la cual es apropiada sin importar el patrón de exposición diaria durante
Página No. 73
el tiempo, o el tipo de distribución estadística que mejor describa los datos de
muestreo.
El Límite Superior de Concentración (UCL) como Estimación de la Concentración
Promedio.
El Límite Superior de Concentración (UCL, por sus siglas en inglés) del 95% de la
media, se define como un valor que cuando se calcula en forma repetida para
subconjuntos extraídos en forma aleatoria de un sitio, es igual o mayor a la media
verdadera el 95% de las veces. Este valor se usa ya que en la práctica es
imposible conocer la media verdadera. Este valor toma en cuenta las
incertidumbres debidas a un muestreo limitado en el sitio contaminado.
Para obtener el UCL del 95% se ha demostrado que menos de 10 muestras dan
una estimación pobre de la concentración media, entre 10 y 20 muestras por área
de exposición dan una mejor estimación de la media y entre 20 y 30 muestras dan
buenas estimaciones consistentes de la media. Sin embargo, para que los datos
puedan usarse, deben transformarse a sus valores logarítmicos, ya que se ha
demostrado que los contaminantes en suelo y aire están lognormalmente
distribuidos.
Procedimiento para el Cálculo del UCL del 95% para una Distribucion Lognormal.
Para el cálculo del UCL del 95% de la media para datos lognormalmente
distribuidos, primero hay que transformar los datos usando logaritmos naturales,
luego hay que verificar que los datos transformados están normalmente
distribuidos, lo cual se puede hacer usando pruebas como las de Shaphiro-Wilk o
Kolmogorov-Smirnov, implementadas en hojas de cálculo, y finalmente hay que
seguir estos pasos:
1.- Calcule la media aritmética de los datos transformados.
2.- Calcule la desviación típica de los datos transformados.
3.- Determine el estadístico H de Land (usando tablas).
4.- Calcule el UCL usando la ecuación:
(̅
donde
Página No. 74
√
)
(101)
UCL = límite superior de concentración.
̅ = media de los datos transformados.
s =desviación típica de los datos transformados.
H = estadístico H de Land.
N = número de muestras.
Procedimiento para el Cálculo del UCL del 95% para una Distribucion Normal.
Si y sólo si existe una prueba estadística que soporte la suposición de que los
datos están normalmente distribuidos calcule el UCL con estos pasos:
1.- Calcule la media aritmética de los datos sin transformar.
2.- Calcule la desviación típica de los datos sin transformar.
3.- Determine el estadístico t de una cola (usando tablas).
4.- Calcule el UCL usando la ecuación:
̅
( ⁄√ )
(102)
donde
UCL = límite superior de concentración.
̅ = media de los datos sin transformar.
s =desviación típica de los datos sin transformar.
t= estadístico t de Student..
N = número de muestras.
Se debe tener precaución cuando se usa la distribución normal si existe la
posibilidad de que porciones altamente contaminadas del sitio no hayan sido
muestreadas en forma adecuada. En tales casos, el UCL derivado de los cálculos
con la distribución normal pueden caer debajo de la media verdadera, aún si un
conjunto limitado de datos de un sitio parecen estar normalmente distribuidos.
Ejemplo:
Este ejemplo es aplicable sólo en un escenario en el cual se supone que existe un
patrón aleatorio de exposición espacial. Las concentraciones de Cr obtenidas de
un muestreo aleatorio en suelos son (en mg/kg) 10, 13, 20, 36, 41, 59, 67, 110,
110, 136, 140, 160, 200, 230, y 1300. Usando estos datos, se siguen los
siguientes pasos para calcular el término de concentración para la ecuación de
ingesta:
Página No. 75
1.- Utilice un programa para
verificar que los datos no están normalmente
distribuidos,
2.- Obtenga los logaritmos de los datos y verifique que éstos si están normalmente
distribuidos, o sea, siguen una distribución lognormal.
3.- Con los datos transformados, obtenga los valores para el UCL de la
distribución lognormal
̅ = media de los datos transformados = 4.38.
s =desviación típica de los datos transformados = 1.25.
H = estadístico H de Land = 3.163.
N = número de muestras = 15.
UCL del 95% de la media aritmética = e6.218 = 502 mg/kg
Si se hubieran usado los mismos datos con la ecuación de UCL para la
distribución normal, se hubiera obtenido un valor de UCL de 95% de 325 mg/kg,
con lo que queda claro que la distribución normal tiende a subestimar el valor del
UCL o la necesidad de limpiar un sitio.
Página No. 76
X. El Test Ji-Cuadrado.
10.1 Frecuencias Observada y Teóricas.
Los resultados obtenidos de un muestreo no siempre coinciden exactamente con
los esperados teóricamente de acuerdo con las leyes de la probabilidad. Por
ejemplo, al lanzar una moneda 30 veces, la probabilidad de que salgan 15 caras y
15 cruces son bajas, relativamente, y otros resultados como 14 caras y 16 cruces
o 16 caras y 14 cruces son también factibles, incluso, hemos visto que se podría
obtener, aunque con muy pocas probabilidades, 30 cruces o 30 caras.
Supongamos que en una muestra particular un conjunto de sucesos posibles E1,
E2, E3, ,,,EN ocurren con frecuencias observadas o1,o2,o3,,,oN y que según las
leyes de la probabilidad se espera que sucedan con frecuencias e1, e2, e3,,,,eN
llamadas frecuencias esperadas o teóricas.
A
menudo
deseamos
saber
si
las
frecuencias
observadas
difieren
significativamente de las frecuencias esperadas, este problema lo podemos tratar
usando la distribución Ji-Cuadrado, como se indica a continuación.
10.2 Definición de Ji-Cuadrado.
Una medida de la discrepancia existente entre las frecuencias observadas y
esperadas viene dado por el estadístico Ji-cuadrado dado por
(
)
(
)
La distribución muestral de
(
)
(
)
(
)
∑
(
)
(103)
se aproxima muy bien por distribución ji-cuadrado
(
)
(104)
si las frecuencias esperadas son al menos iguales a 5 y mejora para valores más
grandes.
El número de grados de libertad ν viene dado por
1. ν = k – 1 si las frecuencias esperadas se pueden calcular sin tener que estimar
los parámetros de la población a partir de las estadísticos muestrales.
2. ν = k – 1 – m si las frecuencias esperadas se pueden calcular sólo estimando
m parámetros de la población a partir de estadísticos de la muestra.
Página No. 77
10.3 Contrastes de Significación.
En la práctica, las frecuencias esperadas se calculan sobre la base de la hipótesis
nula H0. Si bajo tal hipótesis el valor calculado para
crítico (tal como
o
es mayor que algún valor
que son los valores críticos de los niveles de
significación 0.05 y 0.01), respectivamente, debemos concluir que las frecuencias
observadas
difieren
significativamente
de
las
frecuenciasesperadas
y
rechazaremos H0 al correspondiente nivel de significación; en caso contrario la
aceptaremos (o al menos no la rechazaremos).
Hay que hacer notar que debe mirarse con suspicacia en circunstancias en las
que
sea demasiado próximo a cero, pues es raro que las frecuencias
observadas coincidan demasiado bien con las frecuencias esperadas. Para
examinar tales situaciones podemos determinar si el valor calculado de
menor que
o
es
, en cuyo caso hablaremos de decidir que el acuerdo es
demasiado bueno al nivel de significación 0.05 o 0.01, respectivamente.
10.4 Tablas de Contingencia.
Una tabla como la siguiente en la que las frecuencias observadas ocupan una sola
fila, se llama tabla de clasificación de entrada única. En las tablas de doble
entrada o tablas de h X k, las frecuencias observada ocupan h filas y k columnas.
Tales tablas se suelen llamar tablas de contingencia.
Suceso
E1
E2
E3
,,,
EN
Frecuencias observadas
o1,
o2
o3
,,,
oN
Frecuencias esperadas
e1
e2
e3
,,,
eN
Tabla 3. Tabla de contingencia modelo.
Correspondiente a cada frecuencia observada en una tabla de h X k, hay una
frecuencia esperada que se calcula sujeta a ciertas leyes o hipótesis de acuerdo
con las leyes de la probabilidad. Para investigar el acuerdo entre las frecuencias
observadas y las esperadas, calculamos el estadístico
∑
Página No. 78
(
)
(105)
donde la suma se toma sobre todas las celdas de una tabla de contingencia y
donde los símbolos oi y ei representan, respectivamente, las frecuencias
observadas y esperadas de la i-ésima celda.
Como antes, el estadístico
χ2 tiene una distribución muestral dada muy
aproximadamente por
(
)
(
)
(106)
supuesto que las frecuencias esperadas no sean demasiado pequeñas . El
número de grados de libertad de esta distribución ji-cuadrado viene dada por h >
1, K> 1 por:
1. ν =(h -1)(k – 1) si las frecuencias esperadas se pueden calcular sin tener que
recurrir a estimaciones muestrales de los parámetros de la población.
2. ν = (h -1)(k – 1) – m
si las frecuencias esperadas sólo se pueden calcular
estimando m parámetros de la población a partir de estadísticos de la muestra.
10.5 Corrección de Yates a la Continuidad.
Cuando se aplican resultados de distribuciones continuas a datos discretos,
pueden hacerse ciertas correcciones
a la continuidad. Una corrección similar
existe cuando se usa la distribución ji-cuadrado. La corrección se expresa como
(
)
(|
|
)
(|
|
)
(|
|
)
(107)
y se llama corrección de Yates.
En general, la corrección de Yates se hace sólo cuando el número de grados de
libertad es igual a uno. Para grandes muestras esto da prácticamente los mismos
resultados de χ2 sin corregir, pero pueden surgir dificultades cerca de los valores
críticos. Para pequeñas muestras, donde los valores de las frecuencias esperadas
están entre 5 y 10, es quizás mejor comparar ambos valores de χ 2, corregido y sin
corregir. Si ambos llevan a la misma conclusión acerca de la hipótesis tal como el
rechazo a nivel de significación de 0.05, rara vez surge dificultades. Si conducen a
diferentes conclusiones, uno debe pensar en aumentar el tamaño de la muestra o,
si ello es factible, en emplear métodos de probabilidad que involucren la
distribución multinomial.
Página No. 79
Ejemplo:
1.- La tabla siguiente muestra los sabores pedidos de paletas de hielo en una
muestra de 120 paletas de seis sabores distintos. Contrastar la hipótesis de que
los sabores se piden al azar con niveles de significación de a) 0.05 y b) 0.01.
Tabla 5. Sabores de paleta de hielo.
Sabor Paleta
Piña
Pedidos
Limón
Fresa
Sandía
Mang
Tamarind
o
o
25
14
18
31
16
16
20
20
20
20
20
20
Observados
Pedidos
Esperados
Hay que decidir entre
H0: Los sabores se piden al azar.
H1: Los sabores no se piden al azar.
(
)
(
)
(
)
(
)
(
)
a) Con ν = 6 – 1 = 5 grados de libertad, tenemos
= 11.1
b) Con ν = 6 – 1 = 5 grados de libertad, tenemos
= 15.1
(
)
La conclusión en ambos niveles de significación es que no hay un sabor preferido,
en términos estadísticos.
2.- La tabla muestra niveles de glucosa en sangre en personas prediabéticas
después de tomar un medicamento de prueba. Contrastar la hipótesis sobre la
eficiencia del medicamento con niveles de significación de a) 0.05 y b) 0.01.
mayor a 126 mg/dl
Menor a 126 mg/dl
Total
Tomaron medicamento
45
65
110
No tomaron medicamento
60
50
110
Total
105
115
220
Tabla 6. Efecto de medicamento experimental para diabetes
Establecemos las hipótesis nula y alternativa, donde p es la proporción de
personas con menor nivel de glucosa en sangre:
H0: pcm = psm
H0: pcm > psm
Página No. 80
Bajo la hipótesis H0 se tiene la tabla siguiente
mayor a 126 mg/dl
Menor a 126 mg/dl
Total
Tomaron medicamento
52.5
57.5
110
No tomaron medicamento
52.5
57.5
110
Total
105
115
220
Tabla 7. Efecto de medicamento experimental para diabetes, bajo H0.
(
)
(
)
(
)
a) Con ν = (2 – 1) (2 – 1) = 1 grado de libertad,
(
)
tenemos
= 3.84 y el
medicamento produce un efecto al nivel de significación de 0.05.
b) Con ν = (2 – 1) (2 – 1) = 1 grado de libertad,
tenemos
= 6.63 y el
medicamento no produce un efecto al nivel de significación de 0.01.
10.6 Coeficiente de Contingencia.
Una medida del grado de interrelación, asociación o dependencia de las
clasificaciones en una tabla de contingencia viene dada por
√
(108)
que se llama coeficiente de contingencia. Cuanto mayor es C, mayor es el grado
de asociación. El número de filas y de columnas de la tabla de contingencia
determina el máximo valor de C, que nunca es mayor que 1. Si el número de filas
y columnas en una tabla de contingencia es igual a k, el máximo valor de C está
dado por √(
)
.
10.7 Correlación de Atributos.
Ya que las clasificaciones de una tabla de contingencia describen a menudo
características de individuos u objetos, se les conoce como atributos, y el grado de
dependencia, asociación o interrelación se llama correlación de atributos. Para
tablas de k X k definimos
√
Página No. 81
(
)
(109)
como el coeficiente de contingencia entre atributos ( o clasificaciones), este
coeficiente está entre 0 y 1.
10.8 Propiedad Aditiva de χ2.
Supongamos que los resultados de experimentos repetidos dan valores
muestrales de χ2 dados por
,
,
,,, con ν1, ν2,ν3,,, grados de libertad,
respectivamente. Entonces el resultado de todos esos experimentos puede
considerarse equivalente a un valor de χ2 dado por
+…grados de libertad.
Página No. 82
+
+
+…. con ν1 + ν2 +ν3
XI. Ajuste de Curvas y el Método de Mínimos Cuadrados.
11.1 Relación Entre Variables.
En la práctica, encontramos que existen relaciones entre dos o más variables. Por
ejemplo, los pesos de personas y sus estaturas están relacionados; las
circunferencias dependen de los radios y el volumen de los gases de su
temperatura. Suele ser deseable y útil expresar estas relaciones en forma de
ecuaciones que conecten estas variables.
11.2 Ajuste de Curvas.
Para hallar una ecuación que relaciones variables, el primer paso es recoger datos
que muestren valores correspondientes de las variables bajo consideración. Así,
por ejemplo, si en un plano coordenado rectangular graficamos los puntos
correspondientes al peso, Y, y las alturas, X, de N individuos, generaremos un
diagrama de dispersión como un conjunto de N puntos (X1, Y1),(X2, Y2),,,(XN, YN).
En la siguiente figura se muestran los datos correspondientes a niños mexicanos
de la ciudad de Monterrey, de entre 5 y 11 años, obtenidos en el año de 1988.
Figura 8.- Peso y estatura de niños mexicanos de la ciudad de Monterrey, de entre 5 y 11 años.
A partir del diagrama de dispersión es posible, con frecuencia visualizar una curva
suave que aproxima los datos. Tal curva se llama curva aproximadamente. En la
gráfica anterior, por ejemplo, los datos parecen aproximarse bien a una recta y
decimos que hay una relación lineal entre las variables. En la siguiente figura se
muestra la relación entre años de estudio e ingreso medio semanal, para el año
Página No. 83
2012, en los Estados Unidos, se puede apreciar que la relación entre las variables
no es lineal.
Figura 9.- Relación entre años de estudio e ingreso medio semanal, para el año 2012, en los
Estados Unidos
El problema general de hallar una ecuación de la curva aproximante que se ajuste
a un conjunto de datos se llama ajuste de curvas.
11.3 Ecuaciones de Curvas Aproximantes.
Varios tipos comunes de curvas aproximantes y sus ecuaciones se presentan en
la lista adjunta. Todas las letras excepto X e Y representan constantes. Las
variables
X
e
Y
se
llaman
variables
independiente
y
dependiente,
respectivamente, aunque estos papeles se pueden intercambiar.
Línea Recta
Y = a0 + a1X
(110)
2
Parábola o Curva Cuadrática
Y = a0 + a1X+ a2X
Curva Cúbica
Y = a0 + a1X+ a2X2+a3X3
Curva de grado N
Y = a0 + a1X+
(111)
a2X2+a3X3
(112)
(113)
+…+aNXN
Hipérbola
Curva exponencial
Página No. 84
Y = 1/(a0 + a1X)
Y = ab
X
(114)
(115)
Curva geométrica
Y = aXb
(116)
Curva exponencial modificada
Y = abX + g
(117)
Curva geométrica modificada
Y = aXb + g
(118)
Curva de Gompertz
(119)
Curva de Gompertz modificada
(120)
Y = 1/ (abX + g)
Curva logística
(121)
Para decidir que curva usar, es útil graficar en una hoja de cálculo los datos como
diagrama de dispersión y tratar de ajustar con la curva que produzca el más alto
coeficiente de correlación (que definiremos más adelante) y siga la tendencia
general de los datos.
11.4 Ajuste de Curvas por el Método de Mínimos Cuadrados.
Para evitar juicios subjetivos al construir rectas, parábolas y otras curvas
aproximantes de ajuste de datos, es necesario acordar que entendemos por
“curva de mejor ajuste”.
Para tener esta definición, consideremos la siguiente figura, en la cual los datos
vienen dados por (X1, Y1),(X2, Y2),,,(XN, YN). Para un valor de X como X1, habrá
una diferencia entre el valor Y1 y el correspondiente valor deducido de la curva.
Esta diferencia está representada en la figura por el valor D1, que se llama
desviación o error residual y que puede ser positiva, negativa o nula.
Análogamente, para los demás valores de Xi existen diferencias Di.
Y
(XN, YN)
DN
(X1, Y1)
D1
D2
(X2, Y2)
Página No. 85
X
X1
X2
XN
Una medida de la bondad de ajuste de la curva de la figura a los datos de los
puntos viene dada por la cantidad,
+
+…+
, si esta cantidad es pequeña,
el ajuste es bueno; si es grande, el ajuste es malo. De todas las curvas que
aproximan un conjunto de datos, la que tiene la propiedad de minimizar
+…+
+
se llama curva de ajuste óptimo. Esta curva ajusta los datos en el sentido
de mínimos cuadrados y por tanto se llama curva de mínimos cuadrados.
11.5 La Recta de Mínimos Cuadrados.
La recta de mínimos cuadrados que aproxima el conjunto de puntos (X1, Y1),(X2,
Y2),,,(XN, YN) tiene por ecuación
Y = a0 + a1X
(122)
donde las constantes a0 y a1 se encuentran al resolver el sistema de ecuaciones
simultaneas
∑Y = a0N+ a1∑X
(123)
∑XY = a0∑X + a1∑X
2
(124)
de donde se obtiene
(∑ )(∑
) (∑ )(∑
∑
)
(∑ )
(
)
(∑
) (∑ )(∑ )
∑
(∑ )
(126)
Ejemplo:
Los datos de la gráfica al inicio de este capítulo de estaturas y pesos para niños
mostrada al inicio de este capítulo, se presentan en la siguiente tabla.
Estatura (cm)
114.92
115.32
120.7
127.46
132.18
138.29
142.2
Peso en Kg
23.1
22.2
24.15
28.39
31.07
36.93
37.99
Tabla 8. Estatura y peso de niños mexicanos entre 5 y 12 años.
Página No. 86
Los valores
para determinar los coeficientes a0 y a1 son los mostrados a
continuación
(∑
)(∑
) (∑
(
∑
de donde a0 = -46.07
y
)(∑
)
(∑
)
) (∑
)(∑
(
∑
)
)
a1 = 0.590.
11.6 La Parábola de Mínimos Cuadrados.
La parábola de mínimos cuadrados que aproxima al conjunto de puntos (X1,
Y1),(X2, Y2),,,(XN, YN) tiene por ecuación Y = a0 + a1X+ a2X2, donde las constantes
a0, a1 y a2 se encuentran al resolver el sistema de ecuaciones simultaneas
+ a1 ∑X + a2∑X2
(127)
∑XY = a0∑X + a1 ∑X2 + a2∑X3
(128)
∑X2Y = a0∑X2+ a1 ∑X3+ a2∑X4
(129)
∑Y = a0N
Llamadas ecuaciones normales de la parábola de mínimos cuadrados.
Ejemplo:
Los datos para años de estudio y salario semanal (USD) correspondientes a la
gráfica del inicio del capítulo son:
Años de estudio
9
12
14
15
16
18
22
Salario semanal
471
652
727
785
1066
1300
1624
Tabla 9. Salario semanal de acuerdo al nivel de estudios en Estados Unidos en 2012.
Con los cuales se puede obtener el sistema de ecuaciones para la parábola de
mínimos cuadrados mostrados abajo:
6625 = 7a0 + 106a1 + 1710a2
110200 = 106a0 + 1710a1 + 29152a2
1931268 = 1710a0 + 29152a1 + 521106a2
que al resolver para a0, a1 y a2 produce la ecuación de la parábola: y = 2.754x2 +
8.643x + 142.7.
11.7 Regresión, Interpolación y Extrapolación.
Página No. 87
A menudo deseamos estimar, basados en los datos de una muestra, el valor de la
variable Y correspondiente a un valor dado de la variable X, para la cual no hay
valores experimentales. Ello se puede hacer estimando el valor de Y mediante una
curva de mínimos cuadrados que ajusta los datos. La curva resultante se llama
una curva de regresión de Y sobre X, ya que se estima Y a partir de X.
Si queremos estimar el valor de X a partir de un valor dado de Y, hemos de usar
una curva de regresión de X sobre Y, que viene a ser un intercambio de variables
en el diagrama de dispersión de tal forma que Y sea la variable independiente y X
la variable dependiente.
Cuando conocemos la curva de regresión, podemos estimar valores de Y
correspondientes a puntos no determinados experimentalmente. Si estos valores
de Y se encuentran dentro del rango de valores experimentales, hablamos de
interpolación, pero si se encuentran fuera del rango, hablamos de extrapolación.
11.8 Problemas de más de Dos Variables.
Los problemas que involucran a más de dos variables pueden tratarse de manera
análoga a los de dos variables. Por ejemplo, puede haber una relación entre tres
variables X, Y y Z. descrita por la ecuación:
Z = a0 + a1X+ a2Y
(130)
que se llama ecuación lineal de las variables X, Y y Z. Por extensión del método
de mínimos cuadrados, podemos hablar de un plano de mínimos cuadrados que
aproxima los datos. Si estimamos Z a partir de los valores de X y Y, se llama plano
de regresión de Z sobre X e Y. Las ecuaciones normales correspondientes al
plano de mínimos cuadrados vienen dadas por
∑Z = a0N
+ a1 ∑X + a2∑Y
(131)
∑XZ = a0∑X + a1 ∑X2 + a2∑XY
(132)
∑YZ = a0∑Y + a1 ∑XY+ a2∑Y2
(133)
11.9 Correlación y Regresión.
La correlación se puede entender como el grado de interconexión entre variables
para determinar que tan precisa es la descripción o explicación de la relación entre
variables de una ecuación lineal o de cualquier otro tipo. En la sección anterior
Página No. 88
hablamos de la regresión, o estimación de una variable (la dependiente) usando la
variable relacionada (la independiente).
Si todos los valores de las variables satisfacen una ecuación exactamente,
decimos que las variables están perfectamente correlacionadas o que hay una
correlación perfecta entre ellas. Por ejemplo, los radios, r, y las circunferencias, C,
de todos los círculos están perfectamente correlacionados porque se cumple que
C = 2πr. Si se lanzan dos dados 150 veces, no hay relación entre las puntaciones
obtenidas en cada uno (a menos que los dados estén trucados), es decir, no están
en correlación. Como hemos visto, los pesos y las estaturas de las personas
tienen cierta correlación.
Cuando sólo usamos dos variables, hablamos de regresión simple y correlación
simple. En otro caso hablamos de correlación múltiple y regresión múltiple.
11.10 Error Típico de Estimación.
Si denotamos por Yest el valor de Y para valores de X, tal como se estima a partir
de la ecuación de mínimos cuadrados, una medida de dispersión respecto de la
recta de regresión de Y sobre X viene dada por la cantidad
(
√
)
(134)
que se llama error típico de estimación de Y sobre X
El error típico de estimación de X sobre Y está dado por
√
(
)
(135)
11.11 Variación Explicada y Variación Inexplicada.
La variación total de Y se define como ∑(
̅ ) ; esto es, la suma de los
cuadrados de las desviaciones de los valores de Y respecto de la media. Esto se
puede escribir como
Página No. 89
∑(
̅)
∑(
)
∑(
̅)
(136)
El primer término de la derecha de la ecuación anterior se llama variación
explicada, mientras que el segundo se llama variación inexplicada. Resultados
similares se pueden obtener para la variable X.
11.12 Coeficiente de Correlación.
El cociente de la variación explicada entre la variación total se llama coeficiente de
determinación. Si la variación explicada es cero (o sea, toda la variación es
inexplicada), ese cociente es cero. Si la variación inexplicada es cero (o sea, toda
la variación es explicada), el cociente es 1. En los demás casos, está entre 0 y 1.
Como nunca es negativo, denotaremos ese cociente por r. La cantidad r, llamada
coeficiente de correlación, viene dada por
√
∑(
√
∑(
̅)
̅)
(137)
y varía entre -1 y +1. Se usan los signos positivo y negativo para las correlaciones
positiva y negativa, respectivamente.
El coeficiente de correlación es una buena medida del grado en el cual una curva
de regresión se acerca en promedio a todos los puntos del diagrama de
dispersión. Por ejemplo, en el ejemplo de la correlación entre estatura y peso de
los niños de Monterrey, el coeficiente de correlación para la recta es 0.9878,
mientras que para la parábola es 0.9933. Esto significa que podemos aproximar
mejor los datos usando una curva de segundo grado que una usando una recta.
Sin embargo, se debe tener cuidado al generalizar este razonamiento, pues por
ejemplo, una curva de sexto de grado de mínimos cuadrados dada por:
y = 0.00000187x6 - 0.00147263x5 + 0.48298927x4 - 84.35796928x3 +
8,275.32891015x2 - 432,307.51603164x + 9,395,954.12621194
Página No. 90
tiene un coeficiente de correlación de 1, pero en general, no es la mejor
aproximación para el comportamiento de los datos pues por ejemplo, predice que
entre el segundo y tercer valor de las estaturas, 115.32 y 120.7 cm,
respectivamente, los peso tienden a bajar, lo cual, a partir del comportamiento
general de la gráfica y de la experiencia práctica, es muy poco probable. En este,
como en la mayoría de los casos, debemos considerar que la mejor curva de
ajuste es aquella con el coeficiente de correlación más alto y que siga la tendencia
general de los datos experimentales. El en caso de la gráfica de años de estudio
contra ingreso semanal en Estados Unidos, una curva de segundo grado produce
un coeficiente de correlación de 0.9804 y una de tercer grado da un coeficiente de
correlación de 0.9854, aunque la variación es muy pequeña, cinco milésimas, la
curva de tercer grado representa mejor la tendencia general de los datos
muestrales y se considera como una mejor aproximación para este problema.
Página No. 91
Bibliografía.
-
Murray R. Spliegel, 1988, Estadística, México D. F., MCGraw-Hill, 1-355.
-
Jay L. Devore, 2012, 2012, Probabilidad y Estadística para Ingeniería y Ciencias,
Octava Edición, México D. F, Cengage Learning, 1-522.
-
Nathabandu T. Kottegoda y Renzo Rosso, 2008, Applied Statistics for Civil and
Environmental Engineers, Second Edition, West Sussex, Blackwell Publishing, 1235.
-
Richard O. Gilbert, 1987, Statistical Methods for Environmental Pollution
Monitoring, New York, VAN NOSTRAND REINHOLD COMPANY, 119-131.
-
Office of Solid Waste and Emergency Response, 1992, Supplemental Guidance to
RAGS: Calculating the Concentration Term, Washington, D.C, United States
Environmental Protection Agency, 1-8.
-
Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, Keying Ye, 2010,
Probabilidad y Estadística para Ingeniería y Ciencias, México D. F., Pearson, 1255.
-
Douglas Montgomery, 1998, Probabilidad y Estadística aplicada a la Ingeniería,
México D. F, Limusa-Wiley, 1-287.
Página No. 92