Download i. introduccion a la estadistica

Document related concepts
no text concepts found
Transcript
Lic. James Juan Saravia Zambrana
I. INTRODUCCION A LA ESTADISTICA ........................................................................................... 3
1.1 INTRODUCCION ........................................................................................................................ 3
1.2 DEFINICION ................................................................................................................................ 3
1.3 DIVISION ..................................................................................................................................... 4
1.4 POBLACION Y MUESTRA ...................................................................................................... 4
1.5 VARIABLES Y SUS CLASIFICACIONES ............................................................................. 5
1.6 ETAPAS DEL MÉTODO ESTADÍSTICO ............................................................................... 7
1.6.1 PLANTEAMIENTO DEL PROBLEMA ............................................................................... 7
1.6.2 FIJACIÓN DE LOS OBJETIVOS.......................................................................................... 7
1.6.3 FORMULACIÓN DE LAS HIPÓTESIS ............................................................................... 8
1.6.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA 8
1.6.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA ...................................... 8
1.6.6 LA RECOLECCIÓN .............................................................................................................. 9
1.6.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓN ................................................................. 9
1.6.8 LA TABULACIÓN .............................................................................................................. 10
1.6.9 LA PRESENTACIÓN .......................................................................................................... 10
1.6.10 EL ANÁLISIS .................................................................................................................... 10
1.6.11 PUBLICACIÓN .................................................................................................................. 11
II ARITMETICA FUNDAMENTAL .................................................................................................... 12
2.1 La Sumatoria y sus Propiedades. ...................................................................................... 12
2.2 Frecuencias relativas. ........................................................................................................... 12
2.1.1 La Razón. .............................................................................................................................. 14
2.1.2 La Proporción........................................................................................................................ 15
2.1.3 El Porcentaje. ........................................................................................................................ 15
2.1.4 Las Tasas. .............................................................................................................................. 15
2.2 Redondeo. ................................................................................................................................ 16
III ESTADISTICA DESCRIPTIVA ...................................................................................................... 17
3.1 DISTRIBUCION DE FRECUENCIAS ................................................................................... 17
3.2 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS. .......................................................... 17
3.3 PROPIEDADES DE LAS FRECUENCIAS .......................................................................... 18
3.4 MEDIDAS DE TENDENCIA CENTRAL ............................................................................... 20
3.4.1 MEDIA ARITMÉTICA ........................................................................................................ 20
3.4.2 LA MEDIANA ..................................................................................................................... 21
3.4.3 LA MODA ............................................................................................................................ 22
3.5 Relación entre las medias de posición. ..................................................................................... 23
3.5.1 La Media Ponderada. ............................................................................................................ 23
3.5.2 La Media Geométrica. .......................................................................................................... 24
3.5.3 La Media Armónica. ............................................................................................................. 24
3.5.4 Los cuantiles. ........................................................................................................................ 25
3.6 Estadígrafos de Dispersión. ................................................................................................ 26
3.6.1 Recorrido de la Variable. ...................................................................................................... 26
3.6.2 Recorrido Intercuartil. ........................................................................................................... 27
3.6.3 Desviación Media. ................................................................................................................ 27
3.6.4 Varianza y Desviación Estándar y sus propiedades. ............................................................. 27
3.6.5 Cuasivarianza muestral. ........................................................................................................ 28
3.6.6 Coeficiente de variación. ...................................................................................................... 28
3.7 Estadígrafos de Asimetría ................................................................................................... 29
1
Lic. James Juan Saravia Zambrana
3.8 Coeficientes de apuntamiento. ........................................................................................... 29
3.9 Diagrama de caja .................................................................................................................... 29
IV ESTADISTICA INFERENCIAL ..................................................................................................... 31
4.1 Definiciones Básicas de Probabilidad.............................................................................. 31
4.2. Propiedades de las Probabilidades. ........................................................................................ 32
4.3 Propiedades Matemáticas de las Probabilidades. ...................................................... 33
4.3.1 Reglas de la Adición ................................................................................................................ 33
4.3.2. Eventos Mutuamente Excluyentes y No Excluyentes. ....................................................... 34
4.3.3. Eventos Independientes, Eventos Dependientes y Probabilidad Condicional. ................... 35
4.3.4. Reglas de la multiplicación. ................................................................................................ 36
2
Lic. James Juan Saravia Zambrana
ESTADÍSTICA
CAPITULO I
I. INTRODUCCION A LA ESTADISTICA
1.1 INTRODUCCION
La palabra estadística se origina, en las técnicas de recolección, organización,
conservación, y tratamiento de los datos propios de un estado, con que los antiguos
gobernantes controlaban sus súbditos y dominios económicos. Estas técnicas evolucionaron
a la par con el desarrollo de las matemáticas, utilizando sus herramientas en el proceso del
análisis e interpretación de la información.
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el
punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican
técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más
relevantes de un idioma.
La gran aportación de la estadística es, precisamente, ese arsenal de instrumentos y
técnicas que permiten tratar y sintetizar esa gran cantidad de información, en un intento de
buscar las posibles regularidades que la misma esconde detrás de la enorme variabilidad
con la que se presenta. El objetivo último de ese tratamiento estadístico de la información es
reducir, en la medida que ello sea posible, la incertidumbre inherente a la variabilidad de la
información, para que la toma de decisiones, de cualquier agente (económico o de otra
naturaleza), se lleve a cabo con el menor grado de incertidumbre posible.
1.2 DEFINICION
Desde el punto de vista formal, la estadística es un conjunto de técnicas que, partiendo
de la observación de fenómenos, permiten al investigador obtener conclusiones útiles
sobre ellos.
3
Lic. James Juan Saravia Zambrana
1.3 DIVISION
La estadística se divide en dos grandes ramas de estudio que son: La estadística
descriptiva, la cual se encarga de la recolección, clasificación y descripción de datos
muestrales o poblacionales, para su interpretación y análisis; y la estadística matemática o
inferencial, que desarrolla modelos teóricos que se ajusten a una determinada realidad con
cierto grado de confianza.
Estas dos ramas no son independientes; por el contrario, son complementarias y entre
ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que quien
tenga poder de decisión, tome las medidas necesarias para transformar ese futuro o para
mantener las condiciones existentes.
1.4 POBLACION Y MUESTRA
Estadísticamente, la población se define como un conjunto de individuos o de objetos que
poseen una o varias características comunes. No se refiere esta definición únicamente a los
seres vivientes; una población puede estar constituida por los habitantes de un país o por
los peces de un estanque, así como por los establecimientos comerciales de un barrio o las
unidades de vivienda de una ciudad.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el
término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los
peces dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos,
puede ser considerado como infinito.
Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de
estudiar las propiedades del conjunto del cual es obtenida.
4
Lic. James Juan Saravia Zambrana
1.5 VARIABLES Y SUS CLASIFICACIONES
VARIABLES.- Es una característica de la población que se va investigar y que puede tomar
diferentes valores.
Las variables se clasifican en:
o Cualitativas
o Cuantitativas
VARIABLES CUALITATIVA.- Son variables cuyos valores son cualidades que presenta la
población, no lleva clasificación numérica.
Ejemplo.COLOR: Blanco, Rojo, Azul,....., etc
La variable cualitativa se clasifica en:
o Nominal
o Ordinal
VARIABLES CUALITATIVA NOMINAL.- Son aquella que establecen la distribución de los
elementos en categorías sin implicar orden entre ellas.
Ejemplo.5
Lic. James Juan Saravia Zambrana
COLOR DE OJOS: Azul, Negros,....., etc
VARIABLES CUALITATIVA ORDINAL.- Son aquellos que agrupan a los objetos, individuos
en categorías ordenadas.
Ejemplo.NIVEL DE ESTUDIOS: primaria, secundaria,....., etc
VARIABLES CUANTITATIVA.- Surge cuando se puede establecer cuanto o en que
cantidad se posee una determinada característica.
Ejemplo.Número de estudiantes del segundo semestre de la U.S.B.
La variable cuantitativa se clasifica en:
o Discretas
o Continuas
VARIABLES CUANTITATIVA DISCRETA.- Las variables discretas suelen tomar valores
enteros.
Ejemplo.Número de hijos en una familia.
VARIABLES CUANTITATIVA CONTINUA.- Pueden tomar un valor cualquiera entre dos
limites dados.
Ejemplo.Estatura de Estudiantes de la U. S. B.
6
Lic. James Juan Saravia Zambrana
1.6 ETAPAS DEL MÉTODO ESTADÍSTICO
El método estadístico, parte de la observación de un fenómeno, y como no puede siempre
mantener las mismas condiciones predeterminadas o a voluntad del investigador, deja que
actúen libremente, pero se registran las diferentes observaciones y se analizan sus
variaciones.
Para el planeamiento de una investigación, por norma general, se siguen las siguientes
etapas:
a) Planteamiento del problema.
b) Fijación de los objetivos.
c) Formulación de la hipótesis.
d) Definición de la unidad de observación y de la unidad de medida.
e) Determinación de la población y de la muestra.
f) La recolección.
g) Crítica, clasificación y ordenación.
h) Tabulación.
i) Presentación.
j) Análisis.
k) Publicación.
1.6.1 PLANTEAMIENTO DEL PROBLEMA
Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se
pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e
inteligible sobre el o los fenómenos que se pretenden estudiar, para lo cual se deben tener
en cuenta, entre otras cosas, la revisión bibliográfica del tema, para ver su accesibilidad y
consultar los resultados obtenidos por investigaciones similares, someter nuestras
proposiciones básicas a un análisis lógico; es decir, se debe hacer una ubicación histórica y
teórica del problema.
1.6.2 FIJACIÓN DE LOS OBJETIVOS
Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde
queremos llegar; en otras palabras, debemos fijar cuales son nuestras metas y objetivos.
7
Lic. James Juan Saravia Zambrana
Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y
debe, además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así
como entre los objetivos generales y los específicos.
1.6.3 FORMULACIÓN DE LAS HIPÓTESIS
Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su
formulación depende del conocimiento que el investigador posea sobre la población
investigada. Una hipótesis estadística debe ser susceptible de docimar, esto es, debe
poderse probar para su aceptación o rechazo.
Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.),
con el propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su
hipótesis contraria se le llama Hipótesis Alternativa (H1).
1.6.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA
La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la
población estudiada, debe definirse previamente, resaltando todas sus características; pues,
al fin de cuentas, es a ellas a las que se les hará la medición. La unidad de observación
puede estar constituida por uno o varios individuos u objetos y denominarse
respectivamente simple o compleja.
El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el
equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe
establecerse bajo qué unidad se tomarán las observaciones ya sea en metros, pulgadas,
libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en
las cuales se ha de efectuar la toma de la información.
1.6.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA
En la práctica, estudiar todos y cada uno de los elementos que conforman la población no
es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus
elementos, porque a veces es necesario destruir lo que se está midiendo, por ser
8
Lic. James Juan Saravia Zambrana
demasiado grande el número de sus componentes o no se pueden controlar; por eso se
recurre al análisis de los elementos de una muestra con el fin de hacer inferencias respecto
al total de la población. Existen diversos métodos para calcular el tamaño de la muestra y
también para tomar los elementos que la conforman, pero no es el objetivo de este curso
estudiarlos. Diremos solamente que la muestra debe ser representativa de la población y
sus elementos escogidos al azar para asegurar la objetividad de la investigación.
1.6.6 LA RECOLECCIÓN
Una de las etapas más importantes de la investigación es la recolección de la información,
la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o
varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá
una aproximación de la variabilidad de la población, con el fin de calcular el tamaño exacto
de la muestra que conduzca a una estimación de los parámetros con la precisión
establecida.
El establecimiento de las fuentes y cauces de información, así como la cantidad y
complejidad de las preguntas, de acuerdo con los objetivos de la investigación son
decisiones que se han de tomar teniendo en cuenta la disponibilidad de los recursos
financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el
grado de desarrollo, la ausencia de técnica, etc. Es, entonces, descubrir dónde está la
información y cómo ya qué "costo" se puede conseguir; es determinar si la encuesta se
debe aplicar por teléfono, por correo, o si se necesitan agentes directos que recojan la
información; establecer su número óptimo y preparar su entrenamiento adecuado.
1.6.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓN
Después de haber reunido toda la información pertinente, se necesita la depuración de los
datos recogidos. Para hacer la crítica de una información, es fundamental el conocimiento
de la población por parte de quien depura para poder detectar falsedades en las respuestas,
incomprensión a las preguntas, respuestas al margen, amén de todas las posibles causas
de nulidad de una pregunta o nulidad de todo un cuestionario. Separado el material de
"desecho" con la información depurada se procede a establecer las clasificaciones
9
Lic. James Juan Saravia Zambrana
respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces
necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de
tabulación de las diferentes variables que intervienen en la investigación.
El avance tecnológico y la popularización de los computadores hacen que estas tareas,
manualmente dispendiosas, puedan ser realizadas en corto tiempo.
1.6.8 LA TABULACIÓN
Una tabla es un resumen de información respecto a una o más variables, que ofrece
claridad al lector sobre lo que se pretende describir; para su fácil interpretación una tabla
debe tener por lo menos: Un titulo adecuado el cual debe ser claro y conciso. La Tabla
propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los
diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre
situaciones especiales de la tabla, u otorguen los créditos a la fuente de la información.
1.6.9 LA PRESENTACIÓN
Una información estadística adquiere más claridad cuando se presenta en la forma
adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con
las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un
informe con tablas y gráficos redundantes que, antes que claridad, crean confusión. Además
la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo
en función de las variables que relaciona, sino del lector a quien va dirigido el informe.
1.6.10 EL ANÁLISIS
La técnica estadística ofrece métodos y procedimientos objetivos que convierten las
especulaciones de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y
ofrecer una premisa medible en la toma de una decisión.
Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los
parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la
población, el ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de
establecer y redactar las conclusiones definitivas.
10
Lic. James Juan Saravia Zambrana
1.6.11 PUBLICACIÓN
Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos
del mismo problema a quienes se les puede aportar información, conocimientos y otros
puntos de vista acerca de él.
11
Lic. James Juan Saravia Zambrana
CAPITULO II
II ARITMETICA FUNDAMENTAL
2.1 La Sumatoria y sus Propiedades.
El símbolo Σ se usa en Cálculo y Estadística principalmente para indicar la suma de n
términos, por ejemplo:
n
x1 + x2 + x3 + ................ + xn se puede representar: Σ xi
i=1
Se lee: “Sumatoria de las xi cuando i varía de 1 a n”.
La Suma de Cuadrados se representa de la siguiente forma:
n
x12 + x22 + x32 + ................ + xn2 se puede representar: Σ xi2
i=1
En el caso de la multiplicación de una sumatoria por una constante, se tiene:
n
ax1 + ax2 + ax3 + ................ + axn se puede representar: Σ a xj
j=1
Y también se puede representar de la siguiente forma:
n
a (x1 + x2 + x3 + ................ + xn ) se puede representar: a Σ xj
j=1
Por lo tanto: ambas situaciones son iguales:
n
n
Σ a x j = a Σ xj
j=1
j=1
Existe un índice ficticio, que para los ejemplos están representados por i o j o otra variable
como x, el estadista puede usar cualquier letra para representar justamente un valor, por
esa razón se llama ficticio.
2.2 Frecuencias relativas.
Si los datos que se disponen son numerosos, es indispensable clasificarlos en un cuadro o
tabla resumen de las observaciones originales, a esta tabla se la denomina Tabla de
distribución de frecuencias o simplemente Tabla de Frecuencias.
12
Lic. James Juan Saravia Zambrana
Existen distintos tipos de frecuencias dependiendo del número de observaciones tomado en
cuenta a las variables discretas. Sean x1, x2
discretas y sean y1, y2
.........
.........
, xn un conjunto de n observaciones
, ym el conjunto de valores diferentes que toman los datos
originales (m menor o igual a n).
a) Frecuencia Absoluta: Se llama frecuencia absoluta del valor yi al número de
veces que parece este valor en el conjunto de observaciones y se representa por
ni, i = 1,2,......., m. La tabla de Distribución de frecuencias toma la siguiente forma:
Valores diferentes
observados
yi
y1
y2
Frecuencias Absolutas
ni
.
.
n1
n2
.
.
ym
TOTALES
nm
N
b) Frecuencia Absoluta Acumulada “MENOR QUE”:
Se denomina así a la
frecuencia correspondiente al valor y al número de observaciones menores o
iguales a yi (xi menor o igual a yi), se denotamos esta frecuencia por “Ni”,
entonces:
i
N = n1 +n2 +n3 + ..........+ ni ó Σ nj
j=1
c) Frecuencia Absoluta Acumulada “MAYOR QUE”:
Se denomina así a la
frecuencia correspondiente al valor y al número de observaciones mayores o
iguales a yi (xi mayor o igual a yi), se denotamos esta frecuencia por “Ni”,
entonces:
m
N = n1 +n i+1 + ..........+ nm ó Σ nj
j=1
d) Frecuencia Relativa: Se denomina así al cociente de la frecuencia absoluta de yi
y el número total de observaciones. Esta frecuencia se denota por “h i”.
13
Lic. James Juan Saravia Zambrana
Frecuencia absoluta de yi
hi =
Nº de Observaciones
e)
ni
=
n
Frecuencia Relativa Porcentual: Se llama así a la frecuencia relativa hi
multiplicada por 100% y representa el porcentaje de observaciones que
corresponde al valor yi .
f) Frecuencia Relativa Acumulada “MENOR QUE”: Esta frecuencia se denomina
así a la frecuencia relativa toral de las observaciones menores o iguales a y i , se
denota por la letra “Hi”.
n 1 + n 2 +.........+ n i
Hi = h1 + h2 + …. + hi =
n
g) Frecuencia Relativa Acumulada “MAYOR QUE”: Esta frecuencia se denomina
así a la frecuencia relativa toral de las observaciones mayores o iguales a yi , se
denota por la letra “Hi”.
m
Hi = Σ hj = hi + h i+1 + …. + hm
j=I
h) Frecuencia Relativa Acumulada Porcentual: Se denomina así a la frecuencia
relativa acumulada Hi (Hi*) multiplicada por 100% y representa el porcentaje de
observaciones menores o iguales (o mayores o iguales) a yi.
i) Frecuencia Relativa Acumulada Porcentual: Se denomina así a la frecuencia
relativa acumulada Hi (Hi*) multiplicada por 100% y representa el porcentaje de
observaciones menores o iguales (o mayores o iguales) a yi.
2.1.1 La Razón.
Cuando se compara el número de elementos de una característica cualitativa, con el
número de elementos de otra característica cualitativa, estamos en presencia de una razón.
Esta comparación se da por diferencia o por cociente; en el primer caso, se dice que la
14
Lic. James Juan Saravia Zambrana
razón es aritmética o por diferencia, y en el segundo, que la razón es geométrica o
coeficiente, este caso es el más usado y se representa por:
a
R=
b
2.1.2 La Proporción.
Se llama proporción (P) a la relación que existe entre el número de casos observados en un
grupo particular de objetos con una característica y el total de objetos que poseen la
característica. La proporción se distingue de la razón porque el numerador es parte
integrante del fenómeno que constituye el denominador. La fórmula de la proporción es:
a
P=
a+b
2.1.3 El Porcentaje.
El porcentaje es una proporción multiplicada por 100. La fórmula general es:
a
Porcentaje =
x 100
a+b
La ventaja de los porcentajes es que nos permite compara dos o más series estadísticas
cuyos totales son diferentes pues quedan reducidos a 100. Así, mientras que la proporción
expresa tanto por uno, el porcentaje expresa tanto por cien.
2.1.4 Las Tasas.
En toda población es importante conocer su composición y los cambios que acontecen en
ella. Al estudiar estos cambios, ni las razones, ni las proporciones, ni los porcentajes, a
pesar de su gran utilidad, permiten analizar completamente la información disponible.
La fórmula general está dada por:
15
Lic. James Juan Saravia Zambrana
Tasa =
Número de veces que ocurre el fenómeno
x 10n
Población en la cual ocurrió el fenómeno
Las tasas son utilizadas también para el análisis de fenómenos y sus variaciones dentro de
un periodo de tiempo, como por ejemplo, a continuación se muestra el índice de precios al
consumidor:
P1 – P0
IPC =
x 100
P1
Adicionalmente, existen dos tipos de tasas: 1) las tasas brutas: Conocidas como tasa
general, global o total; se calcula con respecto a al población total, sin tomar en cuenta
ninguna característica específica de esa población, 2) las tasas específicas: Son sal que se
definen en términos de una o más características de la población.
2.2 Redondeo.
El redondeo trata de minimizar al máximo una expresión que tiene infinidad de decimales,
se utiliza el redondeo para facilitar las operaciones dentro del cálculo estadístico, lo más
aceptable es redondear una cifra para que esta tenga dos decimales.
Si una cifra está expresada por 31,12314%, entonces se puede utilizar 31,12 para realizar
las operaciones. Si la cifra está expresada por 52,57812%, entonces se tiende a redondear
la cifra a 52,58 %.
16
Lic. James Juan Saravia Zambrana
CAPITULO III
III ESTADISTICA DESCRIPTIVA
3.1 DISTRIBUCION DE FRECUENCIAS
Después de recoger toda la información correspondiente a la investigación, es decir, al
agotar todo el trabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras
desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco
sobre la población estudiada; es, entonces, tarea del investigador “hacer hablar las cifras”,
comenzando por la clasificación y ordenación, consignando la información en tablas
inteligibles que denominamos distribuciones de frecuencias.
Por distribución de frecuencias se va a entender al conjunto de valores que ha tomado una
variable con sus frecuencias correspondientes. Simbólicamente, una distribución de
frecuencias vendría dada por los pares (yi, ni), donde yi son los valores de la variable y ni
son sus frecuencias. Hay que señalar, en esta definición, que la frecuencia asociada a un
valor de la variable es el número de veces que se repite ese valor. A la misma se le conoce
como frecuencia absoluta.
Pueden considerarse básicamente dos tipos de distribuciones de frecuencias. Aquellas en
las que los valores de la variable no están agrupados y las que presentan esos valores
agrupados en intervalos.
3.2 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS.
Es una manera de resumir la información proveniente de una serie de datos. Es un
instrumento valioso que permite presentar al máximo de información con el mínimo
detalle.
17
Lic. James Juan Saravia Zambrana
Variable
Frecuencia
Absoluta
Yi
Y1
Y2
.
.
.
Yk
ni
n1
n2
.
.
.
nk
TOTAL
ni =n
Frecuencia
Absoluta
Acumulada
Ni
N1
N2
.
.
Frecuencia
Relativa
Frecuencia
Relativa
Acumulada
Porcentaje
hi
Hi
h1
H1
H2
.
.
.
Hk = 1
hi*100
h1*100
h2*100.
.
.
.
hk*100
h2
.
.
.
hk
Nk = 1
hi = 1
100%
3.3 PROPIEDADES DE LAS FRECUENCIAS
FRECUENCIA ABSOLUTA.- Está definida como al número de veces que aparece repetido
dicho valor en el conjunto de las observaciones realizadas.
n = n1 + n2 + n3+....+nk
n
i
FRECUENCIA ABSOLUTA ACUMULADA.- Es la sumatoria de las frecuencias absolutas.
La frecuencia absoluta acumulada del ultimo valor será n (donde n = número de
observaciones realizadas)
FRECUENCIA RELATIVA.- son números fraccionarios no negativos, no mayores que uno
hi =
ni
n
Se verifica que:
=1
FRECUENCIA RELATIVA ACUMULADA.- Es la sumatoria de las frecuencias relativas
PORCENTAJE.- Se obtiene multiplicando la frecuencia relativa por 100
(%) Xi = hi * 100
18
Lic. James Juan Saravia Zambrana
CONSTRUCCIÓN DE TABLAS.DATOS DE VARIABLE DISCRETA.Ejemplo.- Los siguientes son las calificaciones que corresponden a 25 estudiantes:
3
4
6
7
5
5
3
4
7
5
5
5
4
5
3
6
7
5
4
3
7
6
3
4
6
Xi
ni
Ni
hi
Hi
hi*100
3
4
5
6
7
5
5
7
4
4
5
10
17
21
25
0.20
0.20
0.28
0.16
0.16
0.20
0.40
0.68
0.84
1.00
20%
20%
28%
16%
16%
TOTAL
25
1.00
100%
DATOS DE VARIABLE CONTINUA.Ejemplo.- Los siguientes son las calificaciones de 25 estudiantes escala de 1 a 7
2.0
6.0
3.0
3.2
4.7
1. Rango
2. Intervalo
=
3. Amplitud
=
3.6
5.8
5.2
4.6
5.5
=
k=
R
=
K
5.4
4.1
4.6
3.7
2.6
7.0
6.0
4.9
5.9
3.0
4.5
5.0
5.8
6.1
2.9
7.0 – 2.0 = 5.0
25 = 5
5
=1
5
19
Lic. James Juan Saravia Zambrana
L1
ni
Ni
hi
Hi
hi*100
3.0
4.0
5.0
6.0
7.0
3
5
6
7
4
3
8
14
21
25
0.12
0.20
0.24
0.28
0.16
0.12
0.32
0.56
0.84
1.00
12%
20%
24%
28%
16%
TOTAL
25
Li-1
2.0
3.0
4.0
5.0
6.0
-
1.00
100%
3.4 MEDIDAS DE TENDENCIA CENTRAL
En los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de
datos estadísticos, limitando el análisis de la información a la interpretación porcentual de
las distribuciones de frecuencia.
El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los
cuales pueda recaer la representación de toda la información.
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de
la información, son de gran importancia en el manejo de las técnicas estadísticas, sin
embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya
que la representabilidad de ellas está asociada con el grado de concentración de la
información.
Las principales medidas de tendencia central son:
a) Media aritmética.
b) Mediana
c) Moda.
3.4.1 MEDIA ARITMÉTICA
Es la medida de tendencia central más conocida, es fácil de calcular, ya sea en datos
tabulados o no tabulados. Cuando se habla de media, se refiere a la sumatoria de los
20
Lic. James Juan Saravia Zambrana
elementos observados dividida entre la cantidad de observaciones, como se ve en la
siguiente fórmula:
_
X=
x1 + x2 + x3 + ................ + xn
n
VENTAJAS DE LA MEDIA:
a) Concepto familiar para la mayoría de las personas.
b) Es una medida que puede ser calculada y es única, ya que cada conjunto
de datos tiene una y sólo una media.
c) En el cálculo de la media es tomada en cuenta cada una de las
observaciones.
d) La medida es una medida muy confiable porque se determina con mayor
certeza que otras características de un conjunto de datos.
DESVENTAJAS DE LA MEDIA:
a) Puede verse afectada por valores extremos que no son representativos del
resto de las observaciones.
b) Su cálculo es tedioso porque se usa todas las observaciones.
c) No se la puede calcular para un conjunto de datos que tiene intervalos de
clases abiertos en los extremos.
3.4.2 LA MEDIANA
Dado un conjunto de n observaciones x1, x2, ...., xn de la variable x, se define la mediana de
este conjunto de valores como aquel valor que no es superado ni supera a más de la mitad
de las n observaciones, arregladas en orden de magnitud creciente o decreciente.
~
La mediana se denota por x , xme, Me o Me(x) y está representada por:
xme = Me = Me(x) = x ((n+1)/2), si el número de observaciones es par.
21
Lic. James Juan Saravia Zambrana
x (n/2) + x ((n/2)+1)
xme
, si el número de observaciones es impar.
=
2
VENTAJAS:
a) Es fácil de entender y se calcula a partir de cualquier clase de datos.
b) Está afectada por el número de observaciones y no por la magnitud de
cualquier extremo.
c) Se puede encontrar la mediana inclusive en datos cualitativos ordinales.
DESVENTAJAS:
a) Se deben organizar los datos antes de realizar cualquier cálculo para determinarla.
b) Ciertos procedimientos estadísticos que usan la mediana son mucho más complejos que
los que se usan en la media.
c) No es adecuada a manipulaciones algebraicas posteriores.
3.4.3 LA MODA
La moda de una muestra x1, x2, ...., xn, es aquel valor de la variable que se presenta con
mayor frecuencia, es decir, es el valor que más se repite, se denota por “Mo” o “xmo”.
Mo = y ((m+1)/2) , si es m impar.
Mo = y’ (m/2) , si m es par.
VENTAJAS:
a) Se puede usar como una localización tanto para datos cualitativos como
cuantitativos.
b) No está indebidamente afectada por los valores extremos.
c) Se la calcula aún cuando más de las clases sean abiertas en los extremos.
22
Lic. James Juan Saravia Zambrana
DESVENTAJAS:
a)
Muy a menudo, no existe un valor modal, porque el conjunto de datos no contiene
valores que se repitan más de una vez.
b) Cuando el conjunto de observaciones tiene más de una moda es difícil interpretar el
resultado.
3.5 Relación entre las medias de posición.
El empleo de las tres medidas descritas anteriormente no debe realizarse excluyendo una
de otra, pues el análisis conjunto es muy útil para interpretar los datos.
La representación gráfica es:
X
Me Mo
3.5.1 La Media Ponderada.
El promedio ponderado permite calcular un promedio que toma en cuenta la importancia o el
peso que tiene cada valor sobre el total. En este caso, por ejemplo, si se toma el ejemplo de
cálculo del costo promedio de mano de obra/día se seguirá el siguiente procedimiento:
Mano
Obra
de Salario
día
No calificada 3.00
Semicalificada 6.00
Calificada
9.00
/ Días
Trabajados
Producto A
2
3
5
23
Lic. James Juan Saravia Zambrana
El promedio aritmético de los salarios es:
_
x=
3.00 + 6.00 + 9.00
= 6.00 $ / día
3
Usando este promedio se puede calcular el costo por mano de obre de una unidad del
producto A de la siguiente manera:
6.00 $ * (2+3+5) = 60 $ / día
3.5.2 La Media Geométrica.
_
La Media Geométrica simple “Mg” o “xg” de n observaciones x1, x2, ...., xn, positivas está
dada por la raíz enésima del producto de los n valores observados, es decir:
_
n
xg = Mg = √ x1, x2, ...., xn
n
=
n
√ Σ xi
i=1
3.5.3 La Media Armónica.
_
La Media Armónica “Mh” o “xh” de n términos nulos x1, x2, ...., xn, es el recíproco de la
media de los recíprocos de esos términos, es decir:
_
xg = Mh =
VENTAJAS Y DESVENTAJAS:
a) La media armónica se basa en todas las observaciones por lo que está afectada
por los valores extremos, pero da a los valores grandes un peso menor que el que
da la media geométrica, mientras que a los valores pequeños, le da un peso
mayor que la media aritmética y la media geométrica.
b) No se define si alguno de los valores es cero.
24
Lic. James Juan Saravia Zambrana
3.5.4 Los cuantiles.
Como consecuencia de del estudio de la media, es fácil ampliar este concepto a otros
estadígrafos que dividen a los datos en otras proporciones y no sólo en mitades como lo
hace la mediana. Estas medidas se llaman cuantiles, los más usados en estadística son los
cuartiles, deciles y percentiles y se usan para describir el comportamiento de una población.
A menudo sus resultados se dan en un tanto por ciento.
3.5.4.1 Cuartiles.
Son los valores que dividen a un conjunto de datos ordenados en forma ascendente o
descendente en cuatro partes iguales y se denotan por Q i, donde i = 1,2,3, como se ve a
continuación:
0%
25%
50%
Q1
75%
Q2
100%
Q3
Primer cuartil = Q1: Es el valor que supera a no más de un cuarto de las observaciones y es
superado por no más de tres cuartos de ellas, es decir es el valor que deja 25% de las
observaciones menores o iguales a él y el 75% superiores a él.
3.5.4.2 Deciles.
Los valores que dividen a un conjunto de datos ordenados en forma ascendente o
descendente en diez partes iguales se llaman deciles y se representa por Di, donde i = 1, 2,
......, 9, es decir:
0%
10%
D1
20%
D2
D3
30% 40% 50% 60% 70% 80% 90%
D4
D5
D6
D7
D8
100%
D9
25
Lic. James Juan Saravia Zambrana
Primer decil = D1: Es el valor que supera a no más de un décimo de las observaciones y es
superado por no más de nueve décimos de ellas, es decir, D 1 es el valor que deja el 10% de
las observaciones menores iguales a él u el 90% superiores a él.
3.5.4.3 Percentiles.
Son los valores que dividen a la muestra ordenada en forma ascendente o descendente en
cien parte iguales y se denotan por Pi, donde i = 1, 2, ......, 99.
Primer percentil = P1:
Es el valor que supera a no más de un centésimo de las
observaciones y es superado por no más del 99 centésimos de ellas, es decir, que P1 es el
valor que deja el 1% de las observaciones menores o iguales él y el 99% superiores a él.
3.6 Estadígrafos de Dispersión.
Los estadígrafos de dispersión miden la dispersión de los datos de la muestra. Dos
conjuntos de datos pueden tener la misma localización central y no obstante se muy
diferentes si uno está más disperso que el otro.
Por ejemplo se tiene las siguientes muestras:
A: 9, 10, 11, 12, 13, 14, 15
B: 6, 8, 10, 12, 14, 16, 18
En ambos casos la media aritmética es igual a 12 y la mediana es 12. Ambas muestras,
claramente diferentes, tienen la misma media y la misma mediana.
3.6.1 Recorrido de la Variable.
El recorrido “R” de una variable es la diferencia entre los valores extremos, es decir:
26
Lic. James Juan Saravia Zambrana
R = xmax – xmin
3.6.2 Recorrido Intercuartil.
El recorrido intercuartil se define como la diferencia entre el tercer y primer cuartil (o también
la diferencia entre los percentiles 75 y 25), es decir:
R1 = Q3 – Q1
o
R = Q75 – Q25
Esta medida de dispersión es más exacta que el simple recorrido de la variable ya que evita
el inconveniente de valores extremos anormales, tomando aquellos dos valores que dejan
entre sí el 50% de los valores centrales de la variable.
3.6.3 Desviación Media.
Sea x1, x2, ...., xn una muestra de tamaño n, la desviación media o absoluta corresponde al
valor absoluto de la diferencia de cada uno de los valores de los xi con su media dividido
entre los n valores correspondientes a la muestra; por tanto:
n
DM = 1/n * Σ xi - x
i=1
3.6.4 Varianza y Desviación Estándar y sus propiedades.
La varianza se basa en la diferencia entre cada uno de los valores de la muestra elevados al
cuadrado y divididos por en número de la muestra y se la designa con la letra “S”; así:
n
S2 = 1/n * Σ ( xi - x )2
i=1
La desviación estándar representa la raíz cuadrada de la varianza, y muestra cuánto difieren
en promedio cada una de las Xi con respecto a su media. Se representa como:
27
Lic. James Juan Saravia Zambrana
S=
S2
En cuanto a sus propiedades, tenemos:
a) S2 siempre es positivo, por lo tanto S también es positivo.
b) S2 es la medida cuadrática de dispersión óptima, ya que representa una dispersión
mínima.
c) S2 y S son sensibles a cada valor o depende del número de observaciones, así, si
cambia el número de n observaciones, cambiará S2 y por tanto lo hará S.
d) No es recomendable el uso de S2 o de S si su cálculo no fue realizado tomando en
cuenta la media aritmética.
e) La S tiene la propiedad de que en el intervalo: X  2S, se encuentran, al menos, el 75%
de las observaciones ( Teoría de Chevycheff), incluso si existiesen un número mayor de
datos se podría llegar al 95%.
3.6.5 Cuasivarianza muestral.
Representa la varianza de la muestra que permite estimar la varianza de la población, y su
cálculo es mediante la misma fórmula que la varianza, pero en lugar de dividir entre n se
divide entre n-1; así:
n
S2 = 1/(n – 1) * Σ ( xi - x )2
i=1
3.6.6 Coeficiente de variación.
Indica la magnitud relativa de la desviación estándar con respecto a la media de la
distribución, su fórmula corresponde a:
CV = S / media
28
Lic. James Juan Saravia Zambrana
3.7 Estadígrafos de Asimetría
Miden el grado por el cual la distribución es o no asimétrica, tenemos el más utilizado:
Asimetría de Pearson
Ap = 3 * (media – Me)
S
Ap = (media – Mo)
S
Ahora, si:
Ap > 0, entonces se tiene una asimetría positiva (sesgada a la derecha)
Ap = 0, entonces se tiene una distribución normal
Ap < 0, entonces se tiene una asimetría negativa (sesgada a la
izquierda)
Cuando la Ap es positiva, X > Me > Mo, es decir que la Mo se encuentra a la izquierda.
Cuando la Ap es negativa, X < Me < Mo, es decir que la Mo se encuentra a la derecha.
Cuando la Ap es cero, X = Me = Mo.
3.8 Coeficientes de apuntamiento.
Mide cuán alta se encuentra la Mo, según sea su grado de apuntamiento, si es muy
punteaguda, se dice que la distribución es Leptocúrtica, si es aplanada, se dice que es
Platicúrtica y cuando es “normal”, se dice que la distribución es Mesocúrtica.
3.9 Diagrama de caja
Representa una gráfica que describe la distribución de un conjunto de datos en referencia
con los valores de los cuartiles como medidas de posición y al valor del rango intercuartil
como medida de referencia de variabilidad. Se constituye en un mecanismo sencillo para la
graficación de datos y el grado de asimetría de la distribución. Además representa un gráfico
alternativo para presentar los datos. Su gráfica es la siguiente:
Xmin
Xmàx
Q1
Q2
Q3
29
Lic. James Juan Saravia Zambrana
Si el valor del Q2 se encuentra al medio de la caja, la distribución es simétrica, si se
encuentra a la izquierda, la distribución es asimétrica positiva o la derecha, si se encuentra
a la derecha se tiene una distribución a la izquierda. En el ejemplo se ve que se tiene una
distribución sesgada a la izquierda, debido a que el Q2 se encuentra más hacia la derecha y
la caja se encuentra también hacia la derecha. Para una distribución simétrica tendríamos el
siguiente gráfico:
Xmin
Xmáx
Q1
Q2
Q3
Por todo lo anterior, se presenta a continuación la sistematización de los datos de la
muestra, tomando en cuenta la tabla para datos no agrupados.
30
Lic. James Juan Saravia Zambrana
CAPITULO IV
IV ESTADISTICA INFERENCIAL
4.1 Definiciones Básicas de Probabilidad.
Se han desarrollado tres enfoques conceptuales para definir la probabilidad y determinar
valores de probabilidad los enfoques clásicos, de frecuencias relativas y subjetivo.
De acuerdo con el enfoque clásico de la probabilidad, si N(A) posibles resultados
elementales son favorables al evento A, N(S) resultados posibles están incluidos en el
espacio muestral y todos los resultados elementales son igualmente probables y
mutuamente excluyentes, entonces la probabilidad de que ocurra el evento A es:
P ( A) 
N ( A)
N (S )
El enfoque clásico de la probabilidad se basa en el supuesto de que cada resultado es
igualmente probable. Dado que este enfoque permite determinar valores de probables antes
de que sean observados, por ello se lo conoce como enfoque a priori.
Ejemplo. En un mazo de 52 naipes, contiene cuatro ases, entonces la probabilidad de
obtener un as (A) en una sola extracción es de:
P ( A) 
N ( A) 4 1
 
N ( S ) 52 13
De acuerdo con el enfoque de frecuencias relativas, la probabilidad se determina con base
en la proporción de veces en la que ocurre un resultado favorable; es decir, representa los
CASOS FAVORABLES. Dado que la determinación de los valores de probabilidad se basa
en la observación y recolección de datos, este dato se llama también enfoque empírico.
Ejemplo. Antes de incluir la cobertura de ciertos tipos de problemas dentales en sus pólizas
de seguro médico para adultos asalariados, una compañía de seguros desea determinar la
probabilidad de ocurrencia de esos problemas, para poder fijar el precio del seguro. Por lo
tanto, un experto en estadística recolecta datos de 10 000 adultos de las categorías de edad
31
Lic. James Juan Saravia Zambrana
adecuadas y encuentra que 100 personas experimentaron el problema dental particular
durante el año anterior. Así la probabilidad de ocurrencia es:
P ( A) 
n( A)
100

 0.01....ó....1%
n
10000
Tanto el enfoque clásico como el de frecuencias relativas dan por resultado valores de
probabilidad objetivos, en el sentido de que señalan el índice relativo de ocurrencia del
evento a largo plazo.
El enfoque subjetivo de la probabilidad es particularmente adecuado cuando solo existe una
oportunidad de que el evento ocurra, y de que ocurra o no en esa ocasión. De acuerdo con
el enfoque subjetivo, la probabilidad de un evento es el grado de verosimilitud que un
individuo concede a la ocurrencia del evento, con base en todas las evidencias de que
dispone. Dado que en estas condiciones el valor de probabilidad es un juicio personal, al
enfoque subjetivo también se le conoce como enfoque personalista. El desarrollo de este
enfoque de la probabilidad es relativamente reciente, y se asocia con el análisis de decisión.
4.2. Propiedades de las Probabilidades.
La probabilidad de un evento se indica con el símbolo P. Así, P(A) denota la probabilidad de
que ocurra el evento A en una sola observación o experimento.
El menor valor que puede poseer un enunciado de probabilidad es 0 (evento es imposible),
y el mayor 1 (evento o suceso seguro). De este modo en general.
0
<= P (A) < = 1
Se observa que las probabilidades siempre son POSITIVAS.
En una observación o experimento dado, una evento debe ocurrir o no ocurrir. En
consecuencia, la suma de la probabilidad de la ocurrencia más la probabilidad de la no
ocurrencia siempre es igual a 1. Así, concediendo que A indica la no ocurrencia del evento
A’, tenemos que
32
Lic. James Juan Saravia Zambrana
P(A) + P(A’) = 1
Un diagrama de Venn es un diagrama asociado con la teoría de conjuntos con las
matemáticas en el cual se describen los elementos que pueden ocurrir en una observación o
experimento en particular. Una figura cerrada representa un espacio muestral, mientras que
porciones del área del espacio representan eventos elementales o compuestos particulares,
o espacios de eventos.
Ejemplo. En la siguiente figura aparecen representadas las probabilidades de dos eventos,
A y A’ (léase “no A”). Dado que P(A) + P(A’) = 1, se cubre toda el área dentro del diagrama.
A
A’
4.3 Propiedades Matemáticas de las Probabilidades.
4.3.1 Reglas de la Adición
Las reglas de la adición se emplean cuando se desea determinar la probabilidad de que
ocurra un evento u otro (o ambos) en una sola observación. Se representa la probabilidad
de que ocurra el evento A o el evento B con P(A U B). Según la teoría de conjuntos, esto se
conoce como la unión de A y B, y la probabilidad se designa como P(A U B) (“probabilidad
de A unión B).
La regla de la adición para eventos mutuamente excluyentes es:
P (A o R) = P(A) + P(R ) = P(A U B) = P(A) + P(B)
Ejemplo. Al extender un naipe de un mazo, los eventos “as” (A) y “rey" (R) son mutuamente
excluyentes. La probabilidad de extraer un as o un rey en una sola extracción es:
4
4
8
2
P ( A..o..R )  P ( A)  P ( R ) 



52 52 52
13
33
Lic. James Juan Saravia Zambrana
Cuando los eventos no son mutuamente excluyentes, la probabilidad de la ocurrencia
conjunta de los dos eventos se resta de la suma de las probabilidades simples de los
eventos. Podemos representar la probabilidad de ocurrencia conjunta con P(A y B). En el
lenguaje de la teoría de conjuntos esto se conoce como la intersección de A y B y la
probabilidad se designa como P(A  B) (“probabilidad de A intersección B”). Así, la regla de
la adición para eventos mutuamente no excluyentes es
P(A o B) = P(A) + P(B) – P(A y B)
Se llama también regla general de la adición. Si los eventos A y B son mutuamente
excluyentes el último termino - P(A y B)- siempre sería igual a cero.
4.3.2. Eventos Mutuamente Excluyentes y No Excluyentes.
Dos o más eventos son mutuamente excluyentes, o disjuntos, si no pueden ocurrir al mismo
tiempo. Esto es la ocurrencia de un evento impide automáticamente la ocurrencia de otro (u
otros).
Ejemplo 1.- Supongamos que consideramos los dos posibles eventos “as” y “rey” en
relación con la extracción de un naipe de un mazo. Estos dos eventos son mutuamente
excluyentes cuando es posible que ocurran a l mismo tiempo. Obsérvese que esta definición
no indica que estos eventos siempre deban ocurrir necesariamente en forma conjunta.
Ejemplo 2. En un estudio sobre el comportamiento de los consumidores, un analista clasifica
a las personas que entran en una tienda de ropa de acuerdo con su género (“masculino” o
“femenino”) y edad (“menor de 30 años” y “mayor de 30 años”). Los dos eventos o
clasificaciones, “masculino” y “femenino” son mutuamente excluyentes, puesto que una
persona dada solo sería clasificada en una categoría o en la otra. De igual manera, los
eventos “menor de 30 años” y “mayor de 30 años” también son mutuamente excluyentes.
No obstante, los eventos “masculino” y “menor de 30 años” no son mutuamente
excluyentes,
porque
una
persona
aleatoriamente
elegida
podría
tener
ambas
características.
34
Lic. James Juan Saravia Zambrana
4.3.3. Eventos Independientes, Eventos Dependientes y Probabilidad Condicional.
Dos eventos son independientes cuando la ocurrencia o no ocurrencia de un evento no tiene
ningún efecto en la probabilidad de ocurrencia del otro evento. Dos eventos son
dependientes cuando la ocurrencia o no ocurrencia de un evento afecta la probabilidad de
ocurrencia del otro evento.
Ejemplo.- Los resultados asociados son el lanzamiento de una moneda dos veces seguidas
se consideran eventos independientes, porque el resultado del primer lanzamiento no tiene
ningún efecto en las probabilidades respectivas de que el segundo lanzamiento ocurra una
cara o una cruz. Las extracciones de los naipes sin reemplazo de un mazo son eventos
dependientes, porque las probabilidades asociadas con la segunda extracción dependen del
resultado de la primera extracción. Específicamente, si en la primera extracción ocurrió un
“as”, la probabilidad de que ocurra un “as” en la segunda extracción es la razón del número
de ases restantes en el mazo en relación con el número total de naipes también restantes
en el mazo o 3/51.
Cuando dos eventos son dependientes, se emplea el concepto de probabilidad condicional.
La expresión P(B\A) indica la probabilidad de que ocurra el evento B dado que ya ha
ocurrido el evento A.
Las expresiones de probabilidad condicional no se requieren en eventos independientes,
porque no existe relación entre ocurrencia de estos eventos. Por lo tanto, si los evento A y B
son independientes, la probabilidad condicional P(B\A) es siempre igual a la probabilidad de
B - P(B)-.
Consiguientemente, para probar la independencia de dos eventos A y B puede hacerse la
comparación de
Si se conoce la probabilidad del evento A y la probabilidad conjunta de
dos eventos A y B, la probabilidad condicional P(B\A) puede determinarse de la siguiente
manera:
P( A... y...B)
P( A)
La exclusión mutua indica que do eventos no pueden ocurrir al mismo tiempo, mientras que
P( A / B) 
la independencia indica que la probabilidad de ocurrencia del otro evento. De esto se
35
Lic. James Juan Saravia Zambrana
desprende, por lo tanto, que si dos eventos son mutuamente excluyentes, constituyan un
ejemplo particular de eventos sumamente dependientes, porque la probabilidad de un
evento dada la ocurrencia del otro siempre sería igual a cero.
4.3.4. Reglas de la multiplicación.
Las regles de la multiplicación se refieren a la determinación de la probabilidad de la
ocurrencia conjunta de A y B. Esto alude a la intersección de A y B: P(A  B). Existen dos
variantes de la regla de la multiplicación, según si los dos eventos son independientes o
dependientes. La regla de la multiplicación para eventos independientes es
P ( A y B) = P (A  B) = P (A)*P(B)
36
Lic. James Juan Saravia Zambrana
CAPÍTULO CINCO
LA DISTRIBUCIÓN NORMAL
5.1 La Distribución Normal de Probabilidad.
La distribución normal de probabilidad es una distribución continua de probabilidad que es,
al mismo tiempo, simétrica y mesokúrtica. Con frecuencia se describe a la curva de
probabilidad que representa la distribución normal como una campana, tal como se muestra
en la curva de probabilidad de la figura 7.2.
F(X)
X
La distribución normal de probabilidad es muy importante en inferencia estadística por tres
razones principales:
1. Se sabe que las mediciones que se obtienen en muchos procesos aleatorios tienen esta
clase de distribución.
2. Con frecuencia pueden utilizarse las probabilidades normales para aproximar otras
distribuciones de probabilidad, tales como las distribuciones binomial y Poisson.
3. Las distribuciones de estadísticas como la media muestral y proporción muestral tienen
distribución normal cuando el tamaño de la muestra es grande, sin importar la forma de
la distribución de la población de origen.
Como se mencionó antes, en el caso de las distribuciones continuas de probabilidad solo es
posible determinar un valor de probabilidad para un intervalo de valores. La altura de
densidad, o curva de probabilidad, para una variable con una distribución normal está dada
por:
37
Lic. James Juan Saravia Zambrana
f (X ) 
1
2 2
e   X   
2
/ 2 2

en donde  (pi) es la constante 3.1416, e es la constante 2.7183,  (miu) es la media de la
distribución y  es la desviación estándar de la distribución. Como cualquier combinación
distinta (todas ellas simétricas y mesokúrticas), las tablas de las probabilidades normales se
z
X 

basan en una distribución específica: la distribución normal estándar. Esta es una
distribución normal en la que = 0 y  = 1.
Cualquier valor x de una población con distribución normal puede convertirse a su valor
normal estándar equivalente, z, mediante la fórmula tipificada:
En la tabla para curva normal (campana de Gauss), puede obtenerse las porciones de áreas
para diversos intervalos de valores para la distribución normal estándar, en donde el límite
inferior del intervalo es siempre la media. Este análisis nos permite realizar pruebas de
hipótesis, planteando una serie de propuestas que determinen calcular la probabilidad de
calculo de algún evento.
Para ello es necesario tipificar la variable X en la variable Z. Puede utilizarse esta tabla
transformando los valores designados de la variable x en valores normales estándar, Así, la
distribución de Z tiene una media de cero y una varianza de 1.
Ejemplo. Se sabe que el tiempo útil de un componente eléctrico tiene una distribución
normal con media de 2 000 horas y desviación estándar de 200 horas. La probabilidad de
que un componente elegido al azar dure entre 2 000 y 2 400 horas se determina de la
siguiente manera.
El gráfico ilustra la curva de probabilidad y también se señala la relación entre la escala de
horas x, y la escala normal estándar z. Además, la parte sombreada es el área bajo la curva
que corresponde al intervalo “2 000 a 2400”.
38
Lic. James Juan Saravia Zambrana
Z
0
2
X
2000
2400
El límite inferior del intervalo es la media de la distribución y, por lo tanto, se encuentra en el
valor z = 0. El límite superior del intervalo designado, en términos de un valor z, es:
z
2400  200
2
200
Según la tabla de la normal, el valor de 2 corresponde a una probabilidad de 0.4772; o sea,
que se tiene una probabilidad del 47.72% de que el elegido dura entre 2000 y 2400 horas.
Por supuesto, no todos los problemas implican un intervalo en el que la media es el límite
inferior. Sin embargo, puede utilizarse la tabla de la curva normal para determinar el valor de
probabilidad asociado con cualquier intervalo de interés, realizando la adición o substracción
de áreas, según sea necesario, o utilizando el hecho de que la curva es simétrica.
Ejemplo. Con respecto a los componentes eléctricos, suponga que interesa la probabilidad
de que un componente elegido al azar dure más de 2 200 horas.
Debe observarse que, por definición, la proporción total del área que se encuentra del lado
derecho de la media de 2 000 es 0.5000. Por ello, si se determina la producción entre la
media y 2 200, puede restarse este valor de 0.5000 para obtener la probabilidad de que las
horas x sean mayores que 2 200, lo cual se representa gráficamente mediante la porción
sombreada.
z
2200  2000
 1.0
200
39
Lic. James Juan Saravia Zambrana
P(0 < = z < = 1.0) = 0.3413 (de la tabla normal)
P(z > +1.0) = 0.5000 – 0.3413 = 0.1587
P( X> 2200 ) = 0.1587
5.2 Intervalos de Confianza Para la Media Utilizando la Distribución Normal.
Los ejemplos anteriores ilustran la determinación de la probabilidad de que la media
muestral tenga diversos valores cuando se conocen la media y la desviación estándar de la
población. Lo que está implícito es el razonamiento deductivo con respecto al resultado
muestral y con base en parámetros poblacionales conocidos.
Se pasa ahora a revisar el razonamiento inductivo, utilizando datos muestrales para hacer
afirmaciones a cerca del valor de la media poblacional.
La estimación por intervalo se basa en el supuesto de que puede utilizarse la distribución t
de Student n < 30, se supone una distribución normal pero no se conoce la desviación
estándr de la población, pero es posible estimarla con n-k grados de libertad. Aunque la
media muestral es útil como estimador no sesgado de la media de la población, no hay
forma de expresar el grado de precisión de un estimador puntual.
Un intervalo de confianza para la media es un estimador de intervalo que se construye con
respecto a la media muestral y que permite especificar la probabilidad de que incluya el
valor de la media poblacional. El grado de confianza asociado con un intervalo de confianza
señala el porcentaje a largo plazo de esa clase de intervalos que incluirían el parámetro que
se estima.
Por lo general, se construyen los intervalos de confianza utilizando el estimador no sesgado
como la media y la desviación estándar correspondería a la Cuasivarianza muestral. Así:
X  z Sx
Los intervalos de confianza que se utilizan con mayor frecuencia se observa en la siguiente
tabla que presentan los valores de z que se requieren para esos intervalos.
Proporciones seleccionadas por áreas bajo la curva normal
40
Lic. James Juan Saravia Zambrana
z ( número de unidades
por desviación estándar)
1.645
1.96
2.58
Proporción del área
en el intervalo  z
0.90
0.95
0.99
Ejemplo. En una semana determina, se elige al azar una muestra de 300 empleados de un
número muy grande de ellos que trabajan en una empresa manufacturera. Los trabajadores
realizan una labor a destajo y encuentra que el promedio de pago por pieza trabajada es de
X = $1800, con una desviación estándar muestral de s = $140. Se estima que el pago
promedio a destajo para todos los empleados de la empresa, con una estimación por
intervalo que permita tener una confianza del 95% de que ese intervalo incluye el valor de la
media poblacional, es:
X  1.96 S x = 1900  1.96 (8.0829) = $1784.16 a $1815.84
En donde: X = 1800 (dado)
Sx = s /
n = 140 /
300
Por ello, puede afirmarse que el pago promedio a destajo para todos los empleados se
encuentra entre $174 980 y $185 020 con un grado de confianza del 95% en esa
estimación.
5.3 La prueba Ji cuadrada 2.
Propósito General de la Prueba Ji Cuadrada.
Todos los procedimientos que se describen en este capítulo implican la comparación del
patrón observado de las frecuencias de observaciones de datos muestrales organizados en
categorías definidas con el patrón esperado de frecuencias basado en una hipótesis nula en
particular.
El uso de la distribución de probabilidad 2 (ji cuadrada) en la inferencia estadística referente
a la varianza de la población. La estadística de prueba presentada sigue la distribución del
modelo de probabilidad de ji cuadrada, y dado que esta implicada la prueba de hipótesis.
41
Lic. James Juan Saravia Zambrana
La prueba ji cuadrada para probar la bondad de ajuste, la independencia de dos variables e
hipótesis referentes a proporciones. Una de las pruebas de proporciones es la prueba de las
diferencias entre varias proporciones poblacionales, la cual es una extensión de la prueba
de diferencia entre dos proporciones poblacionales.
Pruebas de Bondad de Ajuste
La hipótesis nula en una prueba de bondad de ajuste es una estipulación sobre el patrón
esperado de frecuencias en un conjunto de categorías.
Ejemplo. Un distribuidor regional de sistemas de aire acondicionado ha subdividido la
región en cuatro territorios. A un posible comprador de la distribuidora se le dice que las
instalaciones del equipo tienen una distribución aproximadamente igual entre los cuatro
territorios. El posible comprador toma de los archivos de la compañía una muestra aleatoria
de 40 instalaciones realizadas en el última año y determina que el número instalado de cada
uno de los cuatro territorios es el que aparece en la primera línea de la tabla 12.1 (donde fo
significa “frecuencia observada”). Con base en la hipótesis de que las instalaciones tienen
una distribución igual, la distribución esperada de las instalaciones está dada en la segunda
línea de la tabla 12.1 (donde fe significa “frecuencia esperada”).
Tabla 12.1 Número de instalaciones de sistemas de aire acondicionado por territorio
Territorio
A
B
Número de instalaciones en 6
12
la muestra, fo
Número de instalaciones, fe 10
10
TOTAL
C
14
D
8
40
10
10
40
Para que la hipótesis nula sea aceptada, las diferencias entre las frecuencias observadas y
esperadas deben ser atribuibles a la variedad del muestreo al nivel de significancia
asignado. Así, en la estadística de prueba ji cuadrada se basa en la magnitud de esa
diferencia para cada categoría de la distribución de frecuencias. El valor de ji cuadrada para
probar la diferencia entre un patrón obtenido y esperado de frecuencias es:
42
Lic. James Juan Saravia Zambrana
X
2
( fo  fe )2

fe
Cabe señalar que si las frecuencias observadas están muy cerca de las frecuencias
esperadas, el valor calculado de la estadística ji cuadrada será cercan a cero. A medida que
las frecuencias observadas se vuelven crecientemente diferentes de las frecuencias
esperadas, el valor de ji cuadrado aumenta. En consecuencia, de ello se desprende que al
prueba ji cuadrada implica el uso únicamente de la cola superior de la distribución ji
cuadrada para determinar si un patrón observado de frecuencias difiere de un patrón
esperado.
Ejemplo. El cálculo de la estadística de prueba ji cuadrada para el patrón de frecuencias
observadas y esperadas del ejemplo anterior, se realiza de la siguiente manera:
X2  
( f o  f e ) 2 (6  10) 2 (12  10) 2 (14  10) 2 (8  10) 2 40





 4.00
fe
10
10
10
10
10
El valor requerido de la estadística de prueba ji cuadrada para rechazar la hipótesis nula
depende del nivel de significancia especificada y de los grados de libertad. En pruebas de
bondad de ajuste, los grados de libertad (gl son iguales al número de categoría menos el
número de estimadores paramétricos basados en la muestra y menos 1). Donde k = número
de categorías de datos y m = número de valores paramétricos estimados con base en la
muestra, los grados de libertad en una prueba ji cuadrada de bondad de ajuste son
df = k – m – 1
Cuando la hipótesis nula es que las frecuencias tienen una distribución uniforme, no está
implicada ninguna estimación paramétrica y m = 0. La sustracción de 1 se incluye siempre,
porque dado un número total de observaciones una vez que las frecuencias observadas se
han organizado en k – 1 categorías de una tabla de frecuencias, en realidad la última celda
no puede variar libremente. Por ejemplo, dado que las tres primeras categorías del ejemplo,
tienen frecuencias observadas de 6, 12 y 14, respectivamente, de ello se deduce que la
43
Lic. James Juan Saravia Zambrana
cuarta categoría debe tener una frecuencia de 8 para acumular el tamaño de muestra
asignado de n = 40.
Prueba de Independencia de dos Variables Categóricas (Prueba con Tabla de
Contingencias)
En el caso de las pruebas de bondad de ajuste solo existe una variable categórica, como el
tamaño de pantalla de dos televisores vendidos, y lo que se prueba es una hipótesis sobre
el patrón de frecuencias o distribución, de la variable. Las frecuencias observadas pueden
enlistarse en una sola línea o columna de categorías. Las pruebas de independencia
implican al menos dos variables categóricas, y lo que se prueba es el supuesto de que las
variables son estadísticamente independientes. La independencia supone que el
conocimiento de la categoría en la que es clasificada una observación respecto de una
variable no tiene efecto sobre la probabilidad de que la otra variable se encuentre en una de
varias categorías. Cuando están implicadas dos variables, las frecuencias observadas se
organizan en una tabla de doble clasificación o tabla de contingencias. Las dimensiones de
estas tablas están definidas por r x k, donde r indica el número de líneas y k el número de
columnas.
Ejemplo. La siguiente tabla un ejemplo del formato más simple posible de una tabla de
contingencias, dado que cada una de las dos variables (sexo y edad) tiene solo dos niveles
de clasificación o categorías. Así, ésta es una tabla de contingencias de 2 x 2.
Edad
Menor de 30 años
Mayor de 30 años
Total
SEXO
Masculino
60
80
140
Femenino
50
10
60
Total
110
90
200
Si la hipótesis nula de independencia es rechazada para datos clasificados como los que
aparecen en la tabla, ello indica que las dos variables son independientes y que existe una
relación entre ellas. En esta tabla se indica que existe una relación entre la edad y el sexo
de los clientes de las tiendas de aparatos estereofónicos.
44
Lic. James Juan Saravia Zambrana
Dada la hipótesis de independencia de las dos variables, la frecuencia esperada asociada
con cada celta de una tabla de contingencias debe ser proporcional a las frecuencias
observadas totales incluidas en la columna y línea en las que se ubica la celda en relación
con el tamaño demuestra total. Donde fr, es la frecuencia total de una línea dada y fk la
frecuencia total de una columna dada, una fórmula conveniente para determinar la
fr fk
n
frecuencia esperada para la celda de la tabla de contingencias ubicada en esa línea y
fe 
columna es:
La fórmula general para todos los grados de libertad asociados con una prueba de
independencia es
Gl = (r - 1)(k - 1)
Ejemplo. Las frecuencias esperadas de los datos de la tabla 12.3 se presentan en la tabla
12.4. Para el caso de línea 1, columna 1, por ejemplo, el cálculo de la frecuencia esperada
es
fe 
f r f k (110)(140) 15400


 77
n
200
200
Adviértase que, en este caso, las tres frecuencias esperadas restantes pueden obtenerse
por sustracción de los totales de línea y columna. Esta es una indicación directa de que
para una tabla de contingencias de 2 x 2 existe un grado de libertad, y de que solo la
frecuencia de una celda varía libremente.
Edad
Menor de 30 años
Mayor de 30 años
Total
Sexo
Masculino
77
63
140
Femenino
33
27
60
Total
110
90
200
La estadística de prueba ji cuadrada para tablas de contingencias se calcula exactamente
como la estadística para pruebas de bondad de ajuste
45
Lic. James Juan Saravia Zambrana
Ejemplo. A continuación aparece la pruebe de la hipótesis nula de independencia de los
datos de la tabla 12.3, con un nivel de significancia de 1%.
Ho = Sexo y edad de los clientes de tiendas y aparatos estereofónicos son dependientes
H1 = Sexo y edad son variables dependientes (existe una relación entre las variables)
gl = (r-1)(k-1) = (2-1)(2-1) = 1
2 crítica (gl = 1,  = =0.01) = 6.63
( f o  f e ) 2 (60  77) 2 (50  33) 2 (80  63) 2 (10  27) 2




 27.80
fe
77
33
63
27
La estadística de prueba calculada de 27.80 excede el valor crítico requerido de 6.63. Por lo
X2  
tanto, la hipótesis nula de independencia se rechaza al nivel de significancia de 1%.
En referencia a la segunda tabla, se advierte que es más probable que los clientes de sexo
masculino sean mayores de 30 años. El resultado de la prueba ji cuadrada indica que esta
relación observada en la muestra no puede ser atribuida al azar al nivel de significancia de
1%.
46