Download ESTADSTICA DESCRIPTIVA

Document related concepts
no text concepts found
Transcript
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA: CONCEPTOS GENERALES
Para comenzar es conveniente enunciar algunos conceptos importantes.
Estadística: la palabra estadística procede del vocablo "estado" pues era función principal de
los gobiernos establecer registros de población, nacimientos, defunciones, etc.
Por esta razón, muchas personas entienden por estadística al conjunto de datos,
tablas, gráficos, que se suelen publicar en los periódicos.
En realidad, la estadística no es sólo eso, sino que comprende una serie de
herramientas para la toma de decisiones, por lo que actualmente se la emplea en
gran parte de los estudios científicos.
La estadística se puede dividir en dos partes:
•
Estadística descriptiva, que trata del recuento, ordenación y clasificación de los datos
obtenidos por las observaciones. Se construyen tablas y gráficos, se calculan medidas
estadísticas que caracterizan la distribución de los datos, etc.
•
Estadística inferencial, que permite obtener conclusiones sobre una población a partir de
los resultados obtenidos de una muestra. Se apoya fuertemente en el cálculo de
probabilidades.
Para comprender este último concepto, recordemos las siguientes definiciones:
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que se desean
estudiar. Por ejemplo, si analizamos el precio de la vivienda en una ciudad, la
población es el conjunto de todas las viviendas de esa ciudad. Puede ser finita o
infinita.
Población finita: cuando el número de elementos que la forman es finito, por ejemplo el
número de alumnos de un centro de enseñanza, o grupo clase.
Población infinita: cuando el número de elementos que la forman es infinito, o tan grande
que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los
productos que hay en el mercado, hay tantos y de tantas calidades que esta población podría
considerarse infinita.
Un elemento cualquiera de la población se denomina objeto o unidad de observación (por
ejemplo persona). El objeto de observación posee siempre propiedades o caracteres (por
ejemplo, edad, peso, nivel de estudios, etc) que son relevantes para el objetivo del trabajo
estadístico.
Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la
vivienda de una ciudad, lo normal será no recoger información sobre todas las
viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar
un subgrupo (muestra).
La muestra debe tener las siguientes propiedades:
1
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
o
o
o
Homogeneidad: Toda la muestra debe provenir de la misma población.
Independencia: Las observaciones no deben ser condicionadas.(por ejemplo en las
encuestas individuales pueden condicionarse las respuestas)
Representatividad: Debe ser fiel reflejo de la población (por ejemplo por TE o por correo
no es representativa)
A los datos que conforman una muestra se los puede clasificar en:
Cualitativos, referidos
a Atributos o a
Variables Categóricas
No son numéricos, expresan una cualidad. Por ejemplo:
Sexo, Nivel máximo de Estudio, Nivel socioeconómico,
Religión.
Pueden ser:
Ordinales: Aquellos que sugieren una ordenación, por ejemplo la graduación militar, el nivel
máximo de estudios, etc.
Nominales: Aquellos que no admiten una ordenación natural, por ejemplo el color de pelo,
sexo, estado civil, etc.
Cuantitativos, referidos
a Variables Numéricas
Son numéricos. Por ejemplo: Edad, Tiempo,
Peso, Cantidades.
Pueden ser:
Discretos. Son valores enteros, es decir, aquellos que por su naturaleza no admiten un
fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc.
Continuos: no son valores enteros, es decir, aquellos que por su naturaleza admiten que
entre dos valores cualesquiera sea posible medir cualquier valor intermedio, por ejemplo
peso, tiempo. etc.
Población conceptual: Esta asociada a una variable numérica particular y es el conjunto de
todos los valores que puede tomar la variable de referencia del dato considerado.
Ejercicio 1
Una empresa de teléfonos decide realizar una encuesta telefónica entre los abonados de una
ciudad (únicamente casas de flía.), para indagar sobre diversos aspectos del servicio. A
continuación se listan los datos solicitados a los encuestados, indique en cada caso qué tipo de
dato es:
♦ Cantidad de aparatos telefónicos en la casa.
♦ Modelo del aparato telefónico.(da varias opciones)
♦ Facturación del último mes.
♦ Ocupación del sostén económico de la familia.
♦ Número de integrantes del grupo familiar.
♦ Barrio en que esta ubicada la vivienda.
2
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS
En cualquier caso, tanto si se realizan observaciones totales (población) o parciales (muestra), la
mecánica para hacer el tratamiento de los datos es la misma. Para presentar un conjunto de
datos, se utilizan Tablas y Gráficos.
Tablas de frecuencias
Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de
resultados, es decir, recoger la información de la muestra o población resumida en una tabla en
la que a cada valor de la variable en estudio se le asocian determinados valores que representan
el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable,
etc.
Los datos estadísticos correspondientes a una variable se ordenan en una tabla, que se
denomina tabla de distribución de frecuencias o tabla de frecuencias.
Se denomina n al número de unidades de observación que componen a la población o a la
muestra considerada, es decir al total de observaciones realizadas, pues se hace una
observación por cada unidad.
La primera columna de la tabla esta formada por cada uno de los distintos valores que toma la
variable. Ordenados de menor a mayor y consignados sin repetir.
La segunda columna por la cantidad de veces que se registro cada uno de los datos obtenidos.
Recibe el nombre de frecuencia absoluta de dicho valor y se simboliza fi.
En la tercera se considera la frecuencia acumulada, que indica la frecuencia absoluta que se
acumula hasta esa fila de la tabla. Se obtiene sumando, desde el valor mínimo hasta el
considerado, las frecuencias absolutas. Se simboliza Fi.
En la cuarta columna se asientan las frecuencias relativas, cada una de ellas indica la fracción
del total de la población o muestra que corresponde a cada dato. Se simboliza fri y se calcula
f
mediante la fórmula: fri = i con n número total de observaciones.
n
La quinta y última columna contiene la frecuencia relativa acumulada que se obtiene sumando
los valores de fr desde el mínimo hasta la fila correspondiente. Se simboliza Fri
Datos cuantitativos Discretos
Conforme a lo expresado anteriormente realice el siguiente ejercicio:
Ejercicio 2
Un encargado de personal contó el número de inasistencias que tuvo cada operario del sector de
producción de su empresa, durante el año próximo pasado y ordenó los resultados en forma
creciente:
0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 6, 6, 7, 9, 10, 10, 10, 10
3
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
Identifique primero los siguientes elementos:
Unidad de observación:
Definición de la Variable:
Tipo de variable
Número de elementos de la población:
Represente los datos en la siguiente Tabla de distribución de frecuencias:
Valor de la
fi
Fi
fri
variable xi
Totales
∑f = n =
Fri
∑ fi = 1
i
Los valores de xi se consignan ordenados de menor a mayor.
Datos Cuantitativos Continuos
La forma de organización de este tipo de datos depende del tamaño de la muestra. Si la muestra
es grande se trabaja con datos agrupados y posteriormente se realiza un tratamiento similar al
de datos cuantitativos discretos. Si la muestra es chica se trabaja con la serie simple de una
manera particular. A continuación se ejemplifican ambos tratamientos.
Tratamiento para datos agrupados
Se busca clasificar a la muestra en una cierta cantidad de intervalos, llamados intervalos de
clase y calcular luego la cantidad de datos que caen en cada uno de ellos. Los intervalos pueden
tener igual o diferente longitud, pero en la práctica se trabaja con intervalos de longitud
constante.
Realice el siguiente ejercicio:
Ejercicio 3
Se dispone de una serie ordenada con los datos de la duración de 40 lámparas pertenecientes a
una marca particular. Se desea construir la tabla de distribución de frecuencias correspondiente.
684
697
720
773
821
831
835
848
852
852
859
860
868
870
876
893
899
905
909
911
922
924
926
926
4
938
939
943
946
954
971
972
977
984
1005
1014
1016
1041
1052
1080
1093
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
En este caso se trabaja con una muestra.
Identifique primero los siguientes elementos:
Unidad de observación:
Definición de la Variable:
Tipo de variable:
Número de elementos de la muestra: n =
Como el número de datos es grande se agrupan los mismos. Para hacerlo primero se determina
lo que se llama:
Rango o recorrido de la variable: que es la diferencia entre el valor mayor y el valor menor de
dicha variable.
En este caso: Rango = R = 1093 – 684 = 409
Luego se subdivide el rango de la serie de datos en intervalos iguales, cada uno de los cuales se
denomina intervalos de clases.
El número de intervalos de clase (k) depende de la cantidad de datos. En este caso se toma k =
5 es decir cinco intervalos de clases.
La longitud de cada intervalo de clase se obtiene mediante la siguiente fórmula:
Longitud = L = R/k
Entonces en este caso L = 409/5 = 81.80.
Como el valor L obtenido es un número difícil de trabajar, adoptamos el valor L = 100 que es
próximo y cómodo y adaptamos convenientemente los extremos de los intervalos.
Para determinar la frecuencia de un intervalo de clase se cuenta el número de veces que la
variable toma valores comprendidos en ese intervalo de clase.
Complete la siguiente tabla de distribución de frecuencias:
Intervalo
Punto
medio
xmi
700
[650;750[
800
[750;850[
900
[850;950[
[950;1050[ 1000
[1050,1150[ 1100
Totales
fi
Fi
∑ f =n=
fri
Fri
∑ fi = 1
i
Observemos que el primer extremo de cada intervalo pertenece al mismo y que el segundo
extremo no pertenece.
Se incluye una columna que contiene el punto medio de cada intervalo.
La primera tarea a realizar para este tratamiento, que se ahorra en este ejercicio, es ordenar los
mismos con repetición si esta ocurre.
5
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
La cantidad de intervalos a construir depende de la cantidad de datos. En la práctica en general
se construyen entre 5 y 15 intervalos. Entre 30 y 50 datos, conviene usar 7 u 8 intervalos. La
cantidad va aumentando muy lentamente a medida que el tamaño de la muestra crece. Por
ejemplo, para una muestra de 500 datos pueden utilizarse 10 intervalos o más. También suele
utilizarse como regla usar k ≤ n , con k número de intervalos y n número de datos.
Tratamiento para serie simple
Si partimos de la serie simple x1 x2 ......xn , la forma de construir la tabla es ordenando los datos
de menor a mayor, consignando repeticiones como si se trataran de datos distintos (por ser
variable continua) si algún dato se presenta más de una vez, y asignando luego a cada dato la
frecuencia relativa acumulada de la siguiente manera:
Fri =
i
donde i es la ubicación del dato luego del ordenamiento y n la cantidad de datos.
n+1
Notar que la frecuencia relativa acumulada calculada de esta manera no alcanza nunca el valor
cero, ni el valor uno. Esto resulta apropiado en el caso de las variables aleatorias continuas.
Los siguientes datos corresponden al punto de ebullición, en grados Celsius, de un compuesto de silicio.
166 - 141 - 136 - 153 - 170 - 162 - 155 - 146 183 - 157 - 148 - 132 - 160 - 175 - 150
Como la variable en estudio es continua, y son pocos los valores de la muestra, la Tabla de
Distribución de Frecuencias es:
xi
132
136
141
146
148
150
153
155
157
160
162
166
170
175
183
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Fri
0.0625
0.125
0.1825
0.25
0.3125
0.375
0.4375
0.5
0.5625
0.625
0.6875
0.75
0.8125
0.875
0.9375
Gráficos Estadísticos
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para
informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de
información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más
6
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser mal
interpretados si no se tienen algunas precauciones básicas al realizar las gráficas.
Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno
de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al
presentar la información.
Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento
de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz
posible y sin distorsiones:
1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o
de las ordenadas) debe comenzar en cero, de otra manera podría dar impresiones
erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que
representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica
deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el
objetivo que se persigue al representarla, de otra manera la representación gráfica se
convierte en un instrumento ineficaz, que produce más confusión que otra cosa,
innecesario o productor de malas interpretaciones.
Hay un punto que conviene remarcar: existen software que permiten la construcción rápida y
eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita,
bien delineada, bien coloreada o bien presentada esté una gráfica, si no se ha tomado en cuenta
el objetivo de estas herramientas y el de la Estadística, es decir, la transmisión eficiente de la
información.
Se dispone de una gran variedad de gráficos estadísticos, para representar distintas situaciones,
entre ellos los siguientes:
Diagrama de barras
Los gráficos de barras facilitan la visualización de la distribución de frecuencias de los datos. Por
sus características se utiliza para representar distribuciones de frecuencias de atributos y de
variables cuantitativas discretas.
Un diagrama de barras se construye en un sistema de coordenadas cartesianas donde, en el eje
horizontal (eje x) se representa la variable y en el eje vertical (eje y) se representa la frecuencia
correspondiente a cada valor que toma dicha variable. Consta de una serie de barras separadas
entre sí, pues representan números enteros. La altura de estas barras representa la frecuencia,
puede construirse para señalar frecuencias absolutas o relativas.
Ejercicio 4
Se realiza una encuesta a un grupo de estudiantes secundarios para obtener información sobre
la orientación de sus preferencias hacia el estudio. Los datos obtenidos se resumen en la
siguiente tabla:
7
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
“orientacion”
Humanidades (1)
Bienes y servicios (2)
Gestión y economía (3)
Otros (4)
Totales
fi
15
3
20
3
fri
0.3659
0.0732
0.4878
0.0732
∑ fi =n=41 ∑ fi = 1
fpi
36.59%
7.32%
48.78%
7.32%
∑ fpi =100
Indique el tipo de dato y realice el diagrama de barras correspondiente.
Gráfico circular o de sectores
Otra forma de visualizar el comportamiento de una distribución de variable es por medio del
gráfico circular o de sectores. Se utiliza para representar cualquier tipo de variable.
Cada zona del círculo corresponde a una categoría diferente. Muestra la frecuencia en
porcentajes de cada categoría representadas por las áreas de los sectores circulares.
Para construir un gráfico de sectores hay que determinar el ángulo central correspondiente a
cada sector circular. La siguiente fórmula muestra la manera de hacerlo:
Ángulo central = fri . 360º
donde fri es la frecuencia relativa
Ejercicio 5
El siguiente gráfico de sectores surge de una encuesta de opinión realizada a 200 personas, que
presenciaron un espectáculo artístico, sobre el grado de satisfacción obtenido en el mismo:
no contesta 2%
no satisfechos 16%
muy satisfechos 44% 43%
medianamente satisfechos 38%
Conteste las siguientes preguntas que indican un posible análisis de este tipo de gráfico:
a) ¿Cuántas personas se declararon muy satisfechas?
b) ¿Cuántas personas expresaron estar medianamente satisfechas?
c) ¿Qué porcentaje corresponde a las personas que obtuvieron algún grado de satisfacción?
8
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
Histograma
Es similar al gráfico de barras solo que esta formado por barras que se adosan unas a otras, se
utiliza para variables cuantitativas continuas con datos agrupados en intervalos.
El siguiente es el histograma correspondiente a la variable “duración de una lámpara” con los
datos registrados anteriormente.
frecuencia relativa
0,6
0,5
0,4
0,3
0,2
0,1
0
700
800
900
1
1000 1100
"duración de una lámpara"(hs)
Observemos que en este histograma se ha considerado la frecuencia relativa, aunque puede
también construirse un histograma de frecuencia absoluta se recomienda trabajar con
frecuencias relativas. En el eje horizontal se colocaron los puntos medios de cada intervalo de
clase.
Frecuencias Relativas Acumuladas u Ojiva.
Este gráfico es adecuado para representar serie simples correspondientes a variables continuas.
Como en este caso las frecuencias absolutas, en general, son igual a 1, ya que los datos
provienen de una variable aleatoria continua, trabajamos sólo con las frecuencias relativas
acumuladas calculadas como lo hicimos anteriormente.
Para el ejemplo del "Punto de ebullición en grados Celcius de un compuesto de silicio" tenemos
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
130
140
150
160
9
170
180
190
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
MEDICIÓN DE DATOS
Las características que describen un conjunto de datos reciben el nombre de propiedades de los
datos, estas se resumen en medidas numéricas que contribuyen al análisis del conjunto de
datos.
Para cualquier conjunto de datos interesa conocer las denominadas medidas analíticas que son
las siguientes: las de tendencia central o posición, las de variabilidad o dispersión y las de forma.
Si los datos se obtuvieron de la población, estas medidas reciben el nombre de parámetros; si
surgen de una muestra, las medidas se denominan estadísticos o estadígrafos.
Medidas de tendencia central
Las medidas tendencia central son valores que se calculan para una determinada distribución
de datos y que se utilizan para describir los mismos. Lo que se pretende es que estas medidas
sean representativas de todos los valores que toma la variable, pues permiten conocer cómo se
concentran estos valores.
Se consideran tres medidas de tendencia central: la media, la mediana y la moda.
La media aritmética o promedio es la suma de los valores del conjunto de datos dividida por el
total de observaciones. Se simboliza x .
Para calcular la media a partir del total de las observaciones se utiliza la siguiente fórmula:
x =
1 n
∑ xi
n i=1
Teniendo en cuenta que n es el número total de observaciones, xi los valores que toma la
variable en cada una de las observaciones (atención: se consignan repeticiones o frecuencias
absolutas).
La mediana es una medida de posición que aparece en el centro de una sucesión ordenada de
valores de la variable. Es decir es el valor de la variable tal que la mitad de las observaciones
son menores o iguales que ella. Se simboliza Me.
Si los datos se trabajan como serie simple, se calcula de la siguiente manera:
•
•
Si el número de datos es par, se toma el punto medio de los valores centrales, luego
de haberlos ordenado.
Si el número de datos es impar, se toma el valor del centro.
Si los datos se trabajan agrupados en una tabla de distribución de Frecuencias, se busca el
intervalo que contiene la mediana, este es aquel cuya frecuencia relativa acumulada es la
primera en ser ≥ 0.5. En este caso se toma, como aproximación, el punto medio del intervalo
que contiene la mediana o se utiliza una fórmula de interpolación.
El modo o moda, es el valor de la variable que se presenta más frecuentemente. Se simboliza
Mo.. Puede haber más de uno. Cuando los datos están agrupados en clases se puede tomar la
10
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
marca de clase o utilizar una fórmula de interpolación para calcularlo. (No se usa para variable
continua en serie simple, pues los valores reales no se repiten).
Ejercicio 6
En una prueba con valor de 40 puntos, se obtuvieron los siguientes resultados:
39, 32, 25, 21,19, 19, 19, 18, 13, 11, 10, 8, 5, 4, 2.
Calcule x , la mediana y la moda.
Medidas de posición no centrales
Cuartiles: dividen a la serie de datos ordenada en cuatro partes iguales. Es decir, los cuartiles
son tres. El Primer cuartil ( q1 ) es el valor para el cual el 25% de los valores son
menores o iguales. El Segundo Cuartil ( q2 ) coincide con la mediana, y el Tercer
Cuartil ( q3 ) es el valor que deja por debajo el 75% de los datos.
Si se trabaja con la serie simple, previamente ordenada, se utilizan las siguientes fórmulas para
encontrar la ubicación de cada cuartil:
n +1
para el primer cuartil.
4
n+1
q2 = 2
para el segundo cuartil (Observe que coincide con lo dicho para la mediana).
4
n+1
q3 = 3
para el tercer cuartil.
4
q1 =
•
•
•
•
Si el resultado de cualquiera de las fórmulas anteriores es un número entero,
simplemente se toma el valor de la serie que ocupa dicho lugar.
Si el resultado no es un número entero y su primer cifra decimal es 5, entonces se
toma el punto medio de los valores ubicados en la posición anterior y posterior. Por
ejemplo, si el resultado es 4.5, el cuartil buscado será el punto medio de los valores
que están en el cuarto y quinto lugar.
Si el resultado no es un número entero y su primer cifra decimal es menor a cinco,
entonces se toma el valor ubicado en la posición anterior. Por ejemplo, si el resultado
es 4.3, tomamos el valor ubicado en cuarto lugar.
Si el resultado no es un número entero y su primer cifra decimal es mayor a 5,
entonces tomamos el valor posterior. Por ejemplo, si tenemos 4.8, el cuartil será el
valor ubicado en la quinta posición de la serie ordenada.
A partir del concepto de cuartiles, surge otro tipo de gráfico: Diagrama de Caja o Box Plot. Este
diagrama permite resumir gran parte de la información contenida en los datos, mostrando la
forma de la distribución (sesgos) y datos extraños, en caso de existir.
Se construye una caja (horizontal o vertical) como en el siguiente ejemplo:
Sean los siguientes datos ya ordenados: 2, 5, 6, 7, 11, 18, 28.
Estos pueden posicionarse mediante la asociación X1, X2, X3, X4, X5, X6, X7. Entonces: n = 7 y:
11
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
q1 =
(7+1)
=2 , la posición es 2 (entero) y el dato de posición 2 en la muestra es
4
x q1 = x 2 = 5.
2(7+1)
= 4 , la posición es 4 y el dato que ocupa la posición 4 es x q = x 4 = 7.
2
4
3(7+1)
= 6 , la posición es 6 y el dato que ocupa la posición 6 es x q = x 6 = 18.
q3 =
3
4
q2 =
El rango intercuartil (ancho de la caja) se calcula como sigue: (x q3 − x q1 ) = 18 – 5 = 13,
q1 q2
0
5
q3
10
15
20
25
30
Las líneas que se extienden a partir de las aristas laterales del rectángulo se denominan
bigotes.
Las observaciones que están entre 1,5 y 3 veces el rango intercuartílico, a partir de la arista del
rectángulo más cercana, se consideran valores atípicos. Es decir existen datos atípicos cuando
el largo de uno o de los dos bigotes es mayor a 1,5 veces el rango intercuartílico.
En el caso del ejemplo el rango intercuartílico es 13, el largo del bigote inferior es 5 – 2 = 3 y el
largo del bigote superior es 28 – 18 = 10, como el largo de ninguno de los dos bigotes supera a
1,5.13 = 19,5, no existen datos atípicos. Aquí serian atípicos los datos ubicados a una distancia
mayor a 19,5 a partir de x q1 y x q3
El diagrama de Caja para el ejemplo de Grados Celsius, construido con un software es el
siguiente:
190
185
180
175
170
165
160
155
150
145
140
135
130
125
120
N=
15
Grados
12
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
Otras medidas de posición no centrales son los Percentiles. Estos dividen a la serie de datos
ordenada en 100 partes iguales, por lo que los percentiles son 99. Por ejemplo, el percentil 24
deja el 24% de los datos por debajo y el percentil 75 coincide con el tercer cuartil, ya que deja
75% de los datos por debajo y 25% por encima
Medidas de dispersión
Si bien el cálculo de las medidas de tendencia central para un conjunto de datos es importante
para resumir la información, no debemos dejar de lado la relevancia que tiene saber el grado de
dispersión o variabilidad que tiene ese conjunto de datos. Esa variabilidad generalmente se toma
respecto de alguna de las medidas de tendencia central.
Las medidas de dispersión en las que nos detendremos serán las siguientes: el rango o
recorrido, la varianza, la desviación estándar y el coeficiente de variación.
La más simple de las medidas de dispersión es el rango, que ya se utilizó para calcular los
intervalos de clase.
El rango o recorrido de una variable es la diferencia entre el valor máximo de la variable y el
valor mínimo de la misma. Se suele representar con la letra R. Es claro que cuanto más grande
es el rango, mayor es la variabilidad de los datos.
Se utiliza la situación planteada en el ejercicio 7 para calcular las otras medidas de dispersión y
para ilustrar la importancia de estas medidas en el estudio de una distribución.
Ejercicio 7
Una empresa quiere comparar el funcionamiento de dos máquinas con las que fabrica resortes.
Para evaluarlas debe determinar la precisión de cada una en la elaboración de las piezas. Se
toman al azar 80 resortes elaborados por la máquina I y 80 elaborados por la máquina II. Se
efectúan mediciones de las piezas fabricadas y se obtiene los siguientes datos, que reflejan los
errores de ambas máquinas:
Variable:
Error (xi)
(en décimas de mm)
-3
-2
-1
0
1
2
3
4
Totales
Máquina I
fi
Máquina I
xi.fi
0
-3 . 0 = 0
12
-2 . 12 = -24
18
-1 .18 = -18
22
0 . 22 = 0
16
1 . 16 = 16
10
2 . 10 = 20
2
3.2=6
0
4.0=0
∑ fi =n=80 ∑ xifi = 0
13
Máquina II
fi
Máquina II
xi.fi
8
-3 . 8 = -24
12
-2 . 12 = -24
14
-1 . 14 = -14
16
0 . 16 = 0
12
1 . 12 = 12
8
2 . 8 = 16
6
3 .6 = 18
4
4 .4 = 16
∑ fi =n=80 ∑ xifi = 0
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
Observe que la media x de errores de ambas máquinas es cero lo que hace pensar que ambas
funcionan muy bien.
a) Construya los gráficos de las distribuciones.
Observe en los gráficos que los errores que se cometen están dispersos de distinta manera. En
la máquina I los valores se concentran más alrededor de la media y en la máquina II están más
dispersos. Por supuesto que esto refleja un mejor funcionamiento de la máquina I.
Es posible decir entonces que para el estudio de una distribución no es suficiente conocer las
medidas de tendencia central es necesario además poder “medir” la dispersión de los valores
con respecto a la media.
Para obtener una medida de la dispersión se calcula la distancia al cuadrado entre cada valor de
la variable y la media y luego su promedio. Se elevan las diferencias al cuadrado ya que es
posible que estas distancias se contrarresten al calcular el promedio. Esta medida de la
variabilidad se llama varianza.
La varianza se define como la media aritmética de los cuadrados de las desviaciones de la
variable con respecto a la media aritmética.
La varianza se simboliza s2 y para calcularla se utiliza la siguiente fórmula:
S2 =
1 n
(x i − x)2
∑
n i=1
b) Calcule la varianza de las distribuciones de las máquinas.
c) Diga cuál es la distribución que presenta mayor medida de variabilidad y si esto coincide con
lo observado en los gráficos de las distribuciones.
La varianza presenta un inconveniente, en el ejercicio dado se refleja en el hecho de que su
valor esta expresado en centésimas de mm2. Sería deseable una medida de dispersión que se
expresara en la misma unidad que la media. Por este motivo se define otra medida de dispersión
llamada desvío estándar.
El desvío estándar es la raíz cuadrada positiva de la varianza.
El desvío estándar se simboliza s y se calcula: s = s 2 con s2 igual a la varianza
El desvío estándar es la medida de dispersión que se utiliza más habitualmente, pues esta
expresada en la misma unidad que la media.
d) Calcule el desvío en los errores de ambas máquinas.
e) Obtenga una conclusión sobre el funcionamiento de las máquinas.
Esta demostrado que para calcular la varianza muestral, es decir la varianza de datos de una
muestra y no de toda la población que se desea estudiar, se obtiene una mejor estimación de la
14
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
varianza poblacional si se utiliza, en la fórmula, como denominador (n – 1) en lugar de n. Por
este motivo cuando trabajemos con muestras, utilizaremos la fórmula de varianza modificada:
S2 =
1 n
(x i − x)2
∑
n − 1 i=1
con n tamaño de la muestra
La última de las medidas de dispersión que consideraremos es el coeficiente de variación.
El coeficiente de variación indica la relación entre la media y el desvío estándar.
Se simboliza CV y se calcula: CV =
s
( cociente entre s y x , es un número sin unidad )
x
Se utiliza para analizar la homogeneidad de una muestra o de una población. Mientras menor
sea el coeficiente de variación (muy próximo a cero menor a 0,3), habrá mayor homogeneidad en
los datos, encontrándose éstos más concentrados en torno a la media aritmética.
También se utiliza cuando se desea comparar la dispersión de dos o más distribuciones que
tienen medias diferentes entre sí o bien que se expresan en distinta unidad de medida. En estos
casos las desviaciones estándar resultan imposibles de comparar y se debe recurrir a esta
medida de variación relativa.
s
Si se calcula CV =
100 % se obtiene el porcentaje de la media que representa al desvío.
X
Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de
69,6 kg. y su desviación típica s = 10,44 y la Tensión Arterial de los mismos (150, 170, 135, 180
y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería:
¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones
típicas observamos que la de la tensión arterial es mucho mayor; sin embargo, no podemos
comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los
coeficientes de variación:
El Coeficiente de Variación del peso es:
CV =
10.44
= 15 %
69.6
El Coeficiente de Variación de la Tensión Arterial es:
CV =
21.30
= 12.8 %
166
A partir de éstos resultados observamos que la variable peso tiene mayor dispersión.
Medidas de Forma
Las medidas de forma proporcionan información sobre las características de la gráfica de la
función de distribución de la variable.
15
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
Estudiaremos el Coeficiente de Asimetría que proporciona información sobre el sesgo de la
distribución. Se representa con Ca y se calcula como sigue:
⎛1 n
3⎞
⎜ n ∑ (xi − x) ⎟
⎠
Ca = ⎝ i=1 3
s
El coeficiente Ca tiene signo e indica lo siguiente:
Ca > 0 ⇒ la asimetría es positiva, la gráfica tiene sesgo a la derecha.
Ca = 0 ⇒ la asimetría es cero por tanto la gráfica es simétrica no tiene sesgo.
Ca < 0 ⇒ la asimetría es negativa, la gráfica tiene sesgo a la izquierda.
En la práctica para calcular Ca se usa una fórmula de trabajo que es la siguiente:
Ca =
3(x − Me )
s
También en el ámbito de la práctica el rango de Ca es el siguiente: – 2,5 < Ca < 3 y si ocurre que
– 0,5 < Ca < 0,5 se considera que la asimetría es cero.
Ca > 0
Ca ≅ 0
Ca < 0
La última de las medidas de forma que veremos es el Coeficiente de Curtosis y se define
como sigue:
⎛1 n
4⎞
⎜ n ∑ (xi − x ) ⎟
⎠
Ck = ⎝ i=1 4
s
El coeficiente de Curtosis Ck mide aplanamiento de la gráfica, si es menor que 3 es aplanada, si
es mayor que 3 es empuntada y si es aproximadamente 3 tiene el aplanamiento de la
Distribución Normal.
16
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
INTERPRETACIÓN DE LA INFORMACIÓN DESCRIPTIVA
Cuando se realiza un estudio descriptivo, es importante analizar tablas, gráficos y medidas en
forma conjunta, para ver si las características generales de la distribución de datos se “parece” a
las características de algún modelo matemático. De ser así, uno puede proponer ese modelo
para describir el comportamiento de la variable. Es decir a través de la observación y análisis de
las tablas de distribución, los gráficos estadísticos y las medidas analíticas, obtenidos de una
muestra, es posible reconocer en un paso posterior la función de distribución de probabilidad
que mejor describa el comportamiento o variabilidad de la población conceptual subyacente
(población conceptual de la cual se extrae la muestra). Una de las distribuciones que se presenta
con más frecuencia y tiene un comportamiento deseable, para las variables implicadas en las
aplicaciones de Ingeniería, es la Distribución Normal (Campana de Gauss). Generalmente suele
utilizarse a esta distribución como referencia en el análisis de la información descriptiva
procesada.
Para el ejemplo de la variable "punto de ebullición en grados Celsius", si se calculan las
medidas, se observa que:
•
a media y la mediana son parecidas y el coeficiente de asimetría es cercano a cero, por lo
que podemos decir que la distribución es aproximadamente simétrica. Esto puede
observarse también en el diagrama de caja, donde además, no se observan datos extraños.
•
El coeficiente de curtosis es cercano a 3, lo que indica que el "empuntamiento" es similar al
de una distribución Normal, solo que un poco más bajo.
•
El gráfico de frecuencias acumuladas u Ojiva, es similar a una "S", lo que estaría indicando
que acumula probabilidades de manera similar a una Normal.
Otro ejemplo: En un estudio sobre vibraciones, ciertos componentes de un aeroplano fueron
sometidos a severas vibraciones hasta que presentaron fisuras estructurales. Los siguientes
datos corresponden a los tiempos de falla en minutos:
1.5 - 10.3 - 3.6 - 13.4 - 18.4 - 7.7 - 24.3 - 10.7 - 8.4 - 15.4 - 4.9- 2.8 - 7.9 - 11.9 - 12.0 - 16.2 - 6.8 14.7
Variable en estudio: " Tiempo de falla en minutos"
En primer lugar se realiza la tabla de distribución de frecuencias, teniendo en cuenta que la
variable es cuantitativa continua y que se trabaja con la serie simple ya que se tienen pocos
datos.
17
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
TIEMPO
1.5
2.8
3.6
4.9
6.8
7.7
7.9
8.4
10.3
10.7
11.9
12.0
13.4
14.7
15.4
16.2
18.4
24.3
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
FREC. RELAT. ACUM.
0.053
0.105
0.158
0.211
0.263
0.316
0.368
0.421
0.474
0.526
0.579
0.632
0.684
0.737
0.789
0.842
0.895
0.947
El gráfico de la Ojiva obtenido a partir de la información de la tabla anterior es:
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
5
10
15
Las medidas descriptivas obtenidas con un software son:
Media = 10.60
Mediana = 10.50
Desviación Estándar = 5.89
Varianza = 34.79
Asimetría = 0.5
Curtosis = 0.20
Rango = 22.8
Percentil 25 = 6.32
Percentil 75 = 14.87
El Diagrama de caja es:
18
20
25
UNIVERSIDAD BLAS PASCAL
Carrera: INGENIERÍA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIÓN A LA PROBABILIDAD
24.3
10. 5
1.5
Tiempo
Conclusión: como la media es mayor a la mediana y el coeficiente de asimetría es positivo, se
puede decir que la distribución de datos es sesgada a derecha. Esto puede observarse en el
diagrama de caja, donde la línea que representa la mediana está más cerca del primer cuartil
que del tercero, indicando mayor concentración de datos para los valores menores.
El coeficiente de curtosis es positivo (en el software resta 3 al coeficiente definido
anteriormente), es decir el "empuntamiento" es mayor que la Normal.
Además la Ojiva crece más rápido al principio y luego crece más lentamente.
19