Download Media del conjunto de datos

Document related concepts

Distribución de frecuencias wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Análisis de frecuencia acumulada wikipedia , lookup

Transcript
APUNTES DE PROBABILIDAD Y ESTADÍSTICA
DINÁMICA
Conceptos básicos
Estadística.- tiene por objeto recopilar, organizar,
analizar y representar datos para establecer
conclusiones o tomar decisiones en algún problema
que se tenga.
Aplicación de la Estadística
Se utiliza prácticamente en todas las áreas del
conocimiento, sean estas sociales, humanísticas,
técnicas, científicas, deportivas, etc. Se aplica en
áreas como son: Ingeniería, Medicina, Economía,
Geografía, Química, Física, Historia, etc. y aunque los
problemas de cada área son diferentes, las técnicas
que se utilizan para el análisis de la información
respectiva son las mismas.
Clasificación de la Estadística
Estadística descriptiva
Estadística inferencial
Dato estadístico
Se obtiene al medir o describir una característica
mediante un valor o atributo de un elemento en
estudio. Si el elemento de estudio es una persona
podemos medir su peso (75 kg, 60 kg, 85 kg), o su
estatura (1.65 m, 1.83 m, 1.57 m), o su sexo
(masculino o femenino).
Variable estadística
Las características de un conjunto de elementos de
estudio se representan con variables, por ejemplo:
 Sea x la variable que represente el peso de un
conjunto de personas.
 Sea y el sexo de un conjunto de personas.
Para diferenciar los datos de cada elemento en
estudio de una misma variable se utilizan subíndices,
el cual comúnmente se representa por la letra “i” , la
cual va tomando valores enteros positivos a partir
del uno, por ejemplo:
 Sea x15 el peso de la persona identificada con el
número 15.
 Sea y7 el sexo de la persona identificada con el
número 7.
Clasificación de las variables
Variables cualitativas: describen cualidades o
atributos del objeto en estudio. Ejemplos: color de
un automóvil, sexo o religión de una persona.
Variables cuantitativas: se cuantifican a través de
valores numéricos mediante medición o conteo.
Por ejemplo: la estatura o el peso de un conjunto
de personas, el número de escuelas en cada
municipio de un estado en específico, la inflación
en cada país del mundo durante el 2014. Se
subdividen en discretas y continuas.
 Discretas: están asociadas a un proceso
de conteo y solo pueden tomar algunos
valores de una escala de medición. Ejemplos:
número de alumnos en cada grupo del turno
vespertino de la EPOANT (nótese que puede
haber 32 o 33 alumnos pero nunca 32.4),
número de hospitales en cada municipio del
Estado de México, número de televisores en
cada casa de la ciudad de Tenancingo.
 Continuas: están asociadas a un proceso
de medición y pueden adquirir cualquier
valor en una escala de medición, esto es, si se
tienen dos valores dados de una variable,
siempre puede existir otro valor intermedio,
por ejemplo: un hombre puede medir 1.71 m
y otro 1.72 m y un tercero cualquier valor
entre estos dos, tal como 1.714 m. Ejemplos
de variables cuantitativas continuas: número
de litros de agua que consumió cada alumno
del 3° I Vespertino de la EPOANT durante el
mes de febrero de 2015, peso de cada
alumno de la EPOANT.
Fuentes de adquisición de datos estadísticos
Son las formas para recopilar la información que se
va a analizar, las más comunes son:
 Observación: se obtienen los datos por
apreciación visual del fenómeno por parte del
investigador. Ejemplos: color de ropa más usual
durante cierto mes del año en una determinada
región; color de automóviles más común en la
ciudad de Tenancingo.
 Encuesta: consiste en la aplicación de
cuestionarios y entrevistas, por ejemplo en un
censo realizado por el INEGI o una entrevista a
cada alumno de 3° I de la EPOANT Vespertino
realizada por el orientador para conocer la
situación personal de cada uno.
 Experimentación: consiste en reproducir un
fenómeno varias veces en condiciones controladas
y en cada vez recopilar los datos de interés. Por
ejemplo: la resistencia a la ruptura de un
determinador material, o el tiempo que
soporta cada alumno del 3° I Vespertino sin
respirar debajo del agua.
 Investigación: consiste en recopilar información
que ya está concentrada o escrita; se puede
obtener
en
bibliotecas,
hemerotecas,
videotecas, internet, etc. Ejemplos: población
de cada estado del país en el censo del 2010, o
porcentaje de deserción escolar durante el
ciclo escolar 2013-2014 en las Escuelas
Preparatorias Oficiales del Estado de México.
Tipos de escalas de medición para datos
estadísticos
Los datos obtenidos mediante una de las fuentes
mencionadas en el tema anterior se clasifican en
escalas de medición, y dependiendo del tipo de datos
pueden asignarse en alguna de las cuatro escalas
siguientes:
1. Nominal: se utiliza con variables en las que con sus
datos únicamente se puede establecer si dos de
ellos son iguales o diferentes pero nunca cuál de los
dos es mayor o menor ni que tanta diferencia hay
entre ellos. Ejemplos: color de un carro, sexo de
una persona, color de cabello de cada alumno del
3° I, etc.
2. Ordinal: se utiliza con variables en las que con sus
datos además de establecer si dos de ellos son
iguales o diferentes, podemos identificar un orden
o jerarquía en los mismos, pero no podemos
identificar que tanta diferencia hay entre ellos.
Ejemplos: Tamaño de un vaso (chico, mediano,
grande), conducta de cada alumno del 3° I
Vespertino (excelente, buena, regular, mala), etc.
3. Intervalar: se utiliza con variables en las que con
sus datos además de poder establecer si dos datos
son iguales o diferentes, identificar orden o
jerarquía, podemos notar cuanto separa a un dato
de otro, pero no podemos decir por ejemplo que
un dato vale el doble de otro, o que un dato sea la
quinta parte de otro. Un ejemplo claro de esta
escala es la variable temperatura del salón de 3° I
durante cada clase de Probabilidad y Estadística en
el 2015. El cero es relativo y solo es una referencia.
4. De razón: se utiliza con variables en las se puede
establecer si un dato es diferente a otro, establecer
jerarquía en los datos, identificar que tanta
diferencia hay entre un dato y otro y también
establecer razones entre datos (un dato es el doble
de otro, un dato es la quinta parte de otro).
Ejemplos: estatura de cada alumno del 3°I, número
de alumnos de cada grupo del turno vespertino,
etc. El cero es absoluto y significa ausencia de
medida.
Ejercicio:
Escribir 4 ejemplos de variables que utilicen una escala
nominal, 4 de ordinal y 4 de razón.
Nominal:
 Sexo que predomina más en cada preparatoria del
estado de mexico
 Color de cada perro que hay en la ciudad de
Tenancingo
 Color de cada carro Tsuru en la ciudad de Tenancingo
en el periodo 2014- 2015
Ordinal
 Calidad del trabajo de cada mecánico de la ciudad de
Tenancingo (Excelente, Bueno, Regular, Malo)
 Conducta de cada alumno de la EPOANT del turno
vespertino en el ciclo escolar 2012-2013 (Buena,
Regular, Mala)
De razón
 Longitud del pie izquierdo de cada alumno del 4°
grado de la primaria “Torres Quintero” de la ciudad
de Tenancingo en el ciclo escolar 2014-2015
 Número de personas que asistieron al estadio
municipal de Tenancingo a cada partido realizado en
el durante el 2014.
 Número de ventas realizadas durante cada día del
2014 en el Centro comercial Garis sucursal centro de
la ciudad de Tenancingo.
Determinación del tamaño de una muestra
Al hacer un estudio estadístico por lo regular únicamente
se recopilan datos de la muestra que tomemos de la
población completa. Las conclusiones que saquemos de
la muestra estimarán el comportamiento de la población
entera.
Para determinar un tamaño de muestra que sea
representativa y que se apegue a las necesidades del
estudio se puede emplear la siguiente fórmula:
𝑁
𝑛=
1 + 𝑁𝑒 2
Donde:
n = tamaño de la muestra
N = tamaño de la población
e = error máximo permitido en las conclusiones
obtenidas de la muestra.
Ejemplo:
Suponiendo que se tiene una población de 5000
elementos y se requiere determinar el tamaño de una
muestra para un estudio estadístico de estos con un error
del 5%, entonces:
N=5000
e=0.05
5000
𝑛=
≈ 370.37
2
1 + 5000 ∗ (0.05)
La muestra será de 371 elementos.
En otras ocasiones se determina que la muestra sea un
determinado porcentaje de la población, por ejemplo un
3%. Por lo cual de una población de 500,000 elementos
tendría una muestra de:
n = 500,000 (0.03) = 15,000
Elección de los elementos que comprenderán a la
muestra
Una forma de elegir los elementos de nuestra muestra de
forma aleatoria es utilizando la función Ran# de la
calculadora científica, la cual nos arroja un número
aleatorio de 3 cifras. Entonces si numeramos a todos los
elementos que componen nuestra población, este
número (Ran#) nos indicará que elementos tomar para la
muestra.
Datos no agrupados
Es el conjunto de datos recopilados en un estudio
estadístico organizados en una lista o tabla pero cada
dato por separado.
Datos agrupados
Son aquellos que ya han sido organizados en varias clases
o categorías.
Tabla de frecuencias para datos cualitativos
El primer paso para generarla es analizar el conjunto de
datos no agrupados en orden e ir anotando en la primer
columna las categorías que aparezcan en los datos. En
una segunda columna realizar una tabulación de la
cantidad de datos que corresponden a cada categoría.
Por último realizar el conteo de la tabulación para
expresar la frecuencia de cada categoría en una tercera
columna.
Frecuencia relativa
Se obtiene dividiendo la frecuencia de cada clase o
categoría entre el total de datos. La suma de todas las
frecuencias relativas tiene que resultar 1. Se simboliza
con Fr.
Frecuencia porcentual
Se obtiene multiplicando a la frecuencia relativa por 100.
Indica que porcentaje de los datos pertenecen a cada
clase o categoría.
Gráfica circular o circulograma
Equipo
Frecuencia
Frecuencia
relativa
Frecuencia
porcentual
Ángulo
Toluca
Pumas
Guadalajara
Morelia
Atlas
Cruz Azul
América
Monterrey
Necaxa
Atlante
19
11
10
8
2
9
8
1
2
1
0.268
0.155
0.141
0.113
0.028
0.127
0.113
0.014
0.028
0.014
26.8%
15.5%
14.1%
11.3%
2.8%
12.7%
11.3%
1.4%
2.8%
1.4%
96.3°
55.8°
50.7°
40.6°
10.1°
45.6°
40.6°
5.1°
10.1°
5.1°
Total
71
1.001
100.1%
360°
Gráfica de barras
No.
1
2
3
4
5
6
7
8
9
10
Intervalo
23 - 29
30 - 36
37 - 43
44 - 50
51 - 57
58 - 64
65 - 71
72 - 78
79 - 85
86 - 92
Tabulación
Frecuencia
6
8
13
16
22
15
15
10
6
9
No.
1
2
3
4
5
6
7
8
9
Intervalo
1-11
12-22
23-33
34-44
45-55
56-66
67-77
78-88
89-99
Tabulación
Frecuencia
9
10
7
12
16
11
7
7
5
No.
1
2
3
4
5
6
7
Intervalo
0 - 10
11 - 21
22 - 32
33 - 43
44 - 54
55 - 65
66 - 76
Tabulación
Frecuencia
8
10
8
12
16
10
7
8
9
77 - 87
88- 98
8
5
Intervalos reales de clase
Están formados por los límites reales de clase,
que son aquellos que evitan huecos entre un
intervalo y el siguiente. Sus valores se obtienen
restando y agregando a los límites inferior y
superior respectivamente de cada clase la mitad
de la variación de los datos. Resultando que el
límite real superior de un intervalo es igual que
el límite real inferior del intervalo siguiente.
Ahora bien, al tabular un valor tal como 22.5, se
observa que este valor se encuentra en el
segundo y tercer intervalo. Se recomienda en
esta situación siempre tabularlo en el intervalo
que aparezca primero.
Intervalo Frecuencia Intervalo
de clase
real de
clase
0-10
8
-0.5-10.5
11-21
10
10.5-21.5
22-32
8
21.5-32.5
33-43
12
32.5-43.5
44-54
16
43.5-54.5
55-65
10
54.5-65.5
66-76
7
65.5-76.5
77-87
8
76.5-87.5
88-98
5
87.5-98.5
Límite
inferior
Límite
superior
0
11
22
33
44
55
66
77
88
10
21
32
43
54
65
76
87
98
Intervalo Frecuencia Intervalo
de clase
real de
clase
1-11
9
0.5-11.5
12-22
10
11.5-22.5
23-33
7
22.5-33.5
34-44
12
33.5-44.5
45-55
16
44.5-55.5
56-66
11
55.5-66.5
67-77
7
66.5-77.5
78-88
7
77.5-88.5
89-99
5
88.5-99.5
Límite
inferior
Límite
superior
1
12
23
34
45
56
67
78
89
11
22
33
44
55
66
77
88
99
Marca de clase
Límite
real
inferior
-0.5
10.5
21.5
32.5
43.5
54.5
65.5
76.5
87.5
Límite
real
superior
10.5
21.5
32.5
43.5
54.5
65.5
76.5
87.5
98.5
Límite
real
inferior
0.5
11.5
22.5
33.5
44.5
55.5
66.5
77.5
88.5
Límite
real
superior
11.5
22.5
33.5
44.5
55.5
66.5
77.5
88.5
99.5
Es el punto medio
de un intervalo, se
representa con Mi y se obtiene de la siguiente
forma:
𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =
2
O también:
𝑙í𝑚𝑖𝑡𝑒 𝑟𝑒𝑎𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑟𝑒𝑎𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =
2
Intervalo de
clase
Intervalo real
de clase
Marca de
clase
0-10
-0.5-10.5
11-21
10.5-21.5
22-32
21.5-32.5
5
16
27
33-43
32.5-43.5
44-54
43.5-54.5
55-65
54.5-65.5
66-76
65.5-76.5
77-87
76.5-87.5
88-98
87.5-98.5
38
49
60
71
82
93
Intervalo de
clase
Intervalo real
de clase
Marca de
clase
1-11
0.5-11.5
12-22
11.5-22.5
23-33
22.5-33.5
34-44
33.5-44.5
45-55
44.5-55.5
56-66
55.5-66.5
67-77
66.5-77.5
78-88
77.5-88.5
89-99
88.5-99.5
6
17
28
39
50
61
72
83
94
Frecuencia acumulada
Se obtiene sumando la frecuencia del intervalo en
cuestión con la frecuencia de los intervalos anteriores.
Frecuencia relativa acumulada
Se obtiene dividiendo la frecuencia acumulada de dicho
intervalo entre el total de datos, o bien sumando la
frecuencia relativa del intervalo en cuestión con la
frecuencia relativa de los intervalos anteriores.
Frecuencia porcentual acumulada
Se obtiene multiplicando por 100 a la frecuencia
relativa acumulada. Indica el porcentaje de los
datos que se encuentran en el intervalo en
cuestión o anteriores. La frecuencia porcentual
acumulada del último intervalo debe valer 100%.
Ejercicio: Completar la siguiente tabla.
Intervalo
100-108
109-117
118-126
127-135
136-144
145-153
154-162
Intervalo
100-108
109-117
118-126
127-135
136-144
145-153
154-162
Marca de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
clase
acumulada relativa
relativa
porcentual
acumulada acumulada
104
113
122
131
140
149
158
34
45
78
112
89
63
29
34
79
157
269
358
421
450
0.076
0.1
0.173
0.249
0.198
0.14
0.064
0.076
0.176
0.349
0.598
0.796
0.936
1
7.6%
17.6%
34.9%
59.8%
79.6%
93.6%
100%
Marca de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
clase
acumulada relativa
relativa
porcentual
acumulada acumulada
104
113
122
131
140
149
158
34
45
78
112
89
63
29
34
79
157
269
358
421
450
0.076
0.1
0.173
0.249
0.198
0.14
0.064
0.076
0.176
0.349
0.598
0.796
0.936
1
Total de datos = 450
Variación de los datos = 1
Tamaño de los intervalos = 108-100+1 = 9
7.6%
17.6%
34.9%
59.8%
79.6%
93.6%
100%
Histograma de frecuencias
Es un gráfico similar al de barras, la única
diferencia es que en el histograma se localizan
los límites reales de clase en el eje horizontal. La
altura de cada rectángulo representa la
frecuencia del intervalo en cuestión:
Polígono de frecuencias
Es una gráfica de líneas que generalmente se
traza sobre el histograma y representa la
distribución del conjunto de datos; está
construido sobre las marcas de clase de cada
intervalo. El procedimiento para construirlo es el
siguiente:
1.
Se traza el histograma de los datos.
2. Se agrega un intervalo antes y uno
después del conjunto de datos con el mismo
tamaño que los intervalos originales y con
frecuencia de 0.
3. Se localizan en el eje horizontal las
marcas de clase de cada intervalo y se
proyectan a la parte superior de cada
rectángulo del histograma con un punto.
4. Se trazan segmentos de recta para unir
estos puntos, iniciando y terminando en las
marcas de clase de los intervalos imaginarios.
Este trazo es el polígono de frecuencias de
los datos.
Ojiva
Es una gráfica que se obtiene localizando en
el eje vertical la frecuencia acumulada o la
frecuencia relativa acumulada. Existen dos
tipos de ojiva:
Ojiva “o más”
En esta gráfica se ubican las frecuencias
acumuladas de todos los valores mayores o
iguales que el límite real inferior de cada
intervalo.
Intervalo
Intervalo real Frecuencia
de clase
91-99
100-108
109-117
118-126
127-135
136-144
145-153
154-162
163-171
90.5-99.5
99.5-108.5
108.5-117.5
117.5-126.5
126.5-135.5
135.5-144.5
144.5-153.5
153.5-162.5
162.5-171.5
Intervalo
Intervalo real Frecuencia
de clase
91-99
100-108
109-117
118-126
127-135
136-144
145-153
154-162
163-171
90.5-99.5
99.5-108.5
108.5-117.5
117.5-126.5
126.5-135.5
135.5-144.5
144.5-153.5
153.5-162.5
162.5-171.5
0
34
45
78
112
89
63
29
0
0
34
45
78
112
89
63
29
0
Frecuencia
acumulada
Frecuencia
acumulad
a “o más”
99.5 o más
108.5 o más
117.5 o más
126.5 o más
135.5 o más
144.5 o más
153.5 o mas
162.5 o más
450
416
371
293
181
92
29
0
Menores que 99.5
Menores que 108.5
Menores que 117.5
Menores que 126.5
Menores que 135.5
Menores que 144.5
Menores que 153.5
Menores que 162.5
Frecuencia
acumulada
Frecuencia
acumulad
a “o más”
99.5 o más
108.5 o más
117.5 o más
126.5 o más
135.5 o más
144.5 o más
153.5 o más
162.5 o más
450
416
371
293
181
92
29
0
0
34
79
157
269
358
421
450
Menores que 99.5
Menores que 108.5
Menores que 117.5
Menores que 126.5
Menores que 135.5
Menores que 144.5
Menores que 153.5
Menores que 162.5
0
34
79
157
269
358
421
450
Ojiva “menor que”
Se obtiene localizando en el eje vertical las
frecuencias acumuladas hasta el límite real
superior de cada intervalo.
UNIDAD II
Medidas de tendencia central y de dispersión
Dichas medidas son útiles para comparar un
estudio estadístico con otro, ya que son
valores representativos de los datos que
permiten sacar conclusiones fácilmente.
Para el cálculo de estas medidas estadísticas
es necesario dominar algunas operaciones
aritméticas, de las cuales la más utilizada es
la suma.
El símbolo de suma y su utilización
Cálculo de la media para datos no
agrupados
Es también llamada media aritmética o
promedio. Su valor es representativo de todo
el conjunto de datos. Se representa con 𝑥̅ .
Para un conjunto de datos no agrupados la
media se define como la suma de todos los
datos dividida entre el número total de
datos, esto es:
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
Donde:
𝑥̅ = media de los datos
𝑛 = número total de datos
𝑥𝑖 = valor del i-ésimo dato
Ejemplo:
Juan pescó 4 peces con longitudes de 20, 23,
36 y 19 cm. ¿Cuál es la longitud media de los
peces?
20 + 23 + 36 + 19
𝑥̅ =
4
𝑥̅ = 24.5𝑐𝑚
Ejercicio:
En la década de los años noventa el valor promedio
por año de la cotización a la venta del dólar se
muestra en la siguiente tabla. Calcular el valor
promedio del dólar para esa década:
Año Valor en pesos del dólar
1990
2.948
1991
3.074
1992
3.121
1993
3.329
1994
4.940
1995
7.680
1996
7.860
1997
8.200
1998
9.940
1999
9.600
Media para datos agrupados
Cuando se tiene un conjunto de n datos que
se encuentran agrupados en una tabla de
frecuencias
con
k
intervalos,
aproximación de la media es:
una
∑𝑘𝑖=1 𝑓𝑖 𝑀𝑖
𝑥̅ =
𝑛
Donde:
𝑥̅ = 𝑣𝑎𝑙𝑜𝑟 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎
𝑘 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑀𝑖 = 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
Ejemplo:
Con el siguiente conjunto de datos agrupados
obtener su media:
No.
1
2
3
4
5
6
7
8
9
10
Intervalo
1 - 10
11 - 20
21 - 30
31 - 40
41 - 50
51 - 60
61 - 70
71 - 80
81 - 90
91 - 100
Frecuencia ( 𝑓𝑖 ) Marca de clase (𝑀𝑖 )
5
11
21
27
31
35
21
14
9
6
Media ponderada
Esta se aplica cuando el conjunto total de datos
se divide en varios subconjuntos, de los cuales
únicamente se conoce la media de cada
subconjunto pero no el valor de cada dato. La
fórmula a utilizar es:
Ejemplo:
En un poblado viven 5000 habitantes, de los
cuales 2723 son mujeres con un promedio de
edad de 18 años y el resto son hombres con un
promedio de edad de 28 años. ¿Cuál es el
promedio de edad de los habitantes de esa
población expresado con dos decimales?
En otras situaciones se puede utilizar la siguiente
fórmula:
Ejemplo:
En la asignatura de Estadística de cierta escuela
la calificación del semestre se evaluó de la
siguiente forma:
 Primer examen 30%
 Segundo examen 30%
 Trabajo de investigación 15%
 Cuadernillo de ejercicios 20%
 Asistencias 5%
Un alumno obtuvo las siguientes calificaciones
de 0 a 10 en cada uno de los aspectos
respectivamente: 6.2, 8.1, 9.0, 9.0 y todas las
asistencias (10).
¿Cuál es su promedio final?
Ejercicio:
La oferta de trabajo durante 2014 en una
empresa del valle de Toluca fue de 222 vacantes,
de las cuales se contrató el 58% de personal
masculino con un promedio de edad de 28 años
y el resto de personal femenino con un
promedio de edad de 22 años. ¿Cuál fue el
promedio de edad de todo el personal
contratado?
Mediana
Para un conjunto de datos ordenados en
forma ascendente o descendente, la
mediana es el valor central de los datos, se
representa por 𝑥̃.
Mediana para datos no agrupados
 Cuando se tiene una cantidad de datos
que sea par, la mediana es el
promedio de los dos datos centrales.
 Si el número de datos es impar, la
mediana es el valor que se encuentra
en el centro de la lista de datos
ordenados.
Mediana para datos agrupados
Si el conjunto de datos se presenta de forma
agrupada mediante una tabla de frecuencias,
entonces la mediana se puede obtener de
forma aproximada con la siguiente fórmula:
𝑛
− 𝐹𝑎
𝑥̃ = 𝐿 + (2
)𝑐
𝑓𝑥̃
Donde:
𝑥̃= Mediana del conjunto de datos
𝐿= Límite real inferior del intervalo que contiene a la
mediana.
𝑛= Número total de datos.
𝐹𝑎 = Frecuencia acumulada del intervalo anterior al
que contiene a la mediana.
𝑓𝑥̃ = Frecuencia del intervalo que contiene a la
mediana.
𝑐= Tamaño del intervalo que contiene a la mediana.
Ejemplo:
Determinar la mediana ( 𝑥̃ ) del siguiente conjunto
de datos agrupados:
No.
Intervalo
1
2
3
4
5
6
7
8
9
10
101 – 110
111 – 120
121 - 130
131 - 140
141 - 150
151 - 160
161 – 170
171 – 180
181 – 190
191 - 200
Frecuencia (𝑓𝑖 )
4
7
11
17
25
33
30
21
16
7
Frecuencia acumulada (𝐹𝑖 )
4
11
22
39
64
97
127
148
164
171
Moda
Es el valor que aparece con mayor frecuencia
en un conjunto de datos. Se representa con
𝑥̂.
Cuando el conjunto de datos tiene más de
una moda se dice que es multimodal. Si el
conjunto de datos no tiene moda se llama
amodal.
Moda para datos no agrupados
Se busca el dato que aparece con mayor
frecuencia y su valor es la moda.
Ejemplos:
Moda para datos agrupados
Se puede obtener de forma aproximada con
la siguiente fórmula:
∆1
𝑥̂ = 𝐿 + (
)𝑐
∆1 + ∆2
Donde:
𝑥̂ = Moda del conjunto de datos agrupados.
𝐿 = Límite real inferior del intervalo que contiene a la moda.
∆1 = Diferencia entre la frecuencia del intervalo que contiene a
la moda y la frecuencia del intervalo anterior.
∆2 = Diferencia entre la frecuencia del intervalo que contiene a
la moda y la frecuencia del intervalo siguiente.
𝑐 = tamaño del intervalo que contiene a la moda.
El intervalo que tenga más frecuencia es en el que se
encuentra la moda con mayor probabilidad.
Ejemplo:
Determinar la moda del conjunto de datos agrupados utilizados
en el ejemplo anterior del cálculo de la mediana:
No.
Intervalo
1
2
3
4
5
6
7
8
9
101 – 110
111 – 120
121 - 130
131 - 140
141 - 150
151 - 160
161 – 170
171 – 180
181 – 190
Frecuencia (𝑓𝑖 )
4
7
11
17
25
33
30
21
16
Frecuencia acumulada (𝐹𝑖 )
4
11
22
39
64
97
127
148
164
10
191 - 200
7
171
Tarea:
Determinar la media, mediana y moda para el
siguiente conjunto de datos agrupados:
No.
Intervalo
Frecuencia
1
2
3
4
5
6
7
8
1.0 – 1.9
2.0 – 2.9
3.0 – 3.9
4.0 – 4.9
5.0 – 5.9
6.0 – 6.9
7.0 – 7.9
8.0 – 8.9
13
43
28
24
12
6
5
2
Medidas de dispersión
Frecuencia
acumulada
13
56
84
108
120
126
131
133
Marca de
clase
1.45
2.45
3.45
4.45
5.45
6.45
7.45
8.45
Estas nos indican que tan alejados o dispersos
están los datos con respecto a si mismos o con
respecto a la media del conjunto de datos.
Rango
Es la medida de dispersión más simple y se
obtiene de la siguiente forma:
Rango = Dato mayor – Dato menor
Desviación media
Es el promedio de los valores absolutos de las
desviaciones de los datos con respecto a la
media. Indica en promedio el número de
unidades en que cada dato se encuentra alejado
de la media
Para datos no agrupados se obtiene de la
siguiente forma:
∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
Donde:
𝐷𝑀 = Desviación media
𝑥𝑖 = Es el valor del i-ésimo dato.
𝑥̅ = Media del conjunto de datos
𝑛 = Número total de datos
Ejemplo:
Determinar el valor de la desviación media para
el siguiente conjunto de datos:
4
14
12
8
12
6
16
8
Para datos agrupados se obtiene la
desviación media con la siguiente fórmula:
Escriba aquí la ecuación.
∑𝑘𝑖=1 𝑓𝑖 |𝑀𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
Donde:
𝐷𝑀 = Desviación media del conjunto de datos.
𝑓𝑖 = Frecuencia del i-ésimo intervalo.
𝑀𝑖 = Marca de clase del i-ésimo intervalo.
𝑥̅ = Media del conjunto de datos.
𝑛 = Número total de datos.
Ejemplo:
Determinar la desviación media para el siguiente
conjunto de datos.
Intervalo real
de clase
10 – 20
20 - 30
30 - 40
40 - 50
50 - 60
𝑓𝑖
𝑀𝑖
𝑓𝑖 𝑀𝑖
𝑀𝑖 − 𝑥̅
|𝑀𝑖 − 𝑥̅ |
𝑓𝑖 |𝑀𝑖 − 𝑥̅ |
5
12
22
27
36
15
25
35
45
55
75
300
770
1215
1980
-44.35
-34.35
-24.35
-14.35
-4.35
44.35
34.35
24.35
14.35
4.35
221.75
412.2
535.7
387.45
156.6
60 - 70
70 - 80
80 - 90
90 - 100
30
33
22
13
65
75
85
95
1950
2475
1870
1235
5.65
15.65
25.65
35.65
5.65
15.65
25.65
35.65
169.5
516.45
564.3
463.45
𝑥̅ = 59.35
𝐷𝑀 = 17.137
Ejercicio:
Obtener la desviación media para el siguiente
conjunto de datos agrupados:
Intervalo
1.0 – 1.9
2.0 – 2.9
3.0 – 3.9
4.0 – 4.9
5.0 - 5.9
6.0 – 6.9
7.0 – 7.9
𝑓𝑖
6
14
20
32
24
15
9
Intervalo real
de clase
1.0 – 1.9
2.0 – 2.9
3.0 – 3.9
4.0 – 4.9
5.0 - 5.9
6.0 – 6.9
7.0 – 7.9
𝑓𝑖
𝑀𝑖
𝑓𝑖 𝑀𝑖
𝑀𝑖 − 𝑥̅
|𝑀𝑖 − 𝑥̅ |
𝑓𝑖 |𝑀𝑖 − 𝑥̅ |
6
14
20
32
24
15
9
1.45
2.45
3.45
4.45
5.45
6.45
7.45
8.7
34.3
69
142.4
130.8
96.75
67.05
-3.13
-2.13
-1.13
-0.13
0.87
1.87
2.87
3.13
2.13
1.13
0.13
0.87
1.87
2.87
18.78
29.82
22.6
4.16
20.88
28.05
25.83
𝑥̅ = 4.58
𝐷𝑀 = 1.251
Varianza
Se define como el promedio de los cuadrados de
las desviaciones de los datos con respecto a la
media. Se representa con 𝜎 2 .
Varianza para datos no agrupados
𝜎2 =
Donde:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅)2
𝑛
𝜎 2 = Varianza del conjunto de datos.
𝑥𝑖 = Valor del i-ésimo dato.
𝑥̅ = Media del conjunto de datos.
𝑛 = Número total de datos.
Ejemplo:
Determinar la varianza del siguiente conjunto de
datos.
12
25
8
15
5
18
26
14
𝑥̅ = 14.2
𝜎 2 = 44.36
Varianza para datos agrupados
𝜎2 =
∑𝑘𝑖=1 𝑓𝑖 (𝑀𝑖 − 𝑥̅ )2
𝑛
9
10
Donde:
𝜎 2 = Varianza del conjunto de datos.
𝑘 = Número de intervalos.
𝑓𝑖 = Frecuencia del i-ésimo intervalo.
𝑀𝑖 = Marca de clase del i-ésimo intervalo.
𝑥̅ = Media del conjunto de datos.
𝑛 = Número total de datos.
Ejemplo:
Determinar la varianza del siguiente conjunto de
datos agrupados:
Intervalo
real de
clase
𝑓𝑖
0 - 50
50 - 100
100 - 150
150 - 200
200 - 250
250 - 300
300 - 350
350 - 400
400 - 450
TOTALES
5
12
23
32
37
23
28
26
14
200
𝑀𝑖
25
75
125
175
225
275
325
375
425
𝑓𝑖 𝑀𝑖 𝑀𝑖 − 𝑥̅
125
900
2875
5600
8325
6325
9100
9750
5950
48950
-219.75
-169.75
-119.75
-69.75
-19.75
30.25
80.25
130.25
180.25
̅)
(𝑀𝑖 − 𝑥
48290.06
28815.06
14340.06
4865.06
390.06
915.06
6440.06
16965.06
32490.06
2
̅)
𝑓𝑖 (𝑀𝑖 − 𝑥
241450.3
345780.72
329821.38
155681.92
14432.22
21046.38
180321.68
441091.56
454860.84
2184487
2
𝑥̅ = 244.75
𝜎2
2184487
=
= 10922.44
200
Desviación estándar o típica
Se define como la raíz cuadrada de la varianza. Su
símbolo es 𝜎 y tiene las mismas unidades que los
datos.
 Para datos no agrupados la desviación estándar
se calcula de la siguiente forma:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅)2
𝜎= √
𝑛
Donde:
𝜎 = Desviación estándar del conjunto de datos.
𝑥𝑖 = Valor del i-ésimo dato.
𝑥̅ = Media del conjunto de datos.
𝑛 = Número total de datos.
Ejemplo:
Determinar la desviación estándar del siguiente
conjunto de datos no agrupados:
7.2 4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5
𝑥̅ = 26.7
𝜎 2 = 273.47
𝜎 = 16.54
 Para datos agrupados la desviación estándar se
calcula de la siguiente forma:
∑𝑘𝑖=1 𝑓𝑖 (𝑀𝑖 − 𝑥̅ )2
𝜎= √
𝑛
Donde:
𝜎 = Desviación estándar del conjunto de datos.
𝑘 = Número de intervalos.
𝑓𝑖 = Frecuencia del i-ésimo intervalo.
𝑀𝑖 = Marca de clase del i-ésimo intervalo.
𝑥̅ = Media del conjunto de datos.
𝑛 = Número total de datos.
Ejercicio:
Determinar la desviación estándar del siguiente
conjunto de datos no agrupados:
7.2 4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5
𝑥̅ = 26.7
𝜎 2 = 273.47
𝜎 = 16.54
Calcular la desviación estándar del ejemplo visto
para cálculo de varianza de datos agrupados.
Intervalo
real de
clase
𝑓𝑖
0 - 50
50 - 100
100 - 150
150 - 200
200 - 250
250 - 300
300 - 350
350 - 400
400 - 450
TOTALES
5
12
23
32
37
23
28
26
14
200
𝑀𝑖
25
75
125
175
225
275
325
375
425
𝑓𝑖 𝑀𝑖 𝑀𝑖 − 𝑥̅
125
900
2875
5600
8325
6325
9100
9750
5950
48950
-219.75
-169.75
-119.75
-69.75
-19.75
30.25
80.25
130.25
180.25
̅)
(𝑀𝑖 − 𝑥
48290.06
28815.06
14340.06
4865.06
390.06
915.06
6440.06
16965.06
32490.06
2
̅)
𝑓𝑖 (𝑀𝑖 − 𝑥
241450.3
345780.72
329821.38
155681.92
14432.22
21046.38
180321.68
441091.56
454860.84
2184487
𝑥̅ = 244.75
2184487
2
𝜎 =
= 10922.44
200
𝜎 = √10922.44 = 104.51
Interpretación de la desviación estándar
2