Download Content start - Departamentos

Document related concepts

Cuantil wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Distribución de frecuencias wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Transcript
Facultad de Ciencias del Trabajo
Métodos Estadísticos Aplicados
a las Auditorías Sociolaborales
Francisco Álvarez González
Octubre 2005
CURSO 2005-06
MÉTODOS ESTADÍSTICOS APLICADOS A LAS AUDITORÍAS SOCIOLABORALES
Profesores Francisco Álvarez González
[email protected]
Prácticas:
María José Sánchez Quevedo
Carmen María Caballero Alvarez
Objetivos ƒ Introducir al alumno en las aplicaciones estadísticas de las auditorías
sociolaborales.
ƒ Capacitar al alumno para que pueda desarrollar tratamientos estadísticos
con datos sociolaborales.
Programa 1. Estadística en auditoria laboral
2. Síntesis de la información y análisis descriptivo
3. Ajuste y Regresión 4. Tablas de contingencia. Asociaciones
5. Distribuciones de probabilidad
6. Muestreo
7. Investigación en auditoría: Estadística Inferencial
8. Aplicaciones
Actividades Clases teórico/prácticas impartidas en el Aula 1.2 de la Facultad de Ciencias
del Trabajo.
Clases prácticas impartidas en el Aula de Informática de la Facultad de
Ciencias del Trabajo.
Metodología La docencia será teórico/práctica, simultaneando para ello la impartición de
conocimientos teóricos junto con la resolución de problemas y aplicaciones
prácticas relacionadas con la aplicación de la estadística en las auditorías
sociolaborales.
En las clases prácticas se empleará el aula de informática de la Facultad y el
programa estadístico Statgraphic, así como distintos recursos de internet.
Criterios y sistemas La evaluación constará de una primera parte de preguntas cortas que será
de evaluación necesario superar para poder presentarse a una segunda parte de problemas.
En la nota final se puntuará la primera parte hasta un máximo de cuatro puntos
y la segunda parte hasta un máximo de seis puntos. La realización de las
prácticas en el aula de informática se valorará a efectos de sumar puntos en la
primera parte de la evaluación.
Recursos ƒ Fernández Palacín, F. y otros (2000). Estadística Descriptiva y Probabilidad.
bibliográficos Servicio de Publicaciones. Universidad de Cádiz.
ƒ Ramos Romero, H. (1997). Introducción al Cálculo de Probabilidades. Grupo
Editorial Universitario.
ƒ Espejo Miranda, I. y otros (2002). Inferencia Estadística. Servicio de
Publicaciones. Universidad de Cádiz.
ƒ Peña Sánchez de Rivera, D. (1991). Estadística. Modelos y Métodos. Alianza
Editorial.
ƒ Abad Montes, F. y otros (2001). Estadística para las Ciencias Sociales y
laborales. Ed. José Carlos Urbano Delgado.
ƒ Alcalá, A. (1999). Estadística para Relaciones Laborales. Editorial
Hespérides.
ƒ Peña, D. y Romo, J. (1997). Introducción a la Estadística para las Ciencias
Sociales. McGraw-Hill.
ƒ Mateos Rivas, (1987). Estadística en Investigación Social. Ejercicios
resueltos. Editorial Paraninfo.
ƒ Narvaiza, J.L. y otros (1998). Estadística aplicada a la gestión y a las
ciencias sociales. Inferencia Estadística. Editorial Desclée S. A.
Materiales Disponibles en:
http://www.uca.es/serv/web/FCT/
http://www.uca.es/serv/web/FCT/
TUTORÍAS
Contacto a través de correo electrónico
[email protected]
Indicar en “Asunto”: Tutoría
ESTADÍSTICA DESCRIPTIVA
Métodos Estadísticos Aplicados a las Auditorías Sociolaborales
Francisco Álvarez González
[email protected]
Bajo el término “Estadística Descriptiva” se engloban las técnicas que nos permitirán realizar un análisis elemental de las
observaciones experimentales observadas.
Se subdivide en dos bloques :
1º
2º
Estadística primaria : Obtenido un grupo de observaciones experimentales, este apartado nos enseña a
ordenarlas adecuadamente, de modo que se ofrezca una información lo más clara posible.
Estadística derivada o secundaria : Con los datos observados realizaremos ciertos cálculos, obteniendo así
unas medidas. Este bloque temático nos enseña a interpretarlas.
PROCEDIMIENTO A SEGUIR EN UN ESTUDIO ESTADÍSTICO.
El proceso seguido en el estudio estadístico de una cierta característica o variable, puede subdividirse en tres
pasos sucesivos :
A
RECOGIDA DE DATOS :
Planteado el test o encuesta oportuno y recogidos los datos que correspondan, el primer análisis que
realizaremos es el del tipo de variable que pretendemos estudiar (Cualitativa o Cuantitativa ; Discreta o
Continua). Esto condicionará en gran medida su posterior tratamiento.
B
ORGANIZACIÓN DE LOS DATOS :
Determinado el modo de agrupamiento de las observaciones, procedemos a su recuento,
construyendo la tabla de frecuencias. Posteriormente podremos visualizar tales frecuencias de forma
gráfica con el diagrama estadístico apropiado.
C
ANÁLISIS FINAL :
La obtención de muy diversas conclusiones respecto de la variable estudiada, se podrá realizar con
auxilio de los diferentes parámetros estadísticos (de centralización , posición , dispersión , etc.)
VARIABLES ESTADÍSTICAS. CLASIFICACIÓN.
El aspecto que deseamos estudiar (edad, sexo, peso, ...) recibe el nombre de VARIABLE ESTADÍSTICA. A lo largo de
esta unidad observaremos, que las técnicas estadísticas a seguir serán diferentes según el tipo de variable objeto de
estudio.
La clasificación más tradicional de las variables estadísticas es la siguiente :
CUALITATIVAS
Los valores de las observaciones quedan expresados por características o atributos.
Por ejemplo : Estado civil ; Color preferido ; Nivel de estudios ; Raza ; ...
Dentro de ellas podremos subdividirlas en función de que puedan ser ordenadas (Nivel de estudios) o no tenga
sentido una determinada ordenación que se establezca (Color preferido, Razas, ...).
CUANTITATIVAS
Los valores de las observaciones son numéricos (cuantificables) y, en consecuencia, ordenables.
A su vez las variables cuantitativas se subdividen en dos tipos :
DISCRETAS :
Toman valores concretos (Nº de hijos : 0, 1, 2, ...)
CONTINUAS :
Pueden tomar cualquier valor de un cierto intervalo (Peso ; Estatura ; ...).
TABLAS DE FRECUENCIAS.
Si la variable es Cualitativa, observamos los valores diferentes de la misma.
Si es Cuantitativa buscaremos los valores mínimo y máximo obtenidos. En función del número de observaciones,
decidiremos si se realiza su estudio de forma individual o agrupando en intervalos.
CONSTRUCCIÓN DE INTERVALOS :
Teniendo en cuenta la amplitud total de las observaciones (Valor máximo menos valor mínimo observados),
tomaremos una decisión sobre el número total de intervalos, o bien sobre la amplitud o tamaño de los mismos.
Estadística descriptiva (F. Álvarez) - 1
EJEMPLO :
Supuesto : Valor máximo = 87 , Valor mínimo = 11 .
Luego : AMPLITUD = 87 - 11 = 76.
Si decidimos construir 8 intervalos, la amplitud de cada uno será de 10 unidades (valor aproximado de
76/8). El primer intervalo no tiene porqué iniciarse en 11 (mínimo); es más, se aconseja tomar siempre
valores "visualmente agradables" (5, 10, 15 ,...).
Con esto los intervalos serían :
[10,20) [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90]
Si partimos de la decisión de que los intervalos tengan 15 unidades de amplitud, simplemente
iniciaremos su construcción hasta llegar a un intervalo que contenga al valor máximo observado.
[10,25) [25,40) [40,55) [55,70) [70,85) [85,90]
Teóricamente se establece que el número ideal de intervalos debe ser la raíz cuadrada del número de observaciones
disponibles :
Para N observaciones :
Criterio de Kaiser
Nº de intervalos
Criterio de Sturges
Nº de intervalos
≈ N
≈ E( 15
' + 3' 3.ln( N ) )
(E = parte entera)
NOTACIÓN
Al establecer dos intervalos consecutivos, por ejemplo de 10 a 20 y de 20 a 30, hemos de decidir si el valor 20
(final de uno e inicio del siguiente) pertenece al primer intervalo o al segundo. Para ello empleamos los
símbolos [ y ( .
[ o ]
el valor situado junto a él pertenece al intervalo
( o )
el valor situado junto a él no pertenece al intervalo
NOTACIONES PARA REPRESENTAR INTERVALOS
EXTREMOS REALES
Desde 0 hasta menos de 10
De 10 a menos de 20
De 20 a menos de 30
De 30 a menos de 40
Desde 40 hasta 50
[ 0 , 10 )
[ 10 , 20 )
[ 20 , 30 )
[ 30 , 40 )
[ 40 , 50 ]
EXTREMOS APARENTES
Valores : 1, 2, 3 y 4
1-4
5-8
9 - 12
Valores : 5, 6, 7 y 8
Valores : 9, 10, 11 y 12
[ 0'5 , 4'5 )
[ 4'5 , 8'5 )
[ 8'5 , 12'5 ]
RECUENTO. TABLA DE FRECUENCIAS ABSOLUTAS.
Situados en una tabla los valores de la variable (desde el mínimo al máximo) o los intervalos que los contienen,
procedemos a contar las veces que se repiten. Construimos así una tabla como la de la izquierda. En ella podrá
observarse que, en el supuesto de datos agrupados en intervalos, se ha incluido una columna encabezada por x . Tal
valor de x se denomina marca de clase y es el valor central de cada intervalo.
Intervalos
[ e1 , e2 )
[ e2 , e3 )
...
[ ei , ei+1 )
...
2 - Estadística descriptiva (F. Álvarez)
x
x1
x2
...
xi
...
Recuento
///
///// ///// /
...
///// ///
...
n
n1
n2
...
ni
...
Σni = N
N
n1
n1+n2
...
n1+n2+ ... +ni
...
FRECUENCIAS.
FRECUENCIA ABSOLUTA (n) :
Para datos no agrupados en intervalos, es el número de veces que se presenta cada valor de la variable.
Si los datos se agrupan en intervalos, es el número de observaciones que pertenecen a dicho intervalo.
FRECUENCIA ABSOLUTA ACUMULADA (N) :
Para un cierto valor de la variable, la frecuencia absoluta acumulada nos da el número de observaciones
menores o iguales que dicho valor.
OTRAS FRECUENCIAS :
FRECUENCIA RELATIVA (r) :
Cociente entre la frecuencia absoluta y el número total de observaciones (N).
PROPORCIÓN o PORCENTAJE (p) :
Frecuencia relativa multiplicada por 100 (es la expresión de las frecuencias en %).
De igual modo que se definió para las frecuencias absolutas, se definen las FRECUENCIAS RELATIVAS
ACUMULADAS (R) y los PORCENTAJES ACUMULADOS (P).
TABLA COMPLETA DE FRECUENCIAS :
x
x1
x2
...
xi
...
n
n1
n2
...
ni
...
Σni = N
r
r1 = n1 / N
r2 = n2 / N
...
ri = ni / N
...
Σri = 1
p
p1 = r1 . 100
p2 = r2 . 100
...
pi = ri . 100
...
Σpi = 100
N
n1
n1+n2
...
n1+n2+ ... +ni
...
R
r1
r1+r2
...
r1+r2+ ... +ri
...
P
p1
p1+p2
...
p1+p2+ ... +pi
...
n
5
10
16
6
3
40
r
0'125
0'250
0'400
0'150
0'075
1
p
12'5
25
40
15
7'5
100
N
5
15
31
37
40
R
0'125
0'375
0'775
0'925
1'000
P
12'5
37'5
77'5
92'5
100
EJEMPLO :
x
2
3
4
5
6
GRÁFICOS ESTADÍSTICOS.
La norma que hemos de seguir en la construcción de un gráfico estadístico es siempre : "La zona que identifica a cada
valor será proporcional a su frecuencia"
Los diagramas usuales son los que se describen a continuación.
A
Diagramas de barras
Para variables cualitativas o cuantitativas no agrupadas en intervalos.
FUNDAMENTO : Sobre un eje (normalmente el horizontal) marcamos los
valores de la variable, dibujando sobre cada uno de ellos una barra cuya
longitud sea proporcional a la frecuencia que se esté visualizando.
Si la variable representada es cuantitativa, enlazando los extremos de las
barras obtendremos el POLÍGONO DE FRECUENCIAS, denominado
PERFIL ORTOGONAL para cualitativas ordenables .
B
Histogramas
Representativo de las variables agrupadas en intervalos.
FUNDAMENTO : Sobre el eje horizontal marcamos los distintos
intervalos, dibujando sobre cada uno de ellos un rectángulo cuya área
sea proporcional a la frecuencia que se esté visualizando (Si todos los
intervalos tienen la misma amplitud, nos bastará con que la altura de los
rectángulos sea proporcional a las frecuencias).
POLÍGONOS DE FRECUENCIAS :
Si la frecuencia representada no es acumulada, enlazamos los puntos
medios de los extremos superiores de los rectángulos.
Para frecuencias acumuladas, el polígono de frecuencias se obtiene de
la forma indicada en el gráfico.
Estadística descriptiva (F. Álvarez) - 3
C
Diagramas de sectores
Utilizable en cualquier tipo de variable.
FUNDAMENTO : Dividimos el círculo en sectores circulares, de modo
que la amplitud de cada sector, sea proporcional a la frecuencia. Junto a
cada sector, se suele indicar el valor representado. Es aconsejable la
expresión de las amplitudes de los sectores en % (porcentajes p ).
D
Pictogramas
Utilizable en todo tipo de variables, especialmente con las cualitativas.
FUNDAMENTO : Es el mismo que se sigue para la construcción de los
diagramas de barras y histogramas. La diferencia estriba en que, en
lugar de dibujar una barra o un rectángulo, se dibuja una figura que hace
referencia al problema objeto de estudio.
E
Diagramas de áreas
Representativo de las variables cuantitativas, equivale a la representación
independiente de los polígonos de frecuencias (descritos en los
diagramas de barras y histogramas).
FUNDAMENTO : Indica la evolución de los valores de la variable,
consistiendo en la visualización del área encerrada bajo el polígono de
frecuencias. Para ello, se conecta dicho polígono con el eje de la variable
(el horizontal en el gráfico), tanto a la izquierda del primer valor como a la
derecha del último.
Los diagramas de barras , histogramas , pictogramas y de áreas , admiten la representación correspondiente a sus
frecuencias acumuladas.
MEDIDAS DE CENTRALIZACIÓN.
MEDIA ARITMÉTICA :
∑ ni .xi Es el resultado de dividir la suma de todas las observaciones entre el número de ellas.
x=
N
MODA :
Mo = ei +
Es el valor que más se repite. Será pues el valor (o valores) cuya frecuencia absoluta sea la
ni +1
.ai mayor de las observadas.
ni +1 + ni −1
Si los datos se encuentran agrupados en intervalos, obtendremos el intervalo en el que se
encuentra la moda (INTERVALO MODAL). Para determinar su valor concreto, aplicamos la
expresión de la izquierda.
NOTACIONES
Los subíndices indican :
e
a
n
i
intervalo donde se encuentra la moda.
i-1
intervalo anterior al que contiene la moda.
i+1
intervalo siguiente al que contiene la moda.
extremo inferior del intervalo en el que se encuentra la moda.
amplitud del intervalo en el que está la moda.
frecuencia absoluta.
MEDIANA :
Supuestas ordenadas las observaciones, MEDIANA es el valor de la variable que está en
el centro de las mismas. Deja pues a la mitad (el 50%) de las observaciones por debajo de
dicho valor.
N
− N i −1
Me = ei + 2
.ai
ni
Para obtener el valor de la mediana, seguimos los pasos siguientes :
1º Calculamos la tabla de frecuencias absolutas acumuladas.
2º La mediana será el valor de la variable cuya frecuencia absoluta acumulada primero
iguale o supere a N/2.
Si los datos se encuentran agrupados en intervalos, el punto 2º nos dará el intervalo en el
que se encuentra la mediana. Para determinar su valor concreto, aplicamos la expresión
de la izquierda.
4 - Estadística descriptiva (F. Álvarez)
NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos
reales que esos valores representan, procediendo a aplicar la expresión superior.
Así, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ...
NOTACIONES
Los subíndices indican :
i
intervalo donde se encuentra la mediana.
i-1
intervalo anterior al que contiene la mediana.
extremo inferior del intervalo en el que se encuentra la mediana.
amplitud del intervalo en el que está la mediana.
frecuencia absoluta.
frecuencia absoluta acumulada.
e
a
n
N
OTRAS MEDIDAS DE CENTRALIZACIÓN.
MEDIA PONDERADA :
MEDIA GEOMÉTRICA :
Aplicable cuando a cada valor
(Xi) se le asigna un peso (pi) :
x G = N x1 . x 2 . ... . x N
xp =
∑p .X
∑p
i
MEDIA ARMÓNICA :
xA =
i
Con frecuencias fi para cada xi : (N = Σfi)
i
xG = N x 1n1 .x2n2 .....xnnn
∑
N
⎛1
⎜⎜
⎝ xi
⎞
⎟⎟
⎠
Con frecuencias fi para cada xi : (N = Σfi)
xA =
N
⎛n
∑ ⎜⎜ xi
⎝ i
⎞
⎟⎟
⎠
MEDIDAS DE POSICIÓN.
CONCEPTO : Permiten el cálculo del valor de la variable que ocupa una cierta posición relativa respecto del conjunto
total de los valores observados.
PERCENTIL DE ORDEN K : Es el valor de la variable que deja por debajo de él el K% de las observaciones.
PROCESO DE CALCULO :
k .N
− N i −1
Pk = ei + 100
.ai
ni
Para obtener el valor del percentil de orden K, seguimos los pasos siguientes :
1º Calculamos la tabla de frecuencias absolutas acumuladas.
2º Obtenemos el LUGAR que ocupa :
Lugar = N . K / 100
3º El percentil de orden K será el valor de la variable cuya frecuencia absoluta
acumulada primero iguale o supere a dicho lugar.
Si los datos se encuentran agrupados en intervalos, el punto 3º nos dará el intervalo en
el que se encuentra el percentil de orden K. Para determinar el valor concreto del
percentil, aplicamos la expresión de la izquierda.
NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos
reales que esos valores representan, procediendo a aplicar la expresión anterior.
Así, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ...
NOTACIONES
Los subíndices indican :
e
a
n
N
i
intervalo donde se encuentra el percentil.
i-1
intervalo anterior al que contiene el percentil.
extremo inferior del intervalo en el que se encuentra el percentil.
amplitud del intervalo en el que está el percentil.
frecuencia absoluta.
frecuencia absoluta acumulada.
PERCENTILES ESPECIALES
MEDIANA
CUARTILES
DECILES
Percentil de orden 50.
Percentiles de órdenes 25 (Cuartil 1º), 50 (Cuartil 2º) y 75 (Cuartil 3º).
Percentiles de órdenes 10, 20, .... , 90 (Deciles 1º, 2º, ... , 9º).
MEDIDAS DE DISPERSIÓN.
RANGO , RECORRIDO O AMPLITUD TOTAL :
R = Máx − Mín Con el fin de medir el mayor o menor
grado de separación de las observaciones, en una
primera instancia se define el RANGO (también denominado recorrido o amplitud total), como la
diferencia existente entre los valores máximo y mínimo observados.
Estadística descriptiva (F. Álvarez) - 5
AMPLITUD SEMI-INTERCUARTÍLICA :
Q=
Q 3 − Q1
2
Esta medida de dispersión se basa en medidas de posición (Cuartiles),.Su empleo tendrá
sentido en el supuesto de imposibilidad de cálculo de la media.
El no tomar en consideración a la totalidad de las observaciones, hace pensar que esta medida es poco representativa.
Por ello se intenta definir las medidas de dispersión, de modo que sean el promedio de las separaciones de cada valor
respecto de uno tomado como referencia (la MEDIA).
Observando la figura apreciamos que las desviaciones d antes definidas tienen
como media cero (las positivas compensan con las negativas), lo cuál obliga a
subsanar este inconveniente tomándolas en valor absoluto o elevándolas al
cuadrado.
DESVIACIÓN MEDIA :
Dx =
∑n . x
i
i
−x
Es la media de las desviaciones o separaciones de cada una de las observaciones,
respecto a la media aritmética, consideradas en valor absoluto. Sustituyendo la media por la
moda o la mediana, definiremos las desviaciones medias respecto de la moda y de la
mediana.
N
VARIANZA :
s =σ
2
2
∑ n .(x
=
i
− x)
2
i
N
∑ n .x
=
i
N
2
i
− x2
Es la media de los cuadrados de las desviaciones o separaciones
de cada una de las observaciones, respecto a la media aritmética.
DESVIACIÓN TÍPICA :
s = σ = var ianza =
∑ n .x
i
N
2
i
− x2
Es la raíz cuadrada de la varianza. Con ello corregimos el haber
tomado cuadrados de separaciones en el cálculo de la varianza.
Esta medida de dispersión es la más característica.
COEFICIENTE DE VARIACIÓN :
CV=
σx
.100
x
Mide la representatividad de la media. Valores extremos del mismo nos llevarán a concluir que la
media no es representativa, es decir, existirán valores entre las observaciones que se separan
significativamente de las demás.
Sólo puede ser utilizado cuando los valores de la variable toman valores "normales". Es decir, no
son muy elevados ni muy pequeños, ya que una media próxima a cero o muy alta darían valores
nulos o infinitos al coeficiente.
Si la media es representativa de las observaciones (no existen valores extremos exageradamente
distanciados de la mayoría), el coeficiente de variación permite comparar la dispersión de dos
series estadísticas : mayor coeficiente indica menor homogeneidad, o lo que es lo mismo,
mayor dispersión o variabilidad.
GRÁFICO DE VARIABILIDAD :
Basado en los cuartiles, adopta la forma del gráfico de la derecha. En él se
reflejan los cuartiles 1º y 3º y la mediana, junto a los extremos inferior y superior :
Linf = Q1 − 3.
Q 3 − Q1
= Q1 − 3. Q ; L sup = Q 3 + 3. Q
2
Se consideran observaciones atípicas aquellas que quedan fuera del intervalo :
( Linf , Lsup )
OTRAS MEDIDAS ESTADÍSTICAS.
COEFICIENTE DE ASIMETRÍA DE FISHER :
Permite interpretar la forma de la distribución, respecto a ser o no simétrica.
∑ n .(x
i
As1 =
i
− x)
3
N
σ3
6 - Estadística descriptiva (F. Álvarez)
INTERPRETACIÓN
x − Mo = 3.( x − Md )
Basados en al relación existente entre media, mediana y moda :
se definen dos nuevos coeficientes de asimetría (de Pearson):
As2 =
x − Mo
σ
As3 =
3.( x − Md )
σ
COEFICIENTE DE CURTOSIS :
Recibe también el nombre de coeficiente de concentración central, midiendo el grado de aplastamiento o
apuntamiento de la gráfica de la distribución de la variable estadística. Una mayor concentración de datos en torno al
promedio harán que la forma sea alargad, siendo tanto más plana (o aplastada) cuanto mayor sea la dispersión de los
mismos.
INTERPRETACIÓN
Determina
la
forma
de
la
distribución, en relación con su
grado de aplastamiento.
∑ n .(x
i
− x)
4
i
N
K=
−3
σ4
Basados en medidas de posición, se definen los nuevos coeficientes :
Coeficiente de asimetría de Bowley-Yule, o intercuartílico :
Q − 2. Me + Q1
Y= 3
Q 3 − Q1
Coeficiente absoluto de asimetría:
A=
Coeficiente de curtosis de Kelley :
⎛
Q
Q 3 − Q1 ⎞
K=
− 0'263
⎜ con: Q =
⎟
⎝
⎠
P90 − P10
2
Q 3 − 2. Me + Q1
σ
ANÁLISIS CONJUNTO DE VARIOS GRUPOS.
2
Si disponemos de k grupos con ni elementos, medias x i , y varianzas S i , podemos obtener :
Media conjunta de los k grupos
∑n .x
X=
∑n
i
i
S
i
2
∑ n .S
=
∑n
i
Varianza conjunta de los k grupos
2
i
, o, con mayor rigor : S
2
∑ n .S
=
∑n
i
i
i
2
i
∑ n .( x − X )
+
∑n
i
2
i
i
PROPIEDADES DE LAS MEDIDAS ESTADÍSTICAS.
TABLA PARA CÁLCULOS :
La tabla siguiente nos muestra una disposición práctica de los cálculos necesarios para la obtención de los parámetros
estadísticos usuales: Media , Moda, Mediana , Percentiles , Varianza y Desviación típica.
n.x
n1 . x1
n2 . x2
...
ni . xi
n.x2
(n1 . x1).x1
(n2 . x2).x2
...
(ni . xi).xi
Intervalos
[ e1 , e2 )
[ e2 , e3 )
...
[ ei , ei+1 )
x
x1
x2
...
xi
n
n1
n2
...
ni
...
...
...
...
...
Σ ni
Σ ni . xi
Σ ni . xi2
N
A
B
Cálculo de media y varianza
N
P
N1=n1
P1 = (N1 / N) . 100
N2=n1+n2
P2 = (N2 / N) . 100
...
...
NI=n1+n2+ ...
Pi = (Ni / N) . 100
+ni
...
...
Cálculo de percentiles
La media y la varianza serían el resultado de calcular :Cálculo de media y varianza
x=
A
N
σ2 =
B
− x2
N
PROPIEDADES :
A)
Si a todos los valores de una variable x les sumamos una cantidad constante, la media queda incrementada en
dicha constante, mientras que la desviación típica (y la varianza) no varía.
Estadística descriptiva (F. Álvarez) - 7
B)
Si multiplicamos todos los valores de una variable x por una constante, la media y la desviación típica quedan
también multiplicadas por dicha constante (la varianza quedará multiplicada por el cuadrado de la constante).
EJEMPLO :
CAMBIO DE VARIABLE. TIPIFICACIÓN.
Haciendo uso de las propiedades de las medidas estadísticas ,podremos facilitar y simplificar los cálculos de parámetros
estadísticos, realizando un cambio de variable.
Así, si todos los valores son muy altos, podremos restarles una cantidad (normalmente la Moda) y, si poseen cifras
decimales o son múltiplos de un mismo número, podremos multiplicarlos o dividirlos por el valor adecuado.
Una vez calculados los parámetros estadísticos, en virtud de las propiedades descritas, obtendremos el valor final real
de tales parámetros.
Mención especial merecen dos cambios de variables particulares :
A)
Diferenciales : partiendo de la variable inicial x (puntuaciones directas), si a todos los valores les restamos la
media, obtenemos una nueva variable d (puntuaciones diferenciales) cuya media es cero (la desviación típica no
se modifica).
B)
Tipificadas : Si a todos los valores de la variable inicial x les restamos la media y el resultado lo dividimos por
la desviación típica, obtenemos una nueva variable z (puntuaciones tipificadas) cuya media es cero , teniendo
siempre como desviación típica la unidad.
Este último cambio de variable recibe el nombre de TIPIFICACIÓN.
SUMA Y DIFERENCIA DE VARIABLES.
Partiendo de dos variables X , Y, podemos definir las nuevas variables :
• S=X+Y
obtenida sumando cada valor de X con el correspondiente de Y.
• D=X-Y
obtenida restando a cada valor de X el valor correspondiente de Y.
Esto supone la existencia de tantas observaciones de X como de Y, así como el emparejamiento de ellas; es decir, a
cada valor de X queda asociado un valor de Y. Esto constituirá la base de estudio del siguiente tema .
Veamos como se comporta la media de las dos nuevas variables S y D definidas.
S = X+Y
S=
En efecto :
∑( X i + Yi ) = ∑ X i + ∑Yi = ∑ X i + ∑Yi
N
N
Calculemos la varianza de la suma S :
=
=
∑( ( X i + Yi ) − S)
N
N
= X+Y
D = X−Y
Análogamente se verifica que :
SS2
N
2
=
∑( ( X i + Yi ) − ( X + Y))
2
N
=
∑( ( X i − X) + (Yi − Y))
N
∑( ( X i − X) 2 + (Yi − Y) 2 + 2.( X i − X).(Yi − Y))
2
=
=
N
∑( X i − X) 2 + ∑(Yi − Y) 2 + 2. ∑( X i − X).(Yi − Y) = S2 + S2 + 2.S
=
X
Y
XY
N
N
N
La expresión
∑(X i − X).(Yi − Y)
N
, representada por SXY, recibe el nombre de covarianza, justificándose que es igual
también a :
SXY =
Análogamente se verifica que :
∑(Xi − X).(Yi − Y) = ∑Xi .Yi − X. Y
N
N
S2D = S2X + SY2 − 2.SXY
Si las variables X , Y son independientes, la covarianza (medida de variación conjunta) es igual a cero.
8 - Estadística descriptiva (F. Álvarez)
Varianzas
Resumiendo
:
Dependientes ( SXY ≠ 0 )
Medias
S = X+Y
D = X−Y
S=X+Y
D=X-Y
SS2 = S 2X + S Y2
S2D = S2X + SY2
Independientes ( SXY = 0 )
+ 2.S XY
− 2.S XY
SS2 = S 2X + S Y2
S 2D = S 2X + S Y2
MOMENTOS ORDINARIOS Y CENTRALES
Momento ordinario de orden Se verifica que :
k:
m1 = 0
m2 = a 2 − a 1 2
ak = ∑
n k
.x
N
Momento central de orden k :
mk = ∑
Algunos parámetros
expresarse :
estudiados,
pueden
µ = x = a1
σ2 = s 2x = m2 = a 2 − a 1 2
m3 = a 3 − 3. a 2 . a1 + 2. a13
m4
m4
m 4 = a 4 − 4. a 3 . a 1 + 6. a 2 . a 1 2 − 3. a 1 4 As = m3 = m3
K= 4 −3=
−3
3
3
2
σ
n
k
.(x − x )
N
(
m2
)
σ
m2
MEDIDAS DE CONCENTRACIÓN.
Estas medidas, de aplicación económica fundamentalmente, determinan el nivel de igualdad en el reparto total de las
observaciones de la variable.
Su determinación se realizará a partir de la siguiente tabla de cálculos :
A
B
C
D
E
N
G
H
xi
ni
Ni = Σ
ni.
Pi = (Ni.. /N).100
ti = ni. xi
Ti = Σ ti.
Qi = (Ti.. /T).100
Pi - Qi
x1
n1
N1
P1
t1
T1
Q1
P1 - Q1
x2
n2
N2
P2
t2
T2
Q2
P2 - Q2
...
...
...
...
...
...
...
...
xk
nk
Nk
Pk (= 100)
tk
Tk
Qk (= 100)
Pk - Qk (= 0)
TP = Σ Pi
T = Σ ni. xi
N = Σ ni.
TD = Σ (Pi Qi)
Siendo :
A) Valores de la variable (marca de clase si está agrupada en intervalos).
B) Frecuencias absolutas (N = total de observaciones).
C) Frecuencias absolutas acumuladas.
D) Porcentajes acumulados (totalizando - TP).
E) Productos de cada frecuencia por su correspondiente valor (T = suma total de estos productos).
F) Productos anteriores acumulados (de igual modo que se realiza con frecuencias).
G) Expresión en porcentaje del contenido de la columna anterior.
H) Diferencias de los valores de las columnas D y G (totalizando - TD).
MEDIALA :
Su definición tiene un fundamento similar al de la mediana.
•
•
Para distribuciones discretas (no agrupadas en intervalos), la mediala es el valor de la variable cuyo Qi
primero iguala o supera el 50%.
Para distribuciones continuas (agrupadas en intervalos), el intervalo que contiene la mediala es aquel
cuyo Qi primero iguala o supera el 50%. De aquí obtenemos el valor de la mediala del modo siguiente :
50 − Q i−1
Ml = e i +
.a
Q i − Q i−1 i
Los subíndices indican :
i
intervalo donde se encuentra la mediala.
i-1
intervalo anterior al que contiene la mediala.
e
extremo inferior del intervalo en el que se encuentra la
mediala.
a
amplitud del intervalo en el que está la mediala.
Estadística descriptiva (F. Álvarez) - 9
CURVA DE LORENZ :
Sobre un rectángulo de 100 unidades de lado, se dibuja la
poligonal que resulta de unir los puntos (Pi , Qi).
Esta poligonal (curva de Lorenz) determina con la diagonal AB
un recinto (sombreado en la figura) que mide el grado de
concentración.
Cuando el área sombreada es muy pequeña (la curva de
Lorenz se aproxima a la diagonal AB) se presenta una baja
concentración, o lo que es lo mismo, indica uniformidad en el
reparto de los valores de la variable.
La mayor concentración se producirá cuando la zona
sombreada coincide con el triángulo ABC.
ÍNDICE DE CONCENTRACIÓN DE GINI :
Haciendo uso de la tabla de cálculos anterior, necesaria para la obtención de la curva de Lorenz, definiremos el
presente estadístico. Otros, como el índice de Dalton, el de paridad, etc. , pueden ser empleados con idéntica
interpretación a la que tratamos con el de Gini, si bien omitimos su estudio.
k −1
∑ ( Pi − Q i )
G=
i =1
k −1
∑ Pi
TD
=
TP − 100
i =1
10 - Estadística descriptiva (F. Álvarez)
El índice de Gini (expresión de la izquierda) coincide geométricamente con
el cociente entre el área sombreada (definida por la curva de Lorenz) y la
del triángulo ABC.
• Concentración mínima : G = 0
• Concentración máxima : G = 1
EJERCICIOS RESUELTOS
1
La tabla siguiente nos muestra el resultado de una encuesta entre los alumnos de primer curso,
analizando el número de suspensos en la primera evaluación :
0
3
1
3
2
1
3
2
2
4
0
3
4
1
5
2
0
1
2
3
3
0
2
3
3
4
3
1
2
1
0
2
5
1
3
4
2
4
0
2
3
2
5
3
2
4
1
1
4
2
1
3
3
0
4
1
4
3
0
4
Realicemos un estudio estadístico completo.
Se trata de una variable cuantitativa discreta. Esto condicionará algunos procesos del cálculo estadístico.
RECUENTO Y TABLA DE FRECUENCIAS
x
0
1
2
3
4
5
recuento
///// ///
///// ///// /
///// ///// ///
///// ///// /////
///// /////
///
Totales :
n
8
11
13
15
10
3
N = 60
r
0'1333
0'1833
0'2167
0'2500
0'1667
0'0500
1'0000
p
13'33
18'33
21'67
25'00
16'67
5'00
100'00
N
8
19
32
47
57
60
R
0'1333
0'3167
0'5333
0'7833
0'9500
1'0000
P
13'33
31'67
53'33
78'33
95'00
100'00
GRÁFICOS ESTADÍSTICOS APROPIADOS PARA ESTE TIPO DE VARIABLE
DIAGRAMA DE BARRAS :
Sobre el valor de cada variable dibujamos una barra
con altura igual a la frecuencia que deseamos
representar (en este caso las absolutas n ).
POLÍGONO DE FRECUENCIAS :
Obtenidos enlazando los extremos superiores de las
barras.
NOTA :Siendo la variable discreta, no tiene sentido
dibujar el polígono de frecuencias.
DIAGRAMAS ACUMULADOS :
Construidos
como
representativos
de
acumuladas.
los
las
anteriores,
son
los
distintas
frecuencias
El ejemplo representa las frecuencias absolutas
acumuladas (N).
El polígono de frecuencias se construiría enlazando
los extremos superiores de las barras.
PICTOGRAMAS:
Con el mismo principio seguido para la construcción de los diagramas de barras, sustituimos dichas barras por dibujos
alusivos a la variable estadística estudiada.
DIAGRAMAS DE SECTORES :
Resultan de la división de un círculo en sectores cuya amplitud es proporcional a la frecuencia.
La amplitud de cada sector será :
α=
n
.360º = r.360º
N
Estadística descriptiva (F. Álvarez) - 11
MEDIA, VARIANZA Y DESVIACIÓN TÍPICA
x
0
1
2
3
4
5
x=
n
∑ n .x
i
N
i
=
n.x2
n.x
8
11
13
15
10
3
N = 60
0
11
26
45
40
15
137
Este tipo de tabla facilita los cálculos.
0
11
52
135
160
75
433
Media = 137 / 60 = 2,283
Varianza = (433 / 60) - media al cuadrado = 2'005
Desviación típica = raíz cuadrada de la varianza = 1'416
137
∑ ni .xi2 − x 2 = 433 − 2'2832 = 2'00 sx = sx2 = 2' 005 = 1' 416
= 2'283 s x2 =
60
N
60
MODA = Valor de mayor frecuencia = 3
PERCENTILES
Para la determinación de medidas de posición (percentiles), podemos seguir dos procedimientos de cálculo :
1º) Basado en las frecuencias absolutas acumuladas N :
Determinamos el lugar que ocupa : L = k.N / 100
El percentil será el valor cuya frecuencia N primero iguale o supere al lugar L.
2º) Basado en porcentajes acumulados P :
El percentil será el valor cuyo porcentaje P primero iguale o supere al orden k del percentil.
Apliquemos el primer procedimiento para calcular la mediana y el 9º decil :
La mediana (percentil 50) ocupará el lugar :
L = 50 . 60 / 100 = 30
El 9º decil (percentil 90) ocupará el lugar :
L = 90 . 60 / 100 = 54
x
0
1
2
3
4
5
n
N
8
19
32 ⇐
47
57 ⇐
60
8
11
13
15
10
3
N = 60
Mediana = 2
9º decil = 4
Aplicando el segundo procedimiento descrito, determinemos los cuartiles 1º y 3º, así como la amplitud semiintercuartílica :
x
0
1
2
3
4
5
n
8
11
13
15
10
3
N = 60
r
0'1333
0'1833
0'2167
0'2500
0'1667
0'0500
1'0000
p
13'33
18'33
21'67
25'00
16'67
5'00
100'00
P
13'33
31'67 ⇐
53'33
78'33 ⇐
95'00
100'00
Amplitud semi-intercuartílica =
12 - Estadística descriptiva (F. Álvarez)
Cuartil 1º (percentil 25) = 1
Cuartil 3º (percentil 75) = 3
Q 3 − Q1 3 − 1
=
=1
2
2
2
Trabajamos ahora con las edades de 50 jóvenes de nuestro barrio :
1
24
20
21
11
15
6
25
20
7
12
20
15
8
4
22
10
12
7
10
4
9
1
12
9
18
20
5
20
5
2
11
23
20
10
9
13
14
12
15
20
13
7
11
14
11
13
15
22
15
Como en el ejemplo anterior, realicemos un estudio estadístico completo.
Nos encontramos ante una variable estadística cuantitativa continua. Agruparemos o no las observaciones en intervalos
en función de los diferentes valores observados.
TABLA DE FRECUENCIAS
Observado el valor mínimo (1) y máximo (24), decidimos agrupar los datos en intervalos de 5 años de amplitud,
empezando por 0.
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]
recuento
/////
///// /////
///// ///// ///// /
///// /
///// ///// ///
Totales :
n
r
5
10
16
6
13
N = 50
p
0'10
0'20
0'32
0'12
0'26
1'00
N
10
20
32
12
26
100
R
5
15
31
37
50
P
0'10
0'30
0'62
0'74
1'00
10
30
62
74
100
GRÁFICOS ESTADÍSTICOS
HISTOGRAMA :
Sobre el valor de cada variable dibujamos una franja con
altura igual a la frecuencia que deseamos representar (en
este caso las absolutas n ).
POLÍGONO DE FRECUENCIAS :
Obtenido enlazando los puntos medios de los extremos
superiores de las franjas.
HISTOGRAMAS ACUMULADOS :
Construidos como los anteriores, son los representativos de
las distintas frecuencias acumuladas.
El ejemplo representa las frecuencias absolutas acumuladas (
N ).
En este caso, el polígono de frecuencias NO se construiría
enlazando los puntos medios de los extremos superiores de
las franjas, sino como se indica en la figura.
Cálculo de Moda, Media, Varianza y Desviación típica :
Para el cálculo de la media y la varianza utilizamos la tabla auxiliar siguiente. En ella se incorpora la columna x ,
que contiene la marca de clase (valor central) de cada intervalo.
La MODA (valor de mayor frecuencia) se encuentra en el intervalo [10 , 15) . Determinemos su valor concreto :
Mo = ei +
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]
ni +1
6
.ai = 10 +
.5 = 11'875
ni +1 + ni −1
6 + 10
n
5
10
16
6
13
N = 50
x
2'5
7'5
12'5
17'5
22'5
n.x
12'5
75'0
200'0
105'0
292'5
685'0
n.x2
31'25
562'50
2500'00
1837'50
6581'25
11512'50
Estadística descriptiva (F. Álvarez) - 13
∑ n .x
x=
i
N
i
685
=
= 13'7
50
s
2
x
∑ n .x
=
i
N
2
i
− x2 =
2
11512'5
− 13'7 2 = 42 s x = s x = 42' 56 = 6' 524
50
Utilizando las frecuencias absolutas acumuladas, calculemos el decil 2º y el percentil 62 :
Lugar que ocupa el decil 2º (percentil 20) = 20 . 50 / 100 = 10
Lugar que ocupa el percentil 62 = 62 . 50 / 100 = 31
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]
n
N
5
15 ⇐
31 ⇐
37
50
5
10
16
6
13
N = 50
Decil 2º (percentil 20) en [5,10)
Percentil 62 en [10,15)
Lugar = 10
Lugar = 31
Determinemos sus valores concretos :
20.N
20.50
− N i −1
−5
100
100
.5 = 7'5
P20 = ei +
.ai = 5 +
ni
10
62.N
62.50
− N i −1
− 15
100
100
.5 = 15
P62 = ei +
.ai = 10 +
ni
16
Utilizando los porcentajes acumulados, calculemos el cuartil 1º y la mediana :
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]
n
r
5
10
16
6
13
N = 50
p
0'10
0'20
0'32
0'12
0'26
1'00
P
10
20
32
12
26
100
10
30 ⇐
62 ⇐
74
100
Cuartil 1º (percentil 25) en [5,10)
Mediana (percentil 50) en [10,15)
Determinemos sus valores concretos :
25.N
25.50
− N i −1
−5
.5 = 8'75
P25 = ei + 100
.ai = 5 + 100
ni
10
50.N
50.50
− N i −1
− 15
.5 = 13'125
P50 = ei + 100
.ai = 10 + 100
ni
16
14 - Estadística descriptiva (F. Álvarez)
3
x
2
3
4
5
n
6
15
10
9
De la presente distribución, calculemos :
Media, varianza y desviación típica.
Moda.
Mediana, Percentil 82, Cuartiles y amplitud semi-intercuartílica.
La variable establecida puede ser discreta o continua sin agrupar en intervalos. Realicemos los cálculos en ambos
supuestos.
x
2
3
4
5
n
6
15
10
9
40
Media
x=
∑ n .x
i
N
N
6
21
31
40
P
15
52'5
77'5
100
Desviación típica
Varianza
i
=
142
= 3'55
40
σ2 =
Moda
∑ n .x
i
2
i
N
− x2 =
544
− 3'55 2 = 0'99
40
Mediana (percentil 50)
3
Cuartil 3º (percentil 75)
3
Cuartil 1º (percentil 25)
n.x2
24
135
160
225
544
n.x
12
45
40
45
142
3
σ = 0' 9975 = 0' 99875
Percentil 82
5
Rango semi-intercuartílico
Q 3 − Q1 4 − 3
=
= 0' 5
2
2
4
Los valores anteriores, relativos a percentiles, son válidos si la variable es DISCRETA. En el supuesto de tratarse de
una variable CONTINUA (con datos no agrupados), deberíamos entender que el valor identifica el intervalo situado a la
izquierda en la siguiente tabla :
Intervalo
[1'5,2'5)...
[2'5,3'5)...
[3'5,4'5)...
[4'5,5'5]...
x
2
3
4
5
n
6
15
10
9
40
N
6
21
31
40
P
15
52'5
77'5
100
Los percentiles pedidos se obtendrían del modo siguiente :
Mediana
en [2'5,3'5)
Percentil 82
en [4'5,5'5]
Cuartil 1º
en [2'5,3'5)
Cuartil 3º
en [3'5,4'5)
50 . 40
−6
Me = P50 = 2' 5 + 100
. 1 = 3' 433
15
82. 40
− 31
P82 = 4' 5 + 100
. 1 = 4' 700
9
25 . 40
−6
Q 1 = P25 = 2' 5 + 100
. 1 = 2' 767
15
75 . 40
− 21
Q 3 = P75 = 3' 5 + 100
. 1 = 3' 400
10
Estadística descriptiva (F. Álvarez) - 15
4
Interv.
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
Interv.
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
n
5
11
19
21
4
De la distribución de la izquierda, calcular :
Media, varianza y desviación típica.
Moda
Mediana, Percentil 59 y Decil 3º.
Desviación media.
Coeficientes de asimetría y curtosis.
n
5
11
19
21
4
60
a
11
13
15
17
19
Media
x=
∑ n .a
i
N
5
16
35
56
60
P
8'333
26'667
58'333
93'333
100'000
Desviación típica
Varianza
i
N
=
916
= 15'2667 σ 2 =
60
Moda
en [16,18)
Mediana
(percentil 50)
en [14,16)
Percentil 59
en [16,18)
Decil 3º
(percentil 30)
en [14,16)
Desviación
media
∑ n .a
i
N
4'2667
2'2667
0'2668
1'7333
3'7333
21'3333
24'9333
5'0668
36'4000
14'9333
102'6667
− x2 =
14252
− 15'2667 2 = 4'4
60
Asimetría y
Curtosis
x−x
-4'2667
-2'2667
-0'2668
1'7333
3'7333
Desviación media
16 - Estadística descriptiva (F. Álvarez)
i
σ = 4' 4622 = 2' 1124
4
. 2 = 16' 3478
4 + 19
50 . 60
− 16
Me = P50 = 14 + 100
. 2 = 15' 4737
19
59 . 60
− 35
P59 = 16 + 100
. 2 = 16' 0381
21
30 . 60
− 16
D 3 = P30 = 14 + 100
. 2 = 14' 2105
19
n. x − x
Curtosis
(-0'5608 < 0)
Ligeramente aplanada
(Platicúrtica)
2
Mo = 16 +
x−x
Asimetría
(-0'3524 < 0)
Algo asimétrica
hacia la izquierda
n.a2
605
1859
4275
6069
1444
14252
n.a
55
143
285
357
76
916
D=
∑n . x
i
i
i
− x)
3
N
As1 =
σ3
∑ n .(x
i
−x
N
∑ n .(x
K=
i
i
N
σ4
− x)
4
=
n.( x − x ) 3
n.( x − x ) 4
-388'3615
-128'1019
-0'3603
109'3618
208'1375
-199'3244
102'6667
= 1'7111
60
- 199'3244
60
=
= −0'3524
2'1124 3
2914'0765
60
−3 =
− 3 = −0'5608
2'1124 4
1657'0090
290'3644
0'0961
189'5604
777'0466
2914'0765
5
La distribución de las estaturas en centímetros de los alumnos de un centro, expresados en
porcentajes, es la siguiente:
Estaturas
Menos de 150
De 150 a 154
De 155 a 159
De 160 a 164
De 165 a 169
De 170 a 174
De 175 a 179
De 180 y más
a)
b)
c)
d)
Porcentajes
0'3
1'6
9'4
20'5
31'5
22'5
10'7
3'5
Siendo abiertos los intervalos primero y el último, ¿ qué valores sería razonable considerar para
los límites extremos de esos intervalos ?
Si suponemos que en el Centro hay 1200 alumnos, ¿ cuáles serían las frecuencias absolutas?
Calcular la estatura media y la desviación típica.
¿ Entre qué estaturas se encuentra la quinta parte de las estaturas centrales ?.
a)
Al referirse a intervalos de 5 cm. de amplitud en los restantes casos, debemos considerar que el primer intervalo es de
145 a menos de 150 y, el último, de 180 a 185.
b)
Estaturas
[145,150)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180)
[180,185)
p
0'3
1'6
9'4
20'5
31'5
22'5
10'7
3'5
n = p . 1200 / 100
3'6
19'2
112'8
246
378
270
128'4
42
n
P
0'3
1'9
11'3
31'8
63'3
85'8
96'5
100'0
4
19
113
246
378
270
128
42
N=1200
N
4
23
136
382
760
1030
1158
1200
c)
Estaturas
[145,150)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180)
[180,185)
De aquí resulta :
n
4
19
113
246
378
270
128
42
1200
x
147'5
152'5
157'5
162'5
167'5
172'5
177'5
182'5
n.x
590'0
2897'5
17797'5
39975'0
63315'0
46575'0
22720'0
7665'0
201535'0
201535
= 167' 95
1200
33899050
s x2 =
− 167' 95 2 = 42' 006
1200
n.x2
87025'00
441868'75
2803106'25
6495937'50
10605262'50
8034187'50
4032800'00
1398862'50
33899050'00
x=
s x = 42' 006 = 6' 481
d)
La quinta parte representa el 20%. Con relación al centro (50%), cubrirán desde el 40% al 60%.
Se nos pide que calculemos los percentiles 40 y 60 de la distribución de estaturas.
La tabla de porcentajes acumulados del apartado b) nos permite deducir que :
Los percentiles 40 y 60 se encuentran en el intervalo [165,170) .
Sus valores concretos son :
40.N
40.1200
− N i −1
− 382
.5 = 166'963
P40 = ei + 100
.ai = 165 + 100
ni
378
60.N
60.1200
− N i −1
− 382
.5 = 169'471
P60 = ei + 100
.ai = 165 + 100
ni
378
Estadística descriptiva (F. Álvarez) - 17
6
Partiendo de la siguiente distribución de frecuencias acumuladas, determinar la media, mediana y moda
de la siguiente distribución de edades. Analice la relación entre ellas.
Edad
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
Calculemos
los
parámetros
pedidos,
x − Mo = 3.(x − Me )
con
el
N
4
11
24
34
40
fin
de
observar
en
qué
medida
se
verifica
la
relación
Para obtener las frecuencias absolutas, a partir de las acumuladas, aplicamos el concepto que define a estas últimas.
En la práctica, las frecuencias absolutas se obtienen restando la correspondiente acumulada de la anterior.
Edad
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
614
x=
= 15' 35
40
N
4
11
24
34
40
n
4
7
13
10
6
40
x
11
13
15
17
19
n.x
44
91
195
170
114
614
Lugar que ocupa la mediana :
L = 50 . 40 / 100 = 20
La mediana está en [14,16) :
Me = 14 +
20 − 11
. 2 = 15' 3846
13
n.x2
484
1183
2925
2890
2166
9648
La moda se encuentra en [14 , 16). Su
valor concreto es :
Mo = 14 +
10
. 2 = 15' 1765
10 + 7
Comprobemos la relación existente entre ellas :
x − Mo = 15'35 − 15'1765 = 0'1735
3.(x − Me ) = 3.(15'35 − 15'3845) = −0'1035
No se verifica la relación esperada, si bien la diferencia no es muy grande.
Esta relación teórica sólo se verifica en situaciones ideales y excepcionales (por ejemplo en distribuciones
simétricas, donde x = Mo = Me ).
18 - Estadística descriptiva (F. Álvarez)
7
Completar la tabla de frecuencias siguiente :
Nº de suspensos
0
1
2
3
4
N=
Nº de suspensos
0
1
2
3
4
n
3
7
12
8
20
N
3
10
22
30
50
n
3
N
10
12
30
50
coincide con el valor de n
para que al acumular resulte N=10
acumulando 12
para que al acumular resulte N=30
Última acumulada =N=50 y n=20 por diferencia con la anterior
Estadística descriptiva (F. Álvarez) - 19
8
Calcular la amplitud semi-intercuartílica de la distribución
de las edades de 400 niños, representada a la izquierda.
Conocidos los porcentajes y el total de observaciones (N=400), podemos construir la distribución de frecuencias
absolutas :
n = p . N / 100
x
2
3
4
5
6
7
p
6
12
12
15
24
31
n
24
48
48
60
96
124
400
La amplitud o rango semi-intercuartílico será pues :
20 - Estadística descriptiva (F. Álvarez)
P
6
18
30
45
69
100
⇐
Primer cuartil (percentil 25)
⇐
Tercer cuartil (percentil 75)
Q 3 − Q1 7 − 4
=
= 1' 5
2
2
9
Una variable X tiene por media 12 y desviación típica 3. Si elevamos todos los valores al cuadrado
construimos la nueva variable Y = X2 . ¿ Cuál es el valor de su media aritmética ?.
n
Observemos la expresión de la varianza :
s x2 =
∑ n .x
i =1
i
N
2
i
− x2
La primera parte de la expresión contiene los cuadrados de los valores de la variable X; es decir, los valores definidos
como la nueva variable Y.
n
Con esto :
s =
2
x
∑ n .y
i =1
i
N
i
− x 2 ⇒s x2 = y − x 2 ⇒ y = s x2 + x 2 = 32 + 12 2 = 153
Estadística descriptiva (F. Álvarez) - 21
10
Una variable X tiene como media 8 y varianza 4. ¿ Qué transformación lineal hemos de realizar con ella,
para obtener una nueva variable Y que tenga por media 42 y desviación típica 10 ?.
Se entiende por transformación lineal a una relación del tipo :
Hemos de calcular los parámetros a y b desconocidos.
Y = a + b.X
Haciendo uso de las propiedades de la media y la desviación típica, resulta :
Y = a +b. X ⇒ 42 = a + b. 8
Sobre la media
s Y = b . s X ⇒ 10 = b . 2
En relación con la desviación típica
La transformación realizada fue :
22 - Estadística descriptiva (F. Álvarez)
Y = 2 + 5.X
⇒ b = 5 ⇒ a = 42 − 5 . 8 = 2
11
Las calificaciones de un alumno en dos test de conocimientos fueron 5'4 y 41. El primer test dio como
media 5 con varianza 2 y, el segundo, media 38 con varianza 12.
¿ En qué test obtuvo mejor calificación con relación al grupo total de alumnos ?.
Nos encontramos con dos distribuciones de calificaciones medidas en distintas escalas. Para poder comparar
tendremos que referir ambas series de valores a otras equivalentes entre sí (igual media y desviación típica).
El proceso de tipificación nos proporciona lo que deseamos (siempre obtendremos una distribución con media 0 y
desviación típica 1).
Tipificando ambas calificaciones se obtiene :
Nota del test 1º : 5' 4
→
Nota del test 2º : 41 →
z1 =
z1 =
5' 4 − 5
2
41 − 38
= 0' 283
= 0' 866
12
La nota obtenida en el segundo test es superior a la del primero en términos comparativos.
Estadística descriptiva (F. Álvarez) - 23
12
Estatura en cm.
[140,145)
[145,150)
[150,155)
[155,160)
[160,165)
Alumnos
12
35
51
?
7
a) Determinar la frecuencia desconocida, sabiendo que la
estatura media es de 151’5 cm.
b) Calcule la amplitud semi-intercuartílica.
c) Moda de la distribución y coeficiente de asimetría que la
utiliza.
d) Percentil correspondiente a una estatura de 153 cm..
Explique su significado.
e) ¿ Entre qué estaturas se encuentran las 25 centrales ?.
f) Porcentaje de alumnos que miden más de 157 cm.
a)
x
142’5
147’5
152’5
157’5
162’5
[140,145)
[145,150)
[150,155)
[155,160)
[160,165)
n
12
35
51
f
7
105+f
n.x
1710
5162’5
7777’5
157'5.f
1137’5
15787’5+157'5.f
La tabla de cálculos de la media
conduce a :
1515
' =
15787'5 + 157'5. f
105 + f
Resolviendo deducimos que : f = 20
b)
n
12
35
51
20
7
N=125
[140,145)
[145,150)
[150,155)
[155,160)
[160,165)
N
12
47
98
118
125
Lugar Q1 = 125 . 25 / 100 = 31’25
Q1 se encuentra en [145,150)
Q1 = 145 +
Lugar Q3 = 125 . 75 / 100 = 93’75
Q3 se encuentra en [150,155)
Q 3 = 150 +
1º)
x
142’5
147’5
152’5
157’5
162’5
n
12
35
51
20
7
125
Q=
n.x
1710
5162’5
7777’5
3150
1137’5
18937’5
n.x2
243675
761468’75
1186068’75
496125
184843’75
2872181’25
'
287218125
' 2
− 1515
125
s = 5'02
s=
As =
d)
[140,145)
[145,150)
[150,155)
[155,160)
[160,165)
93'75 − 47
.5 = 154 '5833
51
Q 3 − Q1 154 '5833 − 147 '75
=
= 3'4167
2
2
20
Moda en [150,155) : Mo = 150 +
.5 = 1518182
'
35 + 20
Luego :
c)
' − 12
3125
.5 = 147 '75
35
n
12
35
51
20
7
N=125
e)
N
12
47
98
118
125
x − Mo
= −0'0634
s
153 se encuentra en [150,155)
Pk = 150 +
k.
Resolviendo : k = 62’08 ≈ 62
Lugar = 125 . 40 / 100 = 50 ; en [150,155) :
P40 = 150 +
50 − 47
.5 = 150'29
51
Lugar = 125 . 60 / 100 = 75 ; en [150,155) :
P60 = 150 +
Entre 150’29 y 152’75
24 - Estadística descriptiva (F. Álvarez)
125
− 47
100
.5 = 153
51
75 − 47
.5 = 152 '75
51
f) 157 se encuentra en [155,160)
Pk = 155 +
k.
125
− 98
100
.5 = 157
20
Resolviendo : k = 84’8% (porcentaje inferiores a 157)
Luego, miden más de 157 cm. :
100% - 84’8% = 15’2%
Estadística descriptiva (F. Álvarez) - 25
13
Edad
22 a 25
19 a 22
16 a 19
13 a 16
10 a 13
[10,13)
[13,16)
[16,19)
[19,22)
[22,25)
Hombres
7
9
5
11
8
x
11’5
14’5
17’5
20’5
23’5
n
8
11
5
9
7
40
Mujeres
3
5
6
9
2
N
8
19
24
33
40
a) Determine el número de hombres con edades
comprendidas entre los 11 y 15 años.
b) ¿ Cuál de los dos grupos de edades está más disperso ?.
c) Con relación al grupo integrado por los del mismo sexo,
¿quién resulta más joven, un hombre o una mujer de 20
años ?.
Hombre
2
n.x
n.x
92
1058
159’5
2312’75
87’5
1531’25
184’5
3782’25
164’5
3865’75
688
12550
n
2
9
6
5
3
25
Mujer
n.y
23
130’5
105
102’5
70’5
431’5
n.y2
264’5
1892’25
1837’5
2101’25
1656’75
7752’25
40
−0
100
Pk = 10 +
.3 = 11 ⇒ k = 6'67%
8
40
k.
−8
100
Pk = 13 +
.3 = 15 ⇒ k = 38'33%
11
k.
a)
11 pertenece al intervalo [10,13) :
15 pertenece al intervalo [13,16) :
Entre 11 y 15 el 38’33-6’67 = 31’66%.
b)
Luego hay : 40 . 31’66 / 100 = 12’664 ≈ 13 hombres
Calculamos las varianzas de ambos grupos :
688
12550
= 17'2 ; s2x =
− 17'22 = 17'91 ; sx = 17'91 = 4'232
40
40
7752'25
4315
'
y=
= 17'26 ; s2y =
− 17'262 = 12'1824 ; sy = 12'1824 = 3'49
25
25
x=
Siendo 17’91 > 12’1824 ⇒ Grupo hombres más disperso de forma aboluta
Pese a ser las medias prácticamente iguales, debemos emplear el coeficiente de variación para estudiar la
variabilidad relativa de ambos grupos :
CVx =
c)
4'232
3'49
.100 = 24'605% ; CVy =
.100 = 20'220% ⇒ hombres más disperso
17'2
17'26
Tipificamos 20 en ambos grupos :
Z hombre =
20 − 17'26
20 − 17'2
= 0'662 ; Z mujer =
= 0'785
12'1824
17'91
Como 0’662 < 0’785 ⇒ Hombre más joven
26 - Estadística descriptiva (F. Álvarez)
14
La tabla siguiente nos muestra las calificaciones de
inicio del curso y al finalizar el mismo.
Alumno 1 2 3 4 5
Inicio
4 5 1 5 2
Final
6 8 5 9 3
10 alumnos, en un test de cálculo matemático, al
6
3
6
7
2
7
8
1
6
9
1
4
10
3
9
a) Determine la media, desviación típica, mediana y moda de las calificaciones al inicio y al final del
curso.
b) Calcule la media y desviación típica del incremento o mejora de la calificación obtenida.
a)
Inicio
x
2
x
4
5
1
5
2
3
2
1
1
3
27
16
25
1
25
4
9
4
1
1
9
95
27
95
= 2'7 ; sx =
− 2'7 2 = 1487
'
10
10
x=
Ordenando valores :
1
1
1
2
2
3
3
Mediana = 2’5
Final
y
2
y
4
5
Moda = 1
6
8
5
9
3
6
7
6
4
9
63
36
64
25
81
9
36
49
36
16
81
433
y=
5
63
= 6'3 ; sy =
10
433
− 6'32 = 1'9
10
Ordenando valores :
3
4
5
6
6
6
7
Mediana = 6
8
9
9
Moda = 6
b)
Mejora
d
2
3
4
4
1
3
5
5
3
6
36
2
4
9
16
16
1
9
25
25
9
36
150
d
d=
Media de la diferencia :
36
= 3'6 ; sd =
10
150
− 3'62 = 1428
'
10
d = y − x = 6'3 − 2'7 = 3'6
( No es válido para dispersiones )
Estadística descriptiva (F. Álvarez) - 27
15
Nº Suspensos
0
1
2
3
4
5
a)
Alumnos
16
20
14
15
10
5
a) Determine la media, desviación típica, coeficiente de variación,
mediana y moda del número de suspensos.
b) Coeficiente de asimetría de Fisher.
c) Puntuación diferencial y tipificada correspondiente a 2 suspensos.
De la siguiente tabla de cálculos obtenemos :
x=
158
= 1975
'
80
s=
496
− 1975
' 2 = 15164
'
80
Mediana : N/2 = 40 ⇒ Me = 2
b)
∑ n.( x − x )
As =
N
s3
3
CV =
15164
'
.100 = 76'78%
1975
'
Moda = 1
x
n
N
n.x
n.x2
x−x
n.( x − x ) 3
0
1
2
3
4
5
16
20
14
15
10
5
80
16
36
50
65
75
80
0
20
28
45
40
25
158
0
20
56
135
160
125
496
-1’975
-0’975
0’025
1’025
2’025
3’025
-123’2598
-18’5372
0’0002
16’1534
83’0377
138’4032
95’7975
95'7975
= 80 3 = 0'3434
1'5164
c)
28 - Estadística descriptiva (F. Álvarez)
Ligeramente asimétrica a la derecha (o positiva)
x=2
'
d = x − x = 2 − 1975
= 0'025
x− x
0'025
z=
=
= 0'016
'
s
15164
16
Estatura
155-159
150-154
145-149
140-144
135-139
130-134
Niños
4
13
12
A
2
1
x
n
n.x
132
137
142
147
152
157
TOTAL
1
2
A
12
13
4
32+A
132
274
142.A
1764
1976
628
4774+142.A
La altura en cm. de los niños de 12 años, examinados durante la última
semana en la unidad de crecimiento del centro hospitalario
“Crecebien”, viene representada en la tabla de la izquierda. Sabiendo
que la altura media de los mismos es 147’75 cm., calcular :
a) La frecuencia A del tercer intervalo.
b) La simetría de la distribución a partir de la comparación de media,
mediana y moda.
c) El percentil correspondiente a un niño que mide 1’43 m..
a)
n
1
2
8
12
13
4
4774 + 142. A
32 + A
Resolviendo la ecuación anterior obtenemos el valor de A :
147’75.(32+A)=4774+142.A →
→ 4728+147’75.A=4774+142.A →
→ 5’75.A = 46 → A = 8
b)
Intervalos
[129’5 , 134’5)
[134’5 , 139’5)
[139’5 , 144’5)
[144’5 , 149’5)
[149’5 , 154’5)
[154’5 , 159’5)
x = 147'75 =
N
1
3
11
23
36
40
Calculemos la mediana y la moda de la distribución :
Moda en [149’5 , 154’5) :
Mo = 149'5 +
4
.5 = 150'75
4 + 12
Lugar que ocupa la mediana = 40/2 = 20
Mediana en [144’5 , 149’5) :
Utilizando los coeficientes de asimetría :
As 2 =
x − Mo
s
Me = 144'5 +
As 3 =
20 − 11
.5 = 148'25
12
3.( x − Me)
s
y siendo siempre positiva la desviación típica ,concluiremos que la simetría resultará del análisis del signo del
numerador.
x − Mo = 147'75 − 150'75 = −3 < 0
3.( x − Me ) = 3.( 147'75 − 148'25) = −1'5 < 0
Luego es asimétrica izquierda (o negativa).
c)
La altura 1’43 m. (= 143 cm.) se encuentra en el intervalo [139’5 , 144’5) :
k .40
−3
0'4. k − 3
Pk = 143 = 139'5 + 100
.5 ⇒ 3'5 =
.5 ⇒
8
8
3'5.8
8'6
+ 3 = 0'4. k ⇒ k =
= 21'5
5
0'4
Luego corresponde al percentil 21’5.
Estadística descriptiva (F. Álvarez) - 29
17
X
10-12
7-9
4-6
1-3
n
10
100
60
30
Dada la siguiente distribución de frecuencias., calcular :
a) Media y desviación típica.
b) Número de observaciones comprendidas entre las puntuaciones
directas 3’5 y 9’5.
c) Puntuaciones típicas de los percentiles 20 y 80.
Ordenamos los intervalos de menor a mayor, expresándolos mediante sus extremos reales.
Intervalos
[ 0’5 , 3’5 )
[ 3’5 , 6’5 )
[ 6’5 , 9,5 )
[ 9’5 , 12’5 ]
Totales
n
30
60
100
10
200
1270
= 6'35
200
n.x2
120
1500
6400
1210
9230
n.x
60
300
800
110
1270
9230
− 6'352 = 58275
'
200
a)
x=
b)
De la observación directa de la tabla se concluye que es 160 (60+100).
c)
Percentil 20 :
Percentil 80 :
s2 =
x
2
5
8
11
Lugar = 20 x 200 / 100 = 40
40 − 30
P20 = 35
' +
.3 = 4
60
Lugar = 80 x 200 / 100 = 160
160 − 90
P80 = 6'5 +
.3 = 8'6
100
30 - Estadística descriptiva (F. Álvarez)
s = 58275
'
= 2'414
(Observando N) se encuentra en [ 3’5 , 6’5 )
→
z=
4 − 6'35
= −0'9735
2'414
(Observando N) se encuentra en [ 6’5 , 9,5 )
→
z=
8'6 − 6'35
= 0'9321
2'414
N
30
90
190
200
18
x
0
1
2
3
n
6
12
21
11
Haciendo uso de coeficientes basados en medidas de posición, estudie la asimetría y el
apuntamiento de la distribución.
Tales coeficientes son el de asimetría de Yule y el de curtosis de Kelley.
Obtengamos los percentiles que intervienen en su cálculo a través de la columna de porcentajes acumulados (P) :
x
0
1
2
3
n
6
12
21
11
50
r
0’12
0’24
0’42
0’22
p
12
24
42
22
P
12
36
78
100
Cuartil 1º : (25%)
Cuartil 3º : (75%)
Mediana : (50%)
1
2
2
Percentil 10 : (10%)
Percentil 90 : (90%)
0
3
Con ellos :
Q3 − 2. Me + Q1 2 − 2.2 + 1
=
= −1
2 −1
Q3 − Q1
Q 3 − Q1
2−1
Q
2
2
− 0'263 =
− 0'263 = −0'0963
K=
− 0'263 =
P90 − P10
P90 − P10
3− 0
Y=
(asimétrica a la izquierda o negativa)
(ligeramente platicúrtica o aplastada)
Estadística descriptiva (F. Álvarez) - 31
19
Determine las medias aritmética, geométrica y armónica de la variable X que toma los valores
siguientes :
5 , 1 , 5 , 4 , 8.
x=
Media aritmética :
Media geométrica :
Media armónica :
∑ xi
N
=
5 + 1 + 5 + 4 + 8 23
=
= 4'6
5
5
x G = x1 . x 2 . ... . x N = 5 515
. . .4.8 = 5 800 = 800
5
5
N
=
=
= 2'817
xA =
⎛ 1 ⎞ 1 1 1 1 1 1775
'
∑⎜⎝ x ⎟⎠ 5 + 1 + 5 + 4 + 8
i
32 - Estadística descriptiva (F. Álvarez)
N
1
5
= 800 0'2 = 3807
'
20
x
1
2
3
n
3
10
7
20
Determine las medias aritmética, geométrica y armónica de la distribución.
Generalizamos las expresiones correspondientes al figurar frecuencias :
Media aritmética :
Media geométrica :
x=
∑ n .x
i
i
N
=
3.1 + 10.2 + 7.3 44
=
= 2'2
20
20
xG = N x1n1 .x 2n2 .....x nnn = 20 13.210.37 =
= 20 2239488 = 2239488
Media armónica :
xA =
N
⎛n
∑ ⎜⎜ xi
⎝ i
⎞
⎟⎟
⎠
=
1
20
= 22394880'05 = 2'077
20
20
=
= 1'935
3 10 7 10'333
+
+
1 2 3
Estadística descriptiva (F. Álvarez) - 33
21
Con el fin de estudiar la edad media y la dispersión de edades en un centro educativo, el director
solicita estos datos a los responsables de los distintos niveles, resultando :
• 200 alumnos de Primaria con media 11 años y varianza 2’5.
• 140 alumnos de Secundaria con media 14’6 años y varianza 2.
• 165 alumnos de Bachillerato con media 17’1 años y varianza 0’9.
¿ Cuál es la edad media y la varianza del colectivo total de alumnos del centro ?.
Media conjunta
de los 3 grupos
X=
Varianza conjunta
de los 3 grupos
S2 =
∑ n i . xi
∑ni
=
20011
. + 14014
. '6 + 16517
. '1 70655
'
=
= 13'99
200 + 140 + 165
505
∑ n i .S2i + ∑ n i .( x i − X)
∑ ni
∑ ni
2
=
200.2'5 + 140.2 + 165.0'9 200.(11 − 13'99) 2 + 140.(14'6 − 13'99) 2 + 165.(17'1 − 13'99) 2
+
=
505
505
928'5 3436'0105
'
=
+
= 1839
+ 6'804 = 8'643
505
505
=
34 - Estadística descriptiva (F. Álvarez)
22
De las 10 observaciones de dos variables X , Y, conocemos :
ΣX = 114 ; ΣX2 = 1410 ; ΣY = 34 ; ΣY2 = 154 ; ΣXY = 398 .
Determine la media y varianza de la variable V = X - Y.
Calculemos la media y varianza de X, la media y varianza de Y, así como la covarianza.
X=
114
= 114
'
10
Y=
34
= 3'4
10
SXY =
S2X =
1410
− 114
' 2 = 1104
'
10
S2Y =
154
− 3'4 2 = 384
'
10
∑ Xi . Yi − X. Y = 398 − 114' .3'4 = 104
'
N
10
Con ello :
V = X − Y = 114
' − 3'4 = 8
S 2V = S 2X + S Y2 − 2.S XY = 1104
' + 384
' − 2.104
' = 12'8
Estadística descriptiva (F. Álvarez) - 35
23
El estudio de las faltas de asistencia a clase de alumnos de un grupo de 3º de Secundaria produjo los
resultados siguientes :
Faltas
Alumno
s
1
4
2
3
3
3
4
2
5
3
6
2
7
1
8
2
Determine la mediala y estudie analítica y gráficamente el grado de concentración de la distribución.
Los cálculos de la mediala, índice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar:
xi
ni
Ni = Σ ni.
Pi = (Ni.. /N).100
ti = ni. xi
1
4
4
20
4
4
5'195
14'805
2
3
7
35
6
10
12'987
22'013
3
3
10
50
9
19
24'675
25'325
4
2
12
60
8
27
35'065
24'935
5
3
15
75
15
42
54'545
20'455
6
2
17
85
12
54
70'130
14'870
7
1
18
90
7
61
79'221
10'779
8
2
20
100
16
77
100
0
TP = 515
T = 77
N = 20
Uniendo el origen del rectángulo (0 , 0) con los sucesivos
puntos (Pi , Qi) obtenemos la curva de Lorenz de la
derecha.
Las sumas TD y TP permiten obtener el índice de Gini :
G=
TD
133182
'
=
= 0'3209
TP − 100 515 − 100
Concluimos la presencia de una cierta concentración (lo
cuál también se advierte con la gráfica).
Mediala = 5
ya que el primer valor que iguala o supera a 50 en la
columna Qi es 54'545, el cuál corresponde a x = 5.
36 - Estadística descriptiva (F. Álvarez)
T i = Σ ti .
Qi = (Ti.. /T).100
Pi - Qi
TD =133'182
24
Un análisis del pago de impuesto en el sector de hostelería ofreció los resultados siguientes (importes
mensuales por 10.000 pesetas) :
Importe
Empresas
[0,2)
2
[2,4)
6
[4,6)
26
[6,8)
40
[8,10)
21
[10,12]
5
Determine la mediala y estudie analítica y gráficamente el grado de concentración de la distribución.
Los cálculos de la mediala, índice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar:
[0,2)
[2,4)
[4,6)
[6,8)
[8,10)
[10,12]
xi
ni
1
3
5
7
9
11
2
6
26
40
21
5
Ni = Σ ni.
2
8
34
74
95
100
Pi = (Ni.. /N).100
ti = ni. xi
2
8
34
74
95
100
2
18
130
280
189
55
TP = 313
T = 674
N =100
T i = Σ ti .
2
20
150
430
619
674
Qi = (Ti.. /T).100
Pi - Qi
0'297
2'967
22'255
63'798
91'840
100
1'703
5'033
11'745
10'202
3'160
0
TD =31'843
Con TD y TP obtenemos el índice de Gini :
G=
TD
31843
'
=
= 01495
'
TP − 100 313 − 100
Concluimos que existe una concentración muy baja (lo cuál manifestará también la gráfica de Lorenz).
Uniendo el origen del rectángulo (0 , 0) con los sucesivos puntos
(Pi , Qi) obtenemos la curva de Lorenz de la derecha.
Mediala en el intervalo [6 , 8)
ya que el primer valor que iguala o supera a 50 en la columna Qi
es 63'798, el cuál corresponde al intervalo indicado.
De aquí :
Ml = e i +
50 − Q i−1
50 − 22'255
.a i = 6 +
.2 = 7'3357
Q i − Q i−1
63'798 − 22'255
Estadística descriptiva (F. Álvarez) - 37
25
x
f
0
1
2
3
4
2
8
10
3
1
Haciendo uso del cálculo de momentos ordinarios de órdenes 1º al 4º, determine
el valor de
la media, varianza, asimetría y curtosis de la distribución de la izquierda.
Tabla de cálculo de momentos ordinarios :
a1
Orden
1
2
3
4
a2
a3
2
a4
3
n.x4
0
8
160
243
256
667
x
n
n.x
n.x
n.x
0
1
2
3
4
Totales :
2
8
10
3
1
24
0
8
20
9
4
41
0
8
40
27
16
91
0
8
80
81
64
233
k
n k ∑ n.x
.x =
N
N
41
= 17083
'
a1 =
24
91
a2 =
= 3'7917
24
233
a3 =
= 9'7083
24
667
a4 =
= 27'7917
24
ak = ∑
mk
m1 = 0
2
m2 = a 2 − a12 = 3'7917 − 17083
'
= 0'8734
m3 = a 3 − 3. a 2 . a1 + 2. a13 = ... = 0'2468
m4 = a 4 − 4. a 3 . a1 + 6. a 2 . a12 − 3. a14 = ... = 2'2954
Con los momentos calculados :
Media
Varianza
Coeficiente de asimetría
Coeficiente de curtosis
38 - Estadística descriptiva (F. Álvarez)
µ = x = a1 = 17083
'
2
2
σ = sx = m2 = 0'8734
m3
0'2468
As =
3 =
3 = 0'3024
0'8734
m2
2'2954
m
− 3 = 0'0091
K = 42 − 3 =
m2
0'87342
(
) (
)
26
Haciendo uso del coeficiente de variación, compare la dispersión o variabilidad relativa de las dos
variables descritas en cada uno de los apartados siguientes :
a) El peso medio de los toros de una ganadería es de 410 kg. con desviación típica de 1 kg. y, el peso
medio de los perros de una granja es de 8 kg. con igual desviación típica.
b) Dos fábricas producen tornillos con igual longitud media (50 mm.), siendo la desviación típica de la
primera de 2 mm. y de 12 mm. la de la segunda.
a)
CVT =
1
.100 = 0'2439%
410
1
CVP = .100 = 12'5%
8
⇒
El
peso
de
los
perros
tiene
mayor
variabilidad
b)
CVA =
2
.100 = 4%
50
CVB =
12
.100 = 24%
50
⇒
Los de la 2ª tienen mayor variabilidad
Estadística descriptiva (F. Álvarez) - 39
27
X
0-6
7-13
14-20
21-27
28-34
nA
4
6
9
12
9
nB
4
7
9
8
2
La tabla muestra la comprensión lectora (X) de dos grupos de sujetos
educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la
puntuación X=19 se considera una comprensión lectora buena, calcular :
a) El porcentaje de personas en cada grupo con una buena comprensión
lectora.
b) ¿ Cuál de los dos grupos presenta mayor variabilidad ? (Razone
adecuadamente su respuesta).
Expresamos los intervalos con extremos reales, obteniendo la tabla de cálculos de percentiles, media y
varianza de ambos grupos.
[-0'5,6'5)
[6'5,13'5)
[13'5,20'5)
[20'5,27'5)
[27'5,34'5]
x
nA
NA
nA.x
nA.x2
nB
NB
nB.x
nB.x2
3
10
17
24
31
4
6
9
12
9
40
4
10
19
31
40
12
60
153
288
279
792
36
600
2601
6912
8649
18798
4
7
9
8
2
30
4
11
20
28
30
12
70
153
192
62
489
36
700
2601
4608
1922
9867
a)
Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen
menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta
será su diferencia hasta 100.
El valor 19 se encuentra en el intervalo [13'5,20'5) :
En el grupo A :
k.40
− 10
Pk = 19 = 135
' + 100
.7
9
→
k = 42'68
Luego el 57'32% (100 - 42'68) tienen buena comprensión lectora en el grupo A.
En el grupo B :
k.30
− 11
Pk = 19 = 135
' + 100
.7 →
9
k = 60'24
Luego el 39'76% (100 - 60'24) tienen buena comprensión lectora en el grupo B.
b)
Mayor variabilidad la presentará aquel grupo que posea mayor dispersión entre sus valores. Con
mayor rigor, si la media es representativa de las observaciones (no existen valores extremos
exageradamente distanciados de la mayoría), es el coeficiente de variación el más adecuado para
medir la variabilidad relativa entre dos series estadísticas (mayor coeficiente indica menor
homogeneidad; un menor valor indicará menor dispersión o variabilidad).
Si comparamos mediante las varianzas :
XA =
792
18798
489
9867
= 19'8 ; S A2 =
− 19'82 = 77'91 ; X B =
= 16'3 ; S 2B =
− 16'32 = 63'21
40
40
30
30
el grupo A presenta una mayor variabilidad.
Si comparamos mediante los coeficientes de variación :
CVA =
SA
77'91
.100 =
.100 = 44'58%
XA
19'8
CVB =
SB
63'21
.100 =
.100 = 48'78%
XB
16'3
luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra
de lo obtenido comparando varianzas.
40 - Estadística descriptiva (F. Álvarez)
28
X
0-6
7-13
14-20
21-27
28-34
nA
4
6
9
12
9
nB
4
7
9
8
2
La tabla muestra la comprensión lectora (X) de dos grupos de sujetos
educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la
puntuación X=19 se considera una comprensión lectora buena, calcular :
a) El porcentaje de personas en cada grupo con una buena comprensión
lectora.
b) ¿ Cuál de los dos grupos presenta mayor variabilidad ? (Razone
adecuadamente su respuesta).
Expresamos los intervalos con extremos reales, obteniendo la tabla de cálculos de percentiles, media y
varianza de ambos grupos.
[-0'5,6'5)
[6'5,13'5)
[13'5,20'5)
[20'5,27'5)
[27'5,34'5]
x
nA
NA
nA.x
nA.x2
nB
NB
nB.x
nB.x2
3
10
17
24
31
4
6
9
12
9
40
4
10
19
31
40
12
60
153
288
279
792
36
600
2601
6912
8649
18798
4
7
9
8
2
30
4
11
20
28
30
12
70
153
192
62
489
36
700
2601
4608
1922
9867
a)
Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen
menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta
será su diferencia hasta 100.
El valor 19 se encuentra en el intervalo [13'5,20'5) :
En el grupo A :
k.40
− 10
Pk = 19 = 135
' + 100
.7
9
→
k = 42'68
Luego el 57'32% (100 - 42'68) tienen buena comprensión lectora en el grupo A.
En el grupo B :
k.30
− 11
Pk = 19 = 135
' + 100
.7
9
→
k = 60'24
Luego el 39'76% (100 - 60'24) tienen buena comprensión lectora en el grupo B.
b)
Mayor variabilidad la presentará aquel grupo que posea mayor dispersión entre sus valores. Con
mayor rigor, si la media es representativa de las observaciones (no existen valores extremos
exageradamente distanciados de la mayoría), es el coeficiente de variación el más adecuado para
medir la variabilidad relativa entre dos series estadísticas (mayor coeficiente indica menor
homogeneidad; un menor valor indicará menor dispersión o variabilidad).
Si comparamos mediante las varianzas :
XA =
792
18798
489
9867
= 19'8 ; S A2 =
− 19'82 = 77'91 ; X B =
= 16'3 ; S 2B =
− 16'32 = 63'21
40
40
30
30
el grupo A presenta una mayor variabilidad.
Si comparamos mediante los coeficientes de variación :
CVA =
SA
77'91
.100 =
.100 = 44'58%
XA
19'8
CVB =
SB
63'21
.100 =
.100 = 48'78%
XB
16'3
luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra
de lo obtenido comparando varianzas.
Estadística descriptiva (F. Álvarez) - 41
EJERCICIOS PROPUESTOS
1
Las edades de los alumnos que asisten a clase de repaso en una academia son las siguientes.
14
19
16
16
18
a)
b)
c)
d)
16
15
15
16
18
16
15
16
15
16
19
16
18
16
18
17
17
14
17
17
17
14
15
15
17
15
15
14
17
17
17
16
17
14
17
17
17
13
16
15
15
16
18
16
16
Construir la tabla completa de frecuencias.
Calcular la moda.
Determinar su media aritmética, varianza y desviación típica.
Obtener el valor de la mediana, del percentil 29 y de la amplitud semi-intercuartílica.
2
La tabla siguiente contiene los pesos en kg. de los alumnos de un curso.
40
51'5
44
50
43
57
40
45
58
43
45
43'5
48
44
50
45'5
47
56
50'5
53
41'5
44
49'5
59
40'5
50
41
39
43
50'5
55
40
47
46
58
38
52
42
51
39'5
a) Agrupar los valores en intervalos de 5 kg. de amplitud, comenzando por 35 kg., realizando un recuento de
los mismos y confeccionando la tabla completa de frecuencias
b) Calcular la moda de dicha distribución de pesos.
c) Determinar su media aritmética, varianza y desviación típica.
d) Obtener el valor de la mediana, y del 8º decil.
3
Sea la siguiente distribución de frecuencias:
x
1
2
3
4
n
10
15
12
8
a) Calcular la media de esta distribución.
b) Si se suma a los valores de xi la cantidad A, ¿qué relación guarda la media de la nueva distribución con la
de la anterior ?. Generalizar este resultado y demostrar que si en una distribución de frecuencias de media
m, se sustituyen los valores xi por xi + A, manteniendo las frecuencias, la media m' de la nueva distribución
verifica :
m'= A + m
c) Utilizando la igualdad obtenida, ¿cómo podría calcularse más fácilmente la media de la distribución
siguiente ?
x
2752
2754
2756
2758
n
36
54
24
18
4
Una serie familias se han clasificado por su número de hijos, resultando :
Nº de hijos
Nº de familias
0
11
1
13
2
20
3
25
Se pide:
a)
Calcular la tabla completa de frecuencias.
b)
Representaciones gráficas.
c)
Calcular la media, mediana y moda.
d)
Hallar el recorrido, varianza y desviación típica.
42 - Estadística descriptiva (F. Álvarez)
4
14
5
10
6
4
7
2
8
1
5
Ordenar las cuatro distribuciones siguientes de mayor a menor dispersión.
6
Los precios de una chaqueta en once establecimientos fueron (en pts.):
5000
5200
5300
5600
6000
6400
6500
7200
Calcular la desviación media respecto de la mediana y respecto de la media.
7300
8400
9000
7
Si en una distribución de frecuencias duplicamos las amplitudes de los intervalos, ¿ qué sucederá,
aproximadamente, con los valores de las frecuencias ?.
8
Represente el histograma correspondiente a la siguiente distribución de edades de los trabajadores de una
fábrica.
Edades
de 20 a menos de 25
de 25 a menos de 35
de 35 a menos de 45
de 45 hasta 65
Nº de trab.
15
20
48
24
9
Ponga un ejemplo sencillo de una distribución de frecuencias simétrica. Calcule su moda, media y mediana,
verificando que los tres parámetros coinciden.
10
A la izquierda se muestra el gráfico representativo de las
frecuencias absolutas acumuladas de la distribución de
edades de 40 individuos.
a)
Obtenga su media, mediana y moda.
b)
¿ Cuántos tienen edades inferiores a cinco años y
medio ?
Estadística descriptiva (F. Álvarez) - 43
11
Una variable X tiene como media 21 y varianza 9. Si se obtiene una nueva variable Y multiplicando los
elementos de X por 4 y restándoles 8 unidades, ¿ cuál es el valor del coeficiente de variación de Y ?.
12
Una variable X toma los valores :
2
5
5
6
7
Realizada una transformación lineal con ella, se generó una nueva variable de la que conocemos que su media
era 15 y que la puntuación X=2 se transformó en Y=13.
Calcule las cuatro puntuaciones Y desconocidas.
13
X
0
1
2
3
4
5
n
3
9
13
25
16
14
Estudie la simetría y el apuntamiento (curtosis) de la distribución de la izquierda.
NOTA :
Obtenga los distintos coeficientes conocidos. Compare los resultados.
14
Nota
9 - 10
7-8
5-6
3-4
1-2
Alumnos
2
0
4
14
12
La tabla de la izquierda nos muestra la distribución de calificaciones de los 32
alumnos de un curso.
a) Determine su media, mediana y moda.
b) ¿ Qué porcentaje de observaciones tienen nota inferior a 1’62 ?.
c) ¿ Entre qué valores se encuentra el 70% de las notas centrales ?
d) Obtenga el coeficiente de variación y la amplitud semi-intercuartílica.
15
Nota
[0 , 1)
[1 , 2)
[2 , 3)
[3 , 4)
[4 , 5)
[5 , 6)
[6 , 7)
[7 , 8]
n
N
1
1
5
De la distribución de notas de 20 alumnos, calcular :
a)
Frecuencias absolutas simples (f) y acumuladas (F) que faltan en la tabla.
b)
Coeficiente de variación.
c)
Porcentaje de alumnos con notas inferiores a 2'6.
d)
¿ Entre qué notas se encuentra el 10% de las calificaciones centrales ?.
e)
Momentos ordinarios y centrales hasta el 4º orden.
f)
Coeficientes de asimetría y curtosis, utilizando los momentos calculados en e).
3
11
6
19
16
Con el fin de estudiar la distribución de fallos en una pieza de tela, se realizó un recuento de los contenidos en
cada metro. Los resultados fueron los siguientes :
Fallos
Nº de metros
0
25
1
8
2
4
3
1
4
1
5
1
6
2
7
1
8
3
9
4
a) Estudie el grado de concentración de la distribución de fallos a lo largo de la pieza de tela.
b) Calcule su media y su mediala.
17
La tabla siguiente muestra los fallos cometidos por alumnos en la realización de un test de 120 items.
Errores
Alumnos
[0 , 10)
25
[10 , 20)
20
[20 , 30)
22
[30 , 40)
16
[40 , 50)
29
[50 , 60)
24
[60 , 70)
38
[70 , 80)
26
a) Estudie el grado de concentración de la distribución de preguntas con respuesta errónea.
b) Calcule su mediala.
44 - Estadística descriptiva (F. Álvarez)
SOLUCIONES DE LOS EJERCICIOS PROPUESTOS
1
a)
b)
c)
d)
x
13
14
15
16
17
18
19
n
r
0'02
0'10
0'20
0'28
0'26
0'10
0'04
1
5
10
14
13
5
2
p
N
2
10
20
28
26
10
4
R
0'02
0'12
0'32
0'60
0'86
0'96
1'00
1
6
16
30
43
48
50
P
2
12
32
60
86
96
100
Mo = 16
x = 16'12 ; s2 = 1'7856 ; s = 1'3363
Me = 16 ; P29 = 15 ; Q = 1
2
a)
Intervalo
[35,40)
[40,45)
[45,50)
[50,55)
[55,60]
n
r
0'075
0'350
0'200
0'225
0'150
3
14
8
9
6
p
N
7'5
35'0
20'0
22'5
15'0
3
17
25
34
40
b)
c)
d)
Mo = 43'636
x = 47'625 ; s2 = 36'859 ; s = 6'071
Me = 46'875 ; D8 = 53'889
a)
b)
x = 2'4
2'4 + A
c)
Realizando el cambio : y =
a)
x
0
1
2
3
4
5
6
7
8
R
0'075
0'425
0'625
0'850
1'000
P
7'5
42'5
62'5
85'0
100'0
3
x − 2754
2
4
n
r
0'11
0'13
0'20
0'25
0'14
0'10
0'04
0'02
0'01
11
13
20
25
14
10
4
2
1
p
N
11
13
20
25
14
10
4
2
1
11
24
44
69
83
93
97
99
100
R
0'11
0'24
0'44
0'69
0'83
0'93
0'97
0'99
1'00
P
11
24
44
69
83
93
97
99
100
b)
25
4
14%
20
5
10%
6
7
4% 8
2%
1%
0
11%
15
10
3
25%
5
0
0
c)
d)
1
13%
1
2
3
4
5
6
7
8
2
20%
x = 2'8 ; Me = 3 ; Mo = 3
R = 8 ; s2 = 3'14 ; s = 1'772
Estadística descriptiva (F. Álvarez) - 45
5
A , D , C , B.
6
D Me = D x = 870
7
Se dividen por dos.
8
Las alturas deben ser proporcionales al área. Dividimos las frecuencias según sea la amplitud del intervalo.
Alturas : 15
10 (20/2)
24 (48/2)
6 (24/4)
9
x
0
1
2
3
4
n
2
8
20
8
2
40
x
= Me = Mo = 2
10
x = 4'7 ; Me = 5 ; Mo = 6
a)
b)
20
11
CV = 15'789
12
15 , 15 , 15'667 , 16'333
13
∑ n .(x
i
As =
As1 =
simétrica).
As2 =
− x)
3
i
N
= - 0'299561
σ3
x − Mo
σ
= 0'036786
3.( x − Md )
σ
= - 0'110357
ligeramente asimétrica a la izquierda
ligeramente asimétrica a la derecha (prácticamente
ligeramente asimétrica a la izquierda
Los coeficientes basados en la moda y la mediana hacen uso de una relación teórica entre los
parámetros de centralización. Generalmente no conducen a la misma conclusión, salvo distribuciones
claramente asimétricas.
46 - Estadística descriptiva (F. Álvarez)
∑ n .(x
i
K=
− x)
4
i
N
σ4
− 3 = - 0'620240
ligeramente aplastada (mesocúrtica)
14
a)
c)
3’375 ; 3’0714 ; 3
1’3 y 5’1
b)
d)
a)
n = 1, 0, 4, 3, 3, 6, 2, 1
N = 1, 1, 5, 8, 11, 17, 19, 20
38'6364
17
4'333 y 5
a1 = 4'4 ; a2 = 22'25 ; a3 = 121'7 ; a4 = 703'0625
m1 = 0 ; m2 = 0 ; 2'89 ; m3 = -1'6320 ; m4 = 21'2737
A = -0'3322 ; K = -0'4529 ⊗
21%
60'9707% ; 1’1905
15
b)
c)
d)
e)
f)
16
Índice de Gini = 0'6567
Media = 2'14 ; Mediala = 8
17
Índice de Gini = 0'394
Mediala = 60'5263
⊗ Puede que sus resultados no coincidan exactamente con los ofrecidos. Todo depende del número de cifras decimales
que emplee en sus cálculos.
Estadística descriptiva (F. Álvarez) - 47
REGRESIÓN Y CORRELACIÓN
Métodos Estadísticos Aplicados a las Auditorías Sociolaborales
Francisco Álvarez González
[email protected]
DISTRIBUCIONES BIVARIANTES
El estudio de la relación existente entre dos variables X e Y conduce a la consideración simultánea de ambas variables
estadísticas. Tal distribución de las dos variables se denomina bivariante.
La presentación de los datos experimentalmente observados puede hacerse :
a) Mediante los pares (Xi , Yi) :
(X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ...
c) Tabla de frecuencias de doble entrada :
b) Tabla simple de frecuencias :
X
X1
X2
Y
Y1
Y2
n
n1
n2
....
....
....
Xn
Yn
nn
Y2
n12
n22
....
....
....
n21
....
....
n2m
....
Xn
nn1
nn2
....
nnm
X1
X2
X
Y
....
Y1
n11
....
Ym
n1m
Distribuciones marginales :
Son las obtenidas de la distribución bivariante, al considerar de forma independiente cada una de las dos
variables.
De ellas obtendremos los parámetros de centralización y dispersión característicos : media y desviación típica.
X , s 2X
, Y , s 2Y
, sX
, sY
Covarianza :
Este índice de variación conjunta de X e Y se define como :
s XY =
s XY =
∑ n .(X
i
i
− X )(
. Yi − Y )
i
=
∑ n . X .Y
N
∑∑ nij .(X i − X ).(Y j − Y )
i
j
N
i
i
i
i
N
− X .Y
∑∑ n .X .Y
ij
=
i
j
N
i
para tablas simples de frecuencias
j
− X .Y
para tablas de frecuencias de doble
entrada.
Si sXY = 0 expresará que las variables X e Y son independientes.
RECTAS DE REGRESIÓN
Representando los pares de observaciones (X,Y) como
puntos en un plano cartesiano, obtenemos el denominado
diagrama de dispersión o nube de puntos.
Por recta de regresión o de ajuste entendemos la recta que
más se aproxima a los puntos representativos de las
observaciones (X,Y).
El método de los mínimos cuadrados proporciona un sistema
de obtención de tales rectas, estableciendo que sea mínima
la suma de los cuadrados de las separaciones existentes
entre cada punto y la recta.
Según se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen,
respectivamente, las rectas de regresión de Y sobre X y de X sobre Y.
Regresión y correlación (F. Álvarez) - 1
RECTA DE REGRESIÓN DE Y SOBRE X
Y' = a + b.X
a = ordenada en el origen
b = coeficiente de regresión de Y sobre X = pendiente de la recta de regresión = tangente del
ángulo que forma con el eje horizontal.
Y' = predicciones de Y para el valor X observado.
Los coeficientes a y b de la recta de regresión de Y sobre X se obtienen resolviendo el sistema :
a.∑ f . X
+ b.∑ n. X
s XY
s 2X
b=
el cuál tiene como solución :
b.∑ n. X
+
a.N
∑ n.Y ⎫⎬
∑ n.X .Y ⎭
=
=
2
a = Y − b. X
RECTA DE REGRESIÓN DE X SOBRE Y
X' = a' + b'.Y
a' = ordenada en el origen
b' = coeficiente de regresión de X sobre Y = pendiente de la recta de regresión.
X' = predicciones de X para el valor Y observado.
Los coeficientes a' y b' de la recta de regresión de X sobre Y se obtienen igualmente al resolver :
+ b'.∑ n.Y
+ b'.∑ n.Y 2
a'.N
a '.∑ f .Y
b' =
o directamente :
s XY
s Y2
∑ n. X ⎫⎬
∑ n.X .Y ⎭
=
=
a ' = X − b'. Y
Otro procedimiento de cálculo simplificado permite obtener los coeficientes de regresión del siguiente modo :
b=
N .∑ X .Y − (∑ X )(
. ∑Y )
b' =
N .∑ X 2 − (∑ X )
2
N .∑ X .Y − (∑ X )(
. ∑Y )
N .∑ Y 2 − (∑ Y )
2
Si utilizamos puntuaciones diferenciales : x = X − X
y = Y− Y ,
las rectas de regresión pierden el término independiente (ordenadas en el origen a y a' ) al ser las medias nulas, siendo
su expresión :
y' = b.x
x' = b'.y
COEFICIENTE DE CORRELACIÓN DE PEARSON
La recta de regresión es la que pasa más cerca de las observaciones, pero no nos indica si pasa muy cerca o no de
ellas.
Hemos de definir una medida del grado de asociación o relación entre ambas variables, lo cuál, en términos de recta de
ajuste, indicará la bondad de la misma.
Tal coeficiente se denomina coeficiente de correlación, definido por Pearson del siguiente modo :
n
r = b . b' =
s XY
sX . sY
ya que : r =
b . b' =
s XY s XY
.
=
s X2 s Y2
2
s XY
s
= XY
2
2
sX . sY
sX . sY
Según las expresiones finales obtenidas para b y b', podemos también calcularlo como :
r=
La expresión
. ∑Y )
N .∑ X .Y − (∑ X )(
[N .∑ X
2
][
− (∑ X ) . N .∑ Y 2 − (∑ Y )
2
2
]
n conduce a las siguientes relaciones (sin más que multiplicar y dividir por sX o por sY ) :
r = b.
sX
sY
r = b'.
sY
sX
De aquí resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones típicas son iguales a 1) :
r = b = b' y las rectas de regresión son : z'Y = r.z'X ; z'X = r.z'Y
El coeficiente de correlación toma siempre valores comprendidos entre -1 y 1 : -1 ≤ r ≤ 1
2 - Regresión y correlación (F. Álvarez)
Interpretación :
r
próximo a 0
próximo a 1
próximo a -1
Asociación de las variables
Variables independientes o no relacionadas
linealmente
Variables relacionadas directamente (cuando una
aumenta la otra también)
Variables relacionadas inversamente (cuando una
aumenta la otra disminuye)
Bondad del ajuste
Mala recta de ajuste. No pasa cerca de las
observaciones.
Buena recta de ajuste. Creciente (pendientes b
y b' positivas)
Buena recta de ajuste. Decreciente (pendientes
b y b' negativas)
CURVA DE REGRESIÓN DE LA MEDIA
Este método es aplicable cuando una de las dos variables (o las dos) contiene un bajo
número de valores distintos.
Curva de regresión de la media de Y condicionada a X :
El procedimiento consiste en sustituir todos los pares de observaciones que tienen el
mismo valor de X por un único par que tiene por componentes dicho valor de X y la
media de los valores de Y.
De igual modo puede establecerse la curva de regresión de la media de X condicionada a
Y.
Así, por ejemplo, la figura muestra los pares siguientes:
X=1 : (1,1) , (1,3)
sustituidos por el par (1,2) , al ser 2 la media de 1 y 3.
X=2 : (2,1) , (2,4) , (2,5) sustituidos por el par (2,3'33) , al ser 3'33 la media de 1, 4 y 5.
... etc ...
Con los pares (1,2) , (2,3'33), ... obtenemos la recta de regresión por el procedimiento ya
descrito.
Razón de correlación :
η 2 = 1−
ni .s y2
1
.∑ 2 i
N
sY
Toma valores comprendidos entre 0 y 1 y siempre verifica que η2 ≥ r2 (r=coef. de
correlación lineal). La relación entre las variables X , Y será de tipo lineal, cuanto más
2
2
próximo sea η a r .
OTROS PROCEDIMIENTOS DE CÁLCULO DEL COEFICIENTE DE CORRELACIÓN r
Coeficiente de correlación ϕ (phi) :
El siguiente procedimiento se puede utilizar cuando las dos variables X e Y son dicotómicas.
Y
X
1
a
c
1
0
Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento
representado en la tabla de la izquierda.
El coeficiente de correlación ϕ toma el valor :
0
b
d
ϕ=
ad − bc
(a + b )(. c + d )(. a + c )(. b + d )
Coeficiente de correlación biserial puntual rbp :
El siguiente procedimiento se puede utilizar cuando una variable es continua y la otra dicotómica. Supuesta X
continua :
rbp =
X1 − X0
. p. q
sX
Siendo :
X1
X0
sX
p
q=1-p
la media de los valores de X que se corresponden con un 1 en Y.
la media de los valores de X que se corresponden con un 0 en Y.
la desviación típica de X (considerados sus valores globalmente).
la proporción de unos en Y.
la proporción de ceros en Y.
Coeficiente de correlación por rangos de Spearman ρ :
El siguiente procedimiento se puede utilizar cuando las dos variables son ordinales (reordenaciones de una serie de
elementos).
ρ = 1−
6.∑ d 2
(
)
N. N 2 − 1
Siendo d las diferencias entre los valores de X e Y.
Regresión y correlación (F. Álvarez) - 3
Los coeficientes de correlación anteriores no son más que una adaptación del coeficiente de correlación de Pearson
para tipos especiales de variables. En consecuencia, su valor coincide con el que habríamos obtenido siguiendo el
procedimiento de Pearson (r); por ello, su interpretación es la establecida para r .
OTROS COEFICIENTES DE CORRELACIÓN NO BASADOS EN EL PEARSON
Coeficiente de correlación tetracórica:
Puede utilizarse cuando ambas variables son continuas , pero ambas pueden dicotomizarse artificialmente.
Y
X
1
0
1
a
c
Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento que se
representa en la tabla de la izquierda.
0
b
d
A) Método abreviado (aproximado) :
1º Calculamos los productos : a.d y b.c.
2º Si a.d > b.c , calculamos el cociente :
C = a.d / b.c (el coeficiente de correlación será
positivo)
3º Si a.d < b.c , calculamos el cociente :
C = b.c / a.d (el coeficiente de correlación será
negativo)
4º Consultando la tabla de cálculo del coeficiente de correlación tetracórico, localizamos el cociente C en el
intervalo que lo contiene (con extremos A y B). A su derecha encontramos el coeficiente de correlación
tetracórico (rt), como un valor numérico (n) más R. De aquí :
rt = n + R
con : R =
C−A
100 . ( B − A )
B) Método exacto :
El coeficiente de correlación tetracórico rt será el resultado de resolver la siguiente ecuación :
rt + z. z'.
rt 2
r3
r4
a. d − b. c
+ ( z 2 − 1) . ( z' 2 −1) . t + ( z 3 − 3z) . ( z' 3 −3z') . t + ... = 2
2!
3!
4!
n . f ( z). f ( z' )
Como es lógico, la mayor exactitud en el cálculo rt , se obtiene al considerar un mayor número de sumandos
del desarrollo en serie anterior. Esta dificultad aconseja seguir el método abreviado descrito anteriormente.
En la ecuación que permite calcular rt :
• z
valor de la curva normal tipificada N(0,1), que deja a su derecha un área m, igual a la menor de las
cantidades (a+c)/n o (b+d)/n.
• z'
valor de la curva normal tipificada N(0,1), que deja a su derecha un área m, igual a la menor de las
cantidades (a+b)/n o (c+d)/n.
• f(z) y f(z')
ordenadas de la curva normal, correspondientes a los valores z y z' anteriores. Tabuladas
para cada m.
Coeficiente de correlación biserial rb :
Puede utilizarse cuando ambas variables son continuas , pero una de ellas puede dicotomizarse artificialmente.
Supuesta X continua y Y dicotomizada (valores 1 y 0) , el coeficiente de correlación biserial se calcula del modo
siguiente :
X − X0 p. q
rb = 1
.
sX
f ( z)
La ordenada f(z) :
Siendo :
X1
X0
sX
la media de los valores de X que se corresponden con un 1 en Y.
la media de los valores de X que se corresponden con un 0 en Y.
la desviación típica de X (considerados sus valores globalmente).
p
la proporción de unos en Y.
q=1-p la proporción de ceros en Y.
z
el valor normal tipificado (N(0,1)) que deja a su derecha (o a su izquierda) el
área p.
f(z)
la ordenada correspondiente a z en la curva normal.
NOTA :
Los cálculos de z y f(z) no es preciso realizarlos ya que, para cada
valor de la probabilidad p (o q indistintamente), se encuentran
tabulados los valores de p.q/f(z).
4 - Regresión y correlación (F. Álvarez)
Coeficiente de correlación τ (tau) de Kendall :
Como el de rangos de Spearman, este coeficiente es aplicable cuando las dos variables son ordinales
(reordenaciones de una serie de elementos).
Procedimiento de cálculo :
a) Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden
ascendente.
b) Comparamos cada valor de Y con los Yi siguientes, contando una permanencia si Y < Yi y una inversión si Y > Yi.
τ=
Np − Ni
n.( n − 1)
2
Siendo :
• n el número de pares de valores (X , Y)
• Np el número total de "permanencias"
• Ni el número total de "inversiones"
Utilización e interpretación de los coeficientes estudiados en este epígrafe:
Los coeficientes tetracórico y biserial parten de variables continuas que pueden dicotomizarse (ambas o sólo
una).
Para su aplicación rigurosa es necesario que :
1. la distribución de la variable o variables consideradas continuas debe ser "normal".
2. la relación que suponemos existe entre ambas variables es de tipo "lineal".
Sus valores no tienen porqué coincidir con el del coeficiente de correlación de Pearson, si bien verifican las
mismas propiedades que éste. Es decir :
• Los coeficientes tetracórico y τ toman valores comprendidos entre -1 y 1 : -1 ≤ coeficiente ≤ 1.
• El coeficiente biserial puede ser mayor que 1 y menor que -1. En valor absoluto, será mayor que el biserial
puntual.
• Valores próximos a cero implican falta de relación entre las variables (independencia).
FUENTES DE VARIANZA EN LA CORRELACIÓN
Expresemos la desviación de Y respecto de su media como :
(Y − Y ')
(Y '−Y )
(Y − Y ) = (Y − Y ') + (Y '−Y )
es el error cometido en la predicción. Representa la porción de información no asociada a X.
representa, en consecuencia, la información asociada a X.
∑ (Y − Y ) = ∑ (Y − Y ') + ∑ (Y '−Y )
∑ (Y − Y ')
+
2
En términos de varianzas :
∑ (Y − Y )
2
2
2
∑ (Y '−Y )
2
=
Varianza total
Varianza no explicada por X
(varianza de los errores o residual)
2
Varianza explicada por X
Dividiendo los sumandos anteriores por la varianza de Y obtendremos la proporción de varianza de Y no explicada y
explicada por la variable X. La manipulación de esta operación conduce a las expresiones y definiciones siguientes :
∑ (Y − Y )
∑ (Y − Y )
2
2
∑ (Y − Y ') + ∑ (Y '−Y )
=1=
∑ (Y − Y ) ∑ (Y − Y )
∑ (Y '−Y )
2
2
2
2
∑ (Y − Y ')
=
∑ (Y − Y )
2
2
+ r2
2
Varianza de las predicciones Y' =
s =
2
Y'
N
Proporción de varianza de las predicciones Y' =
s 2Y'
= r2
s 2Y
Proporción de varianza explicada por X = r2 = Coeficiente de determinación ( R2 )
Proporción de varianza no explicada por X = 1 - r2
∑ (Y − Y ')
=
2
Varianza de los errores o residual =
s =s
2
e
2
Y .X
N
∑ (Y − Y ) . ∑ (Y − Y ')
=
N
∑ (Y − Y )
2
2
2
(
= sY2 . 1 − r 2
)
La raíz cuadrada de la varianza residual se denomina error típico de la predicción : s Y . X = s Y . 1 − r 2
IMPORTANTE : Observe los diferentes significados e interpretaciones de r2.
Regresión y correlación (F. Álvarez) - 5
FORMULARIO - RESUMEN DEL TEMA
∑f.x
x=
N
s 2x
f.x2
∑
=
− x2
∑f.y
y=
N
N
Recta de regresión de y
sobre x
(puntuaciones directas)
x' = a '+ b'. y
Predicciones : x ' = x
a '. N
+
sxy =
N
a. N
+ b. ∑ f . x
a. ∑ f . x + b. ∑ f . x 2
y' = a + b. x
Predicciones : y ' = y
Recta de regresión de x
sobre y
(puntuaciones directas)
f.y2
∑
=
− y2
s 2y
=
=
b'. ∑ f . y
=
2
=
a '. ∑ f . y + b'. ∑ f . y
∑ f . x. y − x. y
N
∑ f . y ⎫⎬
∑ f . x. y⎭
b=
sxy
s2x
a = y − b. x
∑ f . x ⎫⎬
∑ f . x. y⎭
b' =
sxy
s2y
a ' = x − b'. y
Coeficiente de correlación (de Pearson y equivalentes) :
Pearson
r = b. b' =
Phí
sxy
sx . sy
sy
s
r = b. x = b'.
sx
sy
ϕ=
Biserial puntual
ad − bc
( a + b).( c + d ).( a + c).( b + d )
rbp =
x1 − x0
. p. q
sx
Rangos de Spearman
6. ∑ d 2
ρ = 1−
N. ( N 2 − 1)
Coeficiente de correlación no basados en el de Pearson :
rt = n + R
Puntuaciones
directas
(x,y)
y' = a + b. x
Tetracórico
Biserial
(Tabulado)
X − X0 p. q
rb = 1
.
sX
f ( z)
C−A
con : R =
100 . ( B − A )
Puntuaciones diferenciales
(d x
= x − x , dy = y − y)
d x = 0 , d y = 0 , sdx = s x , sdy = s y , sdxdy = s xy
(a = 0 ; b se mantiene)
Tau de Kendall
τ=
Np − Ni
n.( n − 1)
2
Puntuaciones tipificadas
⎛
x−x
y− y⎞
, zy =
⎜zx =
⎟
sx
sy ⎠
⎝
zx = 0 , zy = 0
szx = 1 , szy = 1 , szxzy =
(a = 0 ; b = r)
r=
sxy
sx . sy
d y ' = b. d x
Relación fundamental :
Varianza de y =
= Varianza residual (de errores) + Varianza de las
predicciones.
Varianza de las predicciones :
z y ' = r. z x
s2y = se2 + s2y '
s2y'
Proporción de varianza explicada o asociada a la
regresión,
o proporción de varianza de las predicciones,
o coeficiente de determinación :
6 - Regresión y correlación (F. Álvarez)
( y '− y ) 2
∑
=
N
s2y '
s2y
= r2
sxy
sx . s y
=r
Varianza de los errores (o residual) :
se2
=
Error típico de la predicción (raíz de la varianza de los
errores):
Proporción de varianza no explicada o no asociada a la
regresión,
o proporción de varianza de los errores :
s2y.x
( y − y') 2 2
∑
=
= s .( 1 − r 2 )
N
y
s y.x = s y . 1 − r 2
se2
= 1− r2
s2y
Signo de b = signo de b’ = signo de r = signo de la
covarianza
r = 0 ⇔ absoluta independencia
r = 1 o r = -1 ⇔ absoluta dependencia (directa o
inversa)
-1 ≤ r ≤ 1
0 ≤ r2 ≤ 1
Regresión y correlación (F. Álvarez) - 7
EJERCICIOS RESUELTOS
1
La tabla siguiente contiene los resultados de las calificaciones en Matemáticas (X) y Lengua (Y) de un
grupo de 40 alumnos de Secundaria.
X
3
3
5
6
6
6
7
8
Y
4
5
5
6
7
8
7
8
n
3
5
12
4
5
3
6
2
a)
b)
c)
d)
e)
Obtenga la recta de regresión de Y sobre X.
Obtenga la recta de regresión de X sobre Y.
Calcule e interprete el coeficiente de correlación lineal.
Obtenga el error típico de la predicción.
¿ Qué proporción de varianza de Y no queda explicada por X ?.
Tabla de cálculos :
X
3
3
5
6
6
6
7
8
a)
Y
4
5
5
6
7
8
7
8
n
3
5
12
4
5
3
6
2
40
n.Y
12
25
60
24
35
24
42
16
238
n.X2
27
45
300
144
180
108
294
128
1226
Y=
238
= 5' 95
40
n.Y2
48
125
300
144
245
192
294
128
1476
n.X.Y
36
75
300
144
210
144
294
128
1331
Recta de regresión de Y sobre X.
X=
b=
n.X
9
15
60
24
30
18
42
16
214
N .∑ X .Y − (∑ X )(
. ∑Y )
N .∑ X − (∑ X )
2
2
=
214
= 5' 35
40
40.1331 − 214.238 2308
=
= 0'71
Recta de regresión de Y sobre X :
3244
40.1226 − 214 2
Y' = 2'1436 + 0'7115.X
a = Y − b . X = 5' 95 − 0' 7115 . 5' 35 = 2' 1436
b)
Recta de regresión de X sobre Y.
N .∑ X .Y − (∑ X )(
. ∑ Y ) 40.1331 − 214.238 2308
b' =
=
=
= 0'96
2
Recta de regresión de X sobre Y :
2396
40.1476 − 238 2
N .∑ Y 2 − (∑ Y )
X' = -0'3815 + 0'9633.Y
a ' = X − b ' . Y = 5' 35 − 0' 9633 . 5' 95 = − 0' 3815
c)
Coeficiente de correlación de Pearson.
Conocidos los coeficientes de regresión puede calcularse como :
r = b . b' = 0' 7115 . 0' 9633 = 0' 8279
Existe una elevada relación entre las calificaciones en Matemáticas y Lengua. Dicha relación es positiva
(directa); es decir, alumnos con altas calificaciones en Matemáticas se corresponden con altas calificaciones en
Lengua, y a la inversa.
Podemos afirmar que las rectas de regresión obtenidas son buenas rectas de ajuste. Es decir, expresan con
una elevada aproximación la relación matemática (lineal) existente entre las calificaciones en Matemáticas y
Lengua.
d)
Error típico de la predicción.
∑ f .Y
i
Calculada la varianza de Y :
s Y.X
8 - Regresión y correlación (F. Álvarez)
2
i
1476
− Y2 =
− 5' 95 2 = 1' 4975
N
40
= s Y . 1 − r 2 = 1' 4975 . 1 − 0' 8279 2 = 0' 6864
s =
2
Y
i
e)
Proporción de varianza no explicada por X.
La proporciona : 1 - r2 = 1 - 0'82792 = 0'3146. Es decir el 31'46%.
2
De la distribución bivariante siguiente :
X
a)
b)
c)
d)
e)
Y
1
1
9
0
0
0
0
8
2
4
6
2
5
0
0
Obtenga la recta de regresión de Y sobre X.
Obtenga la recta de regresión de X sobre Y.
Calcule e interprete el coeficiente de correlación lineal.
Calcule su varianza residual.
Calcule e interprete el coeficiente de determinación.
Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas :
X
X
2
4
6
n
6
9
8
23
Y
1
1
9
0
10
0
0
0
8
8
2
4
6
Σ
n.X2
24
144
288
456
n.X
12
36
48
96
2
5
0
0
5
Y
0
1
2
Σ
6
9
8
23
n
8
10
5
23
n.Y
0
10
10
20
n.Y2
0
10
20
30
La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada :
∑ X .Y = ∑∑ n .X .Y
ij
i
i
j
=
0.2.0 + 1.2.1 + 5.2.2 + 0.4.0 + 9.4.1 + 0.4.2 + 8.6.0 + 0.6.1 + 0.6.2 = 58
j
Como puede observarse, sólo realizamos los productos correspondientes a frecuencias y valores de variables no nulos.
X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58
∑
Utilicemos las medias y varianzas de X e Y, así como la covarianza, en los cálculos solicitados.
X=
96
= 4' 1739
23
20
= 0' 8696
23
Y=
∑∑ n . X .Y
ij
Covarianza =
a)
s XY =
s 2X =
i
j
N
i
j
− X .Y =
456
− 4' 1739 2 = 2' 4045
23
s Y2 =
30
− 0' 8696 2 = 0' 5482
23
∑ X .Y − X .Y = 58 − 4'1739.0'8696 = −1'1078
N
23
Recta de regresión de Y sobre X :
b=
s XY −1' 1078
=
= − 0' 4607
2' 4045
s 2X
a = Y − b . X = 0' 8696 − ( − 0' 4607 ). 4' 1739 = 2' 7925
Y' = 2'7925 - 0'4607 . X
b)
Recta de regresión de X sobre Y :
b' =
s XY −1' 1078
=
= − 2' 0207
0' 5482
s 2Y
a ' = X − b'. Y = 4' 1739 − ( − 2' 0207 ). 0' 8696 = 5' 9310
X' = 5'9310 - 2'0207 . Y
c)
Coeficiente de correlación :
Utilizando la expresión r = b.b' = (− 0'4607 )(
. − 2'0207 ) = ±0'9648
podemos tener duda en cuanto
al signo del coeficiente de correlación. Este signo es el de b y b', ya que es el que proporciona la covarianza.
Calculado como r =
s XY
=
sX . sY
−1' 1078
= − 0' 9648 no se planteará tal dificultad.
2' 4045 . 0' 5486
Regresión y correlación (F. Álvarez) - 9
d)
Varianza residual :
2
se2 = sY2. X = sY2 . 1 − r 2 = 0'5482. 1 − (− 0'9648) = 0'0379
e)
Coeficiente de determinación :
(
(
)
)
Es el cuadrado del coeficiente de correlación, representando la proporción de varianza explicada por la variable
X (en el ajuste de Y sobre X).
R 2 = r 2 = (− 0'9648) = 0'9309
2
La variable X explica el 93'09% de la varianza de Y. Sólo el 6'91% no es atribuible a X.
3
De la siguiente distribución bivariante :
X
a)
b)
c)
d)
e)
[0,1)
1
3
1
2
3
4
Y
[1,2)
2
6
2
[2,3]
1
3
1
Calcule e interprete el valor de la covarianza.
Obtenga la recta de regresión de Y sobre X.
Obtenga la recta de regresión de X sobre Y.
Calcule el coeficiente de correlación lineal y el de determinación.
De la varianza total de Y , determine la proporción atribuible a la variable X.
Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y :
X
X
2
3
4
n
4
12
4
20
∑ X .Y = ∑∑ n .X .Y
ij
i
a)
i
2
3
4
n.X2
16
108
64
188
n.X
8
36
16
60
j
=
Y
1'5
2
6
2
10
0'5
1
3
1
5
2'5
1
3
1
5
Y
0'5
1'5
2'5
4
12
4
20
n
5
10
5
20
n.Y
2'5
15
12'5
30
n.Y2
1'25
22'5
31'25
55
1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90
j
Covarianza :
X=
∑∑ n . X .Y
ij
Covarianza =
s XY =
i
j
N
i
60
=3
20
j
− X .Y =
Y=
30
= 1' 5
20
∑ X .Y − X .Y = 90 − 3.1'5 = 4'5 − 4'5 = 0
N
20
Interpretación :
Las variables son independientes.
Siendo nula la covarianza, también los serán los coeficientes de regresión, el coeficiente de correlación
y el de determinación, dado que en sus cálculos interviene la covarianza en el numerador.
Al ser nulos los coeficientes de regresión, a coincidirá con la media de Y y a' con la de X.
b)
Recta de regresión de Y sobre X :
b=
c)
s XY
0
= 2 =0
2
sX
sX
a = Y − b . X = 1' 5 − 0 . 3 = 1' 5
⇒
Y' = 1'5
⇒
X' = 3
Recta de regresión de X sobre Y :
b' =
s XY
0
= 2 =0
2
sY
sY
a ' = X − b' . Y = 3 − 0 . 1' 5 = 3
10 - Regresión y correlación (F. Álvarez)
d)
Coeficiente de correlación y de determinación :
Como se indicó en el apartado a), al ser nula la covarianza, ambos coeficientes también lo son :
r = b . b' = 0 . 0 = 0
e)
r=
s XY
0
=
=0
sX . sY sX . sY
R 2 = r2 = 0
Proporción de varianza explicada por X :
Proporción de varianza explicada por X = r2 = Coeficiente de determinación = 0
4
Se desea estudiar la relación entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo
del alumno que lo realiza. Los resultados observados fueron :
Test
1
1
2
2
3
4
4
5
5
Sexo
Varón
Hembra
Varón
Hembra
Varón
Hembra
Varón
Hembra
Varón
Nº de alumnos
3
1
2
4
3
5
1
1
2
a)
Mida el grado de asociación existente entre las dos variables mediante el coeficiente más
adecuado.
b)
Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el
apartado anterior.
a)
Siendo dicotómica la segunda variable, calcularemos el coeficiente de correlación biserial puntual :
Denominando Y a la variable sexo (asignamos : 1=Hombre ; 0=Mujer) y X a la variable puntuación en el test,
procederemos a los cálculos necesarios para su obtención. Ello nos conduce a calcular las medias de los
valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, así como la
desviación típica de X.
Las siguientes tablas facilitan nuestras operaciones :
X
1
1
2
2
3
4
4
5
5
Y
1
0
1
0
1
0
1
0
1
n
3
1
2
4
3
5
1
1
2
N= 22
n.X
3
1
4
8
9
20
4
5
10
64
n.X2
3
1
8
16
27
80
16
25
50
226
X1
1
2
3
4
5
n
3
2
3
1
2
11
p
n.X1
3
4
9
4
10
30
X0
1
2
4
5
n
1
4
5
1
11
q
n.X0
1
8
20
5
34
30
34
11
11
X0 =
p=
= 0' 5
q=
= 0' 5 = 1 − p
= 2' 7273
= 3' 0909
11
11
22
22
226
64
− 2' 90912 = 1' 8099 ⇒ s X = 1' 8099 = 1' 3453
X=
= 2' 9091
s 2X =
22
22
X − X0
2' 7273 − 3' 0909
Con esto : rbp = 1
. p. q =
. 0' 5 . 0' 5 = − 0' 1351
sX
1' 3453
X1 =
b)
Coeficiente de correlación de Pearson :
El propósito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de
correlación de Pearson y biserial puntual. Calculemos la media y desviación típica de Y, así como la covarianza:
Regresión y correlación (F. Álvarez) - 11
Y=
s XY
X
Y
f
f.Y
f.Y2
f.X.Y
1
1
2
2
3
4
4
5
5
1
0
1
0
1
0
1
0
1
3
1
2
4
3
5
1
1
2
22
3
0
2
0
3
0
1
0
2
11
3
0
2
0
3
0
1
0
2
11
3
0
4
0
9
0
4
0
10
30
11
11
− 0' 5 2 = 0' 25 ⇒ s Y = 0' 25 = 0' 5
= 0' 5 s 2Y =
22
22
−0' 0909
30
=
− 2' 9091. 0' 5 = − 0' 0909
⇒ r=
= −0' 1351
22
1' 3453. 0' 5
5
La siguiente tabla nos muestra la distribución por sexo de un grupo de 167 personas, indicando si
fuman o no.
Fuma
85
10
Hombre
Mujer
No fuma
12
60
a) Calcule el coeficiente de más adecuado para medir el grado de asociación existente entre el sexo y
el ser o no fumador.
b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado
anterior.
a)
Las dos variables son dicotómicas. El coeficiente específico para esta situación es el coeficiente de
correlación ϕ (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X
ϕ=
b)
1 (Fuma)
a = 85
c = 10
95
1 (Hombre)
0 (Mujer)
ad − bc
(a + b )(. c + d )(. a + c )(. b + d )
=
0 (No fuma)
b = 12
d = 60
72
85.60 − 12.10
97.70.95.72
97
70
= 0'7307
Coeficiente de correlación de Pearson :
X
1
1
0
0
Y
1
0
1
0
n
85
12
10
60
167
n.X
85
12
0
0
97
n.Y
85
0
10
0
95
n.X2
85
12
0
0
97
n.Y2
85
0
10
0
95
n.X.Y
85
0
0
0
85
97
97
= 0' 5808
s 2X =
− 0' 5808 2 = 0' 2435 ⇒ s X = 0' 2435 = 0' 4934
167
167
95
95
Y=
= 0' 5689
s 2Y =
− 0' 5689 2 = 0' 2453 ⇒ s Y = 0' 2453 = 0' 4952
167
167
85
0' 1786
s XY =
− 0' 5808 . 0' 5689 = 0' 1786
⇒ r=
= 0' 7307
167
0' 4934 . 0' 4952
X=
Coincidente con el calculado en el apartado anterior, como era de esperar.
12 - Regresión y correlación (F. Álvarez)
6
Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso.
Las clasificaciones en dichas pruebas fueron :
100 metros :
A,B,C,D,E,F,G,H,I,J,K,L
Peso :
K,I,J,L,G,H,F,D,E,B,C,A
a)
Determine la relación existente entre las dos clasificaciones en las pruebas descritas, mediante
el coeficiente más adecuado.
b)
Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el
apartado anterior.
Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de
correlación por el método de los rangos de Spearman.
a)
Coeficiente de correlación ρ :
6.∑ d 2
6.552
ρ = 1−
= 1−
= −0'9301
2
N. N − 1
12. 12 2 − 1
(
)
(
)
(Ver tabla siguiente)
A continuación se ofrecen las tablas auxiliares de cálculos de ρ y r , calculados para comprobar que coinciden.
X
1
2
3
4
5
6
7
8
9
10
11
12
78
b)
Para el cálculo de ρ
Y
d
11
-10
9
-7
10
-7
12
-8
7
-2
8
-2
6
1
4
4
5
4
2
8
3
8
1
11
78
0
d2
100
49
49
64
4
4
1
16
16
64
64
121
552
X
1
2
3
4
5
6
7
8
9
10
11
12
78
Para el cálculo de r
Y
X2
Y2
11
1
121
9
4
81
10
9
100
12
16
144
7
25
49
8
36
64
6
49
36
4
64
16
5
81
25
2
100
4
3
121
9
1
144
1
78
650
650
X.Y
11
18
30
48
35
48
42
32
45
20
33
12
374
Coeficiente de correlación de Pearson :
650
78
= 6' 5
s 2X =
− 6' 5 2 = 11' 9167 ⇒ s X = 11' 9167 = 3' 4521
12
12
650
78
Y=
= 6' 5 s 2Y =
− 6' 5 2 = 11' 9167 ⇒ s Y = 11' 9167 = 3' 4521
12
12
−11' 0833
374
s XY =
− 6' 5 . 6' 5 = − 11' 0833
⇒ r=
= − 0' 9301
12
3' 4521. 3' 4521
X=
En efecto coinciden los coeficientes de correlación obtenidos por los dos métodos.
Su alto valor negativo (próximo a -1) nos indica que existe una fuerte relación entre las dos clasificaciones en
las pruebas atléticas, quedando mejor clasificados en una los peor clasificados en la otra.
7
De los archivos de la Dirección provincial de Tráfico se han seleccionado los expedientes de 64
conductores, realizando el siguiente recuento en función del sexo (M = mujer ; H = hombre) y el número
de multas impuestas durante el último año.
Sexo
Nº de multas
en el último año
1
2
3
4
5
6
M
9
7
6
1
1
0
H
0
0
2
9
11
18
¿ Qué conclusión puede deducirse acerca de la relación existente entre sexo y número de denuncias ?.
Utilice para ello el índice de asociación más apropiado.
Al ser dicotómica la variable sexo, obtendremos el coeficiente de correlación biserial puntual :
Regresión y correlación (F. Álvarez) - 13
Y
X
1
2
3
4
5
6
M=1
H=0
n
n.X
n.X2
Y=1
n.X1
Y=0
n.X0
9
7
6
1
1
0
24
0
0
2
9
11
18
40
9
7
8
10
12
18
N=64
9
14
24
40
60
108
255
9
28
72
160
300
648
1217
9
14
18
4
5
0
50
0
0
6
36
55
108
205
50
205
24
40
= 2' 0833
= 5' 125
X0 =
p=
= 0' 375 q =
= 0' 625 = 1 − p
24
40
64
64
1217
255
X=
= 3' 9844
s 2X =
− 3' 9844 2 = 3' 1404 ⇒ s X = 3' 1404 = 1' 7721
64
64
X − X0
2' 0833 − 5' 125
Con esto : rbp = 1
. p. q =
. 0' 375 . 0' 625 = − 0' 831
sX
1' 7721
X1 =
Es decir existe una fuerte relación, de sentido inverso, entre ambas variables. Algo que podía advertirse al
analizar el recuento de las observaciones.
8
Para analizar si existe o no relación entre las calificaciones en materias científicas y las del área
literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada área).
Clasificados por orden de puntuación resultó :
Alumno
P. Científica
P. Literaria
1
3º
3º
2
6º
5º
3
7º
7º
4
1º
4º
5
2º
1º
6
8º
8º
7
5º
2º
8
4º
6º
Utilizando el índice adecuado establezca el grado de relación que existe entre las calificaciones de
dichas áreas de conocimiento.
Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos
reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba científica y en la
literaria . Ordenadas las primeras, calculemos sus diferencias :
X
1
2
3
4
5
6
7
8
Con ello :
ρ = 1−
6.∑ d 2
(
Y
4
1
3
6
2
5
7
8
)
N. N −1
2
= 1−
d
-3
1
0
-2
3
1
0
0
d2
9
1
0
4
9
1
0
0
24
6.24
= 0'7143
8. 8 2 − 1
(
)
Es decir, existe una alta relación entre las calificaciones. Generalmente un alumno con altas calificaciones en el
área científica tendrá altas calificaciones en el área de conocimientos literarios.
14 - Regresión y correlación (F. Álvarez)
9
Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias
y sólo 2 de Letras. Calcule el coeficiente de correlación más adecuado para medir el grado de
asociación existente entre las variables descritas.
Se trata de analizar la relación que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo.
Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X
ϕ=
1 (Repite)
a = 16
c=2
18
1 (Ciencias)
0 (Letras)
0 (No repite)
b=1
d = 12
13
17
14
ad − bc
16.12 − 1.2
=
= 0'8051⇒ alta relación entre las variables.
(a + b )(. c + d )(. a + c )(. b + d ) 17.14.18.13
10
Se somete a 10 alumnos a dos test diferentes encaminados a medir su percepción visual. Los
resultados fueron los siguientes :
Test A
Test B
3
4
4
5
5
5
5
6
6
7
7
8
8
8
9
10
10
11
12
14
a) Obtenga las ecuaciones de las rectas de regresión del test A sobre el B, en puntuaciones directas,
diferenciales y típicas.
b) Determine la proporción de varianza residual que se presenta en dicho ajuste.
Denominando Y a las puntuaciones en el test A (variable dependiente en el ajuste) y X a las correspondientes al text B,
procedemos a realizar los cálculos necesarios :
X
3
4
5
5
6
7
8
9
10
12
69
b=
a)
b)
[N .∑ X
X.Y
12
20
25
30
42
56
64
90
110
168
617
∑ Y − b . ∑ X = 78 − 1' 0809 . 69 = 0' 3416
N
N
. ∑Y )
N .∑ X .Y − (∑ X )(
2
Y2
16
25
25
36
49
64
64
100
121
196
696
. ∑ Y ) 10.617 − 69.78
N .∑ X .Y − (∑ X )(
=
= 1'0809
2
10.549 − 69 2
N .∑ X 2 − (∑ X )
a = Y − b. X =
r=
X2
9
16
25
25
36
49
64
81
100
144
549
Y
4
5
5
6
7
8
8
10
11
14
78
][
10
− (∑ X ) . N .∑ Y − (∑ Y )
2
2
2
]
=
10
10.617 − 69.78
(10.549 − 69 )(. 10.696 − 78 )
2
2
= 0'9861
Rectas de regresión :
1º.- En puntuaciones directas :
Y' = a + b . X
Y' = 0'3416 + 1'0809 . X
2º.- En puntuaciones diferenciales :
y' = b . x
y' = 1'0809 . x
3º.- En puntuaciones tipificadas:
zy' = r .zx
zy' = 0'9861 .zx
Proporción de varianza residual :
Cuando se habla de proporción siempre se refiere al cociente entre la varianza total de Y; es decir, a la
proporción de varianza de Y que representa la varianza solicitada.
Regresión y correlación (F. Álvarez) - 15
2
Y .X
2
Y
s
s
=
(
s .1− r
sY2
2
Y
(
se2 = sY2. X = sY2 . 1 − r 2
Siendo la varianza de los errores (residual) :
2
) = 1− r
2
)
= 1 − 0'98612 = 0'0277
Sólo representa un 2'77% de la varianza del test A (Y), siendo la proporción de varianza no explicada por el test
B (X).
11
A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) ,
(1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7)
a)
b)
c)
Calcule la ecuación de la recta de regresión de Y sobre X.
Represente gráficamente el diagrama de dispersión y la recta de regresión.
Calcule e interprete el coeficiente de correlación.
Cálculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) :
X
1
2
3
4
5
15
X=
a)
15
=3
5
b=
s 2X =
1' 4
= 0' 7
2
55
− 32 = 2
5
Y
4
5
5
6
7
27
Y=
X2
1
4
9
16
25
55
27
= 5' 4
5
Y2
16
25
25
36
49
151
s Y2 =
X.Y
4
10
15
24
35
88
151
− 5' 4 2 = 1' 04
5
a = 5' 4 − 0' 7. 3 = 3' 3
s XY =
88
− 3. 5' 4 = 1' 4
5
Y = 3'3 + 0'7 . X
b)
Para X = 0
Para X = 5
Y = 3'3
Y = 6'8
(0 , 3'3)
(5 , 6'8)
Enlazando los dos puntos anteriores obtenemos la gráfica de la recta.
Observe que el punto que tiene por coordenadas las medias
de X e Y (3 , 5'4) , es un punto contenido en la recta de
regresión.
Apreciamos la proximidad de los puntos a la recta de ajuste,
así como que dicha recta es creciente (r > 0).
c)
r=
1' 4
= 0' 9707
2 . 1' 04
Elevada relación entre las variables y de signo positivo.
La recta de regresión es una buena función de ajuste, siendo creciente (r > 0).
Para representar gráficamente la recta de regresión, localizamos dos puntos cualesquiera de ella :
Y = 3'3 + 0'7 . X
16 - Regresión y correlación (F. Álvarez)
12
La recta de regresión de Y sobre X, calculada en el estudio de la relación existente entre dos variables,
tiene por ecuación Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84.
Si la distribución de las predicciones de Y tiene como media 3'6 y varianza 1'619936,
a)
calcule la media y varianza de X
b)
determine la ecuación de la recta de regresión de X sobre Y
c)
obtenga el valor del coeficiente de correlación.
Iniciamos aquí una serie de ejemplos que requieren para su resolución el empleo de las diferentes relaciones
funcionales (fórmulas para entendernos) tratadas en el tema.
Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores
conocidos. Tal vez así podamos obtener los que nos pida el problema.
1º.2º.3º.-
⎞
⎛
s
Y ' = 5'4 − 0'9. X (a = Y − b. X )5'4 = Y + 0'9. X ⎜⎜ b = XY
= −0'9 ⎟⎟
2
sX
⎠
⎝
s 2Y = 1' 84
s Y = 1' 84 = 1' 3565
Y' = Y = 3'6
s 2Y' = 1' 619936
Siendo 3'6 la media de Y, la expresión de a nos permite obtener la media de X :
5' 4 = Y + 0' 9 . X
5' 4 = 3' 6 + 0' 9 . X
⇒
X=
5' 4 − 3' 6
=2
0' 9
La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresión b necesitamos
conocer antes la covarianza o el coeficiente de correlación).
Partiendo, por ejemplo, de la proporción de varianza explicada (hace referencia a la varianza de las predicciones) :
r2 =
s 2Y' 1' 619936
=
= 0' 8804
1' 84
s 2Y
⇒ r = 0' 8804 = ± 0' 9383
El coeficiente de correlación será negativo, ya que lo es el coeficiente de regresión b (b = -0'9), luego : r = 0'9383 .
sX
nos permitirá calcular la desviación típica de X :
sY
sX
−0' 9383. 1' 3565
⇒ − 0' 9383 = − 0' 9 .
⇒ sX =
= 1' 4142 ⇒ s X2 = 1' 4142 2 = 2
1' 3565
− 0' 9
La expresión r = b .
r = b.
sX
sY
Finalmente, calculemos la recta de ajuste de X sobre Y :
b' =
s
s XY
1' 4142
= r . X = − 0' 9383.
= − 0' 9783
sY
1' 3565
s Y2
a ' = X − b' . Y = 2 − ( − 0' 9783 ). 3' 6 = 5' 5217
Su ecuación es :
X' = 5'5217 - 0'9783 . Y
13
La recta de regresión de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la
proporción de varianza no explicada por X del 25'58%.
a)
Calcule los coeficientes de correlación y de determinación.
b)
Siendo X = 5, ¿ qué pronóstico diferencial corresponde a una puntuación directa X = 4 ?.
a)
Los coeficientes de correlación y de determinación se obtienen directamente de la proporción de varianza no
explicada :
1 - r2 = 0'2558 ⇒ r2 = 1 - 0'2558 = 0'7442
Luego :
Coeficiente de determinación :
R2 = r2 = 0'7442
Coeficiente de correlación :
r = 0' 7442 = ± 0' 8627
Para determinar si el coeficiente de correlación es positivo o negativo se pueden seguir distintos
procedimientos. Uno podría consistir en dibujar la recta de regresión (enlazando los dos puntos
conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). Así resulta que
es creciente y, por tanto, r = 0'8627.
b)
Determinemos la recta de regresión en puntuaciones directas y diferenciales :
Si la recta de regresión Y' = a + b.X pasa por (0'5,0) y (0,-0'4) , significa que :
- para X = 0'5 Y' = 0 :
0 = a + b.0'5
- para X = 0 Y' = -0'4 :
-0'4 = a + b.0
⇒ -0'4 = a ⇒ 0 = -0'4 + b.0'5 ⇒ b = 0'4 / 0'5 = 0'8
Regresión y correlación (F. Álvarez) - 17
La recta de regresión es :
en puntuaciones directas :
en puntuaciones diferenciales :
Y' = -0'4 + 0'8 . X
y' = 0'8 . x
A la puntuación directa X = 4 , le corresponde una puntuación diferencial : x = X − X = 4 − 5 = − 1
luego el pronóstico diferencial correspondiente es :
y' = 0'8 . x = 0'8 . (-1) ⇒ y' = -0'8
NOTA :
Calculado b = 0'8 > 0, concluiremos que el coeficiente de correlación es también positivo (r = 0'8627), tal como
se dedujo en el apartado a).
14
A las puntuaciones directas 2 y 6 de la variable X le corresponden predicciones 3'2 y 7'2
respectivamente.
Si la proporción de varianza asociada a X es del 70'42% y los valores de la variable dependiente Y son:
1 , 3 , 5 , 6 y 11
a)
obtenga las ecuaciones de las dos rectas de regresión
b)
calcule el coeficiente de correlación
c)
un pronóstico tipificado 1'1868 , ¿ a qué puntuación directa de X corresponde ?.
a)
En la recta de regresión de Y sobre X :
Y' = a + b.X
- Para X = 2 , Y' = 3'2 :
3'2 = a + 2.b
- Para X = 6 , Y' = 7'2 :
7'2 = a + 6.b
Resolviendo el sistema obtenemos :
a = 1'2 b = 1
Y' = 1'2 + X
Para el cálculo de la recta de regresión de X sobre Y no disponemos de elementos suficientes de momento.
b)
Con los valores conocidos de Y calculamos su media, varianza y desviación típica :
Y=
1 + 3 + 5 + 6 + 11
= 5' 2
5
s 2Y =
12 + 3 2 + 5 2 + 6 2 + 112
− 5' 2 2 = 11' 36
5
s Y = 11' 36 = 3' 3705
Si la proporción de varianza asociada es del 70'42%, deducimos que : r2 = 0'7042 y, siendo b = 1 > 0 , el
coeficiente de correlación r también será positivo. Es decir :
r = + 0' 7042 = 0' 8392
De la recta de regresión de Y sobre X deducimos (para las medias) :
Y ' = Y = 1' 2 + X
⇒
X = Y − 1' 2 = 5' 2 − 1' 2 = 4
La desviación típica de X la podemos obtener ahora de la relación :
r = b.
sX
sY
⇒
sX =
r . s Y 0' 8392. 3' 3705
=
= 2' 8284
1
b
⇒
s X2 = 2' 8284 2 = 8
a bis)
Estamos en condiciones de calcular la recta de regresión de X sobre Y :
s
r . s X 0' 8392. 2' 8284
r = b'. Y
⇒
b' =
=
= 0' 7042
⇒
a = X − 0' 7042. Y = 4 − 0' 7042. 5' 2 = 0' 3380
3' 3705
sX
sY
La recta de regresión de X sobre Y tiene por ecuación :
X' = 0'3380 + 0'7042 . Y
c)
z Y' = 0' 8392. z X
La recta de regresión de Y sobre X en puntuaciones típicas es : z Y' = r . z X
Para el pronóstico tipificado 1'1868 deduciremos el valor tipificado de X. Teniendo en cuenta el proceso de
tipificación, deduciremos la puntuación directa de X
z Y' = 1' 1868
zX =
1' 1868
X− X
X−4
= 1' 4142 =
=
0' 8392
sX
2' 8284
⇒
X = 1' 4142. 2' 8284 + 4 = 8
15
En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron
dicotomizadas por la Mediana formándose dos categorías: altos (A) y bajos (B). Los resultados son los
siguientes :
Sujeto
X
Y
1
B
5
2
A
3
3
B
3
4
A
0
5
A
1
6
B
3
7
B
2
8
A
0
9
A
1
10
B
2
Elija y calcule el índice de correlación adecuado para medir la relación existente entre X e Y.
18 - Regresión y correlación (F. Álvarez)
X
nA nA.X nB nB.X X
0
1
2
3
4
5
XA =
2
2
0
1
0
0
0
2
0
3
0
0
0
0
2
2
0
1
0
0
4
6
0
5
5
5
5
15
n
0
1
2
3
4
5
n.X n.X2
2
2
2
3
0
1
0
2
4
9
0
5
0
2
8
27
0
25
10
20
62
5
15
20
62
= 1; XB = = 3 ; X =
= 2 ; SX =
− 2 2 = 1483
'
5
5
10
10
rbp =
XA − X B
1− 3
5 5
. p. q =
.
. = −0'674
SX
1483
'
10 10
Cierta relación entre las variables, de signo inverso. A mayor puntuación en la prueba Y menor nivel en X.
16
La puntuación estimada de la variable Y para un valor 0 de la variable X es 0’5454, siendo la varianza de
esta variable 16’5. Sabiendo que el porcentaje de varianza de la variable Y no asociada a la variación de
X es 4’545% y que la varianza del error es 0’318297, hallar :
a) la correlación de Pearson entre X e Y.
b) la ecuación de regresión para pronosticar Y a partir de X.
c) la varianza de las puntuaciones pronosticadas.
Datos
:
Y' = a + b. X → 0'5454 = a + b.0 → a = 0'5454 ; S 2X = 16'5 ;
S 2e
S 2y
a)
1 - r2 = 0’04545 ⇒ r2 = 1 - 0’04545 = 0’95455 ⇒ r = 0’977
b)
a = 0’5454
= 1 − r 2 = 0'04545 ; S 2e = 0'318297
0'318297
= 0'04545 ⇒ S 2Y = 7'003 ⇒ S Y = 2'646
S 2Y
S
r.S Y 0'977.2'646
r = b. X ⇒ b =
=
= 0'6364
⇒ Y' = 0'5454 + 0'6364. X
SY
SX
16'5
S 2Y = S e2 + S Y2 '
c)
→ S Y2 ' = S Y2 − S e2 = 7'003 − 0'318297 = 6'684703
17
Las puntuaciones estimadas de la variable Y para los valores 3 y 5 de la variable X son 2’4545 y 3’7272
respectivamente. El coeficiente de correlación entre X e Y es 0’977, y la varianza de la variable X es 16’5.
Con estos datos calcular :
a) la ecuación de la recta de regresión.
b) la varianza de las puntuaciones pronosticadas.
c) la proporción de varianza de la variable Y no asociada a la variación de X.
Datos :
⎧2'4545 = a + 3. b
Y' = a + b. X → ⎨
⎩ 3'7272 = a + 5. b
a)
Resolviendo el sistema anterior :
b)
r2 =
r = b.
c)
s2y '
s2y
a = 0’54545
r = 0'977
b = 0’63635
S2X = 16'5
Y’ = 0’54545 + 0’63635.X
⇒ s2y ' = r 2 . s2y
SX
16'5
⇒ 0'977 = 0'63635.
= 0'6364 ⇒ SY = 2'656594 ⇒ SY2 ' = 0'977 2 .2'656594 2 = 6'7366
SY
SY
1 - r2 = 1 - 0’9772 = 0’045471
(4’5471%)
Regresión y correlación (F. Álvarez) - 19
18
Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas
por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final.
a) Encuentre la puntuación pronosticada en LKS de un sujeto cuya puntuación directa en C es
15.
b) Encuentre la parte de la varianza de LKS asociada a la variación de C.
c) Interprete el resultado obtenido al calcular el estadístico que expresa la relación entre LKS y
C.
Sujetos
LKS
C
Y = LKS
A
49
8
B
40
16
C
43
14
D
31
20
E
37
12
X=C
X
8
16
14
20
12
70
Y
49
40
43
31
37
200
X2
64
256
196
400
144
1060
Y2
2401
1600
1849
961
1369
8180
X.Y
392
640
602
620
444
2698
70
200
1060
= 14 ; Y =
= 40 ; S 2X =
− 14 2 = 16 ; S X = 4
5
5
5
8180
2698
S 2Y =
− 40 2 = 36 ; S Y = 6 ; S XY =
− 14.40 = −20'4
5
5
X=
b = -20’4 / 16 = -1’275
a = 40 - (.1’275).14 = 57’85
a)
Y’ = 57’85 - 1’275.X = 57’85 - 1’275 . 15 = 38’725
b)
r = -20’4 / 4 . 6 = -0’85 ⇒ r2 = 0’7225 (72’25%)
c) Alta relación entre las dos pruebas (r=-0’85) y de signo inverso. Es decir, un sujeto con alta puntuación en LKS
tendrá baja puntuación en C
19
La empresa de publicidad “VENDEBIEN” quiere saber si la aceptación o rechazo dependen del sexo.
Para ello se encuesta a 200 personas de las cuáles el 50% son mujeres; 40 hombres rechazan el
producto mientras que 30 mujeres lo aceptan.
Elija y calcule el índice de correlación adecuado para interpretar estos datos.
Aceptan
Rechazan
ϕ=
H
a=60
c=40
M
b=30
d=70
60.70 − 30.40
ad − bc
=
= 0'3015
( a + b).( c + d ).( a + c).( b + d )
90110
. .100.100
Escasa relación entre la aceptación y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.
20
La ecuación de la recta de regresión que permite pronosticar las calificaciones en Psicología
Matemática II (Y) a partir de las calificaciones en Psicología Matemática I (X) es la siguiente : Y’ = 0’8.X
- 0’25
Sabiendo que Sx
= (4/5).Sy ; Sy = 3
, X , Y.
y que
X − Y = 1'74 , calcule :
a) rxy
b) la varianza de las puntuaciones pronosticadas.
c) la proporción de varianza error cometida al pronosticar, utilizando la recta de regresión
anterior.
20 - Regresión y correlación (F. Álvarez)
Datos :
Y' = 0'8. X − 0'25 ; S X =
4
. S ; S = 3 ; X − Y = 1'74
5 Y Y
a)
⎫⎪
b = 0'8
2'4
S
4
⎬ ⇒ r = b. X = 0'8.
= 0'64
S X = .3 = 2'4 ⎪
3
SY
⎭
5
a = Y − b. X −0'25 = Y − 0'8. X ⎫ ⎧ X = 7'45
⎬⇒⎨
'
X − Y = 174
⎭ ⎩ Y = 5'71
b)
r =
c)
1 - r2 = 1 - 0'642 = 0'5904 (59'04%)
2
s2y '
s2y
⇒ s2y ' = r 2 . s2y = 0'64 2 .32 = 3'6864
21
La recta de regresión de Y sobre X, que permite el pronóstico en el rendimiento en un trabajo manual a
partir de las puntuaciones en un test de destreza manual, corta al eje de ordenadas en Y’ = 8 y al de
abscisas en X = -4, en puntuaciones directas.
a) Calcule la ecuación de la recta de regresión anterior en puntuaciones directas.
b) Represente gráficamente la recta de regresión anterior.
c) Calcule el coeficiente de correlación entre X e Y sabiendo que la varianza de los errores es la
cuarta parte de la varianza de Y.
b)
a)
Para X = 0 , Y’ = 8 y, para X = -4, Y’ = 0
⎧ 8=a
⎧a = 8
Y' = a + b. X → ⎨
⇒⎨
→ Y' = 8 + 2. X
⎩b = 2
⎩0 = a − 4. b
c)
1
S 2e = .S 2Y
4
⇒ S e2 = S 2Y . ( 1 − r 2 )
1 2
.S Y 3
4
⇒ r2 = 1− 2 = 1− 2 =
4
SY
SY
S 2e
⇒ r = 0'866
22
Estudiando la relación entre las variables X e Y se obtuvieron los siguientes datos :
X = 119 , Y = 1'30 , S x = 10 , SY = 0'55 , rxy = 0'70 , n = 10
a) Elena C. obtuvo una puntuación de 130 en X. Estime su puntuación en Y.
b) Se estimó la puntuación 1’28 en la variable Y para Gonzalo S.. ¿ Cuál fue su puntuación en la
variable X ?.
c) Determinar el valor de
a)
b = r.
sy
sx
= 0'7.
Sy.x
y la desviación típica de las puntuaciones pronosticadas (Sy’).
0'55
= 0'0385 ; a = 130
' − 0'0385x119 = −3'2815 ⇒ Y' = −3'2815 + 0'0385. X ⇒
10
⇒ Y' = −3'2815 + 0'0385130
.
= 1'7235
b)
c)
1’28 = -3’2815+0’0385.X ⇒ X = 118’48
S Y.X = S Y . 1 − r 2 = 0'55. 1 − 0'7 2 = 0'3928
S 2Y' = S Y2 − S Y2 .X = 0'3025 − 01543
'
= 01482
'
⇒ S Y' = 0'385
Regresión y correlación (F. Álvarez) - 21
23
La siguiente gráfica muestra las calificaciones obtenidas
por dos grupos de alumnos que han estudiado con dos
métodos de enseñanza distintos (A y B). Elija, calcule e
interprete el coeficiente de correlación más adecuado para
estudiar la relación entre el método de enseñanza y las
calificaciones.
XA
XB
2
4
6
8
2
4
5
6
9
10
36
20
X
X2
2
4
6
8
2
4
5
6
9
10
56
4
16
36
64
4
16
25
36
81
100
382
Biserial puntual (rbp). Una cuantitativa (calificación) y la otra dicotómica (método).
XA =
20
36
56
= 5 ; XB =
= 6; X =
= 5'6 ; S X =
4
6
10
rbp =
382
− 5'6 2 = 2'61
10
XA − X B
5− 6 4 6
. p. q =
.
. = −0187
'
SX
2'61 10 10
r2 = 0’035 (3’5%)
Existe una relación muy baja (del 3’5%) entre el método seguido y las calificaciones. De aceptarse la relación
diríamos que los alumnos que siguen el método B obtienen mejores resultados (signo negativo de r).
24
Sabemos que las puntuaciones diferenciales pronosticadas (y’) son cinco veces las puntuaciones
diferenciales de la variable X, y que la proporción de varianza asociada entre X e Y es igual a 0’25.
Calcular :
a) La pendiente de la recta de regresión de Y sobre X en puntuaciones directas y diferenciales.
b) La pendiente de la recta de regresión de Y sobre X en puntuaciones típicas.
c) La pendiente de la recta de regresión de X sobre Y en puntuaciones directas.
y’ = 5x
Datos :
r =
2
s2y '
s2y
= 0'25
a)
b=5
b)
r2 = 0’25 ⇒ r = 0’5
c)
b.b’ = r2 ⇒ 5.b’ = 0’25 ⇒ b’ = 0’25 / 5 = 0’05
25
Para un grupo de 100 sujetos y en dos variables X e Y, disponemos de los siguientes datos :
Σxy=480 ; Σx2=400 ; Σy2=ΣY=900.
Sabiendo además que X e Y son dos variables cuantitativas que mantienen una relación lineal y que,
lógicamente,
Σx = Σy = 0
a) ¿Cuánto valdrá el coeficiente de correlación de Pearson entre X e Y ?.
b) ¿Cuánto valdrá la desviación típica de los errores cometidos al pronosticar Y a partir de X ?.
c) ¿ Qué puntuación directa pronosticaremos en Y a un sujeto que ha obtenido una puntuación x=-2 ?.
Se sigue en el enunciado la notación usual de representación de puntuaciones directas (mayúscula) y diferenciales
(minúscula).
Recordemos que :
22 - Regresión y correlación (F. Álvarez)
En puntuaciones directas
En puntuaciones diferenciales
∑ fi . xi . y i
∑ f i .( X i − X).( Yi − Y) ∑ f i . X i . Yi
S XY =
=
i
N
∑ f i . ( X i − X)
S 2X =
a)
=
N
Para puntuaciones diferenciales :
s xy =
∑ xy = 480 = 4'8
n
sx =
100
N
∑ f i . X 2i
2
i
S XY =
− X. Y
i
S 2X =
− X2
i
N
∑ x2
n
400
=2
100
=
sy =
∑ y2
n
=
i
N
∑ f i . x 2i
i
N
900
=3
100
r = 4’8 / 2'3 = 0’8
b)
se = s y.x = s y . 1 − r 2 = 3. 1 − 0'8 2 = 18
'
c)
En puntuaciones diferenciales : y’ = b.x , con b = r .
Para x = -2 : y’ = 1’2 . (-2) = -2’4
Como :
y' = Y'− Y ⇒ Y' = y'+ Y = y'+
sy
3
= 0'8. = 12
'
sx
2
∑ Y = −2'4 + 900 = −2'4 + 9 = 6'6
N
100
26
La empresa de publicidad “VENDEBIEN” quiere
saber si existe relación entre la duración de un
anuncio en T.V. y la aceptación o rechazo del
mismo. Los resultados de la encuesta se
incluyen en la siguiente tabla.
Elija y calcule el índice de correlación
adecuado para interpretar estos datos.
Duración
5-9
10 - 14
15 - 19
20 - 24
25 - 29
X
n
n.X
n.X2
3
5
6
4
2
21
60
102
88
54
147
720
1734
1936
1458
20
325
5995
5-9
10-14
15-19
20-24
25-29
XA =
7
12
17
22
27
nA nA.X nR nR.X X
3
4
4
1
0
21
48
68
22
0
0
1
2
3
2
0
12
34
66
54
12
159
8
166
7
12
17
22
27
Aceptación
3
4
4
1
0
Rechazo
0
1
2
3
2
5995
325
166
159
= 13'25 ; X R =
= 20'75 ; X =
= 16'25 ; S X =
− 16'252 = 5'974
20
20
8
12
X − XR
13'25 − 20'75 12 8
rbp = A
. p. q =
= −0'615
.
.
SX
5'974
20 20
Cierta relación entre las variables, de signo inverso. A mayor duración mayor rechazo.
27
El gabinete de estudios sobre “Malestar Social” desea conocer si existe relación entre la consumición
de drogas y la comisión de delitos sobre la propiedad. Para ello se selecciona una muestra y se
comprueba que 50 individuos han consumido algún tipo de droga y a la vez han estado implicados en
delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la
propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que
la muestra constaba de 500 individuos, ¿ qué conclusión obtendrá el gabinete de estudios ?. (Elija,
calcule e interprete el coeficiente de correlación adecuado).
Regresión y correlación (F. Álvarez) - 23
Droga SI
a=50
c=150
Delito SI
Delito NO
ϕ=
Droga NO
b=50
d=250
ad − bc
50.250 − 50150
.
=
= 0144
'
(a + b).(c + d ).( a + c).( b + d )
100.400.200.300
Escasa relación entre consumo de drogas y comisión de delitos. De aceptarla, la mayor comisión de delitos se
produce en consumidores de drogas.
28
Un grupo de hombres y mujeres responde a una
prueba (X). Los datos obtenidos aparecen en la
siguiente tabla.
Elija razonadamente, calcule e interprete el
coeficiente de correlación adecuado, para estudiar
la relación entre las puntuaciones de la prueba y la
variable sexo.
2-4
5-7
8-10
11-13
XM =
Mujeres
8
6
5
1
X
11 - 13
8 - 10
5-7
2-4
X nM nM.X nH nH.X X
n
n.X
n.X2
3
6
9
12
7
11
11
11
21
66
99
132
63
396
891
1584
40
318
2934
1
5
6
8
3
30
54
96
6
6
5
3
18
36
45
36
20
183
20
135
3
6
9
12
Hombres
3
5
6
6
2934
318
135
183
= 9'15 ; X H =
= 6'75 ; X =
= 7'95 ; S X =
− 7'952 = 3186
'
40
40
20
20
rbp =
XM − XH
9'15 − 6'75 20 20
. p. q =
.
.
= 0'377
SX
3186
'
40 40
Muy débil relación entre las variables, de signo directo. De aceptarse, la mayor calificación se produce en
mujeres.
29
Elija el coeficiente de correlación más apropiado
entre las variables “puntuaciones en un test de
inteligencia” (X), y “prejuicio antiprotestante” (Y),
teniendo en cuenta el cuadro adjunto.
En este cuadro, fA significa frecuencia con alto
prejuicio y fB frecuencia con bajo. Calcule el
coeficiente de correlación elegido y comente
brevemente el resultado obtenido.
0-2
3-5
6-8
9-11
XA =
9 - 11
6-8
3-5
0-2
X
X
nA nA.X nB nB.X X
n
n.X
n.X2
1
4
7
10
0
0
40
40
0
0
280
400
10
10
0
0
10
40
0
0
10
10
40
40
10
40
280
400
10
160
1960
4000
80
680
20
50
100
730
6130
1
4
7
10
Y
fA
40
40
0
0
fB
0
0
10
10
6130
730
50
680
= 8'5 ; X B =
= 2'5 ; X =
= 7'3 ; S X =
− 7'32 = 2'83
100
100
20
80
rbp =
XA − X B
8'5 − 2'5 80 20
. p. q =
.
.
= 0'848
SX
2'83
100 100
Elevada relación entre las variables, de signo directo. A mayor puntuación en el test mayor prejuicio
antiprotestante.
24 - Regresión y correlación (F. Álvarez)
30
Estudiando la relación entre las variables X e Y se obtuvieron los siguientes datos :
X = 50 , Y = 6 , S x = 6 , S Y = 2 , rxy = 0'8 , n = 5
a) ¿ Qué puntuación directa en Y pronosticaremos a un sujeto que obtuvo una puntuación directa en X
de 52 ?.)
b) ¿ Cuánto valen
⇒
y
S y.x
?.
sy
2
= 0'8. = 0'267 ; a = 6 − 0'267 x50 = −7'35 ⇒
sx
6
Y' = −7'35 + 0'267. X ⇒ Y' = −7'35 + 0'267 x52 = 6'534
b = r.
a)
S 2y'
S Y.X = S Y . 1 − r 2 = 2. 1 − 0'8 2 = 12
'
b)
S Y2 ' = S Y2 − S Y2 .X = 4 − 144
' = 2'56
31
Estudiando una muestra de 50 alumnos de BUP se observó que una proporción de 0’10 estaba
compuesta por alumnos hijos únicos. De los 50 alumnos, una proporción de 0’6 comían en el Colegio.
Si sabemos que una proporción de 0’04, con respecto al total, son hijos únicos que no comen en el
Colegio. ¿ Existe una relación entre ser hijo único o no y comer o no en el Colegio ?. Halle el coeficiente
de correlación que corresponda e interprete el resultado.
Comen SI
Comen NO
Único SI
a=3
c=2
ϕ=
Único NO
b=27
d=18
ad − bc
318
. − 27.2
=0
=
(a + b).(c + d ).(a + c).( b + d )
30.20.5.45
Las variables son independientes. No existe ningún tipo de relación entre ser hijo único y comer en el colegio.
32
La desviación típica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2.
También conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo
que el índice de asociación entre las variables ansiedad y sexo es igual a +1, y que el número de
varones es superior al de mujeres :
a) ¿ Qué coeficiente de correlación habrá sido utilizado ?.
b) Interprete el valor del coeficiente de correlación.
c) Calcule la proporción de varones que componen nuestra muestra.
a)
Biserial puntual (rbp). Una cuantitativa y la otra dicotómica.
b)
Relación perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.
rbp =
c)
xv − xm
10 − 5
2
. p. q = 1 =
. p. q ⇒ p. q = = 0'4 ⇒ p. q = 016
'
2
5
sx
' ⇒ p − p 2 = 016
' ⇒ p 2 − p + 016
' =0⇒p=
p.(1 − p) = 016
1 ± 1 − 0'64 1 ± 0'6 ⎧ p = 0'8
=
=⎨
2
2
⎩ p = 0'2
La solución es 0’8 al indicar que hay más varones que mujeres.
33
0
X 1
2
3
[0,10)
0
0
5
3
Y
[10,20)
1
5
18
2
[20,30)
0
20
6
1
[30,40]
16
3
0
0
Con la presente distribución bivariante obtenga :
a) recta de regresión de la media de Y condicionada a X
b) coeficiente de correlación de la media de Y condicionada a X
c) recta de regresión de Y sobre X
d) coeficiente de correlación lineal (de Y sobre X)
e) razón de correlación.
Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razón de correlación calculada.
Regresión y correlación (F. Álvarez) - 25
a) b)
Para cada valor de la variable X, determinamos la media de los correspondientes valores de Y. Obtendremos
también las varianzas de cada valor Y para calcular posteriormente la razón de correlación (apartado e).
[0,10)
[10,20)
[20,30)
[30,40]
X=0
X=1
X=2
X=3
y
f
5
0
15
1
25
0
f.y
f.y2
35
16
0
15
0
560
Σ = 575
0
225
0
1960
Σ = 2185
Σ = 17
[0,10)
[10,20)
[20,30)
[30,40]
y
f
5
0
15
5
25
20
35
3
f.y
0
75
500
105
Σ = 680
f.y2
0
1125
12500
3675
Σ = 17300
[0,10)
[10,20)
[20,30)
[30,40]
5
5
15
18
25
6
35
0
Σ = 29
y
f
Σ = 28
f.y
25
270
150
0
Σ = 445
f.y2
125
4050
3750
0
Σ = 7925
[0,10)
[10,20)
[20,30)
[30,40]
5
3
15
2
25
1
35
0
Σ=6
f.y
15
30
25
0
Σ = 70
2
75
450
625
0
Σ = 1150
y
f
f.y
Con las tablas de cálculos anteriores obtenemos :
X
Y (*)
n
X=0
y 1 = 33'8
= 22 '1453
0
33'8
17
X=1
y 2 = 24 '3
= 28'0612
1
24'3
28
X=2
y 3 = 15'3
= 37 '8121
2
15'3
29
X=3
y 4 = 11'7
3
11'7
6
s 2y1
s 2y 2
s 2y 3
s 2y 4
= 55'5556
( )
* Medias de cada Y condicionado a X
Con esta distribución procedemos a calcular la recta de regresión y el coeficiente de correlación (omitimos la tabla de
cálculos) :
Σ n.X
Σ n.X2
Σ n.Y
Σ n.Y2
Σ n.X.Y
=
=
=
=
=
104
198
1768'9
43565'15
1778'4
Media de X = 1'3
Varianza de X = 0'785
Media de Y = 22'11
Varianza de Y = 55'657
Covarianza = -6'5146
Recta de regresión de la media de Y condicionada a X
Y' = 32'8998 - 8'2989.X
Coeficiente de correlación de la media de Y condicionada a X
2
r = -0'9856 (r = 0'9714)
c) d)
X
Y
0
0
0
0
1
1
1
1
2
2
2
2
3
3
3
3
5
15
25
35
5
15
25
35
5
15
25
35
5
15
25
35
26 - Regresión y correlación (F. Álvarez)
n
n.X
n.X²
n.Y
n.Y²
n.X.Y
0
1
0
16
0
5
20
3
5
18
6
0
3
2
1
0
0
0
0
0
0
5
20
3
10
36
12
0
9
6
3
0
0
0
0
0
0
5
20
3
20
72
24
0
27
18
9
0
0
15
0
560
0
75
500
105
25
270
150
0
15
30
25
0
0
225
0
19600
0
1125
12500
3675
125
4050
3750
0
75
450
625
0
0
0
0
0
0
75
500
105
50
540
300
0
45
90
75
0
80
104
198
1770
46200
1780
Media de X = 1'3
Varianza de X = 0'785
Media de Y = 22'125
Varianza de Y = 87'9844
Covarianza = -6'5125
Recta de regresión de Y sobre X
Y' = 32'91 - 8'2962.X
Coeficiente de correlación lineal
2
r = -0'7836 (r = 0'6141)
e)
Razón de correlación :
2
ni .s y
1
1 17.22'1453 + 28.28'0612 + 29.37'8121 + 6.55'5556
η = 1 − .∑ 2 i = 1 − .
= 0'6317
N
80
87'9844
sY
2
Conclusiones :
•
•
Comprobamos que η2 toma un valor comprendido entre 0 y 1 y verifica que η2 ≥ r2 (0'6317 ≥ 0'6141).
Al ser muy próximo η2 a r2, concluimos que la relación entre las variables X , Y es de tipo lineal.
•
Esta última conclusión habríamos deducido al comprobar que las rectas de ajuste de Y sobre X y la de la
media de Y condicionada a X prácticamente coinciden :
Y' = 32'91 - 8'2962.X
Y' = 32'8998 - 8'2989.X
•
La sustitución de las observaciones Yi por su promedio, ha permitido aumentar el valor del coeficiente de
correlación :
r = -0'7836
r = -0'9856
incrementando así la proporción de varianza explicada por el ajuste :
2
r2 = 0'9714 (97'14%)
r = 0'6141 (61'41%)
34
De un grupo de COU, integrado `por 40 alumnos, conocemos sus calificaciones finales en Matemáticas
y en Filosofía. El número de aprobados en ambas ascendió a 15, suspendiendo 12 las dos materias,
mientras que sólo aprobó Matemáticas el 10% de los alumnos.
a) Calcule el coeficiente de correlación más adecuado para medir el grado de asociación existente
entre las variables descritas.
b) Asumiendo que las calificaciones en Matemáticas y en Filosofía se distribuyen normalmente,
determine otro coeficiente que estudie el nivel de asociación y no esté basado en el concepto de
correlación de Pearson
Se trata de analizar la relación que puede existir entre las calificaciones en las dos materias.
a)
Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
X
Matemáticas
ϕ=
ad − bc
1 (Aprueban)
0 (Suspenden)
(a + b )(. c + d )(. a + c )(. b + d )
=
Y - Filosofía
1 (Aprueban)
0 (Suspenden)
a = 15
b=4
c=9
d = 12
24
16
15.12 − 4.9
19.21.24.16
19
21
= 0'3679⇒ baja relación entre las variables.
El aprobar o suspender una materia no condiciona el resultado final en la otra.
b)
Siendo las dos variables dicotómicas (normalmente distribuidas inicialmente), calculamos el coeficiente de
correlación tetracórica (rt).
1º Calculamos los productos : a.d = 15 . 12 = 180 y b.c = 4 . 9 = 36.
2º Como a.d > b.c , calculamos el cociente :
C = a.d / b.c = 180 / 36 = 5
(rt será positivo)
3º Consultamos la tabla XXV, para el cálculo del coeficiente de correlación tetracórico, localizando el cociente
C=5 en el intervalo (A,B) = (4'8305 , 5'0075), al cuál corresponde un coeficiente 0'56 + R.
De aquí :
R=
C−A
5 − 4'8305
=
= 0'00958⇒rt = 0'56 + R = 0'56 + 0'00958 = 0'56958
100.(B − A) 100.(5'0075 − 4'8305)
NOTA :
Generalmente se verifica que el coeficiente de correlación tetracórica y el coeficiente ϕ verifican la
relación :
Regresión y correlación (F. Álvarez) - 27
rt ≈ 1'5 . ϕ
(con mayor rigor para valores del coeficiente tetracórico, menores o iguales a 0'5).
En nuestro caso : 1'5 . ϕ = 1'5 . 0'3679 = 0'55185 ≈ rt
Esto permite tener una referencia sobre el intervalo (-1 , 1), a la hora de interpretar el valor obtenido
con el coeficiente de correlación tetracórica. Calculando el valor aproximado de ϕ , podremos medir el
grado de asociación :
ϕ≈
rt 0'56958
=
= 0'37972
15
'
15
'
⇒
baja relación entre las variables
35
Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de
COU, seleccionamos seis alumnos. Clasificados por orden de puntuación final en cada materia resultó :
Alumno
Matemáticas
Filosofía
1
3º
3º
2
6º
5º
3
4º
6º
4
1º
4º
5
2º
1º
6
5º
2º
a) Utilizando el índice adecuado, basado en el concepto de correlación de Pearson, establezca el grado
de relación que existe entre las calificaciones de las dos asignaturas.
b) Resuelva lo solicitado en el apartado anterior mediante un índice que no esté basado en el concepto
de correlación de Pearson
a)
Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales
(dos reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemáticas y
en Filosofía.
Ordenando las primeras (X), calculamos sus diferencias con las segundas :
X
1
2
3
4
5
6
ρ = 1−
Con ello :
Y
4
1
3
6
2
5
d
-3
1
0
-2
3
1
6. ∑ d 2
N. ( N 2 − 1)
= 1−
6 . 24
d2
9
1
0
4
9
1
24
6. ( 6 2 − 1)
= 0'3143
Es decir, apenas existe relación entre las calificaciones.
b)
Procede ahora el cálculo del coeficiente de correlación τ (tau) de Kendall :
Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden
ascendente y comparamos cada valor de Y con los Yi siguientes, contando una permanencia (P) si Y < Yi y
una inversión (I) si Y > Yi. :
X
1
2
3
4
5
6
Y
4
1
3
6
2
5
(4,1) I
(4,3) I
(4,6) P
(4,2) I
(4,5) P
(1,3) P
(1,6) P
(1,2) P
(1,5) P
(3,6) P
(3,2) I
(3,5) P
(2,5) P
En total hemos encontrado 8 permanencias (P) y 4 inversiones (I). Con ello :
τ=
Np − Ni
8−4
4
=
=
= 0'2667
n.( n − 1) 6.(6 − 1) 15
2
2
Es decir, como ocurrió con el coeficiente ρ, existe una escasa relación entre las calificaciones en Matemáticas y
Filosofía.
28 - Regresión y correlación (F. Álvarez)
36
Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de
COU, seleccionamos 30 alumnos analizando la puntuación final en cada materia . Teniendo en cuenta
que se nos proporcionó en Filosofía solamente si el alumno aprobó (A) o suspendió, establezca el
grado de relación que existe entre las calificaciones en dichas materias.
2
3
4
5
6
8
X
Matemáticas
Y
Filosofía
A
S
2
1
5
0
10
2
4
0
3
1
1
1
a) utilizando el índice adecuado, basado en el concepto de correlación de Pearson.
b) mediante un índice que no esté basado en el concepto de correlación de Pearson.
a)
Al ser dicotómica la 2ª variable, obtendremos el coeficiente de correlación biserial puntual :
Y
X
2
3
4
5
6
8
S=0
n
n.X
n.X2
Y=1
n.X1
2
5
10
4
3
1
25
1
0
2
0
1
1
5
3
5
12
4
4
2
N=30
6
15
48
20
24
16
129
12
45
192
100
144
128
621
4
15
40
20
18
8
105
Y=0
n.X0
2
0
8
0
6
8
24
5
24
25
q=
= 0167
'
= 4'8
p=
= 0'833
30
5
30
621
− 4'32 = 2'21 ⇒ s X = 2'21 = 1487
'
s2X =
30
105
= 4'2
25
129
X=
= 4'3
30
X0 =
X1 =
Con esto :
A=1
rbp =
X1 − X 0
4'2 − 4'8
. p. q =
. 0'833.0167
'
'
= −01505
1487
'
sX
Es decir apenas existe relación entre ambas variables.
b)
Calculemos ahora el coeficiente de correlación biserial rb :
Tomando el menor de los valores de p y q :
min (p,q) = min (0'833 , 0'167) = 0'167
p. q
(Tabla XXIII), que resulta ser igual a 0'55609 .
f ( z)
X1 − X 0 p. q 4'2 − 4'8
rb =
=
.
.0'55609 = −0'2244
1487
'
sX
f ( z)
obtenemos el valor tabulado del cociente
Con esto :
Aunque no coincide su valor con el coeficiente de correlación biserial puntual, también podemos concluir que
apenas existe relación entre ambas variables.
37
Hemos encontrado, utilizando el criterio de mínimos cuadrados, que las rectas de regresión de Y sobre
X en puntuaciones directas y típicas son, respectivamente :
Y' = 1'2 . X + 4
zy' = 0'8 . zx
Sabiendo que : X = 5 , Y = 10 , S X = 2 , S Y = 3 , calcular :
a) La varianza de las puntuaciones pronosticadas en Y.
b) La recta de regresión de Y sobre X, en puntuaciones directas, si sumamos 5 a todos los valores de
X.
c) La recta de regresión de Y sobre X, en puntuaciones directas, si sumamos 3 a todos los valores de Y
y multiplicamos por 2 todos los valores de X.
Regresión y correlación (F. Álvarez) - 29
La recta de ajuste en puntuaciones típicas nos proporciona el coeficiente de correlación : r = 0'8
En consecuencia, sobra del enunciado el conocer una de las dos desviaciones típicas. Conocido r = 0'8 ; b =
1'2 y una de las desviaciones típicas (de X o de Y), la otra la habríamos calculado a partir de la relación :
r = b.
SX
SY
Su conocimiento permite obtener la covarianza (cuyo cálculo tampoco resulta imprescindible) :
r=
a)
S XY
S X . SY
⇒ S XY = r. S X . SY = 0'8.2.3 = 4'8
2
Varianza de los pronósticos : SY'
Obtenida de la relación que proporciona la proporción de varianza explicada por el
ajuste :
S 2Y '
= r 2 → S 2Y ' = S Y2 . r 2 = 32 .0'8 2 = 5'76
S 2Y
b)
Si a los valores de X les sumamos 5, la nueva media se incrementa en 5, pero las medidas de
dispersión se mantienen inalterables.
Resulta así :
X = 5 + 5 = 10 , Y = 10 , S X = 2 , SY = 3, S XY = 4' 8
b=
Luego :
S XY
= 1'2
S2X
a = Y − b. X = 10 − 12
' . 10 = −2 → Y' = −2 + 12
' .X
c)
Si a los valores de Y les sumamos 3, la nueva media se incrementa en 3, pero las medidas de
dispersión se mantienen inalterables.
Si los valores de X los multiplicamos por 2, la nueva media se multiplica por 2, y las medidas de
dispersión también (la varianza por el cuadrado).
Resulta así :
X = 5 . 2 = 10 , Y = 10 + 3 = 13 , S X = 2 . 2 = 4 , SY = 3, S XY = 4' 8. 2 = 9'6
Luego :
b=
S XY
S2X
→
2. S XY 2
= . b = 0'6
2 2 . S2X 4
a = Y − b. X = 13 − 0'6 . 10 = 7 → Y' = 7 + 0'6. X
38
Se desea estudiar si existe relación entre `padecer diabetes y ceguera en la tercera edad. Para ello se
analiza una muestra de 1000 personas del INSERSO encontrándose que de todas ellas un 50%
presentan simultáneamente diabetes y ceguera, el 40% no presentan ninguna de ambas deficiencias y
el resto presentan en la misma medida sólo una u otra deficiencia. Con estos datos elija, calcule e
interprete el coeficiente de correlación adecuado a dicho estudio.
Se trata de analizar la relación que puede existir entre las dos enfermedades.
Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .
• Padecen ambas
50% de 1000
500
• No padecen ninguna 40% de 1000
400
• Padecen sólo diabetes La mitad de los 100 restantes
50
• Padecen sólo ceguera La mitad de los 100 restantes
50
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
X
Diabetes
ϕ=
1 (Padece)
0 (No padece)
ad − bc
( a + b) .( c + d).( a + c) .( b + d)
=
Y - Ceguera
1 (Padece)
0 (No padece)
a = 500
b = 50
c = 50
d = 400
550
450
500.400 − 50.50
= 0'798
550.450.550.450
⇒
550
450
alta relación entre las variables.
El padecer o no una dolencia condiciona el padecer la otra.
30 - Regresión y correlación (F. Álvarez)
EJERCICIOS PROPUESTOS
1
X
Y
n
4
4
5
6
6
6
0
1
2
2
3
4
3
5
6
2
8
1
0
1
2
2
3
0
0
De la presente distribución conjunta de las dos variables (X,Y) :
b)
b)
c)
Obtener la recta de regresión de Y sobre X en puntuaciones diferenciales.
Obtener la recta de regresión de X sobre Y en puntuaciones típicas..
Calcular e interpretar la proporción de varianza residual.
2
Y
X
4
1
6
2
6
0
4
4
8
0
0
5
De la presente distribución conjunta de las variables (X,Y) :
a)
Obtener la recta de regresión de Y sobre X.
b)
Calcular e interpretar el coeficiente de determinación.
c)
Calcular su varianza residual.
3
De los 10 pares de valores que se representan en el
diagrama de dispersión de la izquierda,
a) Calcular la recta de regresión de Y sobre X.
b) Calcular e interpretar el coeficiente de correlación
lineal
c) Determinar la proporción de varianza asociada a X.
d) Calcular la media y varianza de las predicciones Y'.
.
4
Y
X
3
4
5
0
0
3
5
1
1
7
2
5
15
1
3
12
2
0
De la presente distribución conjunta de las variables (X,Y) :
a)
Calcular la frecuencia que falta sabiendo que la media de X es igual a 4.
b)
Obtener la recta de regresión de Y sobre X en
puntuaciones diferenciales.
c)
Calcular la proporción de varianza residual.
5
Edad
Hermanos
n
[10,15)
[10,15)
[10,15)
[15,20)
[15,20)
[20,25]
[20,25]
0
1
2
1
2
1
2
3
5
9
5
10
3
5
De la distribución de edades y número de hermanos de 40 jóvenes :
a)
c)
Obtener las rectas de regresión en puntuaciones directas,
diferenciales y tipificadas.
Calcular e interpretar el coeficiente de correlación lineal.
6
Las siguientes distribuciones bivariantes pretenden estudiar el grado de relación existente entre las variables :
a) Puntuación en un test de agresividad y sexo.
b) Clasificación (de mayor a menor) según la nota media obtenida en las asignaturas del curso y en una
prueba tendente a determinar su coeficiente intelectual.
c) Ser bebedor y ser fumador.
Determine y calcule en cada caso el índice adecuado que permite medir el grado de relación entre las variables
descritas.
Regresión y correlación (F. Álvarez) - 31
(I)
Puntos
test
[ 0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
Sexo
Hombre
Mujer
0
2
5
3
11
9
20
22
14
9
6
6
(II)
Alumno
Nota media
C.I.
1
2º
3º
2
4º
4º
3
5º
6º
4
1º
1º
Sí
No
Fuman
Sí
No
4
31
41
14
(III)
Beben
5
6º
5º
6
3º
2º
7
La proporción de varianza residual, en un ajuste de Y sobre X, es del 22'12%.
a)
Determine dicha recta de ajuste sabiendo que a una puntuación directa X=2 corresponde una
predicción 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3).
b)
Calcule el coeficiente de correlación.
c)
¿ Qué pronóstico diferencial corresponde a una puntuación directa X=5, si X = 0 ?.
8
En el estudio de la relación lineal existente entre dos variables X e Y se observó que eran independientes.
Sabiendo que sus respectivas medias son iguales a 2 y 1, y que tienen por varianzas 0'1538 y 0'6154,
a)
calcule las ecuaciones de las dos rectas de regresión
b)
determine el error típico de la predicción.
9
De los cálculos realizados para estudiar la relación existente entre las variables X e Y, se conoce que :
- la recta de ajuste de Y sobre X pasa por el punto (2,2)
- las media de X es igual a 1 y la de Y vale 4
- la varianza de la variable dependiente es igual a 2'2857, y la de las predicciones es 1'9047.
A la vista de estos datos, calcule :
a)
Ecuaciones de las dos rectas de regresión en puntuaciones directas, diferenciales y típicas.
b)
Proporción de varianza no asociada a X.
10
Determinar las ecuaciones en puntuaciones diferenciales de las rectas de regresión correspondientes a la
distribución bivariante (X,Y), sabiendo que las varianzas de ambas variables son 4 y 9 respectivamente y que
existe una relación lineal perfecta y directa entre ellas.
11
En el estudio de la relación lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas
0 y 2 de X le corresponden unos pronósticos respectivos 3’3243 y 7’7567. Sabiendo que la proporción de
varianza asociada al ajuste es del 94’65% y que la variable dependiente tiene por media 8’2 y varianza 15’36,
calcular :
a) Ecuación de la recta de ajuste.
b) Coeficiente de correlación.
c) Media y varianza de la variable X.
d) Varianza residual y de las predicciones.
12
Analizamos las edades de 8 personas que acuden a un examen para la obtención del carnet de conducir.
Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 años,
determine el coeficiente más adecuado para medir el grado de relación de la edad con la superación o no del
examen.
13
Para los siguientes pares de valores de las variables X e Y :
(12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 6’5) , (14 , 2) , (11, 8’5) , (12, 3) , (14 , 1’5) , (10, 9) , ( 11, 7)
calcular la proporción de varianza que explica el ajuste de Y sobre X.
14
X
Y
f
0
-6
3
1
-2
6
1
-1
11
1
1
16
32 - Regresión y correlación (F. Álvarez)
2
3
3
3
8
1
3
9
4
5
12
2
Determine la varianza de los errores y de las
predicciones, correspondientes al ajuste de Y
sobre X en la distribución anterior.
15
En un grupo de 10 alumnos se han obtenido las calificaciones en Anatomía, separando el ejercicio teórico del
práctico. El profesor encargado ordenó tales calificaciones de mayor a menor puntuación, encontrando los
resultados siguientes :
Alumno
Clasificación teoría
Clasificación práctica
1
6
6
2
2
10
3
7
4
4
10
3
5
4
9
6
1
7
7
8
2
8
5
5
9
9
1
10
3
8
Elija y calcule el índice de correlación adecuado para medir si existe relación o no entre las calificaciones en las
dos partes del examen.
16
Para los valores 0 y 2 de la variable X se obtuvieron unos pronósticos de la variable dependiente iguales a
6’8617 y 14’0531 respectivamente.
Sabiendo que la proporción de varianza de la variable Y no asociada a la variación de X es del 17’32%, y la
varianza de la variable independiente es 2’9375, calcular :
a) la ecuación de la recta de regresión de Y sobre X.
b) la varianza de las puntuaciones pronosticadas y la varianza residual.
c) el coeficiente de correlación entre X e Y
17
Y
X
0
1
2
1
6
0
2
2
8
7
0
3
3
10
5
4
0
1
8
5
1
0
6
Con la presente distribución bivariante obtenga :
a) recta de regresión de la media de Y condicionada a X
b) coeficiente de correlación de la media de Y condicionada a X
c) recta de regresión de Y sobre X
d) coeficiente de correlación lineal (de Y sobre X)
e) razón de correlación.
f) Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razón de correlación calculada.
18
Determine y calcule en cada uno de los siguioentes supuestos, el índice adecuado (no basado en el concepto
de correlación de Pearson) que permita medir el grado de asociación entre las variables X e Y.
(I)
Y
X
-2
-1
0
1
2
0
6
4
2
0
1
1
1
4
6
5
8
(II) (ordinales)
X
Y
A
C
B
F
C
D
D
E
1
0
1
2
50
(III)
E
A
F
B
Y
X
0
40
8
Regresión y correlación (F. Álvarez) - 33
SOLUCIONES DE LOS EJERCICIOS PROPUESTOS
1
s 2X = 0'7456
X = 5'12
a) b = 1'133
b) r = 0'909
c) 1 - r2 = 0'1737
s 2Y = 1'1584
Y = 1'96
s XY = 0'8448
y' = 1'133 . x
zy' = 0'909 . zx
La proporción de varianza no explicada por X supone el 17'37% de la de Y.
2
s 2X = 0'5216
X = 1'28
a) a = 2'6871
b) R2 = r2 = 0'5711
c) s 2 = 1'5097
Y.X
s 2Y = 3'52
Y = 5'2
s XY = 1'024
Y' = 2'6871 + 1'9632 . X
b = 1'9632
Representa la proporción de varianza de Y explicada por X (el 57'11%)
3
s 2X = 8'25
X = 5'5
a) a = 1'9333
b) r = 0'8188
c) R2 = r2 = 0'6704
d)
Y ' = Y = 4’05
s 2Y = 1'8225
Y = 4'05
s XY = 3'175
Y' = 1'9333 + 0'3848 . X
b = 0'3848
Elevada relación entre las variables (de tipo directo)
s 2Y' = 1'2218
4
s 2X = 0'5714
X =4
a) f = 12
b) b = -0'9167
c) 1 - r2 = 0'4813
y' = -0'9167 . x
X = 16'375
s 2X = 14'3594
Y = 1'6508
s 2Y = 0'9257
s XY = -0'5238
Y = 1'525
s 2Y = 0'3994
s XY = 0'4656
5
a = 0'994
b = 0'0324
a' = 14'597
b' = 1'1659
r = 0'1944
y' = 0'0324 . x
zy' = 0'1944 . zx
a) Y' = 0'994 + 0'0324 . X
X' = 14'597 + 1'1659 . Y
x' = 1'1659 .y
zx' = 0'1944 . zy
Las variables no están relacionadas linealmente (son independientes)
b) r = 0'1944
6
(I)
Coeficiente biserial puntual
rbp = 0'0389
(II)
Coeficiente ρ de los rangos de Spearman
ρ = 0'8857
(III)
Coeficiente ϕ
ϕ = - 0'6154
7
a)
Y = 0'3 + 0'9 . X
a)
Y' = 1
b)
r = 0'8825
b)
sY.X = sY = 0'7845
c)
y' = 4'5
8
X' = 2
9
a) Y' = 6 - 2 . X
X' = 2'6667 - 0'4167 . Y
b) 1 - r2 = 0'1667
10
y' = 1'5 . x
x' = 0'6667 . y
34 - Regresión y correlación (F. Álvarez)
y' = -2 . x
x' = -0'4167 .y
zy' = -0'9129 . zx
zx' = -0'9129 . zy
11
a)
b)
c)
d)
Y’ = 3’3243 + 2’2162.X
0’9729
2’2, 2’96
0’8216, 14’5384
12
rbp = 0’56
13
0’8331
(o bien el 83’31%)
14
1’9543 ; 15’5069
15
ρ = -0’8667
16
a)
b)
c)
Y’ = 6’8617 + 3’5957 . X
39’98 y 7’96
0’9093
a)
b)
c)
d)
e)
YM’ = 1'9317 + 0'9049 . X
rM = 0'9924
Y’ = 1'9268 + 0'8862 . X
r = 0'6067
η2 = 0’3749 (próximo a r2 = 0'3681)
17
18
(I)
Coeficiente biserial
rb = - 0'7250
(II)
Coeficiente τ de Kendall
τ = - 0'3333
(III)
Coeficiente tetracórico
rt = - 0'7744
Regresión y correlación (F. Álvarez) - 35
Cálculo del coeficiente de correlación biserial
La tabla proporciona, para el menor de los valores p y q, la cantidad :
min(p,q)
0'00
0'01
0'02
0'03
0'04
0'05
0'06
0'07
0'08
0'09
0'10
0'11
0'12
0'13
0'14
0'15
0'16
0'17
0'18
0'19
0'20
0'21
0'22
0'23
0'24
0'25
0'26
0'27
0'28
0'29
0'30
0'31
0'32
0'33
0'34
0'35
0'36
0'37
0'38
0'39
0'40
0'41
0'42
0'43
0'44
0'45
0'46
0'47
0'48
0'49
0'50
0'000
0'37186
0'40502
0'42781
0'44569
0'46061
0'47349
0'48487
0'49508
0'50435
0'51284
0'52066
0'52791
0'53465
0'54096
0'54686
0'55240
0'55762
0'56253
0'56716
0'57154
0'57568
0'57958
0'58328
0'58677
0'59007
0'59319
0'59614
0'59892
0'60154
0'60401
0'60633
0'60851
0'61055
0'61245
0'61422
0'61586
0'61738
0'61878
0'62006
0'62122
0'62226
0'62319
0'62401
0'62471
0'62531
0'62579
0'62617
0'62644
0'62660
0'62666
p.q
f ( z)
0'001
0'002
0'003
0'004
0'005
0'006
0'007
0'008
0'009
0'29788
0'37603
0'40762
0'42977
0'44729
0'46198
0'47469
0'48594
0'49605
0'50523
0'51365
0'52141
0'52860
0'53530
0'54156
0'54743
0'55294
0'55812
0'56301
0'56761
0'57196
0'57608
0'57996
0'58364
0'58711
0'59039
0'59350
0'59643
0'59919
0'60180
0'60425
0'60656
0'60872
0'61074
0'61263
0'61439
0'61602
0'61753
0'61891
0'62018
0'62133
0'62236
0'62328
0'62408
0'62478
0'62536
0'62584
0'62620
0'62646
0'62661
0'31576
0'37994
0'41014
0'43169
0'44887
0'46333
0'47587
0'48700
0'49701
0'50611
0'51445
0'52215
0'52929
0'53595
0'54217
0'54800
0'55347
0'55862
0'56348
0'56806
0'57239
0'57647
0'58034
0'58399
0'58745
0'59071
0'59380
0'59671
0'59946
0'60205
0'60449
0'60678
0'60893
0'61094
0'61281
0'61456
0'61618
0'61767
0'61904
0'62030
0'62143
0'62245
0'62336
0'62416
0'62484
0'62541
0'62588
0'62623
0'62648
0'62662
0'32772
0'38363
0'41257
0'43357
0'45042
0'46466
0'47704
0'48804
0'49795
0'50697
0'51525
0'52289
0'52998
0'53659
0'54277
0'54856
0'55400
0'55912
0'56395
0'56850
0'57281
0'57687
0'58071
0'58435
0'58778
0'59103
0'59410
0'59699
0'59973
0'60230
0'60472
0'60700
0'60913
0'61113
0'61299
0'61473
0'61633
0'61781
0'61917
0'62042
0'62154
0'62255
0'62345
0'62423
0'62490
0'62547
0'62592
0'62626
0'62650
0'62663
0'33699
0'38712
0'41493
0'43540
0'45195
0'46597
0'47820
0'48908
0'49889
0'50783
0'51604
0'52362
0'53066
0'53723
0'54336
0'54912
0'55453
0'55962
0'56442
0'56895
0'57322
0'57726
0'58109
0'58470
0'58811
0'59134
0'59439
0'59727
0'59999
0'60255
0'60496
0'60722
0'60934
0'61132
0'61317
0'61489
0'61649
0'61796
0'61930
0'62053
0'62165
0'62264
0'62353
0'62430
0'62496
0'62552
0'62596
0'62629
0'62652
0'62664
0'34469
0'39044
0'41722
0'43720
0'45345
0'46726
0'47934
0'49011
0'49982
0'50868
0'51682
0'52435
0'53134
0'53786
0'54396
0'54967
0'55505
0'56011
0'56488
0'56938
0'57364
0'57766
0'58146
0'58505
0'58845
0'59166
0'59469
0'59755
0'60025
0'60280
0'60519
0'60744
0'60954
0'61151
0'61335
0'61506
0'61664
0'61810
0'61943
0'62065
0'62175
0'62274
0'62361
0'62437
0'62502
0'62556
0'62600
0'62632
0'62654
0'62664
0'35133
0'39360
0'41945
0'43897
0'45492
0'46854
0'48047
0'49112
0'50074
0'50953
0'51760
0'52507
0'53201
0'53849
0'54454
0'55023
0'55557
0'56060
0'56534
0'56982
0'57405
0'57805
0'58182
0'58540
0'58878
0'59197
0'59498
0'59783
0'60051
0'60304
0'60542
0'60765
0'60975
0'61170
0'61353
0'61522
0'61679
0'61824
0'61956
0'62077
0'62186
0'62283
0'62369
0'62444
0'62508
0'62561
0'62603
0'62635
0'62655
0'62665
0'35722
0'39663
0'42162
0'44069
0'45638
0'46980
0'48159
0'49213
0'50166
0'51036
0'51838
0'52579
0'53268
0'53911
0'54513
0'55078
0'55609
0'56109
0'56580
0'57025
0'57446
0'57843
0'58219
0'58574
0'58910
0'59228
0'59528
0'59811
0'60077
0'60329
0'60565
0'60787
0'60995
0'61189
0'61370
0'61538
0'61694
0'61837
0'61969
0'62088
0'62196
0'62292
0'62377
0'62451
0'62514
0'62566
0'62607
0'62637
0'62657
0'62665
0'36253
0'39954
0'42373
0'44239
0'45781
0'47105
0'48270
0'49312
0'50256
0'51120
0'51914
0'52650
0'53334
0'53973
0'54571
0'55132
0'55660
0'56157
0'56626
0'57069
0'57487
0'57882
0'58256
0'58609
0'58943
0'59258
0'59557
0'59838
0'60103
0'60353
0'60588
0'60808
0'61015
0'61208
0'61388
0'61554
0'61709
0'61851
0'61981
0'62099
0'62206
0'62301
0'62385
0'62458
0'62520
0'62571
0'62611
0'62640
0'62658
0'62665
0'36738
0'40233
0'42579
0'44406
0'45922
0'47228
0'48379
0'49411
0'50346
0'51202
0'51990
0'52721
0'53400
0'54034
0'54629
0'55186
0'55711
0'56205
0'56671
0'57111
0'57527
0'57920
0'58292
0'58643
0'58975
0'59289
0'59585
0'59865
0'60129
0'60377
0'60611
0'60830
0'61035
0'61226
0'61405
0'61570
0'61724
0'61865
0'61993
0'62111
0'62216
0'62310
0'62393
0'62465
0'62525
0'62575
0'62614
0'62642
0'62659
0'62666
36 - Regresión y correlación (F. Álvarez)
PROBABILIDAD
Métodos Estadísticos Aplicados a las Auditorías Sociolaborales
Francisco Álvarez González
[email protected]
REPASO DE COMBINATORIA
VARIACIONES ORDINARIAS
Características :
No se pueden repetir los elementos
El orden de colocación de los elementos tiene influencia.
VARIACIONES CON REPETICIÓN
Características :
Vn, p =
Número :
VRn, p = n p
Número :
⎛n⎞
n!
Cn, p = ⎜⎜ ⎟⎟ =
⎝ p ⎠ p!.(n − p )!
Se pueden repetir los elementos
El orden de colocación de los elementos tiene influencia.
COMBINACIONES ORDINARIAS
Características :
No se pueden repetir los elementos
El orden de colocación de los elementos no influye.
n!
(n − p )!
Número :
NOTA : Factorial de un número n = n! = n.(n-1).(n-2). ... . 2 . 1
5! = 5.4.3.2.1 = 120
0! = 1
SUCESOS ALEATORIOS
EXPERIENCIA ALEATORIA es aquella que no está sometida a una ley concreta. Su ocurrencia sólo depende del azar.
ESPACIO MUESTRAL (E) es el conjunto de las posibles ocurrencias (sucesos elementales) de una experiencia
aleatoria.
SUCESO ALEATORIO es cualquier subconjunto o parte del espacio muestral.
OPERACIONES :
UNIÓN DE SUCESOS
A∪B
AoB
INTERSECCIÓN DE SUCESOS
A∩B
AyB
SUCESO CONTRARIO
A
no A
SUCESOS ESPECIALES :
SUCESO SEGURO
E
siempre se verifica
SUCESO IMPOSIBLE
φ
nunca se verifica
SUCESOS COMPATIBLES
A∩B≠φ
tienen algo en común
SUCESOS INCOMPATIBLES
A∩B=φ
no tienen nada en común
EJEMPLO :
Lanzar un dado es una experiencia aleatoria (nunca podremos asegurar el valor que se obtiene al lanzarlo). El conjunto
de las posibles ejecuciones constituye el espacio muestral E = { 1, 2, 3, 4, 5, 6 } .
A ∪ B = { 2 , 3 , 4, 6 }
A = { salga cifra par } = { 2 , 4 , 6 }
A∩B={6}
B = { ser múltiplo de 3 } = { 3 , 6 }
A = { salga cifra impar } = { 1 , 3 , 5 }
C = { ser múltiplo de 5 } = { 5 }
A y B son compatibles A ∩ B = { 3 } ≠ φ
A y C son incompatibles A ∩ C = φ
PROBABILIDAD
DEFINICIÓN :
Probabilidad es una ley que asocia a cada suceso un valor numérico, sometida a las siguientes condiciones :
1ª
La probabilidad siempre estará comprendida entre 0 y 1 :
0 ≤ Pr(A) ≤ 1
2ª
La probabilidad del suceso seguro es igual a 1 :
Pr(E) = 1
3ª
Axioma de probabilidades totales :
Si dos sucesos A y B son incompatibles ( A ∩ B = φ ) , se verifica que Pr(A ∪ B) = Pr(A) + Pr(B)
PROPIEDADES ELEMENTALES :
I.
Pr (A) = 1 - Pr( A )
II.
La probabilidad del suceso imposible es igual a 0 :
Pr(φ) = 0
Probabilidad (F. Álvarez) - 1
REGLA DE LAPLACE :
La probabilidad de un suceso es el cociente entre el número de situaciones en que puede presentarse dicho
suceso y el número total de situaciones posibles.
TEOREMA DE PROBABILIDADES TOTALES :
Pr(A ∪ B) = Pr(A) + Pr(B) - Pr(A ∩ B)
Generalizando :
Pr( A 1 ∪ A 2 ∪ A 3 ∪ ... ) =
∑ Pr( A ) − ∑ Pr( A
i
i
∪ Aj ) +
∑ Pr( A
i
∪ A j ∪ A k ) − ...
Así, por ejemplo :
Pr(A∪B∪C∪D) =
Pr(A) + Pr(B) + Pr(C) + Pr(D) - Pr(A∩B) - Pr(A∩C) - Pr(A∩D) - Pr(B∩C) - Pr(B∩D) - Pr(C∩D) +
+ Pr (A∩B∩C) + Pr (A∩B∩D) + Pr(A∩C∩D) + Pr(B∩C∩D) - Pr(A∩B∩C∩D)
PROBABILIDAD CONDICIONADA. TEOREMA DE PROBABILIDADES COMPUESTAS :
B/A = suceso B condicionado al A ( ocurrir B habiendo ocurrido A ).
Pr( B / A ) =
Generalizando :
Pr( A ∩ B )
Pr( A )
Pr( A ∩ B ) = Pr( A ).Pr( B / A )
Pr( A 1 ∩ A 2 ∩ A 3 ∩ ... ) = Pr( A 1 ).Pr( A 2 / A 1 ).Pr( A 3 / A 1 ∩ A 2 ). ...
TEOREMA DE BAYES :
Sean n causas independientes Ai con probabilidades
Pr(Ai) conocidas y sea B un suceso que puede
presentarse en cada una de ellas, siendo conocidas las
probabilidades Pr(B/Ai).
Se verifica entonces que :
Pr( A k / B ) =
Pr( A k ).Pr( B / A k )
n
∑ Pr( A ).Pr( B / A )
i
i=1
2 - Probabilidad (F. Álvarez)
i
EJERCICIOS RESUELTOS
1
Al extraer al azar una ficha del juego del dominó, calcular la probabilidad de que sume un número de
puntos múltiplo de 3.
En situaciones como la presente nos vemos obligados a desarrollar el espacio muestral, contando, posteriormente, las
situaciones que se ajustan al problema (casos favorables).
Probabilidad
múltiplo de 3
0'32143
de
sumar
= 9 / 28 =
2
Al lanzar al aire cuatro monedas, calcular la probabilidad de obtener al menos dos caras.
En este caso podríamos contar las distintas situaciones, si bien puede efectuarse un desarrollo previo del espacio
muestral :
CCCC
CCC+
CC++
C+++
++++
CC+C
C+C+
+C++
C+CC
C++C
++C+
+CCC
+CC+
+++C
+C+C
++CC
Se obtienen 4 caras
Se obtienen 3 caras y 1 cruz
Se obtienen 2 caras y 2 cruces
Se obtienen 1 cara y 3 cruces
Se obtienen 4 cruces
Del total de 16 situaciones posibles, en 11 de ellas se obtienen al menos dos caras. Así : Pr = 11/16 = 0'6875
Sin proceder al desarrollo de todas las posibilidades :
a)
Situaciones posibles : VR2,4 = 24 = 16
b)
Se obtienen cuatro caras en 1 solo caso
Se obtienen tres caras en C4,3 = 4 casos
Se obtienen tres caras en C4,2 = 6 casos
3
Una caja contiene seis bolas blancas, tres rojas y dos negras. Al extraer simultáneamente dos bolas de
ella, calcular la probabilidad de que sean :
a)
las dos blancas
b)
las dos del mismo color
⎛ 6⎞
⎜⎜ ⎟⎟
2
15
Pr(a ) = ⎝ ⎠ =
= 0'2727
⎛11⎞ 55
⎜⎜ ⎟⎟
⎝2⎠
⎛ 6⎞ ⎛ 3⎞ ⎛ 2⎞
⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟
2
2
2
19
Pr(b) = ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ =
= 0'3453
55
⎛11⎞
⎜⎜ ⎟⎟
⎝2⎠
4
Una caja contiene seis bolas blancas (B), tres rojas (R) y dos negras (N). Al extraer sucesivamente dos
bolas de ella, calcular la probabilidad de que sean de distinto color:
a)
supuesta la extracción con devolución de la bola extraída
b)
supuesta la extracción sin devolución de la bola extraída
Las posibles situaciones que se ajustan al problema son : BR , BN , RB , RN , NB , NR
a)
Pr =
6 3
6 2
3 6
3 2
2 6
2 3
72
. + . + . + . + . + . =
= 0' 595
11 11 11 11 11 11 11 11 11 11 11 11 121
Probabilidad (F. Álvarez) - 3
b)
Pr =
6 3
6 2
3 6
3 2
2 6
2 3
72
. + . + . + . + . + .
=
= 0' 6545
11 10 11 10 11 10 11 10 11 10 11 10 110
5
La siguiente tabla nos muestra la distribución del alumnado de un Centro en función del curso y del
sexo.
Hombre
Mujer
Seleccionado un alumno al azar, calcular la probabilidad
1º
15
25
a) de que sea mujer o estudie 2º
2º
10
30
b) de que no estudie 1º y sea hombre
3º
25
45
c) de que sea mujer sabiendo que no es de 2º
b)
a)
Pr =
c)
110
= 0' 733
150
Pr =
35
= 0' 233
150
Pr =
70
= 0' 6364
110
6
Al extraer simultáneamente tres cartas de la baraja española, calcular la probabilidad de que :
a)
todas sean de oros
b)
al menos dos sean figuras
c)
sean del mismo palo
d)
sean de distinto palo
e)
no sean del mismo palo
a) Las tres de oros :
⎛10 ⎞
⎜⎜ ⎟⎟
3
Pr = ⎝ ⎠
b) Dos figuras o tres figuras :
⎛12 ⎞ ⎛ 28 ⎞ ⎛12 ⎞
⎜⎜ ⎟⎟.⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟
2
1
3
Pr = ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
c)
Las
tres
de
oros
o
⎛10 ⎞ ⎛10 ⎞ ⎛10 ⎞ ⎛10 ⎞
⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟
3
3
3
3
Pr = ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
⎛ 40 ⎞
⎜⎜ ⎟⎟
⎝3⎠
de
⎛ 40 ⎞
⎜⎜ ⎟⎟
⎝3⎠
=
120
= 0'0121
9880
⎛ 40 ⎞
⎜⎜ ⎟⎟
⎝3⎠
copas
=
=
2068
= 0'2093
9880
o
de
espadas
o
de
bastos
:
480
= 0'0486
9880
Antes de efectuar lo solicitado en los apartados d) y e) , veamos su diferencia. Ser de distinto palo significa que,
por ejemplo, una sea de oros, otra de espadas y otra de bastos. No ser del mismo palo se presenta cuando, por
ejemplo, dos son de oros y la otra de copas.
El apartado d) se verifica al obtener :
oro-copa-espada ; oro-copa-basto ; oro-espada-basto ; copa-espada-basto.
El apartado e) es aconsejable resolverlo a partir del suceso contrario (ser del mismo palo).
d)
⎛ ⎛10 ⎞ ⎛10 ⎞ ⎛10 ⎞
⎞
⎜ ⎜⎜ ⎟⎟.⎜⎜ ⎟⎟.⎜⎜ ⎟⎟
⎟
1 ⎠⎝ 1 ⎠⎝ 1 ⎠
⎜
⎟ = 4000 = 0'4049
⎝
Pr = 4.⎜
⎛ 40 ⎞ ⎟ 9880
⎜⎜ ⎟⎟ ⎟⎟
⎜⎜
⎝ 3 ⎠⎠
⎝
e)
Pr = 1 - Pr(ser del mismo palo) = 1 - 0'0486 = 0'9514
4 - Probabilidad (F. Álvarez)
7
Una rata se mueve libremente por los compartimentos dibujados en
el esquema de la izquierda. Supuesto que parte inicialmente del
identificado con el número 1, calcular :
a)
probabilidad de que alcance el compartimento 4, después
de realizar tres desplazamientos.
b)
probabilidad de que alcance un compartimento par
después de realizar tres desplazamientos, sabiendo que el primer
desplazamiento lo hace al compartimento 2.
a)
Desplazamientos posibles
Probabilidad
1 1 1
. .
3 4 4
1 1 2
. .
3 4 3
2 1 1
. .
3 3 4
2 2 2
. .
3 3 3
1-2 ; 2-5 ; 5-4
1-2 ; 2-1 ; 1-4
1-4 ; 4-5 ; 5-4
1-4 ; 4-1 ; 1-4
Total
1 1 1 1 1 2 2 1 1 2 2 2
. . + . . + . . + . .
3 4 4 3 4 3 3 3 4 3 3 3
Pr = 0'4282
b)
Si observamos las distintas posibilidades, siempre se acaba en un compartimento par. La probabilidad es pues
igual a 1.
Si no se advierte tal circunstancia, el problema se traduce en alcanzar un compartimento par, partiendo del 2,
en dos desplazamientos.
Desplazamientos
2-1 ; 1-2
2-3 ; 3-2
2-5 ; 5-2
2-1 ; 1-4
2-3 ; 3-6
2-5 ; 5-4
2-5 ; 5-6
Pr =
1 1 2 2 1 1 1 2 2 2 1 1 1 2 4 + 12 + 3 + 8 + 12 + 3 + 6 48
. + . + . + . + . + . + . =
=
=1
4 3 4 4 4 4 4 3 4 4 4 4 4 4
48
48
8
La tabla nos muestra la distribución final del
alumnado de Bachillerato.
a)
Hallar la probabilidad de que un
alumno no apruebe todas las asignaturas o sea
en la actualidad de 2º de BUP.
Si un cierto alumno debe repetir curso, calcule la probabilidad de que actualmente sea de 2º de
b)
BUP.
c)
Preguntamos a los tres primeros alumnos que salen del Centro. Hallar la probabilidad de que
sean del mismo curso.
a)
Pr =
140
= 0' 667
210
b)
Pr =
18
= 0' 4186
43
Probabilidad (F. Álvarez) - 5
Por las características del enunciado, puede
pensarse en una aplicación del Teorema de Bayes.
Resuelto por este método, el suceso B es repetir
curso y los sucesos A1 , A2 y A3 , ser de 1º, de 2º
y de 3º respectivamente.
La probabilidad se calcularía :
70
210
15
Pr( B / A 1 ) =
70
70
70
Pr( A 3 ) =
210
210
18
10
Pr( B / A 2 ) =
Pr( B / A 3 ) =
70
70
70 18
.
18
210 70
Pr( A 3 / B ) =
=
= 0' 4186
70 15 70 18 70 10 43
. +
. +
.
210 70 210 70 210 70
Pr( A 1 ) =
c)
Pr( A 2 ) =
Probabilidad de ser los tres de 1º o de 2º o de 3º :
Pr =
70 69 68
70 69 68
70 69 68
70 69 68
.
.
+
.
.
+
.
.
= 3.
.
.
= 0' 1079
210 209 208 210 209 208 210 209 208
210 209 208
9
Una experiencia consiste en lanzar una bola por el laberinto inclinado de la figura.
Hallar la probabilidad de que :
a)
b)
c)
la bola no salga por B .
la bola salga por C , sabiendo que pasó por la bifurcación 2 .
la bola pase por la bifurcación 3 .
Indicamos a-b el paso desde el nudo o bifurcación a a la b.
a)
Determinemos la probabilidad del suceso contrario (salir por B). Esto se produce si la bola realiza el recorrido
( 1-2 ; 2-4 ; 4-B ) o bien el ( 1-2 ; 2-5 ; 5-B ). La probabilidad pedida es :
⎡⎛ 1 1 1 ⎞ ⎛ 1 1 1 ⎞⎤
Pr( B ) = 1 − Pr( B) = 1 − ⎢⎜ . . ⎟ + ⎜ . . ⎟⎥ = 0'75
⎣⎝ 2 2 2 ⎠ ⎝ 2 2 2 ⎠⎦
b)
El camino recorrido será ( 2-5 ; 5-C ). La probabilidad pedida es :
Pr =
c)
1 1
. = 0' 25
2 2
Al salir de 1, la bola puede pasar por 2 o por 3. La probabilidad pedida es :
Pr =
1
= 0' 5
2
10
Una fábrica funciona las 24 horas del día con tres turnos de 30 trabajadores cada uno. En el primer
turno el 40 % son mujeres; en el segundo hay 18 mujeres y, en el tercero, sólo el 10 % son mujeres.
a)
Seleccionadas al azar dos fichas de empleados de la fábrica (de forma simultánea), determine
la probabilidad de que pertenezcan a trabajadores del mismo turno.
b)
Tomamos una ficha al azar y corresponde a una mujer. Calcule la probabilidad de que sea la de
una de las que trabajan en el turno 3º.
Detallemos previamente el número de mujeres y hombres de cada turno, sabiendo que en total hay 30 :
Turno 1º
Turno 2º
Turno 3º
12
18
3
Mujeres
18
12
27
Hombres
a)
Probabilidad de ser ambos del turno 1º o del 2º o del 3º :
6 - Probabilidad (F. Álvarez)
⎛ 30 ⎞ ⎛ 30 ⎞ ⎛ 30 ⎞
⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟
2
2
2
Pr = ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
1305
=
= 0'3259
90
⎛ ⎞ 4005
⎜⎜ ⎟⎟
⎝2⎠
b)
Nos encontramos en este caso en una aplicación del Teorema de Bayes.
El suceso B que conocemos se ha presentado es B = ser mujer. Tal suceso se puede dar o puede proceder
del primer turno (A1), del 2º (A2) o del 3º (A3).
30 1
=
90 3
18
Pr( B / A 2 ) =
30
Pr( A 1 ) = Pr( A 2 ) = Pr( A 3 ) =
Pr( B / A 1 ) =
12
30
3
30
1 3
.
3
3 30
=
= 0' 0909
Pr( A 3 / B ) =
1 12 1 18 1 3
33
+ .
+ .
.
3 30 3 30 3 30
La probabilidad pedida es :
Pr( B / A 3 ) =
11
Disponemos de tres urnas con la distribución de bolas
blancas y rojas indicada en el gráfico de la izquierda.
a) Extraída una bola de una de las urnas, hallar la probabilidad de que sea blanca.
b) Extraída una bola de una de las urnas resultó ser blanca, hallar la probabilidad de que proceda de la 2ª
urna.
a)
La pregunta es preciso detallarla con mayor precisión. Se trata de elegir la 1ª urna y extraer bola blanca o
seleccionar la 2ª y extraer bola blanca o seleccionar la 3ª y extraer bola blanca. Con esto, la probabilidad pedida será :
Pr =
1 2 1 4 1 3 9
. + . + . =
= 0' 6
3 5 3 5 3 5 15
b)
Aplicación del Teorema de Bayes.
El suceso B que conocemos se ha presentado es B = ser blanca. Tal suceso se puede dar o puede proceder
de la primera urna (A1), de la 2ª (A2) o de la 3ª (A3).
Pr( A 1 ) = Pr( A 2 ) = Pr( A 3 ) =
Pr( B / A 1 ) =
2
5
1
3
Pr( B / A 2 ) =
La probabilidad pedida es :
4
5
3
5
1 4
.
4
3 5
= = 0' 444
Pr( A 2 / B ) =
1 2 1 4 1 3 9
. + . + .
3 5 3 5 3 5
Pr( B / A 3 ) =
Sería correcto, en este caso, resolver el problema en base al conocimiento simple de que la bola extraída es
blanca.
La probabilidad de que proceda de la 2ª urna (teniendo en cuenta que hay 2 bolas blancas en la 1ª, 4 en la 2ª y
3 en la 3ª) sería igualmente:
Pr( A 2 / B ) =
4
4
= = 0' 444
2+ 4+ 3 9
12
Un arquero acierta en el centro de una diana en 7 de cada 10 lanzamientos. Calcule la probabilidad de
dar en el centro de la diana si dispara 6 flechas.
Al realizar los 6 disparos puede que dé en el centro de la diana 1, 2, ... , 6 veces. Se trata de calcular la probabilidad de
dar en el centro de la diana alguna vez. Es decir, lo contrario de no dar en ninguna ocasión.
La probabilidad de dar en el centro de la diana, en cada disparo, es 7/10 = 0'7. La de no dar : 3/10=0'3.
⎛3 3 3 3 3 3⎞
Pr(dar algunavez) = 1 − Pr(nodar ) = 1 − ⎜ . . . . . ⎟ = 1 − 0'36 = 0'999271
⎝ 10 10 10 10 10 10 ⎠
Probabilidad (F. Álvarez) - 7
13
En las pruebas de acceso a la Universidad, el 45% son alumnos de la opción A, el 10% de la B, el 30%
de la C y el resto de la opción D. Se sabe que aprueban el 80% de los alumnos de la opción A, la mitad
de los que cursaron las opciones C y D y el 60% de los de la opción B.
Si un cierto alumno aprobó la prueba, calcule la probabilidad de haber cursado la opción C.
Ejemplo clásico de aplicación del Teorema de Bayes.
El suceso B que conocemos se ha presentado es B = aprobar la prueba. Tal suceso se puede dar o puede proceder
de la opción A (A1), de la B (A2), de la C (A3) o de la D (A4).
Pr( A 1 ) = 0' 45
Pr( A 2 ) = 0' 10
Pr( A 3 ) = 0' 30
Pr( A 4 ) = 0' 15
Pr( B / A 1 ) = 0' 80
Pr( B / A 2 ) = 0' 60
Pr( B / A 3 ) = 0' 50
Pr( B / A 4 ) = 0' 50
La probabilidad pedida es :
Pr( A 3 / B ) =
0' 30 . 0' 50
0' 15
=
= 0' 23256
0' 45 . 0' 80 + 0' 10 . 0' 60 + 0' 30 . 0' 50 + 0' 15 . 0' 50 0' 645
14
En un examen de Psicología Matemática I se les proponen a los alumnos tres problemas (A, B y C), de
los que han de elegir uno. La mitad de los alumnos eligen el problema A, y de éstos aprueban el 60%. El
30% eligen el B, suspendiendo el 25%. Por último, entre los que eligen el C aprueban el 30%.
a) Considerando a todos los alumnos, ¿ cuál es la probabilidad de aprobar el examen ?.
b) Sabiendo que un alumno ha aprobado, ¿ cuál es la probabilidad de que haya elegido el problema A
?.
c) Sabiendo que un alumno suspendió, ¿ cuál es la probabilidad de que haya elegido el problema C ?.
El problema puede resolverse siguiendo dos procedimientos:
1º.- Utilizando propiedades del cálculo de probabilidades (especialmente el Teorema de Bayes).
2º.- Aplicando el puro y simple sentido común. Para ello es aconsejable exponer de forma clara los datos del
problema:
A
Aprueban
Suspenden
TOTAL
60% de 50
40% de 50
50%
B
30
20
50
75% de 30
25% de 30
30%
C
22’5
7’5
30
30% de 20
70% de 20
20%
6
14
20
Método 1º :
a)
0’30 =
b)
Pr(aprobar) = Pr(elegir A y aprobar o elegir B y aprobar o elegir C y aprobar) = 0’50 . 0’60 + 0’30 . 0’75 + 0’20 .
= 0’585.
Teorema de Bayes :
Pr( A ).Pr( aprobado / A )
=
Pr( A ).Pr( aprobado / A ) + Pr( B ).Pr( aprobado / B ) + Pr( C).Pr( aprobado / C)
0'50.0'60
0'30
=
= 0'5128
=
0'50.0'60 + 0'30.0'75 + 0'20.0'30 0'585
Pr( A / aprobado ) =
c)
Teorema de Bayes :
Pr( C). Pr( suspenso / C)
=
Pr( A ). Pr( suspenso / A ) + Pr( B ). Pr( suspenso / B ) + Pr( C). Pr( suspenso / C)
0'20.0'70
0'14
=
= 0'3373
=
0'50.0'40 + 0'30.0'25 + 0'20.0'70 0'415
Pr( C / suspenso ) =
Método 2º :
a)
b)
c)
Pr(aprobar) = (30+22’5+6) / 100 = 58’5 / 100 = 0’585.
Observando sólo los aprobados (en total 58’5) :
Pr(A/aprobó) = 30 / 58’5 = 0’5128
Observando sólo los suspensos (en total 41’5) :
Pr(C/suspendió) = 14 / 41’5 = 0’3373
15
La E.M.T. de Madrid dispone de 8 líneas de autobuses para ir de la ciudad al campus universitario.
Calcular de cuántas formas puede un estudiante hacer el viaje de ida y vuelta, si :
a) Los autobuses de ida y vuelta pueden ser de la misma o diferente línea.
b) Los autobuses de ida y vuelta han de ser de diferente línea.
c) Los autobuses de ida y vuelta han de ser de la misma línea.
a)
b)
8x8 = 64 (por cada línea de ida puede tomar las ocho de vuelta)
8x7 = 56 (por cada línea de ida puede tomar lsólo siete de vuelta)
8 - Probabilidad (F. Álvarez)
c)
8 (las ocho líneas)
16
Sabemos que de cada 10000 mujeres 25 sufren de daltonismo y 5 de cada 100 hombres también tienen
la misma anomalía. Suponiendo que existe igual número de hombres que de mujeres, y que elegimos
aleatoriamente de ésta una persona, ¿ cuál es la probabilidad de que sea varón, supuesto que sufre
daltonismo ?.
Daltónico
No daltónico
Hombre
500
9500
Mujer
25
9975
Trabajamos sobre 10000 individuos
Prob = 500 / 525 = 0’9524
17
En un experimento de condicionamiento se sitúa a una rata en el centro de un
laberinto como el de la figura. En cada uno de los ensayos la rata elige
siempre uno de los tres caminos (A, B, C) con igual probabilidad
(P(A)=P(B)=P(C)=1/3). El suelo de cada uno de estos tres caminos es una
rejilla eléctrica que dispensa una descarga (D) de 5V a la rata, una vez que lo
ha pisado, con distinta probabilidad : ¾ para A, ¼ para B y 0 para C.
En un determinado ensayo la rata no recibió la descarga eléctrica. ¿Cuál es la
probabilidad de que haya elegido el camino A ?. ¿Y el B ?. ¿Y el C ?
Teorema de Bayes. (B = NO recibir descarga)
P(A1) = P(A) = 1/3
P(A2) = P(B) = 1/3
P(A3) = P(C) = 1/3
1 1
.
3 4
= 0125
P(A1 / B) =
'
1 1 1 3 1
. + . + .1
3 4 3 4 3
P(B/A1) = 1/4
P(B/A2) = 3/4
P(B/A3) = 1
1 3
.
3 4
= 0'375
P(A 2 / B) =
1 1 1 3 1
. + . + .1
3 4 3 4 3
1
.1
3
= 0'5
P(A 3 / B) =
1 1 1 3 1
. + . + .1
3 4 3 4 3
Puede resolverse sin necesidad de aplicar el Teorema de Bayes. Sobre un total de 300 salidas o movimientos
de la rata, el problema plantea que
• sale 100 veces por cada camino (probabilidad = 1/3)
• recibe descarga : 75 veces en A (3/4 de 100) ; 25 veces en B (1/4 de 100) ; 0 veces en C
Descarga SI
75
25
0
100
Camino A
Camino B
Camino C
Luego :
Descarga NO
25
75
100
200
100
100
100
Pr(Camino A / NO descarga) = 25 / 200 = 0'125
Pr(Camino B / NO descarga) = 75 / 200 = 0'375
Pr(Camino C / NO descarga) = 100 / 200 = 0'5
18
Disponemos de dos métodos A y B para enseñar una cierta habilidad técnica. El 20% de los enseñados
con el método A y el 10% de los enseñados con el método B no aprenden la mencionada habilidad. No
obstante, el método B es más caro y se aplica sólo al 30% de las personas, mientras que el A se aplica
al 70%.
Una persona ha aprendido la habilidad, ¿ cuál es la probabilidad de que haya seguido el método A ?.
Aprende
No aprende
A
56
14
70
B
27
3
30
Trabajamos sobre 100 individuos
Prob = 56 / (56+27) = 0’6747
Probabilidad (F. Álvarez) - 9
19
Cierto profesor tiene por costumbre guardar todos los calcetines (limpios)en un cajón y cada mañana
elige consecutivamente al azar tres de ellos. Sólo tiene tres colores de calcetines: grises (G), azules (A)
y blancos (B). Si en las tres primeras extracciones los tres calcetines son de diferente color, decide no
ponérselos y se calza unas sandalias. Una mañana cualquiera tiene en el cajón 8 calcetines grises, 4
azules y 6 blancos.
a) ¿ Cuál es el espacio muestral de que dispone ese profesor esa mañana ?.
b) ¿ Cuál es la probabilidad de que esa mañana salga a la calle con sandalias ?.
c) ¿ Es igual la probabilidad de que saque dos calcetines grises y uno azul que la de que saque dos
grises y uno blanco ?. Calcule ambas probabilidades.
a)
b)
c)
E = { (GGG) , (GGA) , (GGB) , (GAA) , (GAB) , (GBB) , (AAA) , (AAB) , (ABB) , (BBB) }
8 4 5
. . = 0'1961
18 17 16
8 7 4
Pr(2G y 1A) = Pr(GGA o GAG o AGG) = 3. .
. = 0'1373
18 17 16
8 7 6
Pr(2G y 1B) = Pr(GGB o GBG o BGG) = 3. .
. = 0'2059
18 17 16
Pr(GAB o GBA o AGB o ABG o BAG o BGA) = 6.
20
Un profesor indeciso dispone de 5 problemas, de los que utilizará sólo dos, para elaborar un examen.
Los tres primeros corresponden a la primera parte y los dos siguientes a la segunda. Tampoco tiene
muy claro si dejar utilizar o no material didáctico a sus alumnos. Para resolver sus dudas utiliza una
urna que contiene tres bolas rojas, numeradas del 1 al 3, y dos blancas, numeradas con 4 y 5. Extrae al
azar, y sin reposición, dos bolas.
a) ¿ Cuál es la probabilidad de que los ejercicios sean de distinta parte ?.
b) Si los alumnos sólo pueden utilizar material cuando las bolas sean del mismo color, ¿ cuál es la
probabilidad de que puedan utilizarlo ?.
a)
b)
Pr(RB o BR) = 3/5 x 2/4 + 2/5 x 3/4 = 0’6
Pr(RR o BB) = 3/5 x 2/4 + 2/5 x 1/4 = 0’4
(o bien, utilizando el apartado anterior : 1 - 0’6 = 0’4)
21
De los 50 alumnos matriculados en un determinado Centro Asociado en la asignatura de Psicología
Matemática, 30 son varones. Para participar en un experimento de percepción visual, seleccionamos sin
reposición a dos de ellos. Calcular, justificando adecuadamente su respuesta, la probabilidad de que :
a) Los dos sean varones.
b) Los dos sean del mismo sexo.
c) Al menos uno sea mujer.
NOTA : Representamos el término "y" por el símbolo intersección (∩) y el término "o" por el de la unión (∪).
a)
La extracción sin reposición modifica el grupo en las extracciones sucesivas.
Pr( V1º ∩ V2 º ) = Pr( V1º y V2 º ) = Pr( V1º ).Pr( V2 º / V1º ) =
b)
30 29
. = 0'355102
50 49
Pueden ser los dos varones o las dos mujeres :
Pr ( ( V1º ∩ V2 º ) ∪ ( M 1º ∩ M 2 º ) ) = Pr ( V1º ∩ V2 º ) + Pr( M1º ∩ M 2 º ) =
c)
Pueden ser un varón y una mujer o las dos mujeres :
30 29 20 19
. + . = 0'510204
50 49 50 49
Pr( ( V1º ∩ M 2 º ) ∪ ( M1º ∩ V2 º ) ∪ ( M1º ∩ M 2 º )) = Pr( V1º ∩ M 2 º ) + Pr( M1º ∩ V2 º ) + Pr( M1º ∩ M 2 º ) =
=
30 20 20 30 20 19
. + . + . = 0'6449
50 49 50 49 50 49
10 - Probabilidad (F. Álvarez)
EJERCICIOS PROPUESTOS
1
Sabiendo que Pr(B)=2.Pr(A) , Pr(A∪B)=0'8 y Pr(A∩B)=0'1, calcule :
Pr(A) , Pr(B) , Pr(A') , Pr(B-A) y Pr(A-B)
2
Al extraer dos cartas simultáneamente de una baraja española, calcule la probabilidad de que :
a)
las dos sean del mismo palo
b)
ambas sean figuras
c)
alguna sea de oros.
3
Disponemos de cuatro cajas con la siguiente composición de bolas blancas y negras :
la 1ª contiene 3 bolas de cada color
la 2ª y la 4ª contienen 5 bolas blancas y 2 negras
la 3ª está constituida por 1 bola blanca y 2 negras.
a) Seleccionada una urna al azar, hallar la probabilidad de extraer una bola blanca de ella.
b) Se extrajo una bola de una de las urnas que resultó ser blanca. Calcule la probabilidad de haberla extraído
de la 4ª urna.
4
La siguiente tabla muestra la distribución de los trabajadores de una empresa según su estado civil y el ser o no
fumadores.
Fuman
14
8
6
Solteros
Casados
Viudos
a)
b)
c)
d)
e)
No fuman
16
35
1
Seleccionados 3 trabajadores al azar, determine la probabilidad de que todos fumen.
Calcule la probabilidad de que un trabajador de la empresa esté casado o fume.
Calcule la probabilidad de que un trabajador de la empresa no esté casado o fume.
Si un cierto trabajador fuma, ¿ qué probabilidad tiene de ser soltero ?.
Si un trabajador es viudo, calcule la probabilidad de que no sea fumador.
5
Una urna contiene tres bolas con las letras A , A y N. Otra contiene las letras A , A , A , N y N.
Seleccionamos tres bolas sucesivamente y con devolución. ¿ Qué urna ofrece mayor probabilidad de obtener la
palabra ANA?.
6
Un alumno sólo estudió uno de los cuatro temas de un examen. Si el examen consta de diez preguntas, calcule
la probabilidad de que pueda contestar a alguna de ellas.
7
Hombres
Mujeres
1º
34
42
2º
21
50
3º
40
15
4º
12
14
5º
21
8
La tabla anterior nos muestra la distribución por sexo de los alumnos de los 5 cursos de una Carrera.
Seleccionados al azar dos alumnos, calcule la probabilidad de que :
a) sean del mismo curso.
b) alguno sea de 1º
c) los dos sean hombres o estudien 3º.
8
De un grupo de alumnos, la mitad son de primero, la quinta parte de 3º y el resto de 2º. De los de 1º, la cuarta
parte son repetidores y, de los otros cursos, la mitad repiten.
Si un cierto alumno es repetidor, calcule la probabilidad de que sea de 2º curso.
Probabilidad (F. Álvarez) - 11
9
Una urna contiene 5 bolas blancas, 3 rojas y 2 negras.
a)
Seleccionado un grupo de tres bolas, determine la probabilidad de que ninguna sea negra.
b)
Seleccionadas sucesivamente y sin reposición tres bolas, determine la probabilidad de que sean del
mismo color.
c)
Seleccionadas sucesivamente y con reposición tres bolas, determine la probabilidad de que alguna
sea negra.
10
De los 80 alumnos de tres grupos de COU de un centro, la mitad pertenecen al grupo A y el 15% al C.
Sabiendo que aprueban el curso el 40% de los alumnos del grupo A, 8 alumnos del grupo B y la tercera parte
de los del C, determine la probabilidad de que :
a) un alumno de COU suspenda.
b) un cierto alumno pertenezca al grupo B, sabiendo que aprobó.
11
Una caja contiene 6 bolas blancas, 2 negras y 4 rojas.
a) Si tomamos dos bolas simultáneamente de la caja, calcule la probabilidad de que sean del mismo color.
b) Al tomar sucesivamente y sin reposición tres bolas de la caja, hallar la probabilidad de que todas sean
blancas, sabiendo que ninguna es negra.
12
En relación con la opción cursada por los alumnos de COU, el 25% se matriculó en la A, el 35% en la B,
coincidiendo los matriculados en las opciones C y D.
Finalizado el curso, aprobaron : la mitad de los alumnos de la opción A y C, el 60% de la B y sólo un 20% de los
de la opción D.
a) Si un alumno seleccionado aprobó, calcule la probabilidad de ser de la opción C.
b) Calcule la probabilidad de que un alumno suspenda, sabiendo que no pertenece a la opción A.
12 - Probabilidad (F. Álvarez)
SOLUCIONES DE LOS EJERCICIOS PROPUESTOS
1
Pr(A) = 0'3
Pr(B) = 0'6
Pr(A') = 0'7
Pr(B-A) = 0'5
Pr(A-B) = 0'2
2
a) 0'2308
b) 0'0846
c) 0'4423
3
a) 0'5655
b) 0'3158
4
a)
b)
c)
d)
e)
0'0399
0'7875
0'5625
0'5
0'1429
5
La primera (0'1481) más que la segunda (0'144)
6
0'9437
7
a) 0'2295
b) 0'5048
c) 0'2685
8
0'4
9
a) 0'4667
b) 0'0917
c) 0'488
10
a) 0'65
b) 0'2857
11
a) 0'3333
b) 0'1666
12
a)
b)
0'2105
0’5333
Probabilidad (F. Álvarez) - 13
VARIABLES ALEATORIAS
Métodos Estadísticos Aplicados a las Auditorías Sociolaborales
Francisco Álvarez González
[email protected]
VARIABLES ALEATORIAS UNIDIMENSIONALES
Variable aleatoria, asociada a una experiencia aleatoria, es la ley que hace corresponder a cada suceso
aleatorio un valor numérico.
Así, por ejemplo, la expresión "lanzamos tres monedas observando el número de caras que se obtienen"
está definiendo la variable aleatoria que permite asociar al suceso Cara-Cruz-Cara el valor 2 (dos caras).
Como en el caso de las variables estadísticas, las variables aleatorias pueden ser discretas o continuas. Nos
centraremos en el estudio de las primeras.
FUNCIÓN DE DENSIDAD O LEY DE PROBABILIDAD
Es el conjunto de los valores de la variable aleatoria X y sus probabilidades respectivas f(x) = Pr(X=x).
Para el caso discreto se suele adoptar la forma de representación siguiente :
X
x1
x2
x3
f(X)
p1
p2
p3
....
....
xi
....
xn
pi
....
pn
n
Ante la equivalencia entre frecuencias relativas y probabilidades, se verifica que :
∑p
i
=1
i=1
FUNCIÓN DE DISTRIBUCIÓN
Del mismo modo que se definían las frecuencias acumuladas, denominamos función de distribución a :
F(x) = Pr(X≤x)
MOMENTOS. ESPERANZA MATEMÁTICA, VARIANZA, ASIMETRÍA Y CURTOSIS
n
Momento ordinario de orden k :
α k = ∑ p i . x ik
i =1
n
μ k = ∑ p i . ( x i − E ( X) )
Momento central de orden k :
k
i =1
En particular :
Esperanza matemática : Es el momento ordinario de orden 1 (α1) , equivalente a la media aritmética.
n
E ( X) = α 1 = ∑ p i . x i
i =1
Varianza : Es el momento central de 2º orden.
n
n
V( X) = μ 2 = ∑ p i . ( x i − E ( X)) = ∑ p i . x 2i − E ( X) 2 = α 2 − α 12
2
i =1
i =1
Desviación típica : Es la raíz cuadrada de la varianza.
D ( X) = V( X )
Coeficiente de asimetría : (similar a lo estudiado en el análisis descriptivo de una variable)
A ( X) =
μ3
[ D( X)] 3
Coeficiente de curtosis : (similar a lo estudiado en el análisis descriptivo de una variable)
K( X) =
μ4
[ D( X)] 4
−3
Expresión de algunos momentos centrales en función de momentos ordinarios :
μ1 = 0
μ2 = α 2 −
μ 3 = α 3 − 3. α1 . α 2 + 2. α13
α12
μ 4 = α 4 − 4. α1 . α 3 + 6. α12 . α 2 − 3. α14
Variables aleatorias (F. Álvarez) - 1
OTRAS MEDIDAS DE CENTRALIZACIÓN
Moda : es el valor de la variable aleatoria que posee probabilidad máxima.
Mediana : es el valor Md de la variable aleatoria para el cuál :
F(Md) ≥ 0'5 y 1 - F(Md) < 0'5 (siendo F la función de distribución)
PROPIEDADES
•
•
•
E(X + Y) = E(X) + E(Y)
E(α.X) = α.E(X) , para cualquier número α.
Si las dos variables son independientes , se verifica que :
• E(X . Y) = E(X) . E(Y)
• V(X + Y) = V(X) + V(Y)
TEOREMA DE TCHEBYCHEV
Establece la probabilidad máxima de que la variable aleatoria tome valores en los alrededores de la esperanza
matemática (media de la distribución).
Teorema :
Para toda variable aleatoria X para la que existe su esperanza y su varianza, se verifica que, para
cualquier valor numérico positivo k :
Pr( X − E ( X ) < k ) < 1 −
V( X)
k2
Gráficamente :
La probabilidad de que cualquier valor de la
variable X pertenezca al intervalo sombreado
es inferior a :
1−
2 - Variables aleatorias (F. Álvarez)
V( X)
k2
EJERCICIOS RESUELTOS
1
Lanzadas cuatro monedas, consideremos el número de cruces obtenidas. Calcular, de la variable
aleatoria así definida :
a)
Ley de probabilidad
b)
Función de distribución
c)
Esperanza matemática y varianza
d)
Mediana y moda de la distribución
e)
Determine la probabilidad de obtener más de 1 y menos de 3 caras. Compruebe el teorema de
Tchebychev.
CCCC
CCC+
CC++
C+++
++++
CC+C
C+C+
+C++
C+CC
C++C
++C+
+CCC
+CC+
+++C
+C+C
Se obtienen 0 cruces
Se obtienen 3 caras y 1 cruz
Se obtienen 2 caras y 2 cruces
Se obtienen 1 cara y 3 cruces
Se obtienen 4 cruces
++CC
Ley de probabilidad o función de densidad :
X
f(x)=Pr(X=x)
0
1/16
1
4/16
2
6/16
3
4/16
4
1/16
0
1/16
1/16
1
4/16
5/16
2
6/16
11/16
3
4/16
15/16
4
1/16
16/16 = 1
Función de distribución :
X
f(x)=Pr(X=x)
F(x)=Pr(X≤x)
⎧0
⎪1
⎪ 16
⎪5
⎪
F ( x) = ⎨ 16
11
⎪ 16
⎪15
⎪ 16
⎪⎩1
Más correctamente se expresará :
para x < 0
para0 ≤ x < 1
para1 ≤ x < 2
para 2 ≤ x < 3
para3 ≤ x < 4
para x ≥ 4
Gráficamente :
Función de distribución
Ley de probabilidad
Para el cálculo de la esperanza matemática y la varianza de una variable aleatoria discreta, se aconseja construir la
siguiente tabla auxiliar :
α1
α2
De aquí :
X
P
P.X
P.X2
E(X) = α1 = 2
0
1/16
0
0
1
4/16
4/16
4/16
2
6/16
12/16
24/16
3
4/16
12/16
36/16
4
1/16
4/16
16/16
Totales
1
32/16 = 2
80/16 = 5
V(X) = α2 - α12 = 5 - 4 = 1
Variables aleatorias (F. Álvarez) - 3
Definida la desviación típica como la raíz cuadrada de la varianza :
D(X) = 1
Observando la ley de probabilidad o función de densidad, deducimos que :
Moda = 2 (al tener X=2 la mayor probabilidad (6/16) )
Observando la función de distribución, deducimos que :
Mediana = 2 (al ser X=2 el valor para el que F(X) (=11/16) primero iguala o supera a 0'5)
Comprobemos el teorema de Tchebychev para el caso reseñado :
•
•
Pr (1 < X < 3) = Pr(X=2) = 6/16 = 0'375
Siendo E(X) = 2 , la esperanza se encuentra en el centro del intervalo definido (1 , 3), luego su amplitud es k=2.
Recordando que V(X) =1, tenemos :
Pr ( X − E ( X ) < 2) < 1 −
•
1
= 0'75
22
La probabilidad calculada es en efecto inferior a 0'75.
2
En la extracción simultánea de tres bolas de una urna que contiene 6 bolas
blancas y cuatro negras, observamos el número de bolas blancas extraídas.
De la variable aleatoria así definida, calcular :
a)
ley de probabilidad
b)
función de distribución
c)
esperanza matemática , varianza y desviación típica.
d)
mediana y moda de la distribución.
⎛ 4⎞
⎜⎜ ⎟⎟
3
4
Pr(0blancas y3ne gras ) = ⎝ ⎠ =
= 0'033
⎛10 ⎞ 120
⎜⎜ ⎟⎟
⎝3⎠
⎛6⎞ ⎛ 4⎞
⎜⎜ ⎟⎟.⎜⎜ ⎟⎟
1 2
6.6
Pr(1blanca y 2ne gras ) = ⎝ ⎠ ⎝ ⎠ =
= 0'3
120
⎛10 ⎞
⎜⎜ ⎟⎟
⎝3⎠
⎛ 6⎞ ⎛ 4⎞
⎜⎜ ⎟⎟.⎜⎜ ⎟⎟
2 1
15.4
Pr(2blancas y1ne gra ) = ⎝ ⎠ ⎝ ⎠ =
= 0'5
120
⎛10 ⎞
⎜⎜ ⎟⎟
⎝3⎠
⎛ 6⎞
⎜⎜ ⎟⎟
3
20
Pr(3blancas y0ne gras ) = ⎝ ⎠ =
= 0'167
⎛10 ⎞ 120
⎜⎜ ⎟⎟
⎝3⎠
Una vez calculadas las probabilidades de las distintas situaciones posibles, obtenemos :
Ley de probabilidad o función de densidad :
X
Prob.
0
0'033
1
0'3
F(x) =
0
0'033
0'333
0'833
1
Función de distribución :
2
0'5
3
0'167
x<0
0≤x<1
1≤x<2
2≤x<3
x≥3
Esperanza matemática , varianza y desviación típica :
X
Prob. = P
P.X
P.X2
E( X) = 1'8
0
0'033
0
0
1
0'3
0'3
0'3
2
0'5
1
2
V( X) = 3' 8 - 1' 8 2 = 0'56
3
0'167
0'5
1'5
D( X) =
Totales
1'8
3'8
0' 56 = 0'748
Mediana y Moda :
Observando la función de distribución, deducimos que :
Mediana = 2 (al ser X=2 el valor para el que F(X) (= 0'8333) primero iguala o supera a 0'5)
Observando la ley de probabilidad o función de densidad, deducimos que :
Moda = 2 (al tener X=2 la mayor probabilidad (0'5) )
4 - Variables aleatorias (F. Álvarez)
3
Complete la ley de probabilidad siguiente, sabiendo que su esperanza matemática es igual a 1'8 :
X
Prob.
0
0'2
1
a
n
De una parte, sabiendo que se verifica que
∑p
i
2
b
3
0'3
= 1 , resulta : 0'2 + a + b + 0' 3 = 1 ⇒ a + b = 0'5
i=1
Conocida la esperanza matemática : E ( X ) =
n
∑ p .x
i
i
= 0 . 0' 2 + 1. a + 2. b + 3. 0' 3 = 1' 8 ⇒ a + 2.b = 0'9
i=1
Resolviendo el sistema obtenemos los valores de a y b :
a + b = 0'5
a = 0'5 - b
a + 2.b = 0'9
0'5 - b + 2.b = 0'9 ⇒ b = 0'4 ⇒ a = 0'1
4
Calcular la esperanza matemática, varianza, asimetría y curtosis de la variable aleatoria que tiene como
función de distribución :
F(x) =
0
0'2
0'55
0'85
1
x<2
2≤x<4
4≤x<6
6≤x<8
x≥8
La ley de probabilidad o función de densidad será :
x
p
2
0'2
4
0'35
6
0'3
8
0'15
p.x
p.x2
p.x3
p.x4
0'4
0'8
1'6
3'2
1'4
5'6
22'4
89'6
1'8
10'8
64'8
388'8
1'2
9'6
76'8
614'4
Cálculo de momentos :
α1
α2
α3
α4
α1 = 4'8 (Σ)
α2 = 26'8 (Σ)
α3 = 165'6 (Σ)
α4 = 1096 (Σ)
Luego :
•
esperanza matemática :
n
E( X) = ∑ p i . x i = α1 = 4'8
i =1
•
varianza :
V( X) = μ 2 = α 2 − α12 = 26'8 − 4'8 2 = 3'76
•
( D( X) =
3'76 = 19391
'
)
coeficiente de asimetría :
μ 3 = α 3 − 3. α1 .α 2 + 2.α13 = 165'6 − 3.4'8.26'8 + 2.4'8 3 = 0'8640
μ3
0'8640
A ( X) =
'
3 =
3 = 01185
'
( D( x)) 19391
•
coeficiente de curtosis :
μ4 = α4 − 4. α1. α3 + 6. α12 . α2 − 3. α14 = 1096 − 4.4'8165
. '6 + 6.4'82 .26'8 − 3.4'84 = 28'7872
28'7872
μ4
K( X) =
4 −3=
4 − 3 = −0'9638
19391
'
( D( x ) )
5
Realizada una apuesta de 100 pts., un jugador extrae una bola de una caja que contiene 2 bolas
blancas, 3 rojas y 5 negras. Si la bola extraída es negra pierde lo apostado y finaliza el juego; si es roja
recibe lo apostado y deja de jugar, y finalmente, si es blanca, cobra 200 pts. si al lanzar una moneda
obtiene cruz y 400 pts. si sale cara.
Si el jugador participa en 12 ocasiones en dicho juego, ¿ qué beneficio o pérdida tendrá ?.
Las situaciones posibles son :
Variables aleatorias (F. Álvarez) - 5
Beneficio
-100 pts.
100 - 100 =
0 pts.
200 - 100 =
100 pts.
400 - 100 =
300 pts.
Extrae bola negra
Extrae bola roja
Extrae bola blanca y cruz
Extrae bola blanca y cara
Probabilidad
(5/10)
0'5
(3/10)
0'3
(2/10).(1/2)
0'1
(2/10).(1/2)
0'1
La esperanza matemática de la variable aleatoria "beneficio en el juego" , nos indica lo que cabe esperar que
ocurra en cada jugada.
Una cantidad negativa se interpreta como la pérdida media que el jugador tendrá en cada jugada. Si la
esperanza es positiva indicará que el jugador, promediando jugadas, ganará dicha cantidad. En ambos casos
se dice que el juego no es equitativo o que es injusto.
Cuando la esperanza matemática del beneficio en un juego es igual a cero, diremos que dicho juego es
equitativo o justo.
En nuestro caso :
E(X) = -100.0'5 + 0.0'3 + 100.0'1 + 300.0'1 = -10 pts.
Realizadas 12 jugadas, lo más probable (lo esperado) es que haya perdido 120 pts. [12 . (-10) ] .
6
Lanzando dos dados y sumando los puntos obtenidos, los premios que ofrece el juego son los
siguientes :
- Devolución de lo apostado :
si la suma es inferior a 4 o superior a 10.
- Doble de lo apostado :
si se obtiene 5 o 9.
- Cuatro veces lo apostado :
si la suma de puntos es 7
Analice si el juego es equitativo o no.
Análisis de las situaciones posibles :
1-1
1-2
1-3
1-4
1-5
1-6
2
3
4
5
6
7
2-1
2-2
2-3
2-4
2-5
2-6
3
4
5
6
7
8
3-1
3-2
3-3
3-4
3-5
3-6
4
5
6
7
8
9
4-1
4-2
4-3
4-4
4-5
4-6
5
6
7
8
9
10
5-1
5-2
5-3
5-4
5-5
5-6
6
7
8
9
10
11
6-1
6-2
6-3
6-4
6-5
6-6
7
8
9
10
11
12
Al apostar x pts., los beneficios o pérdidas son :
Situaciones
Devolución de lo apostado
Doble de lo apostado
Cuatro veces lo apostado
Pérdida de lo apostado
2, 3, 11, 12
5,9
7
4, 6, 8, 10
Nº de veces
6
8
6
16
36
Beneficio
0
x
3x
-x
Probabilidad
6/36
8/36
6/36
16/36
Determinemos su esperanza matemática :
E( X) = 0.
6
8
6
16 8x +18x - 16x 10
+ x.
+ 3x .
− x.
=
=
.x
36
36
36
36
36
36
Siendo la esperanza matemática positiva, el juego siempre dará beneficio al jugador . No es equitativo, siendo
desfavorable para la banca.
Parece claro que el dueño del local de juego no tiene vista comercial o no sabe estadística.
6 - Variables aleatorias (F. Álvarez)
EJERCICIOS PROPUESTOS
1
Determine la función de distribución, esperanza matemática, varianza y desviación típica de las variables
aleatorias definidas por las siguientes funciones de densidad :
a)
x
f(x)
1
0'1
2
0'25
b)
x
f(x)
-2
0'05
0
A
3
0'05
4
0'3
2
0'15
4
A
5
0'3
6
0'2
8
2.A
2
Determine la ley de probabilidad, esperanza matemática, mediana, moda, varianza, desviación típica, asimetría
y curtosis de la variable aleatoria que tiene como función de distribución :
F(x) =
0
0'15
0'35
0'35
0'7
1
si
si
si
si
si
si
x<1
1≤x<2
2≤x<3
3≤x<4
4≤x<5
x≥5
3
Determine la ley de probabilidad, función de distribución, esperanza matemática, varianza y desviación típica de
la variable aleatoria definida por el número de bolas blancas resultantes de la extracción de dos bolas de una
urna, que contiene 3 bolas blancas y dos negras, y una bola de otra urna, que posee 5 bolas de cada color.
4
La participación en un juego nos lleva a lanzar una moneda y un dado. Si sale cara al lanzar la moneda
perdemos lo apostado. Si sale cruz, recibimos el doble de la apuesta si el número del dado es múltiplo de 3,
tres veces la apuesta si sale 5 y, lo apostado, en el resto de los casos.
Si un jugador participa 20 veces en el juego, apostando 1000 pts. en cada ocasión, ¿ qué beneficio obtendrá
con mayor probabilidad ?.
Variables aleatorias (F. Álvarez) - 7
SOLUCIONES DE LOS EJERCICIOS PROPUESTOS
1
a)
F(x) =
b)
F(x) =
0
0'1
0'35
0'4
0'7
1
si
si
si
si
si
si
x<1
1≤x<2
2≤x<3
3≤x<4
4≤x<5
x≥5
0
0'05
0'2
0'35
0'5
0'7
1
si
si
si
si
si
si
si
x < -2
-2 ≤ x < 0
0≤x<2
2≤x<4
4≤x<6
6≤x<8
x≥8
E(X) = 3'45
V(X) = 1'9475
D(X) = 1'3955
E(X) = 4'4
V(X) = 10'24
D(X) = 3'2
2
x
f(x)
1
0'15
2
0'2
3
0
4
0'35
5
0'3
E(X) = 3'45
V(X) = 2'1475
D(X) = 1'4654
Moda = Mediana = 4
Asimetría = A(X) = -0'5212
Curtosis = K(X) = -1'254
3
Urna 1ª
0 blancas
0 blancas
1 blanca
1 blanca
1 blancas
1 blancas
F(x) =
Urna 2ª
0 blancas
1 blanca
0 blancas
1 blanca
0 blancas
1 blanca
0
0'05
0'4
0'85
1
Prob.
0'1.0'5 = 0'05
0'1.0'5 = 0'05
0'6.0'5 = 0'30
0'6.0'5 = 0'30
0'3.0'5 = 0'15
0'3.0'5 = 0'15
si
si
si
si
si
Total
0 blancas
1 blanca
1 blanca
2 blancas
2 blancas
3 blancas
x<0
0≤x<1
1≤x<2
2≤x<3
x≥3
x
f(x)
0
0'05
E(X) = 1'7
V(X) = 0'61
D(X) = 1'7
4
Beneficio : X
P = Probabilidad
E(X) = -167
-1000
0'5
En 20 jugadas perderá 3340 pts.
8 - Variables aleatorias (F. Álvarez)
0
0'25
1000
0'167
2000
0'083
1
0'35
2
0'45
3
0'15
DISTRIBUCIÓN NORMAL
Métodos Estadísticos Aplicados a las Auditorías Sociolaborales
Francisco Álvarez González
[email protected]
CURVA NORMAL
Gran número de distribuciones tienen la forma de una campana; es decir, alejándonos de la media, a derecha e
izquierda, el número de observaciones decrece de forma similar. Esto genera una curva simétrica.
Se estudió su ecuación, resultando en función de la media y desviación típica de la distribución.
Ante las infinitas posibles medias y desviaciones, nos encontramos con una infinidad de posibles distribuciones
normales pero, el proceso de tipificación, permite reducirlas a una única con media 0 y desviación típica 1. Tal
distribución se denomina normal tipificada y se representa N(0,1).
En términos de probabilidad, definimos igualmente la variable
aleatoria normal, como aquella que tiene por gráfica de su
función de densidad la representada a la izquierda.
El área bajo la curva será igual a la unidad y, con este criterio se
confeccionaron tablas estadísticas que calculan el área para un
cierto intervalo de valores de la variable.
Recordemos pues que la curva normal :
a) es simétrica respecto a la media
b) se establece que el área bajo su gráfica es igual a 1.
Consecuencia de ello es , por ejemplo, que el área a la derecha
de la media (o a la izquierda es 0'5) y que el área desde la media
a un valor -v coincide con el área desde la media a v.
TIPIFICACIÓN. MANEJO DE TABLAS
Se ha indicado que los valores de las áreas bajo la curva normal se encuentran tabulados con referencia a la
distribución normal tipificada N(0,1).
Por ello, nos veremos obligados a tipificar previamente cualquier otro tipo de distribución normal que deseemos
estudiar. Recordemos el procedimiento de tipificación :
x ∈ N (x , s x ) ⇒ z =
x−x
∈ N(0,1)
sx
Suelen utilizarse dos tipos de tablas :
I) Proporcionan el área a la izquierda de un valor.
II) Ofrecen el área comprendida entre la media (0)
y un valor.
En los dos casos, la tabla fija en la primera columna el valor de z con una cifra decimal y, la segunda cifra
decimal de z condiciona la columna que ha de seleccionarse. En el cruce encontramos el área buscada.
Distribución normal (F. Álvarez) - 1
EJERCICIOS RESUELTOS
1
Haciendo uso de la tabla que proporciona áreas a la izquierda de cada valor z de la distribución normal
tipificada, calcular las probabilidades (áreas) siguientes :
a)
Pr(z<1'35)
b)
Pr(z<-0'338)
c)
Pr(z>2'1)
d)
Pr(z>-1)
e)
Pr(-1'39<z≤-0'44)
f)
Pr(-1'52≤z≤0'897)
Observe que, en el cálculo de áreas (probabilidades) en variables continuas, Pr(x≤a) equivale a Pr(x<a).
Tendremos que referir los cálculos a probabilidades del tipo Pr(z < a) , estando expresado el valor a con dos cifras
decimales :
a)
Pr(z<1'35) = 0'91149
b)
Pr(z<-0'338) ⇒ Pr(z<-0'34) = 0'36693
c)
Pr(z>2'1) ⇒ Pr(z>2'10) = 1 - 0'98214 = 0'01786
d)
Pr(z>-1) ⇒ Pr(z>-1'00) = 1 - 0'15866 = 0'84134
e)
Pr(-1'39<z≤-0'44) = n
f)
Pr(-1'52≤z≤0'897) ⇒ Pr(-1'52≤z≤0'90) =
=n
- o = 0'32997 - 0'08226 = 0'24771
- o = 0'81594 - 0'06426 = 0'75168
2
Haciendo uso de la tabla que proporciona áreas entre cada valor z y la media 0 de la distribución normal
tipificada, calcular las probabilidades (áreas) siguientes :
a)
Pr(z≤0'22)
b)
Pr(z<-1'8)
c)
Pr(z>1'0092)
d)
Pr(z>-1'61)
e)
Pr(-2'06<z<-0'24)
f)
Pr(-0'02≤z≤1'7)
2 - Distribución normal (F. Álvarez)
En este caso, tendremos que establecer probabilidades del tipo Pr(0 < z < a) , estando expresado el valor a con dos
cifras decimales :
a)
b)
c)
Pr(z≤0'22) = 0'5 + 0'08706 = 0'58706
Pr(z<-1'8) ⇒ Pr(z<-1'80) = Pr(z>1'80) =
= 0'5 - 0'46407 = 0'03593
Pr(z>1'0092) ⇒ Pr(z>1'01) = 0'5 - 0'34375 = 0'15625
d)
Pr(z>-1'61) ⇒ Pr(z<1'61) =
= 0'5 + 0'44630 = 0'94630
e)
Pr(-2'06<z≤-0'24) = Pr(0'24<z<2'06)
=n - o=
= 0'48030 - 0'09483 = 0'38547
f)
Pr(-0'02≤z≤1'70) =
= Pr(-0'02<z<0) + Pr(0<z<1'70) =
= Pr(0<z<0'02) + Pr(0<z<1'70) =
=n + o=
= 0'00798 + 0'45543 = 0'46341
3
Para la distribución normal tipificada, calcular :
a) Percentil 21
b) Cuartil 3º
c) Valores centrales entre los que quedan comprendidas la cuarta parte de las observaciones.
a)
Hemos de calcular el valor de z que deja a su izquierda un área igual
a 0'21 (el 21% del área total [= 1]) .
Si consultamos las tablas que dan el área a la izquierda,
encontramos como valor más próximo al área 0'21 , el área 0'20897
que corresponde a la puntuación :
z = -0'81
Distribución normal (F. Álvarez) - 3
Utilizando las tablas de áreas comprendidas
entre 0 y z, el razonamiento a seguir será :
El área a la izquierda igual a 0'21 corresponde
a un valor negativo (-z) al ser menor que 0'5.
Entre dicho valor z y la media (0) hay un área
igual a 0'29 (0'5-0'21).
Consultando las tablas encontramos el valor
más próximo a 0'29 para la puntuación z = 0'81
(área = 0'29103 ).
El percentil 21 es pues : z = -0'81.
Procediendo como en a) , hemos de calcular el valor de z que deja a
su izquierda un área igual a 0'75.
b)
Dicho valor es : z = 0'67
(área = 0'74857)
La mitad de la cuarta parte (25%) es el 12'5%.
Son los valores que dejan un 12'5% de las
observaciones a la izquierda de la media (0) y
otro 12'5% a su derecha.
En términos de áreas a la izquierda, son los
valores que dejan un área de ese tipo igual a
0'375
(0'5-0'125)
y
0'625
(05+0125)
respectivamente.
Consultando las tablas encontramos :
z = -0'32 (área = 0'37448)
z = 0'32 (área = 0'62552)
c)
Por la simetría de la distribución, bastaría con
calcular uno de tales valores, ya que el otro es
su opuesto.
4
Las calificaciones de los 500 aspirantes presentados a un examen para contratación laboral, se
distribuye normalmente con media 6'5 y varianza 4.
a) Calcule la probabilidad de que un aspirante obtenga más de 8 puntos.
b) Determine la proporción de aspirantes con calificaciones inferiores a 5 puntos.
c) ¿ Cuántos aspirantes obtuvieron calificaciones comprendidas entre 5 y 7'5 puntos ?.
Nos encontramos ante una distribución normal
a)
(
)
N 6'5, 4 = N(6'5,2)
Tipificamos el valor 8 : z =
8 − 6' 5
= 0' 75
2
La probabilidad pedida es el área a la derecha de z = 0'75.
Consultando las tablas obtenemos :
b)
Tipificamos el valor 5 : z =
0'22663
5 − 6' 5
= −0' 75
2
Calculemos el área (probabilidad) a la izquierda de z = -0'75.
Consultando las tablas obtenemos : 0'22663
En términos de porcentajes será 0'22663 x 100 :
el 22'663 %
4 - Distribución normal (F. Álvarez)
Tipificamos los valores 5 y 7'5 :
c)
z=
5 − 6' 5
= −0' 75
2
z=
7' 5 − 6' 5
= 0' 5
2
El área comprendida entre ambos es , consultando las tablas :
Pr(5 < X < 7'5) = Pr(-0'75 < z < 0'5) = 0'46483
Multiplicando la probabilidad por el total de aspirantes,
obtenemos el número de ellos que tienen calificaciones
comprendidas entre 5 y 7'5 puntos :
0'46483 x 500 = 232'415 ≅ 232 aspirantes
5
Sólo 24 de los 200 alumnos de un Centro miden menos de 150 cm. . Si la estatura media de dichos
alumnos es de 164 cm., ¿ cuál es su varianza ?.
Siendo 24 / 200 = 0'12 , sabemos que el 12% de los alumnos tienen estaturas inferiores a 150.
Consultando las tablas de la distribución normal tipificada, obtenemos el valor z
que deja a su izquierda un área 0'12.
Dicho valor es : z = -1'175
(para z = -1'17 encontramos 0'12100 y para z = -1'18 encontramos 0'11900).
Luego : z =
x− x
sx
⇒ − 1' 175 =
150 − 164
sx
⇒ sx =
−14
= 11' 915 ⇒ s x2 = 11' 915 2 = 141' 965
−1' 175
6
El percentil 70 de una distribución normal es igual a 88, siendo 0'27 la probabilidad de que la variable
tenga un valor inferior a 60. ¿ A qué distribución normal nos estamos refiriendo ? .
Se nos pide determinar la media y desviación típica de una distribución normal que verifica las condiciones del
enunciado.
Gráficamente :
Consultando las tablas obtenemos :
a) Valor de z que deja a su izquierda un área igual a 0'70 :
z = 0'52 (valor más próximo 0'69847)
b) Valor de z que deja a su izquierda un área igual a 0'27
z = -0'61 (valor más próximo 0'27093)
Con esto :
x− x
sx
x− x
z=
sx
z=
88 − x
⇒ x = 88 − 0' 52. s x
sx
60 − x
− 0' 61 =
⇒ x = 60 + 0' 61. s x
sx
⇒ 0' 52 =
⇒
Resolviendo el sistema determinaremos los valores de la media y la desviación típica :
x = 88 − 0'52.s x ⎫
⎬⇒88 − 0'52.s x = 60 + 0'61.s x ⇒1'13.s x = 28⇒s x = 24'78
x = 60 + 0'61.s x ⎭
x = 88 − 0'52.s x = 88 − 0'52.24'78 = 75'11
Se trata de una distribución N(75'11 , 24'78).
Distribución normal (F. Álvarez) - 5
7
Las puntuaciones de un examen se distribuyen normalmente con media 15 puntos. La puntuación A ha
sido superada por un 23% de los alumnos. La puntuación B está situada a 5 puntos diferenciales por
debajo de la media. Entre B y la media se encuentra el 30% de los alumnos. Calcular :
a) La desviación típica de las notas.
b) Las puntuaciones directas de A y B.
c) El porcentaje de alumnos entre A y B.
a)
La puntución B=10, deja a su izquierda un área 0’20. Consultando
las tablas obtenemos un valor z = -0’84. De aquí :
z = −0'84 =
10 − 15 − 5
=
→s = −5 /(−0'85) = 5'95
s
s
b)
La puntución A, deja a su izquierda un área 0’77 (1-0’23).
Consultando las tablas obtenemos un valor z = 0’74. De aquí :
z = 0'74 =
A − 15
→ A = 0'74 .5'95 + 15 = 20 '21
5'95
(El valor B=10 ya se determinó)
c)
Observando la figura resulta un área 0’57 (0’30+0’27); es decir, el 57%.
8
Las puntuaciones de 1000 personas en un determinado test se distribuyen normalmente. Sea X1 la
puntuación directa que supera el 84’13% de la distribución y X2 la puntuación directa que es superada
por el 84’13% de la distribución. Sabiendo que X1 - X2 = 20, calcular :
a) Número de observaciones comprendidas entre las puntuaciones típicas 1’5 y -0’2.
b) La desviación típica de la distribución.
c) La amplitud semi-intercuartíl.
a)
Directamente de la tabla N(0,1) :
Pr (-0’2 < z < 1’5) =
= 0’93319 - 0’42074= 0’51245
Hay 1000 x 0’51245 = 512’45 ≈ 512 observaciones.
b)
⎧ x = x 2 + 10
⎨
⎩ x = x1 − 10
Tablas : z = 1 deja a su izquierda un área 0’8413 :
x1 − x x1 − ( x1 − 10) 10
=
=
s
s
s
⇒ s = 10
z =1=
6 - Distribución normal (F. Álvarez)
c)
Q1 − x
→ Q 1 = x − 6'7
10
Q −x
0'67 = 3
→ Q 3 = x + 6'7
10
−0'67 =
La amplitud semi-intercuartil es :
Q 3 − Q 1 ( x + 6'7) − ( x − 6'7)
=
=
2
2
13'4
=
= 6'7
2
Q=
9
En un estudio realizado sobre los ingresos familiares en los que los dos cónyuges trabajan, se ha
observado que el salario mensual, en miles de pesetas, de las mujeres (X) se distribuye normalmente
con media 100, en tanto que el de los hombres (Y) tiene la siguiente transformación Y = X + 20.
Sabiendo además que el 15% de los hombres no superan el percentil 75 de las mujeres, se pide :
a) Representar gráficamente el enunciado del problema.
b) El salario medio de los hombres.
c) La desviación típica del salario de los hombres y de las mujeres.
a) Si la media de las mujeres es 100, la de los hombres queda
definida por la relación Y = X+20, luego es 120.
Dicha transformación (al no multiplicar o dividir por ningún
valor) no modifica las desviaciones típicas. En consecuencia,
las desviaciones de la distribución de mujeres y hombres
coinciden.
En la distribución correspondiente a las mujeres el valor que
tipificado (Zm) deja a su izquierda un área 0'75 (75%)
coincide con el de la de los hombres (Zh) que tipificado deja
a su izquierda un área 0'15 (no supera el valor anterior).
Estas conclusiones se muestran a la derecha.
b) Ya se justificó anteriormente que la media de la distribución de ingresos de los hombres es 120 (en miles de
pesetas).
c) Con la tabla de la distribución normal determinamos los valores Zm y Zh , y recordando que coinciden Xm y
Xh :
X m − 100
→ X m = 0'67.S + 100
S
⇒
X − 120 X m − 120
Z h = −104
' = h
=
→ X m = −104
' .S + 120
S
S
⇒ 0'67.S + 100 = −104
' .S + 120 → 171
' . S = 20 → S = 11696
'
Z m = 0'67 =
Luego las desviaciones típicas coinciden y valen 11'696 (miles de pesetas).
Distribución normal (F. Álvarez) - 7
EJERCICIOS PROPUESTOS
1
Haciendo uso de la tabla que proporciona áreas a la izquierda de cada valor z de la distribución normal
tipificada, calcular las probabilidades (áreas) siguientes :
a)
Pr(z<0'1052)
b)
Pr(z<-2)
c)
Pr(z≥2'1009)
d)
Pr(z>-0'1)
e)
Pr(0'31≤z≤2'084)
f)
Pr(-0'5<z≤2'07)
2
Haciendo uso de la tabla que proporciona áreas entre cada valor z y la media 0 de la distribución normal
tipificada, calcular las probabilidades (áreas) siguientes :
a)
Pr(z≤2'32)
b)
Pr(z≤-0'38)
c)
Pr(z>2'2)
d)
Pr(z>-0'876)
e)
Pr(-3'02≤z≤0'499)
f)
Pr(0'51≤z≤1'83)
3
Para la distribución normal tipificada, calcular :
a) 6º decil
b) Cuartil 1º
c) Valores centrales entre los que queda comprendido el 40% de las observaciones.
4
Analizadas 240 determinaciones de colesterol en sangre, se observó que se distribuían normalmente con
media 100 y desviación típica 20.
a) Calcule la probabilidad de que una determinación sea inferior a 94.
b) ¿ Qué proporción de determinaciones tienen valores comprendidos entre 105 y 130 ?.
c) ¿ Cuántas determinaciones fueron superiores a 138 ?.
5
El percentil 60 de una distribución normal de varianza 80 es igual a 72. ¿ Cuál es su media ?.
Si el número de individuos que la integran es 850, ¿ cuantos tienen entre 50 y 80 puntos ?.
6
Determine la media y la desviación típica de las puntuaciones de un test de agresividad que se aplicó a 120
individuos, sabiendo que 30 alcanzaron menos de 40 puntos y que el 60% obtuvieron puntuaciones
comprendidas entre 40 y 90 puntos.
7
Los 460 alumnos de un centro tienen 156 cm. de estatura media con una varianza de 81 cm.
a) Determine el porcentaje de alumnos que miden más de 160 cm.
b) ¿ Cuántos alumnos miden entre 140 y 150 cm. ?
8
La desviación típica de la distribución de estaturas de los 200 alumnos de un centro es igual a 4 cm. Si 42
miden menos de 150 cm., determine el promedio de la distribución.
9
Las edades de un grupo de 320 individuos tienen como media 24 y desviación típica 5. ¿ Cuantos tendrán
menos de 27 años?.
10
El 80% de los integrantes de un grupo de personas tienen menos de 30 años. Sabiendo que la edad media del
grupo es de 24 años, calcule su desviación típica.
11
312 de los 1200 tornillos producidos durante una hora en una factoría miden más de 11’28 cm.. Sabiendo que
el primer decil de la distribución es igual a 7’44, calcule su media y su desviación típica.
12
Aplicado un test a 80 individuos, se obtuvo un promedio de 28 puntos.
a) Sabiendo que el percentil 40 de la distribución es igual a 25'466 puntos, determine su desviación
típica.
b) ¿ Cuántos poseen calificación entre 25 y 30 puntos ?.
8 - Distribución normal (F. Álvarez)
SOLUCIONES DE LOS EJERCICIOS PROPUESTOS
1
a)
d)
0'54380
0'53983
b)
e)
0'02275
0'35952
c)
f)
0'01786
0'67223
a)
d)
0'98983
0'81075
b)
e)
0'35197
0'69015
c)
f)
0'01390
0'27141
2
3
a) Decil 6º = 0'25
b) Cuartil 1º = -0'67
c) Entre -0'52 y 0'52 .
4
a) 0'38209
b) 32'053%
c) 7 determinaciones
5
Media = 69'76
730 individuos.
6
Media = 59'59
Desviación típica = 29'24
7
a) 32’997%
b) 98 alumnos (98’3894)
8
Media = 153’24
9
232
10
Desviación típica = 7’143
11
Media = 10
Desviación típica = 2
12
a)
b)
10
15'772 ≈ 16
Distribución normal (F. Álvarez) - 9
TABLA I (A)
DISTRIBUCIÓN NORMAL TIPIFICADA
N(0 , 1)
La tabla proporciona, para cada valor de z, el área que queda a su izquierda.
z
-4'4
-4'3
-4'2
-4'1
-4'0
-3'9
-3'8
-3'7
-3'6
-3'5
-3'4
-3'3
-3'2
-3'1
-3'0
-2'9
-2'8
-2'7
-2'6
-2'5
-2'4
-2'3
-2'2
-2'1
-2'0
-1'9
-1'8
-1'7
-1'6
-1'5
-1'4
-1'3
-1'2
-1'1
-1'0
-0'9
-0'8
-0'7
-0'6
-0'5
-0'4
-0'3
-0'2
-0'1
-0'0
0'00
0'01
0'02
0'03
0'04
0'05
0'06
0'07
0'08
0'09
0'00001
0'00001
0'00001
0'00002
0'00003
0'00001
0'00001
0'00001
0'00002
0'00003
0'00001
0'00001
0'00001
0'00002
0'00003
0'00000
0'00001
0'00001
0'00002
0'00003
0'00000
0'00001
0'00001
0'00002
0'00003
0'00000
0'00001
0'00001
0'00002
0'00003
0'00000
0'00001
0'00001
0'00002
0'00002
0'00000
0'00001
0'00001
0'00002
0'00002
0'00000
0'00001
0'00001
0'00002
0'00002
0'00000
0'00001
0'00001
0'00001
0'00002
0'00005
0'00007
0'00011
0'00016
0'00023
0'00005
0'00007
0'00010
0'00015
0'00023
0'00004
0'00007
0'00010
0'00015
0'00022
0'00004
0'00006
0'00010
0'00014
0'00021
0'00004
0'00006
0'00009
0'00014
0'00020
0'00004
0'00006
0'00009
0'00013
0'00019
0'00004
0'00006
0'00009
0'00013
0'00019
0'00004
0'00005
0'00008
0'00012
0'00018
0'00003
0'00005
0'00008
0'00012
0'00017
0'00003
0'00005
0'00008
0'00011
0'00017
0'00034
0'00049
0'00069
0'00097
0'00135
0'00033
0'00047
0'00067
0'00094
0'00131
0'00032
0'00045
0'00064
0'00091
0'00127
0'00030
0'00044
0'00062
0'00088
0'00123
0'00029
0'00042
0'00060
0'00085
0'00119
0'00028
0'00041
0'00058
0'00082
0'00115
0'00027
0'00039
0'00056
0'00079
0'00111
0'00026
0'00038
0'00054
0'00077
0'00107
0'00025
0'00036
0'00052
0'00074
0'00104
0'00024
0'00035
0'00050
0'00071
0'00101
0'00187
0'00256
0'00347
0'00466
0'00621
0'00181
0'00248
0'00336
0'00453
0'00604
0'00175
0'00240
0'00326
0'00440
0'00587
0'00169
0'00233
0'00317
0'00427
0'00570
0'00164
0'00226
0'00307
0'00415
0'00554
0'00159
0'00219
0'00298
0'00402
0'00539
0'00154
0'00212
0'00289
0'00391
0'00523
0'00149
0'00205
0'00280
0'00379
0'00508
0'00144
0'00199
0'00272
0'00368
0'00494
0'00139
0'00193
0'00264
0'00357
0'00480
0'00820
0'01072
0'01390
0'01786
0'02275
0'00798
0'01044
0'01355
0'01743
0'02222
0'00776
0'01017
0'01321
0'01700
0'02169
0'00755
0'00990
0'01287
0'01659
0'02118
0'00734
0'00964
0'01255
0'01618
0'02068
0'00714
0'00939
0'01222
0'01578
0'02018
0'00695
0'00914
0'01191
0'01539
0'01970
0'00676
0'00889
0'01160
0'01500
0'01923
0'00657
0'00866
0'01130
0'01463
0'01876
0'00639
0'00842
0'01101
0'01426
0'01831
0'02872
0'03593
0'04457
0'05480
0'06681
0'02807
0'03515
0'04363
0'05370
0'06552
0'02743
0'03438
0'04272
0'05262
0'06426
0'02680
0'03362
0'04182
0'05155
0'06301
0'02619
0'03288
0'04093
0'05050
0'06178
0'02559
0'03216
0'04006
0'04947
0'06057
0'02500
0'03144
0'03920
0'04846
0'05938
0'02442
0'03074
0'03836
0'04746
0'05821
0'02385
0'03005
0'03754
0'04648
0'05705
0'02330
0'02938
0'03673
0'04551
0'05592
0'08076
0'09680
0'11507
0'13567
0'15866
0'07927
0'09510
0'11314
0'13350
0'15625
0'07780
0'09342
0'11123
0'13136
0'15386
0'07636
0'09176
0'10935
0'12924
0'15150
0'07493
0'09012
0'10749
0'12714
0'14917
0'07353
0'08851
0'10565
0'12507
0'14687
0'07214
0'08692
0'10383
0'12302
0'14457
0'07078
0'08534
0'10204
0'12100
0'14231
0'06944
0'08379
0'10027
0'11900
0'14007
0'06811
0'08226
0'09853
0'11702
0'13786
0'18406
0'21186
0'24196
0'27425
0'30854
0'18141
0'20897
0'23885
0'27093
0'30503
0'17879
0'20611
0'23576
0'26763
0'30153
0'17619
0'20327
0'23270
0'26435
0'29806
0'17361
0'20045
0'22965
0'26109
0'29550
0'17106
0'19766
0'22663
0'25785
0'29116
0'16853
0'19489
0'22363
0'25463
0'28774
0'16602
0'19215
0'22065
0'25143
0'28434
0'16354
0'18925
0'21770
0'24825
0'28096
0'16109
0'18673
0'21476
0'24510
0'27760
0'34446
0'38209
0'42074
0'46017
0'50000
0'34090
0'37828
0'41683
0'45620
0'49601
0'33724
0'37448
0'41294
0'45234
0'49202
0'33360
0'37070
0'40905
0'44828
0'48803
0'32997
0'36693
0'40517
0'44433
0'48405
0'32636
0'36317
0'40129
0'44038
0'48006
0'32276
0'35942
0'39743
0'43644
0'47608
0'31918
0'35569
0'39358
0'43251
0'47210
0'31561
0'35197
0'38974
0'42858
0'46812
0'31207
0'34827
0'38591
0'42465
0'46414
10 - Distribución normal (F. Álvarez)
TABLA I (B)
DISTRIBUCIÓN NORMAL TIPIFICADA
N(0 , 1)
La tabla proporciona, para cada valor de z, el área que queda a su izquierda.
z
0'0
0'1
0'2
0'3
0'4
0'5
0'6
0'7
0'8
0'9
1'0
1'1
1'2
1'3
1'4
1'5
1'6
1'7
1'8
1'9
2'0
2'1
2'2
2'3
2'4
2'5
2'6
2'7
2'8
2'9
3'0
3'1
3'2
3'3
3'4
3'5
3'6
3'7
3'8
3'9
4'0
4'1
4'2
4'3
4'4
0'00
0'01
0'02
0'03
0'04
0'05
0'06
0'07
0'08
0'09
0'50000
0'53983
0'57926
0'61791
0'65554
0'50399
0'54380
0'58317
0'62172
0'65910
0'50798
0'54766
0'58706
0'62552
0'66276
0'51197
0'55172
0'59095
0'62930
0'66640
0'51595
0'55567
0'59483
0'63307
0'67003
0'51994
0'55962
0'59871
0'63683
0'67364
0'52392
0'56356
0'60257
0'64058
0'67724
0'52790
0'56749
0'60642
0'64431
0'68082
0'53188
0'57142
0'61026
0'64803
0'68439
0'53586
0'57535
0'61409
0'65173
0'68793
0'69146
0'72575
0'75804
0'78814
0'81594
0'69497
0'72907
0'76115
0'79103
0'81859
0'69847
0'73237
0'76424
0'79389
0'82121
0'70194
0'73565
0'76730
0'79673
0'82381
0'70450
0'73891
0'77035
0'79955
0'82639
0'70884
0'74215
0'77337
0'80234
0'82894
0'71226
0'74537
0'77637
0'80511
0'83147
0'71566
0'74857
0'77935
0'80785
0'83398
0'71904
0'75175
0'78230
0'81075
0'83646
0'72240
0'75490
0'78524
0'81327
0'83891
0'84134
0'86433
0'88493
0'90320
0'91924
0'84375
0'86650
0'88686
0'90490
0'92073
0'84614
0'86864
0'88877
0'90658
0'92220
0'84850
0'87076
0'89065
0'90824
0'92364
0'85083
0'87286
0'89251
0'90988
0'92507
0'85313
0'87493
0'89435
0'91149
0'92647
0'85543
0'87698
0'89617
0'91308
0'92786
0'85769
0'87900
0'89796
0'91466
0'92922
0'85993
0'88100
0'89973
0'91621
0'93056
0'86214
0'88298
0'90147
0'91774
0'93189
0'93319
0'94520
0'95543
0'96407
0'97128
0'93448
0'94630
0'95637
0'96485
0'97193
0'93574
0'94738
0'95728
0'96562
0'97257
0'93699
0'94845
0'95818
0'96638
0'97320
0'93822
0'94950
0'95907
0'96712
0'97381
0'93943
0'95053
0'95994
0'96784
0'97441
0'94062
0'95154
0'96080
0'96856
0'97500
0'94179
0'95254
0'96164
0'96926
0'97558
0'94295
0'95352
0'96246
0'96995
0'97615
0'94408
0'95449
0'96327
0'97062
0'97670
0'97725
0'98214
0'98610
0'98928
0'99180
0'97778
0'98257
0'98645
0'98956
0'99202
0'97831
0'98300
0'98679
0'98983
0'99224
0'97882
0'98341
0'98713
0'99010
0'99245
0'97932
0'98382
0'98745
0'99036
0'99266
0'97982
0'98422
0'98778
0'99061
0'99286
0'98030
0'98461
0'98809
0'99086
0'99305
0'98077
0'98500
0'98840
0'99111
0'99324
0'98124
0'98537
0'98870
0'99134
0'99343
0'98169
0'98574
0'98899
0'99158
0'99361
0'99379
0'99534
0'99653
0'99744
0'99813
0'99396
0'99547
0'99664
0'99752
0'99819
0'99413
0'99560
0'99674
0'99760
0'99825
0'99430
0'99573
0'99683
0'99767
0'99831
0'99446
0'99585
0'99693
0'99774
0'99836
0'99461
0'99598
0'99702
0'99781
0'99841
0'99477
0'99609
0'99711
0'99788
0'99846
0'99492
0'99621
0'99720
0'99795
0'99851
0'99506
0'99632
0'99728
0'99801
0'99856
0'99520
0'99643
0'99736
0'99807
0'99861
0'99865
0'99903
0'99931
0'99951
0'99966
0'99869
0'99906
0'99933
0'99953
0'99967
0'99873
0'99909
0'99936
0'99955
0'99968
0'99877
0'99912
0'99938
0'99956
0'99970
0'99881
0'99915
0'99940
0'99958
0'99971
0'99885
0'99918
0'99942
0'99959
0'99972
0'99889
0'99921
0'99944
0'99961
0'99973
0'99893
0'99923
0'99946
0'99962
0'99974
0'99896
0'99926
0'99948
0'99964
0'99975
0'99899
0'99929
0'99950
0'99965
0'99976
0'99977
0'99984
0'99989
0'99993
0'99995
0'99977
0'99985
0'99990
0'99993
0'99995
0'99978
0'99985
0'99990
0'99993
0'99996
0'99979
0'99986
0'99990
0'99994
0'99996
0'99980
0'99986
0'99991
0'99994
0'99996
0'99981
0'99987
0'99991
0'99994
0'99996
0'99981
0'99987
0'99991
0'99994
0'99996
0'99982
0'99988
0'99992
0'99995
0'99996
0'99983
0'99988
0'99992
0'99995
0'99997
0'99983
0'99989
0'99992
0'99995
0'99997
0'99997
0'99998
0'99999
0'99999
0'99999
0'99997
0'99998
0'99999
0'99999
0'99999
0'99997
0'99998
0'99999
0'99999
0'99999
0'99997
0'99998
0'99999
0'99999
1'00000
0'99997
0'99998
0'99999
0'99999
1'00000
0'99997
0'99998
0'99999
0'99999
1'00000
0'99998
0'99998
0'99999
0'99999
1'00000
0'99998
0'99998
0'99999
0'99999
1'00000
0'99998
0'99999
0'99999
0'99999
1'00000
0'99998
0'99999
0'99999
0'99999
1'00000
Distribución normal (F. Álvarez) - 11
TABLA II
DISTRIBUCIÓN NORMAL TIPIFICADA
N(0 , 1)
La tabla proporciona el área que queda comprendida entre 0 y z.
z
0'0
0'1
0'2
0'3
0'4
0'5
0'6
0'7
0'8
0'9
1'0
1'1
1'2
1'3
1'4
1'5
1'6
1'7
1'8
1'9
2'0
2'1
2'2
2'3
2'4
2'5
2'6
2'7
2'8
2'9
3'0
3'1
3'2
3'3
3'4
3'5
3'6
3'7
3'8
3'9
4'0
4'1
4'2
4'3
4'4
0'00
0'01
0'02
0'03
0'04
0'05
0'06
0'07
0'08
0'09
0’00000
0’03983
0’07926
0’11791
0’15554
0’00399
0’04380
0’08317
0’12172
0’15910
0’00798
0’04766
0’08706
0’12552
0’16276
0’01197
0’05172
0’09095
0’12930
0’16640
0’01595
0’05567
0’09483
0’13307
0’17003
0’01994
0’05962
0’09871
0’13683
0’17364
0’02392
0’06356
0’10257
0’14058
0’17724
0’02790
0’06749
0’10642
0’14431
0’18082
0’03188
0’07142
0’11026
0’14803
0’18439
0’03586
0’07535
0’11409
0’15173
0’18793
0’19146
0’22575
0’25804
0’28814
0’31594
0’19497
0’22907
0’26115
0’29103
0’31859
0’19847
0’23237
0’26424
0’29389
0’32121
0’20194
0’23565
0’26730
0’29673
0’32381
0’20450
0’23891
0’27035
0’29955
0’32639
0’20884
0’24215
0’27337
0’30234
0’32894
0’21226
0’24537
0’27637
0’30511
0’33147
0’21566
0’24857
0’27935
0’30785
0’33398
0’21904
0’25175
0’28230
0’31075
0’33646
0’22240
0’25490
0’28524
0’31327
0’33891
0’34134
0’36433
0’38493
0’40320
0’41924
0’34375
0’36650
0’38686
0’40490
0’42073
0’34614
0’36864
0’38877
0’40658
0’42220
0’34850
0’37076
0’39065
0’40824
0’42364
0’35083
0’37286
0’39251
0’40988
0’42507
0’35313
0’37493
0’39435
0’41149
0’42647
0’35543
0’37698
0’39617
0’41308
0’42786
0’35769
0’37900
0’39796
0’41466
0’42922
0’35993
0’38100
0’39973
0’41621
0’43056
0’36214
0’38298
0’40147
0’41774
0’43189
0’43319
0’44520
0’45543
0’46407
0’47128
0’43448
0’44630
0’45637
0’46485
0’47193
0’43574
0’44738
0’45728
0’46562
0’47257
0’43699
0’44845
0’45818
0’46638
0’47320
0’43822
0’44950
0’45907
0’46712
0’47381
0’43943
0’45053
0’45994
0’46784
0’47441
0’44062
0’45154
0’46080
0’46856
0’47500
0’44179
0’45254
0’46164
0’46926
0’47558
0’44295
0’45352
0’46246
0’46995
0’47615
0’44408
0’45449
0’46327
0’47062
0’47670
0’47725
0’48214
0’48610
0’48928
0’49180
0’47778
0’48257
0’48645
0’48956
0’49202
0’47831
0’48300
0’48679
0’48983
0’49224
0’47882
0’48341
0’48713
0’49010
0’49245
0’47932
0’48382
0’48745
0’49036
0’49266
0’47982
0’48422
0’48778
0’49061
0’49286
0’48030
0’48461
0’48809
0’49086
0’49305
0’48077
0’48500
0’48840
0’49111
0’49324
0’48124
0’48537
0’48870
0’49134
0’49343
0’48169
0’48574
0’48899
0’49158
0’49361
0’49379
0’49534
0’49653
0’49744
0’49813
0’49396
0’49547
0’49664
0’49752
0’49819
0’49413
0’49560
0’49674
0’49760
0’49825
0’49430
0’49573
0’49683
0’49767
0’49831
0’49446
0’49585
0’49693
0’49774
0’49836
0’49461
0’49598
0’49702
0’49781
0’49841
0’49477
0’49609
0’49711
0’49788
0’49846
0’49492
0’49621
0’49720
0’49795
0’49851
0’49506
0’49632
0’49728
0’49801
0’49856
0’49520
0’49643
0’49736
0’49807
0’49861
0’49865
0’49903
0’49931
0’49951
0’49966
0’49869
0’49906
0’49933
0’49953
0’49967
0’49873
0’49909
0’49936
0’49955
0’49968
0’49877
0’49912
0’49938
0’49956
0’49970
0’49881
0’49915
0’49940
0’49958
0’49971
0’49885
0’49918
0’49942
0’49959
0’49972
0’49889
0’49921
0’49944
0’49961
0’49973
0’49893
0’49923
0’49946
0’49962
0’49974
0’49896
0’49926
0’49948
0’49964
0’49975
0’49899
0’49929
0’49950
0’49965
0’49976
0’49977
0’49984
0’49989
0’49993
0’49995
0’49977
0’49985
0’49990
0’49993
0’49995
0’49978
0’49985
0’49990
0’49993
0’49996
0’49979
0’49986
0’49990
0’49994
0’49996
0’49980
0’49986
0’49991
0’49994
0’49996
0’49981
0’49987
0’49991
0’49994
0’49996
0’49981
0’49987
0’49991
0’49994
0’49996
0’49982
0’49988
0’49992
0’49995
0’49996
0’49983
0’49988
0’49992
0’49995
0’49997
0’49983
0’49989
0’49992
0’49995
0’49997
0’49997
0’49998
0’49999
0’49999
0’49999
0’49997
0’49998
0’49999
0’49999
0’49999
0’49997
0’49998
0’49999
0’49999
0’49999
0’49997
0’49998
0’49999
0’49999
0’50000
0’49997
0’49998
0’49999
0’49999
0’50000
0’49997
0’49998
0’49999
0’49999
0’50000
0’49998
0’49998
0’49999
0’49999
0’50000
0’49998
0’49998
0’49999
0’49999
0’50000
0’49998
0’49999
0’49999
0’49999
0’50000
0’49998
0’49999
0’49999
0’49999
0’50000
12 - Distribución normal (F. Álvarez)
Series cronológicas
Componentes:
Tendencia
Variación estacional
Variación cíclica
Variación accidental
Evolución general de la serie
Variaciones regulares en función de la estación del año
Variaciones periódicas (anuales o en períodos de pocos años)
Pequeñas variaciones (ruidos) que no afectan a las anteriores. No se suelen tener
en cuenta.
Determinación de la tendencia:
Suavizado: Cálculo de medias móviles (3, 5, … elementos)
Función de ajuste
Estimación o predicción: intervalo utilizando el error típico
Variaciones cíclicas. Índice estacional:
Índice estacional = (Valor medio estación) / (Valor medio global)
Porcentaje de variación = (Índice estacional – 1) x 100 (%)
Año
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
Valor
70
105
140
300
290
350
360
320
330
400
620
500
600
Media móvil (3)
Media móvil (5)
105
181,7
243,3
313,3
333,3
343,3
336,7
350
450
506,7
573,3
181
237
288
324
330
352
406
434
490
700
600
500
400
300
200
100
0
700
600
600
500
500
400
400
300
300
200
200
100
100
0
0
Año
1990
1991
1992
1993
1994
Media
Índ. Estacional
% variación
19000
17000
15000
13000
11000
9000
7000
5000
Primavera
8190
8606
9552
9412
10289
9210
0,900
-10%
Verano
18247
19541
19670
18911
19394
19153
1,872
+87,2%
Otoño
6369
6961
7167
7220
7573
7058
0,700
-30%
Invierno
5520
5022
5616
5721
5675
5511
0,538
-46,2%
Media
9581
10033
10501
10316
10734
10233
Números índices
Índice simple: Cociente entre el valor actual y el tomado como base. Opcionalmente se puede multiplicar por 100.
Ii =
xi
.100
x0
Variación simple: Cociente entre la diferencia del valor actual y el tomado como base y éste último. Opcionalmente se
puede multiplicar por 100.
∆I i =
Índice simple
Variación simple
xi − x 0
.100 = I i − 100
x0
Año
Precio
Base 2000
Base 2000
2000
135
100
0
2001
150
111,11
11,11
2002
200
148,15
48,15
2003
240
177,78
77,78
Índices compuestos: Aplicables a series cronológicas sobre las que se toman varias mediciones (generalmente valor
o índice [p, I] y cantidad o peso [q, ω])
Índice compuesto no ponderado:
I CNP =
Índice compuesto ponderado:
I CP =
∑I
en variaciones: ∆I CNP =
i
n
∑ I i .ωi
∑ω
∑ p .q
=
∑ p .q
∑ p .q
=
∑ p .q
en variaciones: ∆I CP =
i
IL
Índice de Laspeyres:
IP
Índice de Paasche:
1990
1991
1992
CNP (1992)
CP (1992)
L (1992, base 1990)
P (1992, base 1990)
A
p
80
85
90
q
10
15
17
B
p
82
85
95
q
20
20
25
C
p
80
85
92
ij
i0
i0
i0
ij
ij
i0
ij
q
50
60
50
CNP
80,67
85,00
92,33
CP
80,50
85,00
92,45
L
1,0000
1,0559
1,1491
∑ ∆I
i
n
∆
∑ I i .ωi
∑ω
i
P
1,0000
1,0569
1,1478
90 + 95 + 92
= 92,33
3
90.17 + 95.25 + 92.50
= 92,45
17 + 25 + 50
90.10 + 95.20 + 92.50
= 1,1491
80.10 + 82.20 + 80.50
90.17 + 95.25 + 92.50
= 1,1478
80.17 + 82.25 + 80.50
Lectura recomendada:
Estadística para Relaciones Laborales. Ángel Alcalá. Hespérides
Tema 9:
Tema 10:
Tema 11:
El índice de precios al consumo (9.6) y Otros indicadores económicos y sociales (9.7).
Estadísticas laborales.
Otras estadísticas de interés.
Métodos Estadísticos Aplicados
a las Auditorias Sociolaborales
MODELO DE EXÁMEN
APELLIDOS
Firma
NOMBRE
1. En el proceso de selección de personal, se somete a los aspirantes a dos pruebas con diferente
grado de dificultad, cumplimentando además un cuestionario con sus datos personales. El sexo de cada
candidato es una variable:
a) cualitativa ordenable
b) discreta
c) dicotómica
d) cuantitativa continua
2. En la prueba realizada en el proceso de selección de personal, las mujeres obtienen una calificación
media de 6 puntos, siendo de 6,4 la obtenida por los hombres. Sabiendo que ambas series tienen la
misma desviación típica, ¿cuál de las dos series de calificaciones es más dispersa?:
a) La de las mujeres
b) La de los hombres
c) Es necesario conocer el valor de la desviación típica
d) Ambas son igualmente dispersas
3. En el proceso de negociación salarial se decide incrementar en un 3% el salario de todos los
trabajadores de la empresa. En la nueva serie de retribuciones:
a) La coeficiente de correlación disminuye
b) La media se mantiene constante
c) La varianza se mantiene inalterada
d) El coeficiente de variación no sufre modificación
4. En la prueba realizada en el proceso de selección de personal, las mujeres obtienen una calificación
media de 6 puntos con varianza 4, siendo de 5,8 la media obtenida por los hombres con desviación
típica 1,6. Si Una mujer obtiene 7 puntos y un hombre 6’6, ¿cuál de los dos tiene una mejor puntuación
relativa dentro del colectivo determinado por el sexo?:
a) Hemos de conocer la media y la varianza conjunta
b) La mujer tiene una mejor puntuación relativa
c) El hombre tiene una mejor puntuación relativa
d) Ambos tienen la misma calificación relativa
5. Una fábrica funciona las 24 horas del día con tres turnos de 30 trabajadores cada uno. En el primer
turno el 60 % son mujeres; en el segundo hay 12 mujeres y, en el tercero, sólo el 20 % son mujeres.
Seleccionada una mujer, la probabilidad de que trabaje en el segundo turno es:
a)
1/3
b)
0’40
c)
0’65
d)
del 50%
6. En un proceso de selección se ofrece a los participantes tres ejercicios alternativos. Cada aspirante
elige siempre uno de los tres ejercicios (A, B, C) con igual probabilidad (P(A)=P(B)=P(C)=1/3). El índice
de dificultad de cada uno de estos tres ejercicios es variable, siendo 5 si elige el A, 2 si selecciona B y 1
si realiza el C.
Un determinado participante realizó una prueba con un índice de dificultad inferior a 3. ¿Cuál es la
probabilidad de que haya elegido el ejercicio A?:
a) 1
b) 1/2
c) 1/3
d) 0
7. Finalizada la prueba anterior, preguntamos sobre el ejercicio elegido a los dos primeros aspirantes
que salen del recinto. ¿Cuál es la probabilidad de ambos realizaran el supuesto A?:
a) 1/4
b) 1/3
c) 1/9
d) 1
8. Para conocer el nivel de relación existente entre el tipo de contrato (temporal o fijo) y el número de
hijos de los trabajadores de una empresa, podemos utilizar el:
a) Coeficiente de Spearman
b) Coeficiente Φ (phi)
c) Coeficiente de exceso de Fisher
d) Coeficiente biserial puntual
9. En el estudio de la relación existente entre los pares de valores observados de dos variables X e Y,
se sabe que sus varianzas respectivas son iguales a 25 y 16, siendo 20 el valor de su covarianza. Con
ello podemos afirmar que:
a) Los datos son erróneos
b) El coeficiente de determinación es del 5%
c) El coeficiente de variación de la segunda es mayor
d) Las variables X e Y están perfectamente correlacionadas
10. Indique cuál de las siguientes afirmaciones sobre el IPC (índice de precios al consumo) es correcta:
a) Es un índice simple basado en los precios de una serie de productos.
b) Es un índice compuesto del tipo Laspeyres.
c) Es un índice compuesto del tipo Paasche.
d) Es la pendiente de la serie cronológica de periodicidad mensual.
ƒ
ƒ
ƒ
ƒ
1
a
Las contestaciones dadas fuera de la siguiente tabla se considerarán inválidas.
Calificación:
- Respuesta correcta:
+ 1’5 puntos
- Respuesta incorrecta: - 0’5 puntos
- Sin respuesta:
No puntúa
A la calificación obtenida se sumará la de las prácticas (0’25 por práctica con un máximo
de 2’5 puntos).
El examen se aprueba con una calificación final superior o igual a 7’5 puntos.
2
3
4
X
5
6
7
8
9
X
b
c
d
10
X
X
X
X
X
X
X
X
Métodos Estadísticos Aplicados
a las Auditorias Sociolaborales
MODELO DE EXÁMEN
APELLIDOS
Firma
NOMBRE
1.
Edad
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
Personas
5
11
19
21
4
De la distribución de edades de la izquierda, calcule:
1) Media y desviación típica.
2) Moda y Coeficiente de variación.
3) ¿Entre qué edades se encuentra el 30% de las
observaciones centrales?
2.
De la siguiente distribución bivariante:
Categoría
1
2
3
(Técnico)
(Mando intermedio)
(Directivo)
[0,2)
1
2
4
Hijos
[2,4)
7
2
[4,6]
3
1
1) Obtenga la ecuación de la recta de ajuste a dicha distribución.
2) Calcule e interprete el valor del coeficiente de correlación lineal.
3) De la varianza total del número de hijos, determine la proporción que no es atribuible a la
categoría.
3.
Los resultados de una encuesta de satisfacción en el desempeño de la actividad laboral, sometidos
a la consideración de 420 trabajadores, se distribuyen normalmente con media 4'5 y varianza 4.
1) Calcule la probabilidad de que un trabajador cuantifique su grado de satisfacción con más de
5’5 puntos.
2) ¿Cuántos trabajadores otorgaron calificaciones comprendidas entre 3 y 7 puntos?.
Puntuación de cada apartado: 0’75 puntos (Total 6 puntos)
1.
1.
2.
3.
Media
Desviación típica
Moda
Coef. Variación
P(35)
P(65)
15,27
2,11
16,35
13,84
14,53
16,38
2.
1.
2.
3.
b = -1,16
a = 5,14
o bien:
b = -0’27
a = 2,83
r = -0’5606 (31’42%)
interpretación
1 – r2 = 0’6858 (68’58%)
3.
1.
2.
z = 0’5
p = 1 – 0’69146 = 0’30854
z1 = -0’75 ; z2 = 0’75
p1 = 0’22663 ; p2 = 0’77337
N = 420 x 0’54674 = 229,63 (230)