Download estadística descriptiva univariada - Mi portal

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Asimetría estadística wikipedia , lookup

Distribución normal wikipedia , lookup

Curtosis wikipedia , lookup

Transcript
TEMA 1: INTRODUCCIÓN A LA
PSICOESTADÍSTICA
1. CONCEPTOS PRELIMINARES
La Psicología como Ciencia Empírica observa un conjunto de eventos del mundo
real para descubrir las leyes que explican el comportamiento humano bajo
determinadas circunstancias y llevar a cabo un proceso de inducción o
generalización inductiva.
1.1 Observar y medir
Los eventos observables pueden verse influidos por numerosos factores o fuentes
de variación que pueden ser difíciles de identificar, medir y controlar .
Se necesita de una herramienta metodológica especial, como es la estadística y el
conjunto de procedimientos que posee.
1.2 ¿Por qué usamos la Estadística?
En situaciones deterministas una misma causa produce siempre un mismo
resultado.
En situaciones aleatorias una misma causa puede producir cualquier resultado
entre varios posibles. En las situaciones aleatorias es necesario recurrir a los
procedimientos proporcionados por la estadística para poder extraer conclusiones
fiables.
1.3 El origen de la Estadística
La estadística nace de dos fuentes:


El cálculo de probabilidades: aproximación matemática a los juegos de
azar.
Estadística o ciencia del Estado: dedicada a llevar registros ordenados de
los datos del estado.
En el siglo XIX se unen para constituir la nueva estadística.
2. DEFINICIÓN DE ESTADÍSTICA
Estudia cómo obtener conclusiones de la investigación empírica mediante el uso de
modelos matemáticos.
Definición de Amón (1979): “Una ciencia que recoge, ordena y analiza los datos de
una muestra, extraída de cierta población, y que, a partir de esa muestra, valiéndose
del cálculo de probabilidades, se encarga de hacer inferencias acerca de la
población”.
La estadística se divide normalmente en dos partes: descriptiva e inferencial.


La estadística descriptiva organiza, sintetiza y aclara la información
contenida en un conjunto (muestra) de datos empíricos a través de una serie
de procedimientos.
La estadística inferencial generaliza, infiere o induce las propiedades de un
conjunto de datos empíricos (muestra) al conjunto total de datos (población) a
los que representan, a través de una serie de estrategias como son el cálculo
de probabilidades. Para poder extraer esta inferencia de la muestra a la
población, es preciso que se haya efectuado una selección de los datos
adecuada, mediante las técnicas de muestreo.
3. LA ESTADÍSTICA Y LA PSICOLOGÍA
La Estadística es en sí misma una ciencia que, por otro lado, sirve de instrumento
metodológico para el desarrollo de otras ciencias.
En este sentido la
Psicoestadística debe ser entendida como una herramienta metodológica al servicio
de la investigación empírica, siendo a través de ella como se obtiene conocimiento
científico.
4. MEDIDA: DEFINICIÓN DE VARIABLE Y ESCALAS
DE MEDIDA
Una variable es una característica que puede tomar diferentes valores.
Estos valores pueden ser de tipo cuantitativo, cualitativo .
Variables cuantitativas
Las variables cuantitativas son aquellas a las que puede asociarse un valor
numérico. Pueden ser discretas o continuas.
Se dice que la variable es discreta cuando no admite un valor intermedio entre dos
cualesquiera. Por ejemplo, el número de hijos.
Se dice que es continua cuando admite un valor intermedio entre dos cualesquiera.
Un ejemplo de este tipo puede darse cuando estamos midiendo un tiempo de
respuesta o la altura de una persona. En estos casos el número de valores distintos
será en la práctica finito (en la práctica mediremos en segundos o en décimas de
segundo, o centésimas, o milésimas,...) pero la continuidad de esta variable
aleatoria radica en el carácter continuo de lo que medimos, es decir, el hecho de
que entre dos valores posibles podríamos obtener infinitud de valores más si
tuviésemos aparatos de medida con la suficiente precisión. Este es el hecho
primordial que diferencia a una variable discreta de una continua.
Variables cualitativas
Las variables cualitativas son aquellas que expresan una cualidad "no medible"
cuyos valores no pueden ordenarse. Por ejemplo, el lugar de nacimiento o
determinados síntomas de una enfermedad.
TEMA 2: ESTADÍSTICA DESCRIPTIVA
UNIVARIADA
1. MATRIZ DE DATOS
La medición de fenómenos aleatorios se inicia a partir de la clasificación de las
observaciones en una matriz de datos. En esta matriz cada fila corresponde a toda
la información obtenida de cada uno de los casos observados y cada columna la
respuesta obtenida en cada tipo distinto de información .
Nombre Edad
Jorge
Jesús
Luis
Ana
7
8
12
11
Nota
Lengua
9
9
7
8
Nota
Matemáticas
8
8
5
5
2. TABLA DE FRECUENCIAS
Cuando se recogen los resultados de una observación y confeccionamos la matriz
de datos, observamos que, normalmente, existen valores que se repiten. A veces,
determinados valores se repiten con más frecuencia que otros. Es el caso de las
calificaciones de los alumnos, donde, en general, se producirán muchos más 5, o 6
que 10.
La relación que existe entre los posibles valores de respuesta y la frecuencia con
que se producen es lo que denominamos Distribución de frecuencias.
La distribución de frecuencias se representa usualmente como un cuadro o tabla
denominada tabla de frecuencias, donde en un eje se sitúan los posibles valores
de la variable y en el otro las frecuencias asociadas a ese valor. En nuestro ejemplo
las notas de lengua seguirían la siguiente distribución:
Xi
ni
7
1
8
1
9
2
La Frecuencia absoluta (ni) es el número de casos que hay en cada opción de la
variable.
La suma de todas las frecuencias absolutas es siempre igual a n, siendo n el
número total de casos, y se expresa:
Frecuencia relativa ( fi ): Expresa los resultados en proporciones, comparando el
número de casos de cada categoría de la variable con un valor de referencia, (el 1).
Nos informa si el número de casos en cada variable es grande o pequeño.
Se calcula como la frecuencia absoluta relativa al total y se expresa como:
Porcentaje: Nos informa si el número de casos en cada variable es grande o
pequeño, expresando los resultados en tantos por ciento, comparando el número de
casos de cada categoría de la variable con un valor de referencia, el 100.
fi%= (fi)100
Porcentaje acumulado: Nos indica el porcentaje de casos inferiores o iguales a un
determinado valor de la variable.
Se calcula acumulando (sumando) los porcentajes anteriores al porcentaje
correspondiente a un determinado valor de la variable. Solamente tiene sentido si
los valores son ordinales.
En nuestro ejemplo, podemos construir la siguiente tabla de frecuencias:
TABLA DE FRECUENCIAS
Xi
ni
fi
Fi %
7
1
0,25
25%
8
1
0,25
50%
9
2
0,50
100%
3. REPRESENTACIONES GRÁFICAS
3.1. Diagrama de barras
La representación gráfica más simple de una distribución de frecuencias es el
diagrama de barras.
Cada barra representa una categoría de la
variable que se esté representando que será más
o menos larga según el número de casos.
Notas en Lengua
2,5
2
1,5
ni
1
0,5
Es un diagrama adecuado para representar tanto
variables cuantitativas discretas como
cualitativas.
0
7
8
9
Valores de X
Se representan los valores o categorías de la variable en el eje de abscisas (eje X),
y la frecuencia absoluta en el eje de ordenadas (eje Y) por medio de barras
(rectángulos).
3.2. Histograma
Cuando la variable es cuantitativa continua, la representación gráfica adecuada es
el histograma.
Cada barra-rectángulo representa un intervalo de categorías de la variable que se
esté representando que será más o menos grande según la proporción de casos.
Obsérvese que en los casos de variables continuas, los diagramas de barra no son
los adecuados.
El número de tramos o intervalos en que se agrupa la información lo decide el
analista de datos teniendo en cuenta que si los intervalos son muy pequeños, se
pierde menos información pero la tabla se hace menos informativa de lo que
realmente está ocurriendo. Si los intervalos son demasiado grandes, puede
perderse excesiva información (imaginemos que tomamos intervalos de 50 kg, en
cuyo caso casi toda la población estaría comprendida en el tramo de 50 a 100 kg
con lo que poco podemos deducir).
4. ESTADÍSTICOS DESCRIPTIVOS
Los estadísticos descriptivos son medidas que resumen la información contenida en
los datos observados sobre la variable estudiada.
4.1. Medidas de tendencia central
Son un grupo de estadísticos que permiten ver lo dominante, lo típico o la tendencia
de una distribución de datos en el sentido de cuáles son sus valores medios.
La moda es el valor Xi que tiene la frecuencia más elevada. Es el único estadístico
que se puede utilizar con variables nominales.
La mediana resume, mediante un número, las características de una variable. Este
número es el valor del caso que ocupa la posición central de la distribución.
La mediana puede utilizarse con variables ordinales, ya que al tratarse de valores
ordenados se puede calcular el valor que ocupa la posición central.
Si el número de casos de la muestra es impar, será el valor Xi que queda en el
puesto (n+1)/2.
Si el número de casos de la muestra es par, será la media entre los valores Xi que
queden en los puestos n/2 y (n/2)+1.
La media resume en un valor las características de una variable teniendo en cuenta
a todos los casos. Solamente puede utilizarse con variables cuantitativas.
Si los datos están agrupados, la media se calcula como la suma de todos los
valores dividida entre el número total de casos.
Si los datos están agrupados se calcula como la suma de todos los valores
multiplicados por su correspondiente frecuencia absoluta, dividida entre el número
total de casos.
4.2. Medidas de variación o dispersión
A veces ocurre que las medidas de tendencias central, como la media, "engañan"
sobre la verdadera distribución de la variable, en el caso de que ésta sea muy
dispersa. Imagine que en una asignatura con 8 alumnos las calificaciones son
0,0,0,0,10,10,10,10. La media y la mediana resultan ser 5, valor muy alejado de lo
que sucede en realidad.
Las medidas de variación o dispersión muestran la variabilidad de una distribución,
indicando por medio de un número o estadístico si las diferentes puntuaciones de
una variable están muy alejadas de la media.
Cuanto mayores son los valores de esos estadísticos más variabilidad habrá.
Cuanto menores son, más homogéneas son las puntuaciones respecto a la
media. De este modo se puede saber si todos los casos son parecidos o hay
grandes diferencias entre ellos.
El rango o recorrido es la medida de la variabilidad de una distribución más
sencilla. Mide la amplitud de una distribución de frecuencias restándole al valor
mayor el valor menor.
Rango = Máximo - Mínimo
La varianza sesgada o varianza (S2x) mide la distancia existente entre los valores
de la muestra y la media. Se calcula como el promedio de las puntuaciones
diferenciales elevadas al cuadrado.
Al obtenerse como suma de cuadrados, la varianza siempre será mayor que cero.
Mientras más se aproxima a cero, más concentrados están los valores de la
muestra alrededor de la media. Por el contrario, mientras mayor sea la varianza
más dispersos están.
La desviación típica sesgada o desviación típica (Sx) es muy útil para el estudio
de la variabilidad de los datos. Este valor acentúa el efecto de las grandes
desviaciones y es siempre superior a la desviación media. Se calcula como la raíz
cuadrada de la varianza.
La mayor ventaja de la desviación típica se observará cuando estudiemos las
distribuciones denominadas normales.
La varianza insesgada
diferentes propiedades.
mide lo mismo que la varianza sesgada, aunque tienen
La desviación típica insesgada es por tanto:
4.3. Medidas de posición
Estas medidas permiten conocer otros aspectos característicos de la distribución
que no son los valores centrales.
Las medidas de posición son estadísticos que indican la posición relativa que ocupa
un sujeto en una distribución de frecuencias.
Percentiles o Centiles Ck
Un centil es una puntuación Xi que deja debajo de sí un porcentaje acumulado K
CK=Xi donde K=1, 2, …., 99
Los centiles son 99 valores de la variable X que dividen la distribución en 100
secciones ( cada una con la centésima parte de las n observaciones) . Son útiles
para hacer valoraciones de las puntuaciones de los sujetos en cuanto a su “grupo
de referencia”.
Estas puntuaciones indican la posición relativa de un sujeto en su grupo de
referencia
Dependen de la forma de la distribución de frecuencias.
Xi
ni
fi
Fi %
7
1
0,25
25%
8
1
0,25
50%
9
2
0,50
100%
En el ejemplo la puntuación 8 es el centil 50 . Un 50% de los sujetos no supera la
puntuación 8.
Cálculo de Centiles
1) Cálculo directo
a) En puntuaciones observadas
K xi  Fa 100
b) En puntuaciones no observadas
 x  xi 1 

Fxi 1  Fxi1 )  Fxi 1
K xi   i
 xi 1  xi 1 )

Donde
xi es el valor cuyo centil se quiere determinar
x i-1 valor observado inmediatamente inferior a xi
x i+1 valor observado inmediatamente superior a xi
Fi+1 porcentaje acumulado valor inmediatamente superior
Fi -1 porcentaje acumulado del valor inmediatamente inferior
2) Cálculo inverso
Si se desea conocer la puntuación correspondiente a un centil
a) En puntuaciones observados CK=Xi
b) En puntaciones no observadas
 ( F  Fxi 1 )( xi 1  xi 1 
CK Xi   xi
  X i 1
( Fxi 1  Fxi 1 )


Otras puntuaciones equivalentes son los deciles , y cuartiles ( Q1=C25, Q2=C50,
Q3=C75)
El recorrido Inter-cuartil (RIC) o amplitud Inter-cuartil es una medida que sirve
para ver la diferencia entre el primer cuartil y el tercer cuartil de una distribución de
datos. Este estadístico se utiliza sobre todo en el análisis exploratorio de los datos a
partir de medidas de posición.
RIC = Tercer cuartil – Primer cuartil
Puntuación Diferencial o desviación a la media,
Xi, es la diferencia de cada valor respecto a la media de la muestra en la que se
incluye.
Puntuación diferencial < 0 : El valor Xi está por debajo de la media
Puntuación diferencial = 0 : El valor Xi es igual a la media
Puntuación diferencial > 0 : El valor Xi está por encima de la media
Puntuación típica
Zx es el valor Xi llevado a una escala de valores Z x, que son nuevas variables
expresadas en unidades de desviación típica y se interpreta como el número de
unidades de desviaciones estándar que tiene ese resultado por encima o por
debajo de la media.
Fórmula para la tipificación de cualquier puntuación o valor Xi:
Zx < 0 : Puntuación por debajo de la media
Zx = 0 : Puntuación igual a la media
Zx > 0 : Puntuación por encima de la media
Las variables tipificadas tienen una serie de propiedades que las harán muy útiles
para comparar resultados:



La media y la mediana coinciden y su valor es 0 y la varianza y desviación
típica es igual a 1.
Si la distribución de la variable Z es normal, sus valores van desde -∞ a +∞ ,
aunque toma su valor asintótico (roza el eje X) a partir del -3 y +3
Se puede conocer la proporción de casos en cualquier intervalo de la
distribución. Por ejemplo, entre la media y -2 a +2 unidades de DT
(exactamente desde -1.96 a 1.96) están comprendidos el 95% de los casos.
Proporciones, áreas y probabilidad bajo la curva normal
Si la distribución de una variable es normal podemos asociar directamente una
proporción de la curva a una puntuación. Eso es así debido al proceso de
estandarización.
En la siguiente figura se representa la distribución normal con varios ejes de abcisas
,para una facilitar una mejor comprensión de las relaciones entre puntuaciones
directas, estándar(o típicas) , proporciones, áreas, percentiles, e incluso categorías
de puntuaciones directas.
El primer eje recoge las desviaciones estándar, y su necesaria coincidencia con el
tercer eje ( puntuaciones z) .
El segundo eje, ( equivalencia en percentiles) se encuentra relacionado con las
líneas verticales presentados bajo la curva. De tal modo que, la suma acumulativa,
de izquierda a derecha, de los porcentajes expresados dentro de la distribución,
coincide con la magnitud del percentil presentado en el tercer eje.
El penúltimo y ultimo eje de abcisas muestran los cociente intelectual de desviación
y C.I. .
Se puede conocer proporciones, áreas o probabilidades conociendo una o varias
puntuaciones directas mediante el proceso de estandarización. Y a la inversa,
partiendo de una proporción o área podemos obtener una puntuación directa.
a) Si tenemos una puntuación directa para obtener la proporción o porcentaje :
1) Calculamos en primer lugar la puntuación Z
2) con esta puntuación z calculada se acude la tabla que resume las
proporciones de áreas acumuladas hasta el punto z
http://www.uv.es/meliajl/Docencia/Tablas/ZColaIzq.PDF
B) Si nos dan la proporción o porcentaje :
1) Desde la tabla obtenemos la puntuación z normalizada
2) Transformamos la puntuación según la ecuación:
Xi= z + Media
Ejemplo de cálculo de proporción o porcentaje
Ana acaba de ser evaluada con el WAIS y ha obtenido un resultado de 88. ¿Qué
porcentaje de la población tiene mejores resultados que él? ¿ y qué porcentaje
obtiene resultados más bajos?. (El C.I se distribuye con Media 100 y desviación 15)
1º Se estandariza la puntuación z = (88-100)/15= - 0.8
2º En la tabla z buscamos la proporción acumulada bajo la curva normal. La primera
columna contiene las puntuaciones z con un decimal, mientras que la segunda
columna incluye el segundo decimal. El punto de intersección entre la columna y la
fila recoge la proporción acumulada hasta esa puntuación z. La intersección entre la
fila -0.8 y la columna 0.0 da una proporción de 0.2119.
Si a la unidad le restamos lo que queda por debajo de la z sabremos lo que queda
por encima de ese punto: 1 - 0.2119 = 0.781. Es decir que el 78% obtiene
resultados más elevados que Ana, frente a un 21% a los que supera Ana.
Ejemplo de cálculo de puntuación
¿Entre qué valores se encuentra el 95% central de la población general de C.I ?
Necesitamos conocer la puntuación z asociada al 95% central. Si observamos la
tabla o el gráfico observamos que el 95% está asociado a los valores -1,96, +1,96
Sustituyendo en la ecuación
Xi= z + Media
Las puntuaciones son C.I.= 70,6 y C.I.= 129.4
4.4. Medidas de la forma de la distribución
El concepto de asimetría o sesgo se refiere a si la curva que forman los valores de
la serie presenta la misma forma a izquierda y derecha de un valor central (media
aritmética).
Según el grado de asimetría una distribución puede ser:

Simétrica: si existe la misma concentración de valores a la derecha y a la
izquierda de la media.

Asimétrica positiva: si existe mayor concentración de valores a la derecha
de la media que a su izquierda.

Asimétrica negativa: si existe mayor concentración de valores a la izquierda
de la media que a su derecha.
Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de
Fisher, F1,,que viene definido:
k
 ( xi  X )3 ni
i 1
F1 
N
S3
Los resultados pueden ser los siguientes:
F1 = 0 : Distribución simétrica: igual que la normal
F1 > 0 : Distribución asimétrica positiva: desplazada hacia la derecha.
F1 < 0 : Distribución asimétrica negativa: desplazada hacia la izquierda.
La Curtosis o apuntamiento analiza el grado de concentración que presentan los
valores alrededor de la zona central de la distribución.
El patrón con el que se compara la forma del gráfico es la distribución normal.
Según el grado de curtosis, una distribución pueden ser:

Mesocúrtica: presenta un grado de concentración medio alrededor de los
valores centrales de la variable.

Leptocúrtica: presenta un elevado grado de concentración alrededor de los
valores centrales de la variable.

Platicúrtica: presenta un reducido grado de concentración alrededor de los
valores centrales de la variable.
Para medir el nivel de curtosis se utiliza el Coeficiente de Curtosis, definido por la
siguiente fórmula:
( x  x ) 4 ni
i 1 N
Cr 
3
Sx 4
K
Los resultados pueden ser los siguientes:
Cr = 0 : Distribución mesocúrtica: igual que la normal.
Cr > 0 : Distribución leptocúrtica: más apuntada que la normal.
Cr < 0 : Distribución platicúrtica: más aplastada que la normal.