Download Unidad 1: Definiciones Básicas

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Media (matemáticas) wikipedia , lookup

Transcript
Estadística: Disciplina científica que crea, desarrolla y aplica los adecuados métodos de recopilación de datos y
su evaluación para transformarlos en información que describan objetivamente situaciones investigadas, se
analice el comportamiento de determinadas características y tomen decisiones en condiciones de incertidumbre.
Tarea estadística: surge cuando se necesita estudiar situaciones que requieren ser medidas en condiciones
similares y los resultados de estos pueden presentar variabilidad.
Experimento o encuesta: es la observación planeada de un fenómeno de cualquier índole con el objetivo de
conocer su comportamiento, poder describirlo y/o tomar una decisión.
Unidad experimental: cada uno de los entes que son observados en el experimento.
Ej.: el experimento consiste en observar las exportaciones realizadas en cada año, luego, la unidad experimental
es el año.
Medición: es la asignación de símbolos, numerales o números a ciertas características de las Unidades
Experimentales conforme a escalas o reglas preestablecidas.
Dato estadístico: valuación de un evento. Resultado de la medición. Puede ser:
a-cuali: atributos o propiedades para identificar y describir un ente.
b-cuanti: identifican las diferencias entre los valores en cantidad y grados.
Escalas: (según la complejidad de las operaciones matemáticas que se pueden realizar con los datos)
a-E. Nominal: conj de los numerales o símbolos que se usan para clasificar los entes en las distintas categorías.
Se usa cuando los datos son cuali. Constituyen el nivel mas bajo de medición. La relación lógica es la relación
de equivalencia.
b-E. Ordinal: conj de los numerales o símbolos que se usan para clasificar los entes de acuerdo a su rango. Se
usa cuando los datos son cuali. Constituyen el nivel de medición superior al anterior. La relaciones lógicas son
la relación de equivalencia y la de orden.
c-E. de Intervalo: conj de los números que se usan para clasificar los entes de acuerdo a su rango y para poder
establecer una distancia entre dos cualesquiera de ellos. Se usa cuando los datos son cuanti. Constituyen el nivel
de medición superior al anterior. El punto de origen es un cero arbitrario (no necesariamente indica ausencia. Se
pueden aplicar operaciones aritméticas.
d- E. de Razón: conj de los números que se usan para clasificar los entes de acuerdo con su rango, poder
establecer una distancia y una proporcionalidad entre dos cualesquiera de ellos. Se usa cuando los datos son
cuanti. El punto de origen es un cero real (indica ausencia). Nivel mas alto de medición.
Información: evaluación de los datos estadísticos, comparándolos con un patrón, de modo tal que permita la
toma de decisiones.
Universo: conjunto de unidades experimentales que poseen características comunes observables, para obtener
información sobre un hecho particular. Puede ser finito o infinito.
Un Universo queda determinado cuando se establece cuál es el objetivo del trabajo a realizar.
Variable:
cualquier característica observable, cualitativa o cuantitativa, que tienen las unidades
experimentales.
Recorrido de una variable: conjunto de los posibles valores que ella pueda asumir.
Cualitativa: los valores no constituyen un espacio métrico, no es posible establecer una distancia entre
dos cualesquiera de ellos. Se miden en escala Nominal u ordinal
Cuantitativa: los valores constituyen un espacio métrico, es posible establecer la distancia entre dos
cualesquiera de ellos. Se miden en escala de Intervalo o de Razón.
Continua: es aquella, que dado un intervalo [a; b] de números reales, cualquier número
real que pertenece a dicho intervalo, puede ser un valor de la variable. Se originan cuando se miden
magnitudes y no establece restricciones. Su recorrido es infinito.
Discreta: es aquella que, dado un intervalo [a; b] de números reales, sólo algunos
números reales que pertenecen a dicho intervalo, pueden ser valores de la variable. Se originan en los
conteos, o cuando se establece restricciones al medir magnitudes. Su recorrido es finito o infinito
numerable.
Población: conjunto de los valores de una variable particular que se estudia a un Universo
Cada Universo origina tantas poblaciones como variables se estudien en él.
Universo finito
población finita.
Muestra: es un subconjunto o parte de una población en base a la cual se puede hacer un juicio acerca de ésta.
Etapas de la tarea estadística: es una serie de pasos que se deben cumplir a los efectos de obtener la
información necesaria para la realización de un trabajo de investigación, que permitirán una buena
planificación, organización y administración de los recursos.
Las etapas de la tarea estadística son:
1.
Enunciación del problema, definición del Universo e identificación de las variables.
2.
Formulación de los instrumentos de medición.
3.
Recopilación de los datos.
4.
Análisis de los datos.
5.
Interpretación de los resultados (obtención de la información)
Medidas que resumen información.
Parámetros: son las medidas que resumen información calculadas con una población, es decir, con la totalidad
de los valores de una o más variables, si los datos fueron recopilados mediante un censo o un registro completo.
Son valores poblacionales.
Estimadores: son calculados con los datos de una muestra.
Las medidas que resumen información se las agrupan en:
1.
Medidas de concentración
2.
Medidas de tendencia central o de posición.
3.
Medidas de variabilidad o dispersión.
4.
Medidas de forma.
1-Medidas de concentración:
Son las medidas con las cuales se puede establecer la frecuencia, absoluta o relativa, que se concentra dentro de
un intervalo dado; o, el intervalo que concentre en su interior una determinada frecuencia, relativa o absoluta
Las medidas de concentración se gráfican en el gráfico de la ojiva.
Dos tipos de medidas de concentración:
1.
Frecuencia acumulada hasta un valor dado de la variable.
2.
Percentiles o fractiles.
 Frecuencia acumulada hasta un valor dado de la variable: mide la concentración de datos que hay, entre
el mínimo valor de la variable en una distribución de frecuencias, y un valor dado de la variable, por lo tanto, es
una medida de concentración.
F ( x0 )  F( s 1) 
x0  Lis
. fs
a
donde:
s: orden del intervalo que contiene a x0
x0: valor de la variable cuya frecuencia absoluta acumulada se quiere interpolar.
Fr ( x0 ) 
F ( x0 )
n
para expresarlo en %
 Percentiles o fractiles.
Fractil: es un valor de la variable hasta donde se acumula cierta frecuencia relativa. Si ésta
está expresada en porcentaje, dicho valor de la variable se llama percentil.
Percentil de orden k: es el valor hasta donde se acumula, a lo sumo, el k% de las
observaciones.
Percentiles: son medidas de concentración que pueden localizarse en variables cualitativas
medidas en escala ordinal
Orden relativo del percentil: es la frecuencia relativa acumulad hasta el valor de la variable
que se quiere calcular, expresada en porcentaje.
Orden absoluto del percentil(OAP): es la frecuencia absoluta acumulada correspondiente al
valor k y se obtiene calculando el k% del total de observaciones n
OAP 
k .n
100
 Variables discretas.
El valor del percentil o Fractil de orden k, se calcula:

Se determina el OAP.

Se busca el primer valor de la frecuencia absoluta acumulada que supera al OAP. El valor de la
variable que le corresponde, es el percentil de orden k buscado.

Si el OAP coincide con algún valor de la frecuencia absoluta acumulada, entonces el percentil
de orden k buscado es la semi-suma entre el valor de la variable que le corresponde y el siguiente.
 Variables continuas:
El percentil de orden k pertenece a un determinado intervalo, el intervalo P. El primer valor de
la frecuencia acumulada que supere al orden absoluto del percentil, determina el intervalo que contiene al
percentil buscado.
Para localizar el valor del percentil de orden k dentro del intervalo P se utiliza:
k .n
 F( P 1)
100
x k  Li P 
.a
fP
donde:
P: orden del intervalo que contiene el percentil.
El percentil de orden k puede interpretarse:
Sólo el k% de los datos superó el valor xk
o
Sólo el (100 – k)% de los datos superó el valor xk.
2-Medidas de posición o de tendencia central:
Son aquellos valores destacados con los cuales es posible representar a la totalidad de los valores de la variable.
Las medidas de posición o de tendencia central son:
1-Modo.
2-Mediana.
3-Promedios simples
Media aritmética
Media geométrica
Media armónica.
4-Promedio aritmético ponderado.

Modo o moda Mo(x): es el valor que se presenta con mayor frecuencia.
El valor del modo se ve afectado por la forma de agrupamiento de la variable.

Variable discreta:
El modo es el valor de la variable que tenga mayor frecuencia simple

Variable continua:
El intervalo de mayor frecuencia se llama intervalo modal. El modo es un valor q
pertenece a dicho intervalo. Para localizar el modo se utiliza:
Mo ( x)  Li0 
donde:
d1  f i  f (i 1)
y
d1
.a
d1  d 2
d 2  f i  f (i 1)
En las variables discretas, el modo puede localizarse gráficamente utilizando el gráfico de bastones.
En las variables continuas, el modo puede localizarse gráficamente utilizando el histograma.

Mediana Me(x): es el valor que supera y es superado por, a lo sumo, igual cantidad de observaciones.
Para su localización los valores observados de la variable deben estar ordenados.
( n  1)
Este orden se determina haciendo:
2
Si la cantidad de n datos es impar, la mediana es el valor que está ubicado en el medio, y si la
cantidad es impar, la mediana es la semi-suma de los valores centrales.
El orden mediano es un valor de la frecuencia absoluta acumulada y se lo llama orden absoluto de la
mediana, OAM. La frecuencia absoluta acumulada hasta la mediana es, a lo sumo n/2.

Variable discreta.
La mediana se determina:

Se busca el primer valor de la frecuencia absoluta acumulada que supera al OAM.
El valor de la variable que le corresponde, es la mediana.

Si el OAM. Coincide con algún valor de la frecuencia absoluta acumulada,
entonces la mediana es la semi-suma entre el valor de la variable que le corresponde y
el siguiente.

Variable continua.
La mediana pertenece al intervalo m, llamado intervalo mediano. Para localizarlo:

OAM 
Se calcula el
n
2
 El primer valor de la frecuencia acumulada que sea mayor al OAM, determina el
intervalo que contiene a la mediana o intervalo mediano.

Para localizar la mediana se utiliza:
n
 F( i 1)
2
Me( x)  Li 
.a
fi
Características de la mediana:
 el valor de la mediana es igual al percentil 50
 Los valores extremos no la afectan.
 La suma del módulo de las desviaciones con respecto a la mediana es mínima.
En las variables cuantitativas continuas, la mediana puede localizarse gráficamente utilizando la ojiva.
 Promedios simples.
x
Variables cuantitativas.
 Promedio o media aritmética (X): es el número que resulta de sumar todos los valores observados de la
variable y dividir esta suma por el número de datos.
X 
x
i
. fi
n
Desviación o variación: con respecto al promedio o media aritmética, es la diferencia entre un valor
individual de la variable y su promedio o media aritmética.
( xi  X )
 Promedio o media geométrica: es el número resultante de multiplicar todos los valores observados de la
variable extrayendo a este producto la raíz índice igual al total de datos.
 Promedio o media armónica: es el número resultante de hacer el cociente total de datos, y la suma de la
inversa de los valores observados de la variable.
Propiedades del promedio o media aritmética:
1 – la suma de las desviaciones con respecto a la media aritmética es nula.
El promedio compensa las desviaciones negativas con las positivas.
(x  X ) f  0

i
i
2- la suma de las desviaciones cuadráticas con respecto a la media aritmética es mínima.
 (x
i
 X )2 . fi
3 – el promedio o media aritmética de una variable x es igual a un número real arbitrario k más el promedio o
media aritmética de los desvíos con respecto al número real k.
X k
 (x
 k ). f i
i
n
4 – el promedio o media aritmética de una constante es la constante misma
xk
X k
5 – el promedio de la de una variable más o menos una constante, es igual al promedio de la variable más o
menos la constante.
entonces
y  xk
y  xk
6 – el promedio o media aritmética del producto o cociente de una variable por o dividido una constante no
nula, es igual al promedio o media aritmética de la variable multiplicado o dividido por la constante.
Sí
y  x.k
Sí
x
y
k
entonces
y  k .x
entonces
x
y
k
k  0
7 – dada la transformación afín de la variable x
el promedio
y  a  b.x
es: y  a  b.x
8 – sean k variables,
x1; x2; .................xk
y,
x1 ; x 2 ;.............x k
los correspondientes promedios calculados cada uno ellos con
n1; n2; ..............nk
observaciones respectivamente, defino a la variable x como la suma de las variables dadas
X = X1 + X2 + ..........................XK
El promedio o media aritmética se puede calcular haciendo:
X 

n1 . X 1  n 2 . X 2  ..........nk . X k
n1  n2  n3  .........  nk
Promedios ponderados.
Ponderaciones: son aquellos valores que permiten asignar a cada valor de la variable en estudio
una determinada importancia o peso relativo.
El promedio ponderado puede ser Aritmético, Geométrico o Armónico.
Promedio aritmético ponderado: surge de la suma del producto entre cada valor de la variable en
estudio y la correspondiente ponderación dividido por la suma de estas últimas.
3-Medidas de variabilidad:
Son aquellas que permiten estudiar, cómo se desvían, en su conjunto, los valores observados de una variable,
con respecto a alguna medida de tendencia central.
Las medidas de variabilidad son:
1-Desvío medio.
2-Suma de cuadrados.
3-Varianza.
4-Desvío estándar o típico
5-Coeficiente de variación.
 Desvío medio.
Con respecto a la mediana: el desvío medio es el promedio aritmético
del módulo de las desviaciones con respecto a la mediana.
Con respecto a la media aritmética: es el promedio aritmético del
módulo de las desviaciones con respecto a la media aritmética.
 Suma de cuadrados SC(x): es la suma de cuadrados de las desviaciones con respecto de la media
aritmética elevadas al cuadrado.
 Varianza V(x): es el promedio aritmético del cuadrado de las desviaciones con respecto a la media
aritmética.
 ( xi  x ) 2 . f i
V ( x) 
n
La varianza es una medida de variación porque está midiendo, en su conjunto, las diferencias entre cada valor
individual observado de la variable y la media aritmética.
Cuando mayor es el valor numérico de la varianza, mayor es la variabilidad de los datos y, consecuentemente,
menor la representatividad de la media aritmética.
Propiedades de la varianza
1 - la varianza es, necesariamente, un número real no negativo. V ( x)  0
2 – la varianza de una constante es nula.
V (k )  0
3 – la varianza de la suma de una variable más (o menos) una constante, es igual a la varianza de la variable.
Sí
y  xk
entonces
V(y) = V(x)
4 – la varianza del producto o cociente de una variable por o dividido una constante no nula, es igual a la
varianza de la variable por o dividido la constante al cuadrado.
Si
Sí
y = x.k
x
y
k
entonces
entonces
V(y) = k2 . V(x)
V ( x)
V ( y)  2
k
5 – dada la transformación afín de la variable x;
la varianza es
V(y) = b2 . V(x)
k  0
y = a + b.x
 Desvío estándar o típico S(x): es la raíz cuadrada positiva de la varianza.
S ( x)  V ( x)
El desvío estándar o típico, es una mediad de variabilidad absoluta, porque su valor numérico está expresado en
la misma dimensión de la variable mantenido la magnitud.
Esta medida es adecuada para establecer la variabilidad que presentan los valores observados de la variable, en
su conjunto, con respecto a la media aritmética.
 Coeficiente de variación: es el cociente entre el desvío estándar y la media aritmética de dicha variable.
S ( x)
x
El coeficiente de variación es un número puro. Es una medida de variabilidad relativa. Relaciona el desvío
estándar con la media aritmética. Permite establecer criterios generales acerca de la homogeneidad de los datos,
de la representatividad de la media aritmética.
CV ( x) 
Si el CV ( x)  0,10
( si el desvío es menor o igual a 0,10 ) los datos son
homogéneos y la media aritmética es representativa.
Momentos empíricos, absolutos o centrados: son operadores matemáticos que proveen fórmulas generales
para el cálculo de medidas que resumen información a partir de los valores de la variable obtenidos
empíricamente (valores observados).
Momento empírico absoluto mk(x): (de orden k de la variable x) es el promedio aritmético de la potencia késima de los valores observados de la variable.
k
xi f i

mk ( x) 
Utilizando la frecuencia absoluta simple:
n
Utilizando la frecuencia relativa simple:
mk ( x)   xi fri
k
El momento empírico absoluto de orden 1, es igual a la media aritmética.
Momento empírico centrado mck(x): (de orden k de la variable x) es el promedio aritmético de la potencia késima de los desvíos, de cada uno de los valores individuales observados de la variable, con respecto a la media
aritmética.
Utilizando la frecuencia absoluta simple:
Utilizando la frecuencia relativa simple:
 (x
mck ( x) 
i
 x) ki . f i
n
mck ( x)   ( xi  x) k . fri
El momento empírico centrado de orden 2 es igual a la Varianza.
4-Medidas de forma.
Una distribución de frecuencias es simétrica cuando:
Variable discreta: las frecuencias simples correspondientes a valores de la variable que equidistan de la media
aritmética son iguales
Variables continua: las frecuencias simples de los intervalos cuyos puntos medios equidisten de la media
aritmética son iguales.
Luego, si la distribución de frecuencias es simétrica, necesariamente se cumple:
f ( x  s )  f ( x  s )s / s  
curtosis o apuntamiento: es una determinada relación entre la amplitud total y la máxima ordenada, que
presenta una distribución de frecuencia.
Las medidas de forma son:
1-Coeficiente de asimetría
2-Coeficiente de curtosis.
 Coeficiente de asimetría As(x): es el cociente entre el momento centrado de orden 3 y la potencia
tercera del desvío estándar.
Cuando una distribución de frecuencias es simétrica, todos los momentos centrados de orden impar son nulos.
Si una distribución es asimétrica el momento centrado de orden 3 no es nulo.
El signo del coeficiente de asimetría se interpreta como sigue:
As(x)
= 0 distribución simétrica.
> 0 es asimetría positiva. La distribución es Si asimétrica a la derecha.
< 0 es asimetría negativa. La distribución es asimétrica a la izquierda.
Si el valor numérico del modo, la mediana y la media aritmética coinciden, el coeficiente de asimetría es alto, la
distribución es asimétrica.
Si el valor numérico del modo y de la mediana coinciden, y la diferencia entre ellos con la media aritmética es
muy pequeña, el coeficiente de simetría es alto. La distribución es marcadamente asimétrica.
 Coeficiente de curtosis K(x): es el cociente entre el momento centrado de orden 4 y la cuarta potencia
del desvío estándar.
El signo del coeficiente de curtosis:
Si K(x)
= 0 Si la dist de frecuencias es = cero, el coeficiente de curtosis es Mesocúrtica.
> 0 Si la dist de frecuencias tiene un coef de curtosis positiva, la dist es Leptocúrtica.
< 0 Si la dist de frecuencias tiene un coef de curtosis negativa, la dist es Platicúrtica.
Variable de cálculo: es una transformación afín de los valores observados de la variable es estudio que se
genera de modo tal que no represente a alguna magnitud, que sus valores sean números enteros, y que el
incremento de ellos sea unitario.