Download Diapositiva 1

Document related concepts

Parámetro estadístico wikipedia , lookup

Curtosis wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Asimetría estadística wikipedia , lookup

Desviación típica wikipedia , lookup

Transcript
Tema 1: Estadística Descriptiva
1. Conceptos generales.
2. Medidas de centralización.
3. Medidas de dispersión.
4. Medidas de posición.
5. Medidas de forma.
6. Tipificación.
90
80
70
60
50
40
30
20
10
0
Este
Oeste
Norte
1er trim. 2do trim. 3er trim. 4to trim.
1. Conceptos generales.
Estadística (“Estado”): parte de las Matemáticas que
se encarga de RECOGER y ANALIZAR datos.
Estadística Descriptiva
Estadística Inferencial
Teoría de muestras,
Diseño de experimentos
POBLACION
Muestra
Razones para tomar muestras: tiempo, dinero, accesibilidad, …
PARADOJICAMENTE, para conocer a la población no
hace falta estudiar a TODA la población…
EN DOS SEMANAS RECORTA 4 PUNTOS
El PP se sitúa a dos puntos del PSOE en intención de voto,
según una encuesta publicada en El País
El PP se encuentra a dos puntos del PSOE en intención directa de voto, según un sondeo del Instituto Opina
que publica este domingo el diario El País. Agrega el periódico que el PP ha logrado recortar en dos
semanas cuatro puntos en intención de voto respecto a los socialistas, quienes tenían un 44 por ciento de
intención de voto, frente al 38 por ciento del PP, según la anterior encuesta de Opina, publicada el 25 de
septiembre en ése mismo diario.
L D (Agencias) El sondeo publicado este domingo, hecho sobre una muestra de 1.300 entrevistas hechas desde el 4 al 6 de octubre en todo
el territorio español, desvela que el PP gana dos puntos y el PSOE los pierde, "con lo que la diferencia se reduce drásticamente y supone la
ventaja socialista más reducida desde las elecciones generales"..
Aunque los diarios La Vanguardia y El Periódico de Cataluña recogen otra encuesta que revela que el PSC y CiU mantienen un
empate técnico, aunque en los porcentajes de intención de voto el PSC continuaría por delante. En ambas encuestas, tanto el
presidente de la Generalidad, Pasqual Maragall, como el líder de la oposición, Artur Mas, mejoran sustancialmente su valoración
respecto a encuestas anteriores, aunque Maragall saca 19,3 puntos en la pugna por la presidencia de la Generalidad.
Así, la encuesta de La Vanguardia elaborada por el Instituto Noxa entre los días 3 y 6 de octubre a 1.000 entrevistados, otorga al
PSC 44 escaños y una intención de voto del 32,5 por ciento, mientras que CiU pasaría de los actuales 46 escaños a 43 y mantendría
una intención de voto del 29,2 por ciento. ERC mantendría su estatus de tercera fuerza política con 23 escaños, al igual que el PP,
aunque según la encuesta crece la intención de voto respecto a las elecciones de 2003 y alcanza el 12,7 por ciento. ICV-EA también
subiría y podría alcanzar los 10 escaños. Por su parte, la encuesta de El Periódico realizada durante los mismos días por la
empresa Gesop a 800 entrevistados sitúa a PSC y CiU con un voto estimado del 32 por ciento en ambos casos, aunque la intención
de voto directa otorga al PSC un 31,5 por ciento y a CiU un 22,3 por ciento.
Discretas
Cuantitativas
Continuas
VARIABLE
ESTADISTICA
Cualitativas
la cualidad que
deseamos estudiar
en la población
• Intención
de voto
• Número de hijos
• Longitud del ala de un pájaro
• Número de ejemplares de una especie en un continente.
• Tiempo de recuperación de un ecosistema.
• Número del despacho de distintos profesores.
• …….
Una vez diseñada la muestra, recogemos los datos;
después, la información proporcionada por ellos debe
ORDENARSE
Tablas y gráficas estadísticas
(datos agrupados y no agrupados)
Procedimiento usual para agrupar datos en clases
(libro de Susan Milton,
pág. 22):
1.- El nº de clases se puede aproximar como k=1+3.322 log10n
(n tamaño de la muestra; k se redondea hacia abajo,
p. ej. 6.82 a 6).
2.- Localizamos el mayor y menor dato, respectivamente. Diferencia entre
ambos: RANGO de los datos.
3.- Amplitud mínima de clase: cociente entre el rango y el nº de clases.
- Redondeamos por arriba el nº obtenido hasta la precisión de los datos; si
el cociente tiene ya esa precisión, la incrementamos en una unidad.
- El extremo inferior de la primera clase es el menor de los datos, disminuido en 0.5 si los datos son enteros, en 0.05 si tienen 1 decimal, en 0.005
si tienen 2 decimales…
(Así ningún dato coincide con un extremo de un intervalo)
4.- Alternativa: intervalos [a,b)
5.- Si hay datos atípicos (outliers), la técnica se modifica (S. Milton, p. 25)
GRAFICOS ESTADISTICOS
Ejemplo 1:
ni ó %i
xi
17
18
19
21
22
ni
2
10
4
3
1
20
fi
0,1
0,5
0,2
0,15
0,05
1
%i
10
50
20
15
5
100
17
DIAGRAMA DE BARRAS
18 19
21 22
xi
Ejemplo 2:
ni ó %i
3.75-5.95
5.95-8.15
8.15-10.35
10.35-12.55
12.55-14.75
14.75-16.95
Total:
xi
4,85
7,05
9,25
11,45
13,65
15,85
62,1
ni
2
4
10
16
6
2
40
fi
0,05
0,1
0,25
0,4
0,15
0,05
1
%i
5
10
25
40
15
5
100
3.75
HISTOGRAMA
5.95 8.15 10.35….
xi
Ejemplo 1:
5%
xi
17
18
19
21
22
ni
2
10
4
3
1
20
fi
0,1
0,5
0,2
0,15
0,05
1
%i
10
50
20
15
5
100
10%
15%
17
18
19
21
20%
50%
DIAGRAMA DE SECTORES
22
DIAGRAMA DE TALLO Y HOJAS
2. Medidas de centralización.
3. Medidas de dispersión o variabilidad.
4. Medidas de posición.
3. Medidas de dispersión o variabilidad.
La DISPERSION (o variabilidad)de un conjunto de datos es una medida
de la distancia entre los datos, y su media.
Poca dispersión = Datos homogéneos = Media
muy representativa
Mucha dispersión = Datos heterogéneos =
Media poco representativa
Ejemplo 5: En una investigación sobre deficiencias medioambientales encontradas en plantas industriales, se seleccionaron aleatoriamente 25 plantas
de dos comunidades diferentes. Se obtuvieron los siguientes datos sobre el
número de deficiencias encontradas:
Nº deficiencias com. A Frecuencia
1
1
2
3
3
5
4
7
5
5
6
3
7
1
Nº deficiencias com. B Frecuencia
1
6
2
4
3
2
4
1
5
2
6
4
7
6
La media es 4, en cada
comunidad; pero ¿en cuál
de ellas la variable es más
dispersa?
Ejemplo 5: En una investigación sobre deficiencias medioambientales encontradas en plantas industriales, se seleccionaron aleatoriamente 25 plantas
de dos comunidades diferentes. Se obtuvieron los siguientes datos sobre el
número de deficiencias encontradas:
Nº deficiencias com. A Frecuencia
1
1
2
3
3
5
4
7
5
5
6
3
7
1
1 2 3 4 5 6 7
Nº deficiencias com. B Frecuencia
1
6
2
4
3
2
4
1
5
2
6
4
7
6
+ disp.
1 2 3 4 5 6 7
¿Cómo podemos medir la dispersión?
1.- Rango: dif. entre el mayor y el menor de los datos.
k
2.- Varianza:
S2 
2


x

x
 ni

i 1
k
n
i 1
3.- Desviación típica:
i
S V
Propiedades de la varianza y la desviación típica:
1.- La varianza no puede ser negativa.
2.- A igualdad de medias, cuanto mayor sea la dispersión, mayor es la
varianza (y la desv. típica).
3.- Si dos conjuntos de datos poseen medias similares, es más disperso
aquel que tenga mayor varianza (desv. típica).
4.- El recíproco no es necesariamente cierto, porque la varianza (desv. típica)
depende también del tamaño de los datos.
Coeficiente de variación (CV)
5.- Interpretación de la desviación típica en fenómenos
de medida.
¿Cómo podemos medir la dispersión?
1.- Rango.
2.- Varianza.
3.- Desviación típica.
4.- Coeficiente de variación:
A mayor CV, mayor dispersión
CV 
S
x
Ejemplo: Se realiza un experimento para investigar el efecto de una
nueva dieta, sobre la ganancia de peso de cachorros durante las primeras
semanas de vida.
Gran Danés: ganancia media de 30 libras, desv. típica de 10 libras.
Chihuahua: ganancia media de 3 libras, desv. típica de 1’5 libras.
¿Qué grupo posee mayor variabilidad?
¿Cómo podemos medir la dispersión?
1.- Rango.
2.- Varianza.
3.- Desviación típica.
4.- Coeficiente de variación.
5.- Cuasivarianza; cuasidesviación típica.
k
s2 
2


x

x
 ni

i 1
k
 n 1
i 1
i
s  s2
(Util para estimar la varianza poblacional)
4. Medidas de posición.
5. Medidas de forma.
Parámetros que permiten evaluar ciertas características del
diagrama de barras/histograma (simetría, apuntamiento).
Momento de orden r con respecto a la media:
k
mr 
 x  x 
i 1
r
i
N
 ni
Coeficiente de asimetría:
Un conjunto de datos es simétrico, si lo es su histograma/diagrama de barras
1 2 3 4 5 6 7
1 2 3 4 5 6 7
Simetría
x
x
Mo
Asimetría negativa (a la izqda.)
Mo
Asimetría positiva (a la dcha.)
Coeficiente de asimetría:
x
x
Mo
Asimetría negativa (a la izqda.)
Mayor concentración de
datos a la izquierda
Mo
Asimetría positiva (a la dcha.)
Mayor concentración de
datos a la derecha
Coeficiente de asimetría:
Coeficiente de asimetría de Pearson:
(sólo variables con distribución
acampanada)
x  Mo
CAP 
S
Mo: moda
CAP ó AF>0: Asimetría positiva (a la dcha.)
CAP ó AF=0: Simetría
CAP ó AF<0: Asimetría negativa (a la izqda.)
Coeficiente de asimetría de Fisher:
(todo tipo de variables)
k
m3
AF  3 
S
3


x

x
 ni
 i
i 1
NS 3
Coeficiente de apuntamiento o curtosis:
Previamente: curva normal N(µ,σ) o campana de Gauss
f ( x) 
1
e
 2
Una variable estadística es normal si el polígono de frecuencias
(utilizando %) se ajusta a esta curva.
1  x 
 

2  
2
Coeficiente de apuntamiento o curtosis:
k
m4
g2  4  3 
S
Normal
Leptocúrtica: más apuntada
Mesocúrtica: normal
Platicúrtica: más aplanada
g2>0
g2=0
g2<0
4


x

x
 ni
 i
i 1
NS
4
3
Ligeras correcciones de los coeficientes de asimetría y
curtosis dan lugar a los coeficientes de asimetría y
curtosis tipificadas (Statgraphics)
Aceptamos que un conjunto de datos es
“aproximadamente normal”cuando los
coeficientes de asimetría y de curtosis
tipificadas están entre -2 y 2.
6. Tipificación.
Dada una variable estadística X, la tipificación de esta variable es
otra Dnueva variable, Z, que se define como
X x
Z
S
Características:
• La media de Z es 0; su desviación típica es 1.
• El valor de Z se puede entender como una medida de la variación relativa
que experimenta el valor X frente a su media.
• Es útil para comparar valores correspondientes a variables cuyas medias
y desviaciones típicas son diferentes.
EJEMPLO: Al terminar la carrera, un licenciado en psicología y otro
en económicas reciben sendas ofertas de trabajo, con sueldos
anuales de 18.000 y 24.000 €. La media de los sueldos de los recién
licenciados en psicología es de 16.000€, con una desviación típica de
850€. La media de los sueldos de los recién licenciados en
económicas es de 22.000€, con una desviación típica de 1.200€.
¿Cuál de los dos ha tenido una mejor oferta laboral, en relación a los
sueldos de su profesión?
EJEMPLO: Al terminar la carrera, un licenciado en psicología y otro
en económicas reciben sendas ofertas de trabajo, con sueldos
anuales de 18.000 y 24.000 €. La media de los sueldos de los recién
licenciados en psicología es de 16.000€, con una desviación típica de
850€. La media de los sueldos de los recién licenciados en
económicas es de 22.000€, con una desviación típica de 1.200€.
¿Cuál de los dos ha tenido una mejor oferta laboral, en relación a los
sueldos de su profesión?
Solución: Calculamos la variación relativa, en cada caso, con respecto a
la media (es decir, tipificamos):
Psicología: (18000-16000)/850=2’35
Económicas: (24000-22000)/1200=1’66
Por tanto, el sueldo ofrecido al psicólogo posee mayor variación
relativa; puesto que la variación es positiva, ello implica que el sueldo
es comparativamente mejor