Download Tema 1

Document related concepts

Parámetro estadístico wikipedia , lookup

Curtosis wikipedia , lookup

Asimetría estadística wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Desviación típica wikipedia , lookup

Transcript
Tema 1: Introducción
1.1 Estadística Descriptiva
1. Conceptos generales.
2. Medidas de centralización.
3. Medidas de dispersión.
4. Medidas de posición.
5. Medidas de forma.
1. Conceptos generales.
Estadística (“Estado”): parte de las Matemáticas que
se encarga de RECOGER y ANALIZAR datos.
Estadística Descriptiva
Estadística Inferencial
Análisis Multivariante
Muestreo
Diseño de experimentos Regresión
…
POBLACION
Muestra
Razones para tomar muestras: tiempo, dinero, accesibilidad, …
PARADOJICAMENTE, para conocer a la población no
hace falta estudiar a TODA la población…
EN DOS SEMANAS RECORTA 4 PUNTOS
El PP se sitúa a dos puntos del PSOE en intención de voto,
según una encuesta publicada en El País
El PP se encuentra a dos puntos del PSOE en intención directa de voto, según un sondeo del Instituto Opina
que publica este domingo el diario El País. Agrega el periódico que el PP ha logrado recortar en dos
semanas cuatro puntos en intención de voto respecto a los socialistas, quienes tenían un 44 por ciento de
intención de voto, frente al 38 por ciento del PP, según la anterior encuesta de Opina, publicada el 25 de
septiembre en ése mismo diario.
L D (Agencias) El sondeo publicado este domingo, hecho sobre una muestra de 1.300 entrevistas hechas desde el 4 al 6 de octubre en todo
el territorio español, desvela que el PP gana dos puntos y el PSOE los pierde, "con lo que la diferencia se reduce drásticamente y supone la
ventaja socialista más reducida desde las elecciones generales"..
Aunque los diarios La Vanguardia y El Periódico de Cataluña recogen otra encuesta que revela que el PSC y CiU mantienen un
empate técnico, aunque en los porcentajes de intención de voto el PSC continuaría por delante. En ambas encuestas, tanto el
presidente de la Generalidad, Pasqual Maragall, como el líder de la oposición, Artur Mas, mejoran sustancialmente su valoración
respecto a encuestas anteriores, aunque Maragall saca 19,3 puntos en la pugna por la presidencia de la Generalidad.
Así, la encuesta de La Vanguardia elaborada por el Instituto Noxa entre los días 3 y 6 de octubre a 1.000 entrevistados, otorga al
PSC 44 escaños y una intención de voto del 32,5 por ciento, mientras que CiU pasaría de los actuales 46 escaños a 43 y mantendría
una intención de voto del 29,2 por ciento. ERC mantendría su estatus de tercera fuerza política con 23 escaños, al igual que el PP,
aunque según la encuesta crece la intención de voto respecto a las elecciones de 2003 y alcanza el 12,7 por ciento. ICV-EA también
subiría y podría alcanzar los 10 escaños. Por su parte, la encuesta de El Periódico realizada durante los mismos días por la
empresa Gesop a 800 entrevistados sitúa a PSC y CiU con un voto estimado del 32 por ciento en ambos casos, aunque la intención
de voto directa otorga al PSC un 31,5 por ciento y a CiU un 22,3 por ciento.
Discretas
Cuantitativas
Continuas
VARIABLE
ESTADISTICA
Cualitativas
la cualidad que
deseamos estudiar
en la población
• Intención de voto.
• Número de hijos
• Longitud del ala de un pájaro
• Número de ejemplares de una especie en un continente.
• Tiempo de recuperación de un ecosistema.
• Número del despacho de distintos profesores.
• …….
La recogida de los datos se denomina muestreo. Tipos
de muestreo:
1.- Muestreo aleatorio simple
-Todos los individuos tienen a priori la misma probabilidad de ser escogidos.
- La selección de la muestra se realiza AL AZAR
(para evitar sesgo)
2.- Muestreo estratificado
Se aplica cuando en la población se distinguen
estratos que son relevantes para el estudio. Se escogen
aleatoriamente individuos en cada estrato, proporcionalmente al tamaño del estrato.
3.- Muestreo sistemático.
Se aplica cuando los individuos de la población aparecen ordenados en una lista, de modo que individuos
de características similares están próximos en ella.
Si se desea escoger a n individuos de una población
de tamaño N, se determina el nº k más próximo a N/n,
se escoge un individuo al azar de entre los k primeros,
y los demás se escogen de la lista a partir del anterior,
a intervalos regulares.
4.- Muestreo polietápico o por conglomerados.
Se divide previamente la población en unidades, siguiendo un cierto criterio, y se seleccionan aleatoriamente algunas de estas unidades. Sobre cada unidad, se realiza
algún muestreo de los tipos anteriores (por ejemplo,
para realizar un muestreo en una gran ciudad, se
subdivide primero por barrios…)
Una vez diseñada la muestra, recogemos los datos;
después, la información proporcionada por ellos debe
ORDENARSE
Tablas y gráficas estadísticas
(datos agrupados y no agrupados)
TABLAS Y GRAFICAS ESTADISTICAS
Ejemplo 1:
ni ó %i
xi
17
18
19
21
22
ni
2
10
4
3
1
20
fi
0,1
0,5
0,2
0,15
0,05
1
%i
10
50
20
15
5
100
17
DIAGRAMA DE BARRAS
18 19
21 22
xi
Ejemplo 2:
ni ó %i
3.75-5.95
5.95-8.15
8.15-10.35
10.35-12.55
12.55-14.75
14.75-16.95
Total:
xi
4,85
7,05
9,25
11,45
13,65
15,85
62,1
ni
2
4
10
16
6
2
40
fi
0,05
0,1
0,25
0,4
0,15
0,05
1
%i
5
10
25
40
15
5
100
3.75 5.95 8.15 10.35….
HISTOGRAMA
xi
Ejemplo 1:
5%
xi
17
18
19
21
22
ni
2
10
4
3
1
20
fi
0,1
0,5
0,2
0,15
0,05
1
%i
10
50
20
15
5
100
10%
15%
17
18
19
21
20%
50%
DIAGRAMA DE SECTORES
22
2. Medidas de centralización.
k
1.- Media.
x
x
i 1
i
 ni
k
n
i 1
i
2.- Moda: el valor (unimodal) o valores (bimodal, etc.) con mayor
frecuencia.
3.- Mediana: el valor que deja la mitad de los datos por debajo,
una vez ordenados de menor a mayor. Estadístico ROBUSTO.
3. Medidas de dispersión o variabilidad.
La DISPERSION (o variabilidad) de un conjunto de datos es una medida
de la distancia entre los datos, y su media.
Poca dispersión = Datos homogéneos = Media
muy representativa
Mucha dispersión = Datos heterogéneos =
Media poco representativa
Ejemplo: En una investigación sobre deficiencias medioambientales encontradas en plantas industriales, se seleccionaron aleatoriamente 25 plantas
de dos comunidades diferentes. Se obtuvieron los siguientes datos sobre el
número de deficiencias encontradas:
Nº deficiencias com. A Frecuencia
1
1
2
3
3
5
4
7
5
5
6
3
7
1
Nº deficiencias com. B Frecuencia
1
6
2
4
3
2
4
1
5
2
6
4
7
6
La media es 4, en cada
comunidad; pero ¿en cuál
de ellas la variable es más
dispersa?
Ejemplo: En una investigación sobre deficiencias medioambientales encontradas en plantas industriales, se seleccionaron aleatoriamente 25 plantas
de dos comunidades diferentes. Se obtuvieron los siguientes datos sobre el
número de deficiencias encontradas:
Nº deficiencias com. A Frecuencia
1
1
2
3
3
5
4
7
5
5
6
3
7
1
1 2 3 4 5 6 7
Nº deficiencias com. B Frecuencia
1
6
2
4
3
2
4
1
5
2
6
4
7
6
+ disp.
1 2 3 4 5 6 7
¿Cómo podemos medir la dispersión?
1.- Rango: dif. entre el mayor y el menor de los datos.
k
2.- Varianza:
S2 
2


x

x
 ni

i 1
k
n
i 1
3.- Desviación típica:
i
S V
Propiedades de la varianza y la desviación típica:
1.- La varianza no puede ser negativa.
2.- A igualdad de medias, cuanto mayor sea la dispersión, mayor es la
varianza (y la desv. típica).
3.- Si dos conjuntos de datos poseen medias similares, es más disperso
aquel que tenga mayor varianza (desv. típica).
4.- El recíproco no es necesariamente cierto, porque la varianza (desv. típica)
depende también del tamaño de los datos.
Coeficiente de variación (CV)
5.- Al menos el 100(1-1/k2) de los datos está entre la media, y ±k veces la
desviación típica (por ejemplo, al menos el 75% de los datos está entre la
media y 2 veces la desv. típica).
¿Cómo podemos medir la dispersión?
1.- Rango.
2.- Varianza.
3.- Desviación típica.
4.- Coeficiente de variación:
CV 
S
x
A mayor CV, mayor dispersión, y viceversa.
k
5.- Cuasivarianza, cuasidesviación típica
ó desviación estándar)
(Estimadores de la varianza y desv. típica
poblacionales)
s2 
2


x

x
 ni

i 1
k
 n 1
i 1
i
s  s2
4. Medidas de posición.
75%
q1
M
q3
25%
50%
q1 : primer cuartil
M : mediana
q3: tercer cuartil
Diagrama de caja y bigotes + Datos atípicos: Statgraphics
Deciles, percentiles
65%
p10=d1
p65
10%
89%
p89
5. Medidas de forma.
Parámetros que permiten evaluar ciertas características del
diagrama de barras/histograma (simetría, apuntamiento).
Momento de orden r con respecto a la media:
k
mr 
 x  x 
i 1
r
i
N
 ni
Coeficiente de asimetría:
Un conjunto de datos es simétrico, si lo es su histograma/diagrama de barras
1 2 3 4 5 6 7
1 2 3 4 5 6 7
Simetría
x
Asimetría negativa (a la izqda.)
x
Asimetría positiva (a la dcha.)
Coeficiente de asimetría:
Coeficiente de asimetría de Fisher:
k
AF 
m3

3
S
3


x

x
 ni
 i
i 1
NS 3
AF>0: Asimetría positiva (a la dcha.)
AF=0: Simetría
AF<0: Asimetría negativa (a la izqda.)
Coeficiente de apuntamiento o curtosis:
Previamente: curva normal N(µ,σ) o campana de Gauss
f ( x) 
1
e
 2
1  x 
 

2  
Un conjunto de datos es normal si su polígono de frecuencias se ajusta
a esta curva.
2
Coeficiente de apuntamiento o curtosis:
k
g2 
m4
3 
4
S
Normal
Leptocúrtica: más apuntada
Mesocúrtica: normal
Platicúrtica: más aplanada
g2>0
g2=0
g2<0
4


x

x
 ni
 i
i 1
NS
4
3
Aceptamos que un conjunto de datos es
“aproximadamente normal”cuando los
coeficientes de asimetría y de curtosis
tipificados están entre -2 y 2.