Download Descriptiva 1

Document related concepts

Parámetro estadístico wikipedia , lookup

Histograma wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
Tema 1:Descripción de una variable
Tema 1:Descripción de una variable
1.1 El método estadístico
1.1
1.1ElElmétodo
método
estadístico
estadístico
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
1.3 Representación gráfica
Diagrama de barras
Histograma
1.3 Representación gráfica
Diagrama de barras
Histograma
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.5 Medidas de dispersión
Varianza, desviación típica, rango
1.6 Transformaciones
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.5 Medidas de dispersión
Varianza, desviación típica, rango
1.6 Transformaciones
1
Estadística: Profesora María Durbán
2
Estadística: Profesora María Durbán
1.1 El método estadístico
1.1 El método estadístico
Describir el problema
Identificar factores
Alguien que resuelve problemas de interés para la sociedad.
Realizar experimentos
Esto lo consigue mejorando o diseñando nuevos procesos o
productos que satisfagan las necesidades del cliente.
Proponer modelos
Para llevar conseguir esto utiliza
Manipular el modelo
Confirmar la solución
3
Estadística: Profesora María Durbán
Recomendaciones
Estadística: Profesora María Durbán
4
1.1 El método estadístico
1.1 El método estadístico
La Estadística es la Ciencia de la
Ciencia que se ocupa en general de fenómenos observables
Se desarrolla observando hechos, formulando leyes que los explican y
realizando experimentos para validar o rechazar dichas leyes
Los modelos que crea son de tipo determinista o aleatorio (estocástico)
Sistematización, recogida, ordenación y presentación
de datos referentes a un fenómeno que presenta
variabilidad o incertidumbre, con objeto de
deducir las leyes que rigen esos fenómenos,
La Estadística se utiliza como tecnología al servicio de las ciencias
donde la variabilidad y la incertidumbre forman parte de su naturaleza
y poder de esa forma hacer previsiones sobre los mismos,
tomar decisiones u obtener conclusiones.
5
Estadística: Profesora María Durbán
6
Estadística: Profesora María Durbán
Tema 1:Descripción de una variable
1.2 Descripción de conjuntos de datos
1.1 El método estadístico
Población es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia).
1.2
Descripcióndede
conjuntos
de datos
1.2 Descripción
conjuntos
de datos
Distribuciones de frecuencias
Normalmente es demasiado grande para poder
abarcarlo.
1.3 Representación gráfica
Diagrama de barras
Histograma
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.5 Medidas de dispersión
Varianza, desviación típica, rango
1.6 Transformaciones
Muestra es un subconjunto suyo al que tenemos acceso
y sobre el que realmente hacemos las observaciones
Debería ser “representativo”
Esta formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).
7
Estadística: Profesora María Durbán
8
Estadística: Profesora María Durbán
1.2 Descripción de conjuntos de datos
1.2 Descripción de conjuntos de datos
Tipos de Variables
Variable es una característica observable que varía entre los
diferentes individuos de una población
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número
Nominales: Si sus valores no se pueden ordenar
Tiempo de vida de una piezas
Número de piezas fabricadas por una máquina
Calidad de las piezas fabricadas (Buena, Regular, Mala)
Sexo, Partido político, Nacionalidad, Fumar (Sí/No)
Ordinales: Si sus valores se pueden ordenar
Grado de satisfacción
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas
con ellos)
Datos son los valores reales que toma la variable
Discretas: Si toma valores enteros
Número de llamadas a una centralita en un día, número de hijos.
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
Temperatura, tiempo de espera en una cola.
9
Estadística: Profesora María Durbán
10
Estadística: Profesora María Durbán
1.2 Descripción de conjuntos de datos
1.2 Descripción de conjuntos de datos
Tipos de Variables
Los valores que toma una variable (cuantitativa) pueden agruparse en
clases (intervalos). Al punto medio se le llama marca de clase
Piezas defectuosas:
Menos de 20 piezas, de 20 a 50, más de 50 piezas
Temperatura:
Menos de 0 grados, De 0 a 30, Más de 30 grados
Conviene agrupar los datos de la siguiente forma:
1. El número de clases debe ser entre 5 y 20.
2. Un indicador = entero más próximo a n
3. Seleccionar los límites de manera que la longitud de las clases sea
similar
11
Estadística: Profesora María Durbán
12
Estadística: Profesora María Durbán
1.2 Descripción de conjuntos de datos
1.2 Descripción de conjuntos de datos
Tablas de frecuencias
Exponen la información recogida en la muestra, de forma que no se pierda
nada de información (o poca).
6
Hay dos maneras equivalentes de presentar la información contenida en
un conjunto de datos
Hombre
4
Mujer
6
4
5
Frecuencias absolutas: Contabilizan el número total de individuos de cada clase
Mujer
Frecuencias relativas (porcentajes): Es la proporción de individuos que
pertenecen a dicha clase sobre el total de individuos de la muestra. Se obtiene
dividiendo la anterior por el total.
3
Frec.
2
Género
0
1
Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y
numéricas. Se obtienen sumando las frecuencias de las clases anteriores.
Hombre
Mujer
ni → Frecuencia absoluta ∑ ni = n
Representaciones
gráficas
Tabla de frecuencias
i
13
Estadística: Profesora María Durbán
n
fi = i → Frecuencia relativa ∑ fi = 1
n
i
1.2 Descripción de conjuntos de datos
1.2 Descripción de conjuntos de datos
Ejemplo
Ejemplo
Los datos sobre el número de averías de 40 centrales eléctricas se recogen
en la siguiente tabla:
Los datos sobre el número de averías de 40 centrales eléctricas se recogen
en la siguiente tabla:
Frec.
Frec.
Rel.
Frec.
Acum.
Frec.
Rel.
Acum
¿Cuántas centrales tienen menos de
dos averías?
0
13
0.325
13
0.325
1
13
0.325
26
0.65
¿Qué porcentaje de centrales tiene 3
ó menos averías?
2
8
0.2
34
0.85
3
5
0.125
39
0.975
4
1
0.025
40
1
¿Cuántas centrales tienen menos de
dos averías?
¿Qué cantidad de averías es tal que
al menos el 50% de las centrales
tiene una cantidad de averías inferior
o igual a esa?
15
Estadística: Profesora María Durbán
14
Estadística: Profesora María Durbán
Frec.
Frec.
Rel.
Frec.
Acum.
Frec.
Rel.
Acum
0
13
0.325
13
0.325
1
13
0.325
26
0.65≥50%
2
8
0.2
34
0.85
3
5
0.125
39
0.975
4
1
0.025
40
1
16
Estadística: Profesora María Durbán
Tema 1:Descripción de una variable
1.2 Descripción de conjuntos de datos
Ejemplo
1.1 El método estadístico
Los datos sobre el número de averías de 40 centrales eléctricas se recogen
en la siguiente tabla:
Frec.
Frec.
Rel.
Frec.
Acum.
Frec.
Rel.
Acum
0
13
0.325
13
0.325
1
13
0.325
26
0.65≥50%
2
8
0.2
34
0.85
3
5
0.125
39
0.975
4
1
0.025
40
1
¿Cuántas centrales tienen menos de
dos averías?
¿Qué porcentaje de centrales tiene 3
ó menos averías?
¿Qué cantidad de averías es tal que
al menos el 50% de las centrales
tiene una cantidad de averías inferior
o igual a esa?
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
1.3 Representación
Representación
gráfica
1.3
gráfica
Diagrama de barras
Histograma
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.5 Medidas de dispersión
Varianza, desviación típica, rango
1.6 Transformaciones
17
Estadística: Profesora María Durbán
18
Estadística: Profesora María Durbán
1.3 Representación Gráfica
1.3 Representación Gráfica
Gráficos para variables cuantitativas
Gráficos para variables cuantitativas
Algunos gráficos son diferentes en función de que las variables sean
discretas o continuas.
Se utilizan con frec. absolutas o relativas.
Diagramas barras para v. discretas
Algunos gráficos son diferentes en función de que las variables sean
discretas o continuas.
Se utilizan con frec. absolutas o relativas.
Histogramas para v. continuas y discretas agrupadas en
intervalos
Cada barra representa una clase
Se deja un hueco entre barras para indicar los valores que no son posibles
La altura corresponde a la frecuencia absoluta o relativa de la clase
Cada barra representa una clase
No hay hueco entre barras
Las bases son iguales a la amplitud de cada clase
La altura corresponde a la frecuencia absoluta o relativa de la clase
El área que hay bajo el histograma entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de individuos e el intervalo.
Dan información sobre la forma de la distribución y la dispersión de los datos
Ejemplo: averías en centrales eléctricas
Frec.
Frec. Rel.
0
13
0.325
1
13
0.325
2
8
0.2
3
5
0.125
4
1
0.025
Estadística: Profesora María Durbán
19
20
Estadística: Profesora María Durbán
1.3 Representación Gráfica
1.3 Representación Gráfica
¿Qué información podemos obtener de un histograma?
Ejemplo: Alturas de alumnos
Los datos sobre la altura de 28 alumnos se recogen en la siguiente tabla:
156
159
153
157
162
156
162
153
158
152
153
159
154
153
150
162
163
160
162
156
164
168
152
151
159
147
165
149
Datos atípicos
Forma
Averías
Asimetría
21
Estadística: Profesora María Durbán
22
Estadística: Profesora María Durbán
1.3 Representación Gráfica
1.3 Representación Gráfica
Diagramas de frecuencias acumuladas
Diagramas de frecuencias acumuladas
Tanto para diagramas de barras (en el caso de variables ordinales o
cuantitativas discretas) como histogramas
La altura de cada clase es la frecuencia absoluta o relativa
Tanto para diagramas de barras (en el caso de variables ordinales o
cuantitativas discretas) como histogramas
La altura de cada clase es la frecuencia absoluta o relativa
Ejemplo: averías en centrales eléctricas
Ejemplo: averías en centrales eléctricas
Frec.
Frec. Acum.
Frec.
Frec. Acum.
0
13
13
0
13
13
1
13
26
1
13
26
2
8
34
2
8
34
3
5
39
3
5
39
4
1
40
4
1
40
+
23
Estadística: Profesora María Durbán
Simetría
24
Estadística: Profesora María Durbán
1.3 Representación Gráfica
1.3 Representación Gráfica
Diagramas de frecuencias acumuladas
Diagramas de frecuencias acumuladas
Tanto para diagramas de barras (en el caso de variables ordinales o
cuantitativas discretas) como histogramas
La altura de cada clase es la frecuencia absoluta o relativa
Tanto para diagramas de barras (en el caso de variables ordinales o
cuantitativas discretas) como histogramas
La altura de cada clase es la frecuencia absoluta o relativa
Ejemplo: averías en centrales eléctricas
Frec.
Frec. Acum.
Ejemplo: averías en centrales eléctricas
Frec.
Frec. Acum.
0
13
13
0
13
13
1
13
26
1
13
26
2
8
34
2
8
34
3
5
39
3
5
39
4
1
40
4
1
40
+
25
Estadística: Profesora María Durbán
Tema 1:Descripción de una variable
1.3 Representación Gráfica
Diagramas de frecuencias acumuladas
1.1 El método estadístico
Tanto para diagramas de barras (en el caso de variables ordinales o
cuantitativas discretas) como histogramas
La altura de cada clase es la frecuencia absoluta o relativa
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
1.3 Representación gráfica
Diagrama de barras
Histograma
Ejemplo: averías en centrales eléctricas
Frec.
Frec. Acum.
0
13
13
1
13
26
2
8
34
3
5
39
4
1
40
26
Estadística: Profesora María Durbán
Media, mediana, moda, cuantiles
1.4Medidas
Medidasde
dedispersión
posición
1.5
Media, mediana,
moda,
cuantiles
Varianza,
desviación
típica,
rango
1.5Medidas
Medidasde
deforma
dispersión
1.6
Varianza, curtosis,
desviación
típica, rango
Asimetría,
diagrama
de caja
1.6 Transformaciones
27
Estadística: Profesora María Durbán
28
Estadística: Profesora María Durbán
Parámetros y Estadísticos
Estadísticos
Parámetro: Es una cantidad numérica calculada sobre una población
Posición
La vida media de las bombillas de 60 W
Indican valores respecto a los que los datos parecen
agruparse
La idea es resumir la información que hay en la población en unos pocos
números (parámetros).
Media, mediana y moda
Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
Estadístico: Es una cantidad numérica calculada sobre una muestra
Cuantiles, percentiles, cuartiles,…
La vida media de las bombillas de 60 W de mi casa.
Son una muestra (¿representativa?) de la población.
Dispersión
Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
Si un estadístico se usa para aproximar un parámetro también se le suele
llamar estimador.
Desviación típica, rango, varianza
.
Forma
Asimetría
Apuntamiento o curtosis
Normalmente nos interesa conocer un parámetro, pero por la dificultad
que conlleva estudiar a TODA la población, calculamos un estimador
sobre una muestra y “confiamos” en que sean próximos.
29
Estadística: Profesora María Durbán
30
Estadística: Profesora María Durbán
Tema 1:Descripción de una variable
1.4 Medidas de posición
Proporcionan un valor simple y representativo, que resume un gran
volumen de información.
Medidas de centralización
1.1 El método estadístico
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
Media Es la media aritmética de los valores de una variable.
Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
1.3 Representación gráfica
Diagrama de barras
Histograma
Mediana Es un valor que divide a los datos en dos grupos con el mismo
número de individuos.
Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos.
1.4 Medidas de posición
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.5 Medidas de dispersión
Varianza, desviación típica, rango
1.6 Transformaciones
Moda Es el valor donde la distribución de frecuencia alcanza un máximo (no
tiene por qué ser un valor único).
31
Estadística: Profesora María Durbán
32
Estadística: Profesora María Durbán
1.4 Medidas de posición
1.4 Medidas de posición
Media
Datos no agrupados
Moda
Datos agrupados
Datos no agrupados
n
1 n
x = ∑ xi
n i =1
x = ∑ fi xi
Datos agrupados
Es el valor que ocurre con mayor
frecuencia
Definimos la clase modal como
aquella que tiene mayor frecuencia
i =1
xi → marca de clase
fi → frecuencia relativa
Media = centro de
33
gravedad
Estadística: Profesora María Durbán
34
Estadística: Profesora María Durbán
1.4 Medidas de posición
1.4 Medidas de posición
Moda
Datos no agrupados
Moda
Datos agrupados
Clase modal
Estadística: Profesora María Durbán
Datos no agrupados
Datos agrupados
Clase modal
35
Estadística: Profesora María Durbán
36
Tema 1:Descripción de una variable
1.4 Medidas de posición
Otras medidas de posición
1.1 El método estadístico
Se define el cuantil de orden α como un valor de la variable por debajo del cual
se encuentra una frecuencia relativa acumulada α.
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
Casos particulares son los percentiles, cuartiles,...
1.3 Representación gráfica
Diagrama de barras
Histograma
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50
El percentil de orden 10 deja por debajo al 10% de las observaciones y
por encima queda el 90%
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.4
1.5Medidas
Medidasde
dedispersión
dispersión
Varianza, desviación típica, rango
1.6 Transformaciones
Cuartil: Dividen a la muestra en 4 grupos con frecuencias similares.
Primer cuartil = Percentil 25 = Q1
Segundo cuartil = Percentil 50 = Q2= mediana
Tercer cuartil = Percentil 75 =Q3
37
Estadística: Profesora María Durbán
38
Estadística: Profesora María Durbán
1.5 Medidas de dispersión
1.5 Medidas de dispersión
Ejemplo: Velocidad de CPUs
Miden la “dispersión” de las observaciones dentro del conjunto de datos
respecto de alguna medida de posición.
x = 686.8
s = 25.67
Varianza Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.
S2 =
1
∑ ( xi − x )2 ó
n i
∑ f (x − x )
i
2
i
i
Muy sensible a los datos alejados de
la media
„
Desviación típica Es la raíz cuadrada de la varianza S = S 2
Se verifica que entre la media y k veces la desviación típica se encuentran
como mínimo el
1 ⎞
⎛
100 ⎜1 − 2 ⎟ % de las observaciones
⎝ k ⎠
Estadística: Profesora María Durbán
Centrado en la media y a dos desviación típica de distancia
(686.8-2 × 25.65,686.8+2 × 25.62)=(635.5,738.1)
1 ⎞
⎛
tenemos al menos el 100⎜1 − 2 ⎟% = 75% de las observaciones
⎝ 2 ⎠
39
40
Estadística: Profesora María Durbán
Tema 1:Descripción de una variable
1.5 Medidas de dispersión
Coeficiente de variación Es una medida relativa de la variabilidad. Compara la
media y la desviación típica. Es adimensional
1.1 El método estadístico
1.2 Descripción de conjuntos de datos
Distribuciones de frecuencias
CV =
s
x
En Ingeniería
x
cociente señal-ruido
s
1.3 Representación gráfica
Diagrama de barras
Histograma
Gráficos temporales
1.4 Medidas de posición
Media, mediana, moda, cuantiles
1.5 Medidas de dispersión
Varianza, desviación típica, rango
Rango Mide el grado de dispersión independientemente de las causas.
Es la distancia entre las observaciones extremas
1.6 Transformaciones
41
Estadística: Profesora María Durbán
42
Estadística: Profesora María Durbán
1.6 Transformaciones
1.6 Transformaciones
Transformaciones no lineales
En algunas ocasiones es útil transformar los datos o expresarlos en
otras unidades
Transformaciones lineales
y = ax + b
Transformaciones no lineales
y = f ( x)
Cambian la distancia relativa entre los datos
Objetivo: Obtener una representación lo más simple posible
log( x)
simétrica
x2
x
x
M
x
Respetan la forma de la distribución
ln( x)
43
Estadística: Profesora María Durbán
1
x
44
Estadística: Profesora María Durbán