Download Ejemplos

Document related concepts

Histograma wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Nivel de medida wikipedia , lookup

Variable categórica wikipedia , lookup

Análisis de correspondencias múltiples wikipedia , lookup

Transcript
Análisis
Exploratorio
de Datos
Variables
¿Qué son los Datos?
Id
 Una variable es una propiedad o
característica de un Individuo
 Ejemplos: color de ojos
Individuos
de un persona,
temperatura, estado civil
 Una colección de variables
describen a un Individuo
 Un individuo también se conoce
como registro, punto, caso,
objeto, entidad, ejemplo de
observación
10
Dev. Estado
Civil
Impuestos
1
Si
Soltero
125Mil
No
2
No
Casado
100Mil
No
3
No
Soltero
70Mil
No
4
Si
Casado
120Mil
No
5
No
Divorciado 95Mil
Si
6
No
Casado
No
7
Si
Divorciado 220Mil
No
8
No
Soltero
85Mil
Si
9
No
Casado
75Mil
No
10
No
Soltero
90Mil
Si
Fraude
60Mil
Tipos de Variables
Cualitativos vs. Cuantitativos
 Cualitativo (o categórico) las variables
representan distintas categorías en lugar de
números. Las operaciones matemáticas como la
suma y la resta no tienen sentido.
Ejemplos: color de los ojos, grado académico, dirección IP,
código postal.
 Cuantitativos (o numéricos) las variables son los
números y pueden ser tratados como tales.
Ejemplos: peso, fallos por hora, el número de televisores, la
temperatura
Variables Cualitativas
Tipos de Variables
Variables Cuantitativas
• Los valores de la variable son “números” =
cada valor posible es menor o mayor que otro
valor
• Ejemplos: edad, ingresos, nota en un examen,
número de años de educación, kilómetros de
distancia entre trabajo y residencia…
• OJO: hay “números” que son “etiquetas”; por
ejemplo: el código postal; el número de
teléfono; el código de una asignatura
Variable Discreta vs Variable Continua
• Una Variable Discreta es aquella en la cuál se
puede contar el número posible de valores
(son números enteros)
• Una Variable Continua puede tomar cualquier
valor en un intervalo dado (son números
reales)
Variables Cualitativas
• Variables cualitativas son aquellas que
clasifican las unidades en categorías. Las
categorías pueden tener un orden natural
(ordinales) o no (nominales).
• Cuando las variables son ordinales podemos
contar número de casos, comparar entre
categorías, pero no podemos realizar
operaciones numéricas.
Variables Ordinales
• Categorías, no números, que tienen un orden,
pero no existe una distancia o intervalo
definido entre los valores
– Ejemplo: profesión Bachiller, Licenciado, Máster,
Doctor
• Tratamiento estadístico:
– A veces, como variables cualitativas
– A veces, como variables cuantitativas
Variables Nominales
• Los valores son “categorías”
• Las categorías son valores diferentes por una
cualidad, no por una cantidad
• Ningún “valor” se puede decir que sea mayor
o menor que otro
• Ejemplos: partido político al que votó; región
en que vive; sexo; estado civil.
¿cómo transformar variables
cuantitativas en cualitativas?
• La conversión de una variable cuantitativa en
cualitativa se denomina categorización.
1. Se ordena la variable
2. Se decide el número k de categorías
3. Se buscan los límites e intervalos para cada categoría
[min, min+(max-min)/k[, [min, min+2*(max-min)/k[ …
4. Se asigna una etiqueta para cada categoría
5. En la variable original (sin ordenar) se cambia cada valor por
una etiqueta según el intervalo al que corresponda
Ejemplo:
Ejemplo Transforma Variable.xlsx
Los Datos en Métodos Descriptivos
Variable j
Ejemplo
Lucía
Pedro
Inés
Luis
Andrés
Ana
Carlos
José
Sonia
María
Matemáticas Ciencias Español Historia EdFísica
7.0
6.5
9.2
8.6
8.0
7.5
9.4
7.3
7.0
7.0
7.6
9.2
8.0
8.0
7.5
5.0
6.5
6.5
7.0
9.0
6.0
6.0
7.8
8.9
7.3
7.8
9.6
7.7
8.0
6.5
6.3
6.4
8.2
9.0
7.2
7.9
9.7
7.5
8.0
6.0
6.0
6.0
6.5
5.5
8.7
6.8
7.2
8.7
9.0
7.0
Los Datos en Métodos Predictivos
|Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1
Sí
Soltero
125K
No
7
No
Soltero
80K
No
2
No
Casado
100K
No
8
Si
Casado
100K
No
3
No
Soltero
70K
No
9
No
Soltero
70K
No
10
4
Sí
Casado
120K
5
No
Divorcia
95K
do
Sí
6
No
Casado
No
60K
No
Tabla de Testing
10
Tabla de Aprendizaje
Variable
Discriminante
Ejemplo
Variable
Discriminante
Desde Excel
Guardar como *.CSV separado por ;
Visto como archivo de texto
Ejemplo 1: IRIS.CSV
Ejemplo con la tabla de datos IRIS
IRIS Información de variables:
1.sepal largo en cm
2.sepal ancho en cm
3.petal largo en cm
4.petal ancho en cm
5.clase:
• Iris Setosa
• Iris Versicolor
• Iris Virginica
Cargando datos en Rattle
Explorando datos en Rattle
Explorando datos en Rattle
Explorando datos en Rattle
Explorando datos en Rattle
Tarea 1C
• Calcule en Rattle para todas las variables
cuantitativas presentes en el archivo
SAheartv2.csv
– El mínimo, el máximo, la media, la mediana y para la
variables chd calcule la cantidad de Si y de No
– Las distribuciones, la matriz de correlaciones y el
biplot para el Análisis en Componentes Principales.
Explorando datos en RStudio
Script
Salidas
Consola
Explorando datos en RStudio


















# Leyendo Datos -> Laboratorio Exploratorio
setwd("C:/Users/Oldemar/Desktop/MDCursoVE/Datos")
datos=read.csv("iris.csv",sep = ";",dec='.',header=T)
datos
head(datos)
summary(datos)
dim(datos)
str(datos)
datos$s.largo
datos$s.ancho
boxplot(datos$s.largo,col='blue',xlab="Largo del Sepalo")
boxplot(datos$p.largo,col='red',xlab="Largo del Petalo")
hist(datos$s.largo,col=4)
plot(density(datos$p.largo),col=2)
plot(datos$p.largo,datos$s.largo)
install.packages('ggplot2', dependencies = TRUE)
library(ggplot2)
qplot(s.largo, p.largo, data = datos,colour=c(1:150))
Tarea 1D
• En RStudio con el archivo SAheartv2.csv
–
–
–
–
–
–
–
–
–
Calcule la dimensión de la Tabla de Datos
Despliegue las primeras columnas de la tabla de datos.
Ejecute un “summary” y un “str” de los datos.
Usando el comando “cor” de R calcule la correlación
entre las variables tobacco y alcohol.
Despliegue boxplot’s para las variables tobacco y alcohol
Despligue un histograma para las variables tobacco y
alcohol
Grafique la función de densidad de la variable tobacco
Grafique un plano con las variables tobacco y alcohol
Instale el paquete'ggplot2’ y usando este paquete
grafique un plano con las variables tobacco y alcohol
Gracias….