Download laboratorio 1

Document related concepts
no text concepts found
Transcript
Ejercicio de Laboratorio para Pronósticos
El archivo contiene los datos de resultados de un examen, con las siguientes variables:
Características de cada alumno
Género: masculino o femenino
Carrera: cuál carrera está cursando el alumno
Grupo: Si pertenece al Grupo 2 (8:30) o al Grupo 3 (11:30)
Datos del examen
Versión: si presentó la Versión A, Versión B, Versión C, o Versión D del examen. Las
versiones A y B fueron aplicadas en el Grupo 2, las versiones C y D en el Grupo 3.
Incorrectas: el número de preguntas de opción múltiple (de 25) mal contestadas
Calificación: la calificación del examen, calculada como [(25 – incorrectas)*4] + 5: los 5
puntos son debido a una pregunta de rescate, la cual todos contestaron bien.
Ejercicios
1. Abre un registro con el ícono de log. Incluye tu nombre en el nombre del registro.
2. Abre el archivo con el comando insheet using “ruta\lab1.csv”
3. ¿Cuál es la variable dependiente y cuáles las independientes?
4. Utiliza el comando tab varname para inspeccionar los datos una variable a la
vez. ¿Cuáles variables son cuantitativas y cuáles cualitativas?
5. ¿Cuáles variables se prestan para la creación de variables ficticias (dummies)?
Utiliza el comando encode genero, gen(sexo) para generar una variable
cuantitativa de género. Utiliza el comando gen newvarname=1 if
varname==”...” y luego replace newvarname=0 if
varname!=”...” para generar las otras dummies.
6. Utiliza la herramienta de gráficas para graficar la variable dependiente contra cada
una de las independientes. ¿Se observa alguna relación fuerte? En cada caso,
¿parece ser lineal? ¿Qué podemos concluir de esta información, acerca del modelo
que queremos diseñar?
7. ¿Cuáles variables independientes crees que puedan explicar bien la dependiente?
Corre una regresión con el comando regress y x1 x2 x3 ... ¿Qué te dicen
los coeficientes? ¿Son significativos? ¿Cuál es el intervalo de confianza de cada
coeficiente?
8. Corre la regresión para cada género y luego para cada carrera. Compara las
estimaciones puntuales y los intervalos de confianza de los coeficientes entre los
varios grupos. ¿Qué podemos concluir de esta información, acerca del modelo de
regresión?
9. Crea la matriz de correlación con el comando corr y x1 x2 x3 ... ¿Parece
haber algún problema de multicolinealidad?
10. Utiliza el comando predict rstandard para generar los residuos
estandarizados y predict rstudent para generar los valores de los residuos
estudentizados.
11. Utiliza el comando predict cooksd para calcular los valores de la D de Cook.
Teclea summarize cooksd; ¿cuál es el valor máximo de la D de Cook? Corre
la regresión sin las observaciones con D de Cook alta utilizando if
cooksd>maxvalor
NOTA: es buena idea guardar el archivo de datos de vez en cuando mientras trabajas.
Comandos útiles
tab resume los valores de las variables especificadas
describe resume la base de datos y los tipos de variables
list produce una lista de todas las observaciones de la(s) variable(s) especificada(s)
summarize provee estadísticos descriptivos de la(s) variable(s) especificada(s)
tab resume los valores de las variables especificadas
gen genera una variable nueva con las características y los valores especificados
replace cambia los valores de la variable especificada, según tus instrucciones
drop elimina variables u observaciones especificadas
regress genera los coeficientes, estadísticas t, valores p e intervalos de confianza (95%)
del modelo especificado