Download (I) PRIMEROS ESTADÍSTICOS DE RESUMEN

Document related concepts

Estadística inferencial wikipedia , lookup

Ecuaciones estructurales wikipedia , lookup

Serie temporal wikipedia , lookup

Transcript
Introducción al Análisis
Econométrico
Eva Medina Moral
Profesora Economía Aplicada, UAM
[email protected]
Introducción…
La invasión de la información
La primera computadora programable fue inventada en 1947 y
tenía la capacidad de almacenar 20 palabras.
La invasión de la información
“Se creará un sistema informático nacional con decenas
de millones de terminales en las oficinas y en los hogares
(....) que suministrarán servicios de biblioteca e
información con posibilidades de compra, pedidos,
facturación y cosas por el estilo”
“Comisión sobre el año 2000” AÑO 1965.
D.Bell, D. Muynihan, S.Brezizinsky, J.Q. Wilson, M. Meed.
La invasión de la información
“La capacidad de proceso de un chip de silicona se doblará cada 18
meses....” AÑO 1965. Gordon Moore. Co-fundador de INTEL
¿Qué es la econometría?
• Valavanis (1959): "El objetivo de la econometría es expresar las
teorías económicas bajo una forma matemática a fin de verificarlas
por métodos estadísticos y medir el impacto de una variable
sobre otra, así como predecir acontecimientos futuros y dar
consejos de política económica ante resultados deseables. "
• Klein (1962): "El principal objetivo de la econometría es dar
contenido empírico al razonamiento a priori de la economía."
• Malinvaud (1966): "... aplicación de las matemáticas y método
estadístico al estudio de fenómenos económicos".
• Intriligator (1978): "Rama de la economía que se ocupa de la
estimación empírica de relaciones económicas".
• Chow (1983): "Arte y ciencia de usar métodos estadísticos para la
medida de relaciones económicas".
Fases del análisis de datos…
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición del fenómeno de análisis
 Obtención de la información
 Tabulación de los resultados e introducción de los datos
en el software
 Preparación de la información: validación de los datos,
generación de nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación de resultados
 Informe de resultados
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición del fenómeno de análisis
 Obtención de la información
 Tabulación de los resultados e introducción de los datos
en el software
 Preparación de la información: validación de los datos,
generación de nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación de resultados
 Informe de resultados
Tipos de variables (I)
• Según el significado de los valores que pueden tomar
las variables (series), distinguimos diferentes tipos de
variables.
• El tipo de variable es importante: afecta a lo que
podemos hacer con ella, al tipo de análisis que podemos
hacer.
• Los métodos estadísticos que usamos dependen del tipo
de variable.
Tipos de variables (II)
• Variables categóricas (cualitativas)
– Nominales: hombre (0), mujer (1)
– Ordinales: alto (3), medio (2), bajo (1)
• Variables de escala (cuantitativas)
– Intervalo (sin cero absoluto): ejemplo,
valoraciones subjetivas de 1 a 5; nota en un
examen.
– Razón (con cero absoluto) : ejemplo, renta
Tipos de observaciones
• Temporales
– Estudio de la variabilidad de una variable en
el tiempo
– Periodicidad
– Efecto tendencia
• Transversales
– Estudio de la variabilidad de una variable en
distintos sujetos (empresas, países,
individuos, etc.)
– Efecto tamaño
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición de las variables de análisis: necesidad de
medir un fenómeno o de explotar una información
“estadística”
 Obtención de la información
 Tabulación de los resultados e introducción de los datos
en el software
 Preparación de la información: validación de los datos,
generación de nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación de resultados
 Informe de resultados
Obtención de la información
• Fuentes secundarias: internet
• Fuentes primarias
– Diseño de la encuesta
– Selección de la muestra:
• Muestreo aleatorio sistemático
• Muestreo aleatorio estratificado (por grupos)
• Muestreo aleatorio por conglomerados
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición del fenómeno de análisis
 Obtención de la información
 Tabulación de los
introducción de los
software
resultados
datos en
e
el
 Preparación de la información: validación de los datos,
generación de nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación de resultados
 Informe de resultados
Introducción de datos
Años
Individuos
Variable 1
Variable 2
Variable 3
1990
1
Datos
Datos
Datos
1991
2
Datos
Datos
Datos
...
...
Datos
Datos
Datos
2010
n
Datos
Datos
Datos
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición del fenómeno de análisis
 Obtención de la información
 Tabulación de los resultados e introducción de los datos
en el software
 Preparación
de
la
información:
validación de los datos, generación de
nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación de resultados
 Informe de resultados
Preparación de la información
• Estandarización de la información
• Detección de atípicos:
– Variables categóricas: valores fuera de rango
– Variables escala: detección de atípicos,
variables con escasa variabilidad
• Transformación de los datos:
– Observaciones temporales: Niveles vs. tasas
de variación
– Observaciones transversales: Datos
absolutos vs. datos relativos
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición del fenómeno de análisis
 Obtención de la información
 Tabulación de los resultados e introducción de los datos
en el software
 Preparación de la información: validación de los datos,
generación de nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación de resultados
 Informe de resultados
Selección del Análisis (I)
• PRIMEROS ESTADÍSTICOS DE RESUMEN:
– Análisis individual de series:
• Variables categóricas: frecuencias y gráficos de
sectores y barras
• Variables escala: medias, medianas, modas,
desviación típica, recorridos, percentiles, … y
gráficos histogramas
• RELACIÓN ENTRE VARIABLES:
– Análisis bivariante:
• Dos variables cuantitativas: coeficiente de
correlación
• Dos variables cualitativas: tabla de contingencia (X2)
• Una cuantitativa explicada por una cualitativa:
Análisis de la varianza ANOVA
– Análisis multivariante:
• Regresión: lineal, logística
• Análisis discriminante
Selección del Análisis (II)
Depend.
Independ.
Cualitativa
(categórica)
Cuantitativa
(escala)
Cualitativa
Cuantitativa
(categórica)
(escala)
Tablas de
contingencia
Anova
Fuma-no Fuma = f(Sexo) L
O
G
Discriminante I
Moroso (si-no)=f(renta,hijos, T
antigüedad laboral,…)
Vtas. Producto=
f(Localización
Geográfica)
Regresión
/correlación
Vtas. Producto= f(renta
pc, precio, publicidad)
FASES DEL PROCESAMIENTO Y ANÁLISIS DE DATOS
 Definición del fenómeno de análisis
 Obtención de la información
 Tabulación de los resultados e introducción de los datos
en el software
 Preparación de la información: validación de los datos,
generación de nuevas variables derivadas, etc.
 Análisis de la información:
 Primeros estadísticos de resumen
 Relación entre variables: selección de técnicas de
análisis
 Procesamiento e interpretación
resultados
 Informe de resultados
de
Resultados
Nota = f (Horas estudio, sexo, asistencia, etc.)
• Interpretación de los resultados
– ¿Existe relación entre dos variables?
– ¿Se registran comportamientos homogéneos
entre grupos de individuos?
– De un conjunto de variables ¿cuál es la más
importantes para explicar otra?
• Elaboración del informe de resultados
Un repaso de estadística
inferencial …
¿EN QUÉ CONSISTE EL ANÁLISIS
ESTADÍSTICO?
ESTADÍSTICA DESCRIPTIVA:
¿Qué es? Técnicas estadísticas que permiten describir un conjunto de
observaciones.
ESTADÍSTICA INFERENCIAL
1. ¿Qué es? Técnicas estadísticas que nos permiten inferir, extrapolar o
generalizar desde un subconjunto de datos (muestra) a un conjunto
total de datos (población)
2. ¿Cómo surge?
3. Conceptos básicos
•
Población
Muestra
Parámetro
Estadístico
4. ¿Cómo hacer estadística inferencial?
•
Contraste de hipótesis
Estimación puntual y estimación por intervalos
ESTADÍSTICA INFERENCIAL: ¿Cómo surge?
CIENCIAS FORMALES: No necesitan contacto con el mundo real (MATEMÁTICAS)
CIENCIAS EMPÍRICAS:
•
Necesitan observar el mundo real
•
Exige trabajar con muestras
•
Las diferencias existentes entre las observaciones (muestras)
incorporan incertidumbre y el cálculo probabilístico
•
En las ciencias empíricas deterministas (una misma causa
siempre produce un mismo resultado): FÍSICA
•
En las ciencias empíricas aleatorias (una misma causa no
siempre produce un mismo resultado): ECONOMÍA,
SOCIOLOGÍA, ETC…
ANÁLISIS ESTADÍSTICO
ESTADÍSTICA INFERENCIAL: Conceptos
básicos (I)
POBLACIÓN: Conjunto de elementos que se quieren analizar (suelen tener un
tamaño grande)
MUESTRA: Subconjunto de elementos de una población (debe ser
representativa = aleatoria)
•
Método de muestreo aleatorio sistemático
•
Método de muestreo aleatorio estratificado
•
•
Afijación proporcional
•
Afijación no proporcional: más elementos del grupo que presente más
heterogeneidad
Método de muestreo aleatorio por conglomerados
PARÁMETRO: Valor que describe una característica poblacional
•
Desconocido
•
Constante
ESTADÍSTICO: Valor que describe una característica muestral
•
Conocido
•
Variable aleatoria
ESTADÍSTICA INFERENCIAL: Conceptos
básicos (II)
VARIABLE ALEATORIA:
•
No se conoce su valor hasta que se realiza el experimento
•
Antes de realizar el experimento se conocen sus valores y la
probabilidad de que los tome = función de probabilidad
FUNCIÓN DE PROBABILIDAD
•
Un caso concreto
•
El caso general: en poblaciones infinitases necesario definir:
•
Forma: normal
•
Su valor esperado: a través de métodos matemáticos
•
Su varianza: a través de métodos matemáticos
ESTADÍSTICA INFERENCIAL: Conceptos básicos
(III)
Muestra
UN CASO CONCRETO
POBLACIÓN:
1, 2, 3, 4 y 5
MUESTRA:
n=2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Valores
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
5
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Media
1
1,5
2
2,5
3
1,5
2
2,5
3
3,5
2
2,5
3
3,5
4
2,5
3
3,5
4
4,5
3
3,5
4
4,5
5
Media Nº veces Pbb
1
1,5
2
2,5
3
3,5
4
4,5
5
1
2
3
4
5
4
3
2
1
0,04
0,08
0,12
0,16
0,2
0,16
0,12
0,08
0,04
ESTADÍSTICA INFERENCIAL: Conceptos
básicos (IV)
EL CASO GENERAL: FUNCIÓN DE DISTRIBUCIÓN NORMAL
ESTADÍSTICA INFERENCIAL: Conceptos
básicos (V)
FUNCIÓN DE DISTRIBUCIÓN NORMAL
Probabilidades de la curva N (0,1):
   68 %
 2  95 %
 3  99 %
68%
95%
-3
-2
-1
99%
0
z
1
2
3
ESTADÍSTICA INFERENCIAL: Conceptos
básicos (IV)
FUNCIÓN DE DISTRIBUCIÓN NORMAL:
Es la función de distribución más importante por la frecuencia con que se
encuentra y por sus aplicaciones teóricas:
•
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie
(tallas, pesos, diámetros, perímetros,...).
•
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen, ...
•
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco.
•
Errores cometidos al medir ciertas magnitudes.
•
Etc.
Características de la distribución normal:
•
Tiene forma de campana
•
Es simétrica respecto a su valor central (media, mediana y moda coinciden)
•
Es asintótica respecto al eje de abscisas
•
Los puntos de inflexión se encuentran a una desviación típica por encima y por debajo de la
media
•
Cualquier combinación lineal de variables normalmente distribuidas también se distribuye
con una distribución normal
ESTADÍSTICA INFERENCIAL:
¿Cómo hacer estadística inferencial? (I)
CONTRASTE DE HIPÓTESIS
•
Objetivo: detectar la existencia de un efecto significativo
•
Etapas:
1. Definición de una hipótesis científica: respuesta a un problema
2. Definición de una hipótesis estadística: hipótesis nula
3. Construcción de un estadístico de contraste que:
•
Proporcione información sobre la hipótesis a contrastar
•
Del cuál conozca su distribución bajo el supuesto de
cumplimiento de la Hipótesis nula
4. Cálculo del estadístico de contraste en la muestra
5. Aplicación de la regla de decisión (nivel de significación y nivel de
confianza:
•
Si el valor del estadístico calculado es probable, suponiendo
la hipótesis cierta, se acepta la hipótesis
•
Si el valor del estadístico calculado es improbable,
suponiendo la hipótesis cierta, se rechaza la hipótesis
ESTADÍSTICA INFERENCIAL:
¿Cómo hacer estadística inferencial? (II)
ESTIMACIÓN DE PARÁMETROS
•
Objetivo: cuantificar el tamaño del efecto detectado
•
Tipos:
1. Estimación puntual: definición de un estimador (variable aleatoria)
2. Estimación por intervalos: conocida la función de distribución del
estimador es posible definir un intervalo entre cuyos valores se
encuentre con una determinada probabilidad el parámetro
poblacional
Así, por ejemplo, suponiendo una distribución normal para el estimador
insesgado media muestral del parámetro media poblacional, se tiene:
Prob (Mp-2DT(Mm) < Mm < Mp+2DT(Mm)) = 95%
Prob (Mm-2DT(Mm) < Mp < Mm+2DT(Mm)) = 95%
O…
Prob (Mp-3DT(Mm) < Mm < Mp+3DT(Mm)) = 99%
Prob (Mm-3DT(Mm) < Mp < Mm+3DT(Mm)) = 99%