Download Redes Neuronales - Palisade Corporation

Document related concepts

Red neuronal artificial wikipedia , lookup

Red neuronal de impulsos wikipedia , lookup

Perceptrón wikipedia , lookup

Regresión logística wikipedia , lookup

Método de agrupamiento para el manejo de datos wikipedia , lookup

Transcript
Bienvenidos
Neural Tools y Credit Scoring
Foro de Análisis de Riesgos y Decisiones para
Latinoamérica 2011
2 / Junio / 2011 - México
Presentado por
Gustavo Vinueza, Msc.Finanzas
[email protected]
Consultor Palisade Corporation
» Modelos tradicionales pueden ser
complementados con Predicciones
realizadas por Redes Neuronales
3
Objetivos
1. Explicar brevemente las Redes Neuronales y
Credit Scoring
2. Revisar un modelo Credit Scoring de
Regresión y transferirlo a Redes Neuronales
3. Comparar resultados de ambos modelos
4
REDES NEURONALES
5
¿Cómo Pensamos?
• El cerebro es un órgano que aprende y crece
a medida que recibe estímulos.
• Se adapta y reorganiza por sí mismo.
• La estimulación, ejercicio físico mejoran el
funcionamiento del cerebro y nos protegen de
declives mentales
• El cerebro continúa creciendo a través de las
neuronas
Datos interesantes
•
Antes de nacer, el ritmo de crecimiento de las neuronas
es de 15 MM / hora!
•
Al nacer, tenemos 1 Billón de Neuronas listas
•
No existe límite en la edad
para aprender y extender el número de neuronas
• Las neuronas reciben estímulos externos a
través de Dendritas (Antenas)
• Una neurona saludable se conecta con miles
de otras
http://www.fi.edu/learn/brain/exercise.html
Las Neuronas
Funcionan a base de excitabilidad eléctrica –
reciben estímulos y conducen el sistema
nervioso
Las Dendritas son las terminales de las Neuronas
y reciben los impulsos nerviosos (Entradas)
Los Axones transmiten el impulso nervioso desde
una célula a otra (Información)
Referencia:
Célula Schwann – Células que acompañan a la neurona en su crecimiento y desarrollo
Nodo Ranvier – Interrupciones regulares en el axón para ponerlo en contacto a la membrana
Vaina Mielina – Recubrimiento del Axón
Las Neuronas: Acercamiento Matemático
Input 1
Solamente cambiando el umbral de
la neurona podemo cambiar su
comportamiento. Los umbrales y
los pesos (w) son la inteligencia del
sistema.
θ
W1=1
Σini
Dendritas
W2=1
Output (0 ó 1)
Axon
Neurona
Input 2
AND
En este acercamiento simple, las
entradas y salidas son binarias.
OR
θ=1.5
θ=0.5
I1
I2
O1
I1
I2
O1
0 0
1
1
0
1
0
1
0
0
0
1
0 0
1
1
0
1
0
1
0
1
1
1
http://www.imagination-engines.com/ann.htm
Las Neuronas - Evolución
Permite que la
salida no sea
solamente 0 ó 1
9
Redes Neuronales
» ¿Qué es una Red Neuronal?
• Simulación de sistemas neuronales
biológicos a través de modelos
matemáticos
» Objetivo
• Conseguir que den respuestas
similares a las que da el cerebro –
generales y robustas
» Componentes
• Entradas, Neuronas y Salidas
De manera simple, se podría pensar
como una matriz de Entradas, Pesos, Umbrales y Salidas que se autoregula
Imagen: Fuente NASA ‐ http://aemc.jpl.nasa.gov
Redes Neuronales: Ventajas
» Ventajas
•
•
•
•
•
Capacidad de aprender y auto-organizarse
Tolerar fallas e información incompleta
Flexibilidad y filtros de ruido
Predicción en Tiempo real
Pueden utilizar, de forma nativa, datos numéricos y
categóricos
–
Ventaja sobre regresión!
Redes Neuronales: Modelo
» Preparación del Modelo
Entrenamiento
Pruebas – Test
• Conjunto de datos
significativo que hace que
la red aprenda
automáticamente
• Por cada registro:
• Se modifican los pesos • Se propagan hacia atrás
(back propagation) a toda la red
• Una vez entrenada la red Æ grado de correctitud de las predicciones
• Se aplica, al set de datos elegido, la red neuronal, y se valida
la configuración de los pesos de las
entradas y las salidas
• Se valida el grado de correctitud de ambos conjuntos de datos
Predicción
• Se utiliza la red neuronal para predecir variables dependientes
• Se generan umbrales de ser necesario
• Si es que se tienen los datos del modelo de regresión se podría hacer
backtesting de los resultados
¿Preguntas?
13
Credit Scoring
» ¿Qué es?
• Un resultado numérico basado en los archivos de crédito de una
persona, que representa su solvencia
• Típicamente se basa en información consolidada por los llamados
bureaus de crédito (Equifax, Experian, etc.)
» ¿Cómo se usa?
• Bancos, tarjetas de crédito, etc. utilizan esta información para validar
los préstamos que entregan y evitar deuda de mala calidad
• La usan también empresas de telefonía, headhunters, empresas para
conocer mejor a sus clientes / usuarios
• Sirve para determinar
–
Tasa de préstamo, límites de monto, duración
Credit Scoring
» Metodologías tradicionales
• FICO (Fair Isaac Co.)
–
–
–
–
–
–
Usado en los USA (Equifax, Experian, TransUnion)
Rango de 300 a 850 (mediana = 723)
Predice la probabilidad de default de 90 días a 2 años
Mientras más alto es el score, menor es la probabilidad
De acuerdo a su uso un cliente puede tener score diferente para
una tarjeta de crédito, que para un crédito hipotecario
Límites
–
Estado Æ 640 –prime/subprime / Privados – Mínimo 660 // Cargos por scores <
740
• Otros - Propios
–
–
–
Equifax ScorePower, Experian PLUS Score, etc.
Algoritmos Propios
Inglaterra – regresión logística – resultado binario (bueno/malo)
Credit Scoring: Metodologías
» Modelo de Hazard Rate
Gráfico de cliente típico. ‐ En los primeros meses (6‐15) hay mayor probabilidad de default.
‐ Una vez que el cliente pasa los 15 meses, la probabilidad se hace más o menos
constante.
Credit Scoring: Metodologías
» Regresión
• Población homogénea
• Generalmente se tienen de 10 a 20
variables
• Observaciones de clientes que
Variables incluidas
defaultean y otros que no
» ¿Qué se calcula?
• Probabilidad de Default
–
Regresión Logística
• Cálculo de Pérdida Esperada
o BV – Behavioural: Balance, no. veces impago, no. Transacciones / mes
o MV – Macroeconomic: Inflación, Tasa desempleo
o AV – Application: Edad, # Tarjetas, Score Crédito
Credit Scoring
» Resumen del Modelo
Stress Testing
Modelo Regresión - Ejemplo
» Descripción de la Muestra
•
•
•
•
•
•
•
•
•
750.000 cuentas – Inglaterra [1999-2006]
Se incluyen datos de AV y BV de cada cuenta
Algunos valores faltantes por cuenta (como en la realidad)
Default – 90 días (Basilea II, para créditos consumo)
MV varían cada 3 meses, data histórica [1984-2004]
Forecast 18 M – modelo se probará con resultados para 12 M
Fecha observación 1/ene/2005
Training/testing data = 2/1 (400,000 train, 150,000 test)
Logaritmos tomados de variables con crecimiento exponencial
–
Earnings, FTSE, House prices, etc.
Forecasting and Stress Testing Credit Card Default
using Dynamic Models
Tony Bellotti and Jonathan Crook Credit Research Centre
University of Edinburgh Business School
26 November 2009 / Version 4.5
Modelo Regresión - Ejemplo
» Coeficientes
•
•
•
•
β1 – Duración
β2 wi – Variables Aplicación
β3 xj(t-k) – Comportamiento
β4 z – Macroeconómicas
Modelo Regresión Crédito: Variables
Distribución de Muestra
»
En base al modelo, se generó una muestra aleatoria de 1.000 clientes
•
»
En cada variable independiente se generaron valores usando distribuciones discretas, uniformes y
triangulares.
Sobre esta muestra se podría generar una distribución y calcular una
contingencia
22
Modelo Ejemplo
» Descripción de Resultados
• BVs añaden precisión al modelo (Comportamiento)
• MV también ayuda con precisión, pero de forma marginal
(Macroeconómicas)
Variable
Efecto
Comentario
Balance
+
A mayor balance, más difícil de cumplir
Credit Limit
‐
Mayor límite de crédito, mejor calidad cliente
Monto Pagado mes
‐
Menos Prob.Default por calidad cliente
# Transacciones
+
Mayor uso de la Tarjeta Crédito
Monto Transacción
‐
Mayor monto, menos probabilidad (cliente más rico)
Tasa Interés
+
Mayor demanda de pagos / hipotecas – que afectan a los clientes
Tasa Desempleo
+
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Distribución de Muestra
» Se escogió a la distribución Beta como la más idónea para
representar a los datos
» Se calcula una contingencia del 5% (VAR 95%)
24
Distribución de Muestra
» Para la contingencia, tomaría a todos los clientes que tengan
más de un 61,9% de probabilidad de default
•
•
5% de la distribución = 24 clientes, Exposición Total = 2’155.944
Si es a un día, tenemos un 5% de probabilidad de que nuestra pérdida
sea mayor a $2.1 MM.
» Si el umbral es 40% de probabilidad, no daría el préstamo a
235 clientes
25
Conclusiones de la Regresión
» Hubo que generar el estudio inicial para
determinar las variables
• No es fácil de determinar
–
–
–
Tiempo, Recursos
Muestra Estadísticamente Significativa
Adaptación de cartera a la realidad
» La metodología a partir de la distribución final es
la misma
26
¿Preguntas?
27
Modelo NeuralTools – Credit Scoring
» Aplico Neural Tools al mismo data set
• Base de datos histórica
– Variables
–
No es necesario realizar un análisis de independencia
entre cada una de ellas
– Configuro Resultado Æ [+ ó un –]
–
Si mi probabilidad de default > 40% Æ ”-”
–
Credit Screening – Se va a dar el crédito o no
–
Tengo además una probabilidad que me entrega el
modelo que califica mi predicción
Modelo NeuralTools – Credit Scoring
» Usando el software
• Se toma la misma base de
datos que la de la
regresión
• Se entrena la red
• Se hace el testing y se
valida el % de correctitud
• Se generan las
predicciones
Modelo NeuralTools – Credit Scoring
» Comparación de Resultados
•
•
•
•
Se compararon los datos Regresión vs NeuralTools
De las 1.000 muestras, se debió generar un umbral
para tener las menores diferencias posibles:
Umbral
Diferencias
0.4
6
0.5
125
0.619
213
Este umbral no es el mismo del 95% y es el que
predice cuándo el cliente va a defaultear o no
El promedio de probabilidades fue de un 98,4%, con
una SD = 5%
Modelo NeuralTools – Credit Scoring
» Hallazgos:
• Variables con mayor sensibilidad
–
–
–
Deuda Total - Current Balance
Number of months past due (Meses en Mora)
Credit bureau score
Modelo NeuralTools – Credit Scoring
» ¿Cuándo usar Neural Tools?
• Escenarios recomendados
–
Prueba de concepto de nuevos datos
–
–
–
–
No es necesario actualizar el modelo de regresión
Construcción de Prototipos Iniciales
Desconocimiento del Modelo de Cálculo de Crédito
Apoyo a decisiones
–
Puede aportar un porcentaje de la decisión del otorgamiento del
crédito
Aplicación Web
» El NeuralTools corre en Excel en el servidor
• Utilizado actualmente como prototipo
33
Conclusiones
» Ambos acercamientos necesitan de data precisa
• Set histórico de variables categóricas y numéricas
Los Modelos de Regresión
Las Redes Neuronales
• Metodología Tradicional
• Necesitan de un análisis
más detallado
• Inclusión de variables dummy, revisión de autocolinearidad
• Proceso más difícil de implementar a nivel
sistemas
• Facilitan procesos
predictivos y pruebas
de concepto, prototipos
• Pueden formar parte de la decisión de crédito de un cliente
¿Preguntas?
35
Muchas gracias!
» Gustavo Vinueza
• [email protected]
Neural Tools y Credit Scoring
Foro de Análisis de Riesgos y Decisiones para
Latinoamérica 2011
2 / Junio / 2011 - México
Presentado por
Gustavo Vinueza, Msc.Finanzas
[email protected]
Consultor Palisade Corporation
Referencias
» Modelo Regresión
» Redes Neuronales
¿Cómo Pensamos? [2]
• El impulso eléctrico que generan las neuronas
se transmite a través de la Sinapsis
•
A medida que desarrollamos la memoria se generan
conexiones a Largo Plazo, que facilitan este proceso
haciendo que las neuronas se comuniquen con otras
sea más fuertemente o con debilidad – de acuerdo
al proceso de aprendizaje
http://www.fi.edu/learn/brain/exercise.html
Redes Neuronales: Ejemplo
» Perceptrón Multicapa
• Capa Entrada
–
Obtienen patrones de entrada
• Capas Ocultas
–
Capa de Procesamiento
• Capa Salida
–
Valores de salida para toda la red
Ejemplo Cartera T. Crédito
» Modelo LossCalc
• Predición de Pérdida dado el Default (LGD)
• Variables
–
–
–
–
–
Tipo de Deuda (Préstamo, bono, preferred stock)
Seniority (secured, senior, subordinada, etc.)
Estructura de Capital
Industria (promedio móvil de recuperación de industria)
Macoreconómicas
–
–
Promedio anual de default
Indicadores económicos, etc.
• Error
–
Mínimos cuadrados en datos históricos
• Distribución
–
Beta
–
–
Usando Media y Desviación estándar
De lo recuperado