Download INSTITUTO UNIVERSITARIO POLITECNICO “SANTIAGO MARIÑO

Document related concepts

Aprendizaje basado en árboles de decisión wikipedia , lookup

Árbol de decisión wikipedia , lookup

Diagrama de decisión binario wikipedia , lookup

Árbol de decisión alternativo wikipedia , lookup

C4.5 wikipedia , lookup

Transcript
INSTITUTO UNIVERSITARIO POLITECNICO
“SANTIAGO MARIÑO”
EXTENSION VALENCIA
Integrantes:
Andrés Camacaro
C.I.: 21458381
José Parra
C.I.: 11098985
Héctor González
C.I.: 12101850
Henry Pirona
C.I.: 7126418
Néstor Mera
C.I.: 14770871
Valencia, octubre de 2011
INTRODUCCIÓN
El árbol de decisión es considerado como una técnica bien documentada que permite
analizar con bastantes probabilidades de éxito el resultado de decisiones secuenciales
basada en el uso de resultados y probabilidades asociadas positivas.
Es así como se toma en cuenta y puede considerarse que un árbol de decisión es un modelo
de predicción utilizado en el ámbito de la inteligencia artificial que, precisamente se
substrae de una base de datos de la cual se construyen diagramas de construcciones,
relacionadas con el objeto a decidir..
ÁRBOL DE DECISIÓN
El árbol de decisión es un diagrama que representan en forma secuencial
condiciones y acciones; muestra qué condiciones se consideran en primer lugar, en segundo
lugar y así sucesivamente. Este método permite mostrar la relación que existe entre cada
condición y el grupo de acciones permisibles asociado con ella.
Un árbol de decisión sirve para modelar funciones discretas, en las que el objetivo
es determinar el valor combinado de un conjunto de variables, y basándose en el valor de
cada una de ellas, determinar la acción a ser tomada.
Los árboles de decisión son normalmente construidos a partir de la descripción de la
narrativa de un problema. Ellos proveen una visión gráfica de la toma de decisión
necesaria, especifican las variables que son evaluadas, qué acciones deben ser tomadas y el
orden en la cual la toma de decisión será efectuada. Cada vez que se ejecuta un árbol de
decisión, solo un camino será seguido dependiendo del valor actual de la variable evaluada.
Se recomienda el uso del árbol de decisión cuando el número de acciones es
pequeño y no son posibles todas las combinaciones.
Uso de árboles decisiones.
El desarrollo de árboles de decisión beneficiado analista en dos formas. Primero que
todo, la necesidad de describir condiciones y acciones llevan a los analistas a identificar de
manera formal las decisiones que actualmente deben tomarse. De esta forma, es difícil para
ellos pasar por alto cualquier etapa del proceso de decisión, sin importar que este dependa
de variables cuantitativas o cualitativas. Los árboles también obligan a los analistas a
considerar la consecuencia de las decisiones.
Se ha demostrado que los árboles de decisión son eficaces cuando es necesario
describir problemas con más de una dimensión o condición. También son útiles para
identificar los requerimientos de datos críticos que rodean al proceso de decisión, es decir,
los árboles indican los conjuntos de datos que la gerencia requiere para formular decisiones
o tomar acciones. El analista debe identificar y elaborar una lista de todos los datos
utilizados en el proceso de decisión, aunque el árbol de decisión no muestra todo los datos.
Si los árboles de decisión se construyen después de completar el análisis de flujo de
datos, entonces es posible que los datos críticos se encuentren definidos en el diccionario de
datos (el cual describe los datos utilizados por el sistema y donde se emplean). Si
únicamente se usan árboles de decisiones, entonces el analista debe tener la certeza de
identificar con precisión cada dato necesario para tomar la decisión.
Los árboles de decisión no siempre son la mejor herramienta para el análisis de
decisiones. El árbol de decisiones de un sistema complejo con muchas secuencias de pasos
y combinaciones de condiciones puede tener un tamaño considerable. El gran número de
ramas que pertenecen a varias trayectorias constituye más un problema que una ayuda para
el análisis. En estos casos los analistas corren el riesgo de no determinar qué políticas o
estrategias de la empresa son la guía para la toma de decisiones específicas. Cuando
aparecen estos problemas, entonces es momento de considerar las tablas de decisión
Algunos ejemplos de arboles de decisión
EJEMPLO 1:
Este árbol contiene dos variables: edad y antigüedad. Se lee de arriba hacia abajo. En el
rectángulo inicio está el comienzo. Primero pregunta por la edad. Si es menos a 25 años el
cliente es rechazado. Si su edad es igual o mayor a 25 años el árbol pregunta por la
antigüedad. Si es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad es
igual o mayor a 18 meses entonces el cliente es aceptado.
En el caso anterior ambas variables eran numéricas. También puede haber variables
categóricas, tal como en el ejemplo siguiente.
EJEMPLO 2:
En este caso las variables son Edad y Estado Civil. La variable Edad es numérica y Estado
Civil es categórico. Sus valores posibles son: Soltero, Casado y Viudo. Si el cliente tiene
edad igual o mayor a 25 años y es soltero, entonces el árbol lo rechaza. Si, en cambio, es de
edad igual o mayor a 25 años pero su Estado Civil es Casado o Viudo, entonces el árbol lo
acepta.
Los dos ejemplos de árboles son binarios. Esto significa que cada vez salen dos ramas y no
más. Esta característica no es pérdida de generalidad, pues todo árbol no binario se puede
rescribir como binario agregando nodos adicionales.
Los diagramas de árbol son representaciones naturales a la mente que ayudan a clasificar
información, establecer regulaciones y políticas, y a seguir razonamientos. Inventados
aparentemente el año 500 por lógicos sirios, fueron traídos a España cerca del año 600. En
el año 1.300 fueron muy utilizados por el catalán Ramón Lull, lo que habría influido en
Leibnitz, el gran matemático co-inventor del cálculo infinitesimal, quién habría utilizado
estas ideas para proponer un lenguaje universal de cálculo lógico.
Capacidad de discriminación de un árbol de decisión y error del estimador
Tal como en cualquier modelo, se puede calcular el KS de un árbol en una muestra. Esto
considera los dos porcentajes:
 El porcentaje de malos clientes que el modelo rechaza, y
 El porcentaje de buenos clientes que el modelo rechaza.
KS del árbol = | % de malos clientes rechazados - % de buenos clientes rechazados |
Un buen árbol es aquel en el que el primer porcentaje es cercano a 100% y el segundo es
cercano a 0%, y así el valor absoluto de esta diferencia es cercana a 100. Un árbol con mala
discriminación es aquel en el que el KS es cercano a cero.
Es muy importante recordar que el KS verdadero en la población completa, que incluye
potenciales clientes futuros, nunca se conoce. Todo lo que se puede calcular es una
estimación del KS. Esta estimación se hace usando una muestra de la cartera, por lo que el
cálculo depende de la muestra donde se realiza el cálculo.
EJEMPLO 3:
Si en una muestra con 10.000 clientes hay 9.500 clientes buenos y 500 clientes malos, y al
pasar toda la muestra por el árbol queda clasificada de acuerdo al esquema siguiente:
Es decir, en el nodo izquierdo, de aquellos clientes de la muestra con edad menor a 25 años,
quedan 400 clientes buenos y 200 clientes malos. En el nodo Derecho Izquierdo, con
aquellos clientes de la muestra con 25 años o más pero Solteros, quedan 800 clientes
buenos y 200 clientes malos. Y, finalmente, en el nodo Derecho Derecho, con aquellos
clientes de la muestra con 25 años o más que son Casados o Viudos, quedan 8.300 clientes
buenos y 100 clientes malos.
De estos datos se desprende que el número de clientes malos rechazados es 400, y el
número de clientes buenos rechazados es de 1.200. Por lo tanto:
% de malos clientes rechazados = 100*(400/500) = 80%
% de buenos clientes rechazados = 100*(1.200/9.500) = 12,6%
y entonces el KS del modelo = | 80% - 12,6% | = 67,4 %
Este es un ejemplo artificial. En modelos de Iniciación no se consiguen esos KS, pero son
razonables en los modelos de Comportamiento.
Es muy importante tener una estimación del error que tiene el estimador del KS. Es decir,
poder decir cuán cerca estará el KS calculado de los KS que se obtendrán en otras muestras
independientes. Para esto es esencial tener mucho cuidado en medir la capacidad de
discriminación y su desviación estándar en una muestra adecuada. Una muestra mal
escogida invalida completamente las estimaciones.
CONCLUSION
Puede considerarse acertadamente que un árbol de decisión es una forma gráfica y
analítica de representar todos los eventos que puedan presentarse ante una situación en la
cual deban seleccionarse una o mas alternativa para poder tomarse alguna decisión con la
mayor certidumbre posible.
El manejo de los criterios para poder decidir lo mas acertadamente posible queda en
manos de la persona que tenga la información referida a un caso particular y de la decisión
que tome con la mayor certidumbre posible las probabilidades son de que obtenga un
resultado favorable.