Download Arboles dirigidos y su aplicacion en ciencias sociales

Document related concepts

Aprendizaje basado en árboles de decisión wikipedia , lookup

Árbol binario wikipedia , lookup

Árbol-B wikipedia , lookup

Estructura de datos para conjuntos disjuntos wikipedia , lookup

Árbol filogenético wikipedia , lookup

Transcript
SOCIOESTADISTICA
Acta Científica Venezolana, 51: 63–68, 2000
ARBOLES DIRIGIDOS Y SU APLICACION
EN CIENCIAS SOCIALES
José Renato De Nóbrega
Sección de Ecología de Comunidades y Sistemas, Laboratorio de Socioecología, Instituto de
Zoología Tropical, Facultad de Ciencias, Universidad Central de Venezuela, Apartado 47058,
Caracas 1041-A, Venezuela. email: [email protected]
Recibido: 11/01/00 ; Revisado: 17/05/00 ; Aceptado: 30/05/00
RESUMEN: Los árboles dirigidos son grafos especiales usualmente empleados como soporte ilustrativo de métodos numéricos aplicados
en la biología evolutiva. La presente nota metodológica explora su posible aplicación en ciencias sociales. Se ejemplifica su utilidad como
método de clasificación en un clásico estudio antropológico sobre cambios culturales. Palabras clave: Grafos, árbol dirigido, antropología,
cultura.
DIRECTED TREES AND ITS APPLICATION TO SOCIAL SCIENCES
ABSTRACT: Directed trees are special graphs usually employed as illustrative device of numerical methods applied in evolutionary biology.
The present note explores its possible application in social sciences. Its utility as classificatory method in a classical anthropological study
of cultural changes is exemplified. Key Words: Graphs, directed tree, antropology, culture.
INTRODUCCION
En investigaciones del área social y ambiental suelen presentarse situaciones en las que se requiere comparar varias entidades entre sí y con respecto a una entidad de
referencia, caracterizadas por múltiples variables que alcanzan a lo sumo un nivel de medición semicuantitativo u
ordinal. Un análisis potencialmente útil para el tratamiento de este tipo de situaciones es la representación mediante grafos especiales denominados árboles dirigidos.
Un grafo es una representación de las relaciones entre un
conjunto finito de elementos de un sistema, denominados
vértices o nodos del grafo, mediante segmentos de conección (internodos). El árbol dirigido se diferencia de otros
grafos por presentar segmentos con dirección, dispuestos
en una única vía que parte de un vértice especial denominado raíz del árbol. Este tipo de grafo ha tenido amplia difusión en la biología evolutiva, específicamente como medio de representación de métodos numéricos aplicados en
la sistemática filogenética3;5 . Estos métodos consisten de
algoritmos especiales que generan posibles filogenias de
grupos de unidades evolutivas (ej.: especies biológicas),
representadas mediante un árbol cuya direccionalidad o
polaridad representa la tendencia evolutiva que va desde
la unidad considerada más primitiva, ubicada en la raíz
del árbol, a la más evolucionada. Despojados de su interpretación evolutiva, estos algoritmos no son más que
técnicas numéricas multivariadas para el arreglo unidireccional y económico de entidades considerando sus similitudes entre sí y con respecto a una entidad de referencia a
partir de la cual se extiende el árbol. Dichos métodos generan un sistema de clasificación útil al indicar variables
claves y valores diagnósticos en los grupos de entidades
a medida que se alejan de la condición patrón. Uno de los
primeros métodos numéricos de este tipo fue desarrolla-
do por Camin y Sokal1 . Se expone aquí la potencialidad
de dicho método en la representación de un fenómeno de
interés particular en la antropología, el cual encaja dentro
del tipo de problema descrito: el estudio de los cambios
culturales en sociedades emparentadas por un patrón cultural ancestral común. Se ilustra con el estudio realizado
por Herskovits (1945, citado en Herskovits4 ) acerca de la
intensidad de los africanismos en comunidades radicadas
en América. Si bien esta data no está vigente, la naturaleza de la investigación permite mostrar las bondades de la
técnica.
METODOLOGIA
El estudio: cambios culturales en sociedades emparentadas
Herskovits centró su investigación en los modos de vida
de diferentes sociedades negroides de nuestro continente,
vinculadas entre sí por descender directamente de sociedades de África occidental con un patrón cultural general
muy semejante. Dicha semejanza permitió al autor citado
conformar una línea base africana a partir de la cual indagó el patrón de cambio cultural experimentado por las
sociedades radicadas en América. Para ello, estableció
la intensidad del africanismo de diez aspectos o elementos culturales en varias sociedades, elaborando una escala de medición de tipo ordinal con cinco estados posibles
para cada aspecto cultural: desde la categoría " africano "
hasta la categoría " con vestigio africano ". Una versión
de la matriz comunidades-elementos culturales generada
por Herskovits se presenta en la Tabla 1. Para facilitar el
análisis se consideraron sólo ocho de las doce comunidades estudiadas originalmente. Se procedió a sustituir el
código de letras, utilizado por el autor para identificar las
64
categorías de los elementos culturales, por un código de
números del cero al cuatro. Tal representación numérica
refleja de forma más apropiada la naturaleza ordinal de la
medición, y es un requisito del algoritmo a emplear.
El abordaje usual de este tipo de datos consistiría en
establecer una jerarquía de las sociedades según el grado
de africanismo, calculando para cada sociedad la suma de
los puntajes obtenidos en cada aspecto cultural. El arreglo
ordenado de las sociedades según este puntaje (ver Tabla
2), expresa la posición relativa de cada una con respecto a
la condición o patrón de referencia. Esta aproximación, sin
embargo, no permite observar las relaciones fundamentales que se establecen entre las entidades consideradas.
Como veremos, el árbol dirigido incorporará a esta jerarquía básica los aspectos culturales claves que diferencian
a los grupos de sociedades.
De Nóbrega
nomía. Dicho árbol es el que requiere el menor número
de pasos o transformaciones de los aspectos culturales
desde la raíz hasta el tope.
El método es de tipo divisivo jerárquico. Divisivo pues
parte de la población completa de entidades a clasificar
(sociedades) y la divide en grupos cada vez más pequeños en cada ciclo del algoritmo, mediante la extracción
de aquella(s) sociedad(es) más semejante(s) a la sociedad ancestral representada en la raíz. Jerárquico pues los
conjuntos así generados presentan rangos, en los que las
entidades o grupos subsidiarios forman parte de un grupo mayor. La ventaja de un método divisivo, sobre uno de
carácter aglomerativo, es que la división puede detenerse
en el nivel que el investigador considere conveniente.
RESULTADOS
El algoritmo numérico
El algoritmo de Camin y Sokal puede resumirse en los pasos siguientes: 1. A partir de la matriz original se contabiliza para cada sociedad (fila de la matriz) el número total de
aspectos culturales que adoptan el valor cero. Esta cantidad representa una medida de " cercanía " a la condición
ancestral.
2. Se remueve de la matriz aquella sociedad (fila) con
el mayor número de valores cero, y se examina la matriz modificada verificando que queden aspectos culturales
(columnas) sin valores cero. De no darse esta última condición se procede a insertar de nuevo la entidad extraída
previamente y a remover otra que o bien posea el mismo
número de valores cero que la anterior o bien el siguiente
mayor número de ceros. De no obtenerse aspectos culturales (columnas) sin valores cero, se procede a extraer
combinaciones de dos o más sociedades con el mayor número de ceros hasta lograr la condición.
3. La(s) sociedad(es) extraídas es(son) asignada(s) a una
rama que parte de la raíz del árbol. Si el valor mínimo
de cada aspecto cultural (columna) sin valores cero no es
compartido por la comunidad extraída, dicho estado del
aspecto es utilizado para identificar y diferenciar en el árbol al grupo de comunidades restantes con respecto a la
comunidad extraída.
4. Se reducen en una unidad los valores de todo aspecto
cultural (columna) que no posea valores cero, hasta que
cada uno adopte al menos un valor cero en una sociedad.
Se reinicia el proceso según el paso 1 hasta completar el
árbol.
El método puede producir diferentes árboles cuando en
el paso dos del algoritmo se detectan dos o más filas que
coinciden tanto en el hecho de presentar el mayor número
de ceros, como en dejar columnas sin ceros cuando cualquiera de ellas es seleccionada para la extracción. En esta
situación se deben considerar todos los posibles árboles
que surgirían cuando cada una de las filas mencionadas
es seleccionada como primera extracción. Entre los árboles generados se selecciona como solución final el de
menor longitud, siguiendo un criterio de parsimonia o eco-
El análisis numérico directo: un árbol dirigido de sociedades
La matriz de datos referida se sometió al método numérico de Camin y Sokal, realizando lo que en taxonomía
numérica se conoce como un análisis directo: el arreglo
de entidades, en este caso, sociedades. Considerando a
la sociedad ancestral africana como raíz, el árbol generado (Figura 1) presenta un tronco principal a partir del
cual parten ramas secundarias en las que se ubican las
sociedades. El árbol facilita una rápida visión general de
la posición de las sociedades en la escala de africanismo.
La disposición de las sociedades coincide en buena parte con el arreglo dado por la jerarquía establecida previamente, mediante el índice calculado en cada sociedad. La
única diferencia consiste en que Jamaica (general) queda ubicada en el árbol por encima de Brasil (urbano), a
pesar de obtener dos unidades de puntaje global por debajo de ésta. En la rama más cercana a la raíz observamos la sociedad con el menor cambio en su identidad
cultural ancestral, y con el menor puntaje global: Guayana (cimarrones). Reexaminando la matriz detectamos que
sólo el 40% de los aspectos culturales de esta sociedad
experimentaron modificación con respecto a su condición
ancestral, alcanzando apenas el nivel subsiguiente en la
escala: " muy africano " (valor 1). El resto de sus aspectos culturales no sufrieron modificación. En la punta terminal del árbol se ubican aquellas sociedades con el mayor
cambio global relativo en su identidad cultural ancestral.
Corresponden en este caso, como cabría esperar, a las
dos sociedades radicadas en el país más desarrollado del
grupo (Estados Unidos). Ambas presentan el mayor puntaje global en el índice. Todos los caracteres culturales de
este par de sociedades experimentaron modificación, con
un 60% de dichos caracteres alcanzando o superando el
nivel " poco africano " (máximo valor: cuatro). El árbol nos
revela de inmediato que el medio urbano pudo jugar un
papel fundamental como factor de pérdida de la identidad
cultural ancestral: en todo par de sociedades radicadas en
un mismo país se observa que aquella ubicada en zonas
65
Arboles dirigidos
Tabla 1. Matriz de sociedades y aspectos de la cultura (Tomado con modificación de Herskovitz (1976)).
Tecnología Economía Organización Instituciones de No Religión Magia Arte Folklore Música Lenguaje
(T)
(E)
Social (S)
Parentesco (INP)
(R)
(Mg) (A)
(F)
(M)
(L)
Guyana (cimarrones) (GUc)
Guyana (Paramaribo) (GUp)
Brasil (urbano del norte) (BRu)
Brasil (rural del norte) (BRr)
Jamaica (cimarrones) (JAc)
Jamaica (general) (JAg)
Estados Unidos (rural ) (EUr)
Estados Unidos (norte) (EUn)
1
2
4
2
2
4
3
4
1
2
3
2
2
3
4
4
0
1
2
1
1
3
2
2
0
2
4
4
1
3
3
3
0
0
0
2
1
2
2
2
0
0
1
1
0
1
2
2
1
4
4
4
4
4
4
4
0
0
3
1
0
0
3
3
0
0
0
1
0
1
1
1
1
2
1
3
2
2
4
4
Estados de los aspectos culturales:
0: muy africano
1: enteramente africano
2: algo africano
3: un poco africano
4: vestigios de costumbres africanas
urbanas está más alejada de la raíz, la línea base africana,
que aquella ubicada en zonas rurales.
La ventaja fundamental del árbol, como fue comentado,
es que genera un sistema clasificatorio gráfico que muestra los caracteres culturales que diagnostican a los grupos
a medida que avanzamos desde la raíz. La técnica construye puntos de ramificación o nodos entre las sociedades
bajo estudio y establece para todo segmento de conexión
dirigido entre un nodo y una sociedad, o entre un par de
nodos, aquellos cambios culturales que ocurren cuando
avanzamos desde el extremo inferior al extremo superior
del segmento correspondiente. Estos cambios están señalados sobre cada segmento (internodo) mediante el código que identifica al aspecto cultural que sufre modificación y entre paréntesis el valor que adopta. Las transformaciones señaladas sobre el tronco o eje principal son las
transformaciones claves que permiten diferenciar los grupos a medida que avanzamos en el árbol desde la raíz.
Todo grupo ubicado a partir de cierto nodo se diferencia
de aquel grupo inclusivo ubicado en el nodo inmediato inferior por presentar con seguridad valores de los elementos culturales claves iguales o mayores a las señaladas
en el internodo correspondiente. Por otra parte, la suma
del total de transformaciones o cambios dispuestos sobre
cada internodo es una medida de su longitud y de la magnitud de cambio o diferencia cultural entre las sociedades
ubicadas en sus extremos.
Una de las ventajas del sistema de Camin y Sokal, con
respecto a otros métodos de clasificación, es que evita las
inconsistencias producto de reversiones de los aspectos
culturales claves o diagnósticos. Se entiende por reversión la posibilidad de que una de los aspectos claves que
identifican a un grupo adopte en al menos una de dichas
entidades o sociedades, un valor menor que el que diagnostica al grupo como un todo.
El método, sin embargo, está sujeto a lo que podríamos denominar inconsistencias menores, comunes a todo
sistema de clasificación multivariado. Se pueden observar estados de elementos culturales que aparecen indi-
Tabla 2. Posición de las sociedades en la escala de africanismo
según la suma de los puntajes obtenidos en todos los aspectos
o elementos culturales.
Sociedad
Guyana (cimarrones)
Guyana (Paramaribo)
Jamaica (cimarrones)
Brasil (rural del Norte)
Jamaica (general)
Brasil (urbano del Norte)
Estados Unidos (rural del sur)
Estados Unidos (norte)
Identificación Puntaje
GUc
GUp
JAc
BRr
JAg
BRu
EUr
EUn
4
13
13
21
23
25
27
29
cados más de una vez en el árbol (ejemplo: el aspecto
INP en estado 4 se presenta tanto en la rama que conduce a Brasil-urbano como a la que conduce a Brasil-rural).
Por las particulares condiciones que acompañaron a los
procesos históricos de cada sociedad en cada país, cabe
esperar que no ocurra una separación de las comunidades en bloques completamente homogéneos. De ocurrir
tal separación homogénea esta se reflejaría en un sistema
clasificatorio plenamente consistente, sin las repeticiones
referidas. La consistencia de la clasificación se obtiene
comparando la longitud real del árbol con la longitud mínima que manifestaría si fuese un árbol plenamente consistente, con todas las transformaciones ubicadas sobre
el eje principal y conduciendo a grupos homogéneos. La
longitud mínima de un árbol viene dada por la suma de los
rangos de todos los aspectos culturales, siendo definido el
rango de un aspecto cultural particular como la diferencia
entre su valor máximo y mínimo2 . Un índice de consistencia acotado se obtiene dividiendo la longitud mínima entre
la longitud real. Un valor del índice igual a uno indicaría
plena consistencia. En este ejemplo la consistencia calculada fue moderadamente alta: 0,75.
El árbol expuesto representa uno de los dos posibles árboles que genera el algoritmo para este ejemplo particular,
66
De Nóbrega
Figura 1. Árbol dirigido de sociedades. A la derecha del árbol se exponen comentarios que explican los elementos culturales que
diagnostican a cada grupo de sociedades, a medida que avanzamos desde la raíz hasta el tope.
ambos de igual longitud y por ende igual consistencia. El
otro árbol posible se obtiene simplemente intercambiando
las posiciones de las dos comunidades del Brasil, e intercambiando, por supuesto, los rasgos culturales diagnóstico ubicados en los internodos del tronco principal que parten de los nodos de los cuales se desprenden estas dos
comunidades. Notemos que ambas comunidades del Brasil junto con las tres comunidades tope, Jamaica (general)
y las dos comunidades de Estados Unidos, conforman un
gran grupo de cinco comunidades a subdividir a partir del
cuarto nodo del árbol. Las relaciones de cada comuni-
dad del Brasil con las tres comunidades tope nombradas
son completamente contrarias: los estados de caracteres
culturales que cada una de ellas comparte con las del tope son precisamente aquellos que la otra no comparte.
Veamos: Brasil (rural) no comparte con las comunidades
tope los cambios mínimos que éstas presentan en organización social, economía y tecnología (lo cual si comparte
Brasil-urbano), pero se asemeja a ellas por compartir sus
cambios mínimos en otros tres rasgos culturales como lo
son religión, música y lenguaje (cambios que no comparte Brasil-urbano). Las dos comunidades del Brasil pueden
Arboles dirigidos
67
Figura 2. Árbol dirigido de elementos culturales. A la derecha del árbol se exponen, para algunos nodos, comentarios que permiten
su interpretación.
desprenderse del grupo una tras otra, sin que el orden de
extracción afecte la consistencia final del árbol. La detección de este peculiar patrón es un resultado importante de
la aplicación de esta técnica. El ejemplo citado permite
a su vez evaluar en su justa medida lo que representa la
presencia de inconsistencias en un árbol. No deben interpretarse como fallas o errores del método de clasificación.
Las inconsistencias no son más que la manifestación de
un hecho: una sociedad que es extraída y diferenciada de
un grupo de acuerdo a los criterios ya expuestos, puede
aún compartir con el resto de dicho grupo ciertos estados
mínimos de otros caracteres que a su vez serán utilizados
para subdividirlo.
El análisis numérico inverso: un árbol dirigido de elementos culturales
El método citado permite realizar también lo que en la taxonomía numérica se denomina un análisis inverso: un
árbol de aspectos culturales. Este tipo de análisis permite
visualizar los componentes de la cultura más propensos
al cambio. El árbol dirigido se presenta en la Figura 2.
En este caso la raíz es un aspecto cultural de referencia
hipotético: adopta el valor cero en todos las sociedades
consideradas. A la derecha de algunos nodos del árbol se
agregan comentarios que permiten la interpretación adecuada en este caso. La disposición de los elementos en
68
De Nóbrega
el árbol coincide con la jerarquía que se obtendría si se
calculase para cada elemento cultural la suma de los puntajes obtenidos en cada sociedad. Pero ahora el árbol nos
señala sociedades claves que diagnostican a los grupos
de variables a medida que avanzamos desde la raíz. Cercanos a ésta se ubican los componentes que experimentaron una mayor resistencia relativa a la transformación: las
categorías que el autor denominó como música, folklore,
y religión. En la punta terminal del árbol observamos los
componentes más propensos al cambio: tecnología, arte
y economía. Se observa una mayor resistencia al cambio en aquellos aspectos no materiales de la cultura. Este
importante patrón fue destacado por Herskovits en vista
de su valor predictivo para ese momento: cabría esperar
que en las culturas del Africa occidental la aceptación de
patrones tecnológicos y económicos foráneos procedería
más rápidamente que la respuesta en otros aspectos de
la cultura.
Como comentario final tal vez no esté de más señalar
que el método numérico descrito puede ser de utilidad en
aquellas investigaciones que, utilizando el mismo enfoque
del ejemplo expuesto, tengan como objetivo el análisis del
proceso de cambio de un aspecto particular de la cultura.
Tal podría ser el caso del estudio de los cambios lingüísticos y desarrollo de dialectos en comunidades que comparten una lengua común. Lo requerido es desglosar el
aspecto en cuestión en varios componentes elementales
y significativos (por ejemplo, elementos de la estructura fonética y gramatical en el caso del lenguaje), y obtener una
línea base ancestral que permita la valoración ordinal de
cada elemento en cada comunidad.
AGRADECIMIENTOS
A los árbitros de este trabajo por sus útiles comentarios,
los cuales permitieron mejorar su versión inicial . En particular a aquel cuya concienzuda revisión del algoritmo lo
llevó a hacerme una importante pregunta. Espero que mi
respuesta lo haya satisfecho. Su observación a su vez
me permitió corregir el árbol de sociedades finalmente expuesto. Al Profesor Alex Fergusson por sus sugerencias
y estímulo, y al Sr. Napoleón León por su ayuda en los
gráficos.
REFERENCIAS
1. Camin, J. H. and Sokal, R. R. A method for deducing
branching sequences in phylogeny. Evolution 19: 311-326,
1965.
3. Dunn, G., and Everitt, B. S. An Introduction to Mathematical Taxonomy. Cambridge University Press, Cambridge,
1992.
2. Crisci, J. V. y López Armengol, M. F. 1983. Introducción
a la Teoría y Práctica de la Taxonomía Numérica. Serie de
Biología. Monografía n Æ 26. Secretaría General de la Organización de Estados Americanos. Programa Regional de
Desarrollo Científico y Tecnológico. Washington, 1983.
4. Herskovits, J. El Hombre y sus Obras. Fondo de Cultura
Económica. México, 1976, pp. 659-673.
5. Sneath, P. H. and Sokal, R. R. Numerical Taxonomy. Freeman and Company, San Francisco, 1973.