Download Versión para imprimir

Document related concepts

Latent Dirichlet Allocation wikipedia , lookup

Análisis de clases latentes wikipedia , lookup

Hashtag wikipedia , lookup

MacTutor History of Mathematics archive wikipedia , lookup

Matemáticas discretas wikipedia , lookup

Transcript
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
IDENTIFICACIÓN DE COMUNIDADES MEDIANTE ANÁLISIS DE
TÓPICOS EN LA RED SOCIAL TWITTER
ICOMATT
Wherner Cruz C.1
Rodrigo Salas2
Carlos F. Henríquez3
1 Universidad de Valparaíso/Universidad del Valle – Quatrim - CEA,
[email protected]
2 Universidad de Valparaíso/Universidad Técnica Federico Santa María, [email protected]
3 Universidad de Valparaíso, carlos.henrí[email protected]
RESUMEN
Las redes sociales son una importante fuente de información donde los usuarios utilizan este
medio para compartir ideas, noticias y sentimientos respecto a algún tema. Twitter, un
servicio de microblogging que permite registrar mensajes de hasta 140 caracteres. El flujo de
estos mensajes permite configurar una red de interacción entre usuarios, la cual puede ser
representada por un modelo de grafo dirigido.
Distintos tópicos generan discusión localizada de baja, mediana o alta intensidad, la cual
puede constituir la emergencia de diversas comunidades temáticas de usuarios. En este trabajo
se resuelve el problema del descubrimiento de dichas comunidades mediante un análisis
probabilístico de tópicos y la representación de un grafo que permita agrupar usuarios según
tópicos de interés común.
El análisis probabilístico de tópicos tiene por objetivo encontrar el mejor conjunto de
variables latentes (Tópicos), a partir de mensajes de texto. Los parámetros de interés son: la
distribución de palabras sobre tópicos y la distribución de tópicos sobre el conjunto de
mensajes etiquetados, para el cual se introduce el modelo de asignaciones latentes Labeled Latent Dirichlet Allocation L-LDA basado en la distribución conjunta de una función de
densidad Dirichlet, la estimación de los parámetros en cuestión se realiza mediante la
estimación de máxima verosimilitud, vía algoritmo Gibb sampling.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
En este trabajo se presentan los resultados de un análisis y procesamiento de mensajes de
texto extraídos desde la red social Twitter en la región de Chile, la cual se aborda desde la
recolección y pre-procesamiento de datos, administración de datos, que consiste en la
selección, limpieza y transformación de variables con el soporte del software estadístico Stata,
la implementación del modelo para el análisis de tópicos se realizara en base a la aplicación
denominada tmt 0.4, finalmente la identificación de comunidades mediante la herramienta
denominada Gephi.
PALABRAS CLAVE: Tópicos latentes, Labeled-LDA, Comunidades, Asignaciones