Download Ingeniería Lingüística para la Lingüística Forense

Document related concepts
no text concepts found
Transcript
Gerardo Sierra Martínez
Reunión Informativa Anual 2011
16 de enero de 2012
Ingeniería Lingüística
Simbiosis entre la lingüística y la
computación orientada a la construcción
de sistemas computacionales aptos
para analizar y generar lenguajes
naturales.
 Líneas de investigación





Procesamiento de lenguaje natural
Extracción y recuperación de información
Minería de textos
Aprendizaje automático
Lingüística forense

Es
la
aplicación
(métodos,
de
herramientas,
conocimiento
técnicas,
lingüístico
etc.)
en
cuestiones legales.

Áreas:

Fonética forense

Detección de plagio y atribución de autoría

Detección de información relevante (fraude)

Significado de contratos y estatutos

Significado e interpretación de leyes y textos legales

Marcas registradas como palabras o frases en el lenguaje
Detección de plagio
24.0%
22.0%
supplag
supplagref
20.0%
18.0%
16.0%
14.0%
12.0%
10.0%
8.0%
6.0%
4.0%
2.0%
0.0%
0

1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Análisis estilométrico y lexicométrico:
 Lematización
 Tokenización
 POS
 N-gramas
 Palabras funcionales/no funcionales
Análisis de fraude
Sospecha de filtrado de información confidencial de una
empresa
 12,400 correos enviados → 38 con información
confidencial

Func
0,7
0,6
0,5
0,4
0,3
0,2
Similitude thématique
0,1
Similitude thématique et lexique
0,0
sushi0:sushi0
sushi0:sushi_elem4
sushi0:sushi_elem3
sushi0:sushi_elem5
sushi0:sushi_elem1
sushi0:sushi4a
sushi0:sushi_pro5
sushi0:sushi_pro3
sushi0:sushi_elem4b
sushi0:sushi4b
sushi0:sushi_pro1
sushi0:sushi_elem2
sushi0:sushi_nopla1
sushi0:sushi_pro2
sushi0:sushi_nopla3
sushi0:sushi_nopla2
sushi0:sushi_pro4
sushi0:sushi_out1
sushi0:cd2008
sushi0:cd2003
sushi0:cd2006b
sushi0:cd2002
sushi0:cd2001
sushi0:cd2004
sushi0:pin6
sushi0:cd2006a
sushi0:recursividad
sushi0:botas
sushi0:pin4
sushi0:lausanne
sushi0:carrera
sushi0:pin5
sushi0:miel_de_maple
sushi0:otro_monstruo
sushi0:pin7
sushi0:monstruo
sushi0:pin3
sushi0:pin1
sushi0:cartas_de_paris
sushi0:3.1416
sushi0:la_bruja_de_rosemont
sushi0:pin2
Detección de similitud
SUSHI0
Func =  f(,R) +  g(Energie, kernel)
Pas de similitude
3
6
9
12
15
18
21
24
Texte
27
30
33
36
39
42
Docencia en lingüística
forense
Lingüística Forense en el módulo de tecnologías
del lenguaje en la Facultad de Ingeniería.
 Fonética Forense en la Facultad de Filosofía y
Letras (FFyL).
 Incorporación de la asignatura de Fonética
Forense al plan de estudios de la Licenciatura en
Ciencias Forenses.
 Repatriación de la Dra. Fernanda López a la FFyL
para impulsar el desarrollo del área de LF.
 Convenio de colaboración entre el Instituto y la
FFyL para el desarrollo de proyectos en LF.

Detección de voz
Análisis acústico
de voz
Comparación
automática de
parámetros acústicos
Obtención de
perfil lingüístico
Comparación
forense de voz
Red TIC
6 Grandes retos → Seguridad y
transparencia de la información y los
servicios
 Proyecto semilla: Tecnologías del lenguaje
para la lingüística forense
 Integración de colegas en diferentes líneas





Tecnologías del lenguaje y del conocimiento
Seguridad
Redes y comunicaciones
Cómputo suave y aprendizaje automático
1er Seminario de LF
Campos de acción de la lingüística forense




Magistrada María de los Angeles Garrido, Tribunal Federal de Justicia Fiscal y
Administrativa
Miguel Sarré, ITAM
Patricia González, UACH
Margarita Palacios, FFyL, UNAM
Fonética forense



GIL, UNAM/ForensicLab, UPF
FI, UNAM
SMAF
Lenguaje jurídico



UACM
Aston University
CIC, IPN
Detección de plagio



Universidad Politécnica de Valencia
GIL, UNAM
INAOE
Bomba TEC
Búsqueda de palabras
clave en Internet.
 Atribución de autoría
mediante análisis de
frecuencias:

 De n-gramas:
 Palabras funcionales
 Etiquetado POS
 Longitud de:
 Oración
 Párrafo
Análisis estilométrico para la
similitud textual

Determinación del significado de similitud
textual
 Plagio, paráfrasis, reuso, similitud textual

Creación del corpus
 De exploración y pruebas

Determinación de medidas estilométricas
 20 marcadores estilísticos
Congreso de análisis de
fraude

Convenio con Ecuador
 Transferencia de tecnología
 Capacitación
privadas
a instituciones públicas y
Planeación congreso

Propuesta de sede en la UNAM para la
Conferencia bianual de la Internacional
Association of Forensic Linguistics que se
llevará a cabo en 2013.

Cerca de 100 ponentes, entre otras de:
 Aston University
 University of Cambridge
 Georgetown University
 Hotsfra University
 Universidad Pompeu Fabra.
Tecnologías de IL en la LF

PLN
Lematización
 Tokenización
 POS


Recuperación de información



Minería de textos




Búsqueda de información
Agrupamiento
Extracción de información
Relación de datos
Detección de similitud textual
Inteligencia artificial

Métodos de aprendizaje automático del lenguaje