Download Versión para imprimir

Document related concepts

no text concepts found

Transcript

La comparación forense de la voz y el cambio de
paradigma *
Geoffrey-Stewart Morrison**
Resumen
Nos encontramos en medio de un proceso de cambio de paradigma
en las ciencias relacionadas con la comparación forense de la voz. El
nuevo paradigma puede caracterizarse como una implementación cuantitativa del marco de la relación de verosimilitud y de la evaluación cuantitativa de la validez y la fiabilidad de los resultados. Durante los años 90
este nuevo paradigma se adoptó ampliamente en la comparación de los
perfiles de ADN, y se ha ido extendiendo gradualmente a otras ramas de
las ciencias forenses, incluyendo la comparación forense de la voz. El
presente artı́culo describe en primer lugar el nuevo paradigma y, a continuación, expone la historia de su adopción en la comparación forense
de la voz durante la última década. El cambio de paradigma es un proceso todavı́a incompleto, y aquellos que trabajan en él todavı́a representan
una minorı́a entre la comunidad dedicada a la comparación forense de la
voz.
1. El nuevo paradigma en la ciencia forense
1.1.
Un cambio de paradigma
En estos dı́as nos hallamos en mitad de lo que Saks y Koehler (2005) han
llamado un cambio de paradigma con respecto a la evaluación y presentación
de las evidencias en las ciencias forenses que se ocupan de las propiedades
cuantificables de los objetos de origen conocido y desconocido, por ej., perfiles de ADN, huellas dactilares, pelos, fibras, fragmentos de cristales, marcas de
*
Esta es una traducción realizada por Carlos Curiá de G.-S. Morrison (2009), Forensic voice comparison and the paradigm shift, Science & Justice, 49, pp. 298–308.
doi:10.1016/j.scijus.2009.09.002, que a su vez es una versión revisada de una presentación realizada en el 2nd International Conference on Evidence Law and Forensic Science, Beijing, China,
25–26 julio, 2009.
**
School of Language Studies, Australian National University, Canberra, ACT 0200, Australia. School of Electrical Engineering and Telecommunications, University of New South Wales,
Sydney, NSW 2052, Australia.
http://geoff-morrison.net
Estudios Fónicos / Cuadernos de Trabajo 1 (2011), 1–38
Geoffrey-Stewart Morrison
2
herramientas, escritura manual y grabaciones de voz. Saks y Koehler señalan:
que ellos “use the notion of paradigm shift not as a literal application of Thomas Kuhn’s concept , but as a metaphor highlighting the transformation involved in moving from a pre-science to an empirically grounded science”1 (Kuhn,
1962, pág. 892). Como dirı́a Kuhn, el cambio de paradigma al que se refieren
Saks y Koehler se podrı́a describir con mayor exactitud como un cambio desde
una etapa preparadigmática hacia un periodo en el que, por primera vez, existe un único paradigma unificado para llevar a cabo un procedimiento cientı́fico normal, es decir, un cambio desde un periodo en el que diferentes escuelas buscaban soluciones a distintos conjuntos de problemas (con solo algunos
solapamientos parciales entre los diferentes conjuntos) utilizando marcos diversos e incompatibles, hacia un periodo en el que existe acuerdo en toda la
comunidad cientı́fica sobre qué problemas son importantes (con frecuencia un
superconjunto de los problemas que intentaban resolver algunas de las escuelas preparadigmáticas), sobre los procedimientos generales para resolver tales
problemas y sobre la naturaleza de las soluciones adecuadas. Mientras que en
el periodo preparadigmático los cientı́ficos tienen que atender a una audiencia
general y explicar sus teorı́as desde el principio, durante el periodo cientı́fico
como tal, los cientı́ficos se dirigen fundamentalmente a una audiencia que ya
ha sido educada en los fundamentos del paradigma (porque han realizado, por
ejemplo, estudios superiores de alguna carrera de ciencias), y pueden, desde el
principio, concentrar sus esfuerzos en cuestiones particulares que forman parte
de un problema más complejo. Como consecuencia, la eficiencia y la productividad que se alcanzan en el periodo de ciencia normal son mayores que las
que se logran en el periodo preparadigmático.
Kuhn utiliza el término “paradigma” con dos sentidos diferentes, uno más
amplio y el otro más restringido: “On the one hand, it stands for the entire constellation of beliefs, values, techniques, and so on shared by the members of a
given community. On the other, it denotes one sort of element in that constellation, the concrete puzzle-solutions which, employed as models or examples,
can replace explicit rules as the basis for the solution of the remaining puzzles
of normal science.” 2 (Kuhn, 1970, pág. 175). En este trabajo se partirá princi1
usamos la noción de cambio de paradigma no como una aplicación literal del concepto de
Kuhn, sino como una metáfora para acentuar la importancia de la transformación que implica
el paso de una etapa precientı́fica a una ciencia asentada en la experimentación.
2
Por un lado, hace alusión a toda la toda la constelación de creencias, valores, técnicas y
demás, compartidas por los miembros de una comunidad dada. Por otro, denota un tipo de
elemento de dicha constelación, las soluciones concretas a rompecabezas que, usadas como
modelos o ejemplos, pueden sustituir a las reglas explı́citas como base para la solución de los
restantes rompecabezas de la ciencia normal (Traducción: Fondo de Cultura Económica).
Geoffrey-Stewart Morrison
3
palmente del sentido más amplio de “paradigma”, que abarca el sentido más
restringido. Aunque mi opinión es que el pensamiento de Kuhn sobre las revoluciones cientı́ficas proporciona una herramienta útil para entender la actual
situación de la ciencia forense, y señalo más adelante varios paralelismos, no
aprecio una correlación al 100 %. Una de las razones de ello puede tener que
ver con que la ciencia forense es una ciencia aplicada que necesita atender
las necesidades inmediatas de la sociedad, y esta consideración la afecta en
mayor medida que a las ciencias naturales. En relación con esto, el cientı́fico
forense se parece más a un ingeniero: “Unlike the engineer, and many doctors,
and most theologians, the scientist need not choose problems because they urgently need solution and without regard for the tools available to solve them.”3
(Kuhn, 1962, pág. 163).
Saks y Koehler defienden que ya se ha producido un cambio de paradigma
en el ámbito de la comparación de los perfiles de ADN, y que las otras ciencias de comparación forense están ahora cambiando hacia el nuevo paradigma.
En este trabajo mi objetivo es, primero, describir las caracterı́sticas del nuevo
paradigma y, después, resumir la historia de su adopción en el campo de la
comparación de la voz hasta el momento presente.
1.2.
El nuevo paradigma
Saks y Koehler (2005) describen el nuevo paradigma como “empirically
grounded science” 4 (pág. 892) como se puede comprobar en la práctica actual de la comparación forense del ADN, que se caracteriza por “data-based,
probabilistic assessment” 5 (pág. 893). Dichos autores recomiendan que las
otras ciencias de la comparación forense emulen los métodos de la comparación del ADN, incluyendo “construct[ing] databases of sample characteristics
and use[ing] these databases to support a probabilistic approach” 6 (pág. 893).
También dejan claro que otro aspecto importante del nuevo paradigma es el
hecho de que cuantifica y explicita las limitaciones de la comparación forense
midiendo los ı́ndices de error. Por lo tanto, el nuevo paradigma refleja los requisitos necesarios para poder ser admitido como evidencia cientı́fica tal como
propone el reglamento de la Corte Suprema de los Estados Unidos en Dau3
Al contrario que el ingeniero, muchos doctores y la mayorı́a de los teólogos, el cientı́fico no
precisa elegir problemas que necesitan una solución urgente sin tener en cuenta las herramientas
que hay para resolverlos.
4
una ciencia con fundamentación empı́rica.
5
juicios o cálculos probabilı́sticos a partir /de datos.
6
la construcción de bancos de datos con las caracterı́sticas de las muestras, y la utilización
de tales bancos de datos para apoyar el enfoque probabilı́stico.
Geoffrey-Stewart Morrison
4
bert v Merrell Dow Pharmaceuticals (92–102) 509 US 579 [1993], que Saks
y Koehler identifican como una fuerza impulsora del cambio de paradigma.
La Corte regula que, al considerar si se debe admitir la evidencia cientı́fica,
el juez debe calibrar la validez de la metodologı́a cientı́fica y la fiabilidad de
la evidencia, tomando en cuenta si ha sido probada empı́ricamente y si tiene
unos ı́ndices aceptables de errores. Recientemente, en el informe de febrero de
2009 del National Research Council (NRC) “Strengthening Forensic Science
in the United States” 7 , se ha reiterado el llamamiento a que otras ramas de la
ciencia forense sean más “cientı́ficas”, imiten la comparación de los perfiles de
ADN y cumplan los requisitos de Daubert. Entre los aspectos importantes de
un enfoque cientı́fico identificados en el informe se incluyen “the careful and
precise characterization of the scientific procedure, so that others can replicate
and validate it; . . . the quantification of measurements . . .; the reporting of a
measurement with an interval that has a high probability of containing the true
value; . . . [and] the conducting of validation studies of the performance of a
forensic procedure” 8 (pág. 121); el último punto requiere el uso de “quantifiable measures of the reliability and accuracy of forensic analyses” 9 (pág. 23).
El informe del NRC recomienda con claridad que se empleen preferentemente
metodologı́as más analı́ticas y objetivas en vez metodologı́as mas subjetivas
basadas en la experiencia.
Aunque no parece haber indicios de que los autores de cualquiera de las
publicaciones fueran conscientes de ello, hay otro componente del nuevo paradigma que yo creo que está implı́cito en la recomendación de Saks y Koehler
(2005) y del informe de la NRC (2009) acerca de que el resto de las ciencias de
este campo imiten la comparación forense del ADN: la adopción del marco de
la relación de verosimilitud (likelihood-ratio framework) para la evaluación de
las evidencias. En realidad, coherentemente a lo largo del informe de la NRC
la “identificación” y la “individualización” se mencionan como los objetivos
(metas) de la ciencia forense, lo que es incompatible con el uso del marco de la
relación de verosimilitud (ver el apartado 1.4 más abajo). El término “relación
de verosimilitud” aparece sólo una vez, en el tı́tulo de la cita de un trabajo;
no obstante el informe recomienda a Aitken y Taroni (2004), Evett (1990), y
Evett y otros (2000) como las fuentes que proporcionan “the essential building
7
“El fortalecimiento de la ciencia forense en los Estados Unidos”.
la caracterización cuidadosa y precisa del procedimiento cientı́fico de manera que otros
puedan replicarlo y validarlo;. . . la cuantificación de las medidas. . . ; la comunicación de una
medición ajustada a un rango con alta probabilidad de contener el valor verı́dico;. . . [y] la
realización de pruebas de validación de un procedimiento forense.
9
mediciones cuantificables de la fiabilidad y la exactitud de los análisis forenses.
8
Geoffrey-Stewart Morrison
5
blocks for the proper assessment and communication of forensic findings” 10
(pág. 186), y estas tres publicaciones apoyan el uso del marco de la relación de
verosimilitud.
1.3.
El marco de la relación de verosimilitud
El papel vanguardista de la comparación forense del ADN en el cambio de
paradigma puede atribuirse, en gran medida, al hecho de que es una rama relativamente nueva en la ciencia forense que se ha puesto extensamente a prueba
desde que se presentó por primera vez en los juzgados a finales de los años 80 y
principios de los años 90, y también al hecho de que la desarrollaron investigadores con preparación y experiencia en un enfoque moderno de investigación
cientı́fica. El alto nivel de educación cientı́fica de aquellos que trabajaban en
el análisis forense de ADN les hizo posiblemente más fácil entender y, en último término, adoptar lo que muchos estadı́sticos forenses recomiendan como el
marco lógicamente correcto para la evaluación de las evidencias comparativas,
el marco de la relación de verosimilitud. Pueden consultarse descripciones del
marco de la relación de verosimilitud en diversos textos y artı́culos, incluyendo
el de Aitken y Taroni (2004), Balding (2005), Buckleton y otros (2005), Evett
(1998), Lucy (2005), Robertson y Vignaux (1995) y, en cuanto a las referencias
especı́ficas a la comparación forense de la voz, en Champod y Meuwly (2000),
González Rodrı́guez y otros (2006), González Rodrı́guez y otros (2007) y Rose (2002, 2006). Se puede encontrar una historia del desarrollo de la estadı́stica
forense anterior al advenimiento del análisis forense del ADN (incluyendo el
uso del marco de la relación de verosimilitud) en Evett (1990), y, en Foreman
y otros (2003), una historia de los procedimientos estadı́sticos aplicados a la
evaluación de las evidencias que aporta el ADN y la adopción final del marco
de la relación de verosimilitud.
Lo que sigue es una breve descripción del marco de la relación de verosimilitud. Para simplificar, tal descripción se ofrece solo al nivel de la fuente, ya
que este es el nivel más relevante para la comparación forense de la voz (ver en
Cook y otros (1998) la jerarquı́a de propuestas de nivel “source”, “activity”, y
“offence” 11 ). El nivel de actividad es normalmente poco importante en la comparación forense de la voz porque los temas de transferencia y persistencia son
rara vez pertinentes: las grabaciones de voz normalmente se hacen de forma deliberada y las que se presentan para el análisis forense se asocian normalmente
con documentación vinculada a garantes (mandamiento judicial) y cadenas de
custodia. La autentificación de las grabaciones de audio y el análisis de las
10
11
los elementos esenciales para evaluar y presentar correctamente los hallazgos forenses.
fuente, actividad, y delito.
Geoffrey-Stewart Morrison
6
palabras representadas por la señal acústica se consideran normalmente aéreas
periciales distintas de la comparación forense de la voz. En la comparación
forense de la voz se debe, no obstante, considerar el efecto de la conversión
que sufre la señal acústica al pasar a ser una señal electrónica que a menudo es
transmitida por una lı́nea telefónica, lo que da como resultado grabaciones de
voz de calidad relativamente pobre y diferencias potenciales entre la calidad
de grabación de las muestras de voz indubitada y voz dubitada (efectos del
canal de transmisión). También puede haber diferencias en el estilo del habla,
por ejemplo, entre una grabación de una conversación telefónica animada (grabación de la voz dubitada) y las respuestas poco animadas a preguntas de un
interrogatorio policial (grabación de la voz indubitada). Los resultados de una
comparación forense de la voz pueden ser directamente relevantes en relación
con la tipificación y propuesta del nivel del delito, por ejemplo, si el delito es
proferir amenazas de muerte y la grabación de la voz dubitada es una grabación
de alguien profiriendo amenazas de muerte.
En el marco de la relación de verosimilitud la tarea del cientı́fico forense
es proporcionar a los tribunales una declaración del peso de la evidencia en
respuesta a la pregunta:
¿Cuánto más probables son las diferencias observadas entre la muestra indubitada y la muestra dubitada si fuera verdad la hipótesis de que las dos tuviesen el mismo origen en comparación con si fuera verdad la hipótesis de que la
dubitada tuviese otro origen?
La respuesta a esta pregunta se expresa cuantitativamente como una relación de verosimilitud, calculada utilizando la Ecuación 1.
RV = p(E|Hmo )/p(E|Hdo )
(1)
Donde RV es el relación de verosimilitud (LR en inglés), E es la evidencia, en otras palabras, las diferencias medidas entre las muestras de origen
indubitado y dubitado, Hmo es la hipótesis del mismo origen, y Hdo es la
hipótesis de diferente origen. Si la evidencia es más probable si fuera verdad
la hipótesis del mismo origen en vez de si fuera verdad la hipótesis de distinto
origen, entonces el valor del relación de verosimilitud serı́a mayor que 1, y si
la evidencia es más probable si fuera verdad la hipótesis de diferente origen
en vez de si fuera verdad la del mismo origen, entonces el valor del relación
de verosimilitud serı́a menor que 1. El valor de la relación de verosimilitud es
una expresión numérica del peso de la evidencia con respecto a las hipótesis
opuestas. Si el cientı́fico forense testifica que es 100 veces más probable que
las diferencias observadas entre las muestras de origen conocido y cuestionado
se deban a la hipótesis del mismo origen que a la hipótesis de diferente origen
Geoffrey-Stewart Morrison
7
(RV = 100), el juzgador de los hechos (trier of fact)12 , al oı́r esto y sea cual
sea su creencia anterior, debe estar 100 veces más proclive que antes a creer
que las muestras tienen el mismo origen. De la misma manera, si el cientı́fico
forense testifica que es 1000 veces más probable que las diferencias observadas se deban a la hipótesis de diferente origen que a la hipótesis del mismo
origen (RV = 1/1000), entonces el juzgador de los hechos, al oı́r esto y sea
cual sea su creencia anterior, debe estar 1000 veces más proclive que antes a
creer que las muestras tienen diferentes orı́genes.
El numerador de la relación de verosimilitud se puede considerar una expresión de similitud (similarity), y el denominador, una expresión de tipicidad
(typicality). Al calcular la fuerza de la evidencia, el cientı́fico forense debe
considerar no sólo el grado de similitud entre las muestras, sino también en
qué medida su valor es tı́pico con respecto a la población relevante. La similitud a solas no significa un apoyo claro de la hipótesis del mismo origen. Por
ejemplo, si se determina que dos muestras son muy similares en cuanto a algunas propiedades fı́sicas, esto tiene poco valor si esas propiedades fı́sicas son
también muy tı́picas y las muestras seleccionadas al azar de dos individuos
cualesquiera de la población relevante tienen una probabilidad alta de ser similares en igual medida. Por otro lado, si se encuentra que dos muestras son muy
similares en cuanto a propiedades muy atı́picas en la población, las muestras
seleccionadas al azar de dos individuos cualesquiera en la población relevante
tendrán una probabilidad muy baja de ser similares en igual medida. En general, un mayor nivel de similitud y un menor nivel de tipicidad conllevan un
apoyo relativamente mayor para la hipótesis del mismo origen, y un menor nivel de similitud y un mayor nivel de tipicidad conllevan un apoyo relativamente
mayor para la hipótesis de diferentes orı́genes.
El marco de la relación de verosimilitud es un marco conceptual que se
puede aplicar a creencias subjetivas basadas en la experiencia, como la probabilidad de la evidencia dadas las hipótesis opuestas; no obstante, el cientı́fico
forense tiene que tener acceso a un banco de datos de muestras que sean representativas de la población relevante, para cumplir los requisitos del nuevo
paradigma, que está basado en los datos y en las medidas cuantitativas. Ello es
necesario para poder realizar una estimación cuantitativa de la tipicidad de las
muestras de origen dubitado e indubitado. La población relevante es la población a la cual pertenece el delincuente. En la práctica, es menos que la población entera del planeta, puede restringirse a un área geográfica particular, a un
grupo étnico concreto, o, en la comparación forense de la voz, a hablantes de
12
El juzgador de los hechos es la persona o grupo de personas que decide el veredicto. Según
el sistema judicial el juzgador de los hechos puede ser un juez, un grupo de jueces, o un jurado.
Geoffrey-Stewart Morrison
8
una lengua y un dialecto particular. La selección de una población apropiada
para las muestras no es una tarea sencilla, ver la discusión en Aitken y Taroni
(2004, pág. 272–271) y en Lucy (2005, pág. 129–133).
1.4.
Por qué el cientı́fico forense debe presentar la probabilidad de la
evidencia y no debe presentar la probabilidad de la hipótesis
Una relación de verosimilitud es la expresión de la probabilidad de obtener
la evidencia dada la hipótesis del mismo origen frente a la hipótesis de diferentes orı́genes. Hay razones lógicas y legales por las que el cientı́fico forense debe presentar una declaración respecto al peso de la evidencia de esta manera y
no debe presentar la probabilidad de la hipótesis dada la evidencia. Determinar
la probabilidad de la culpabilidad en contra de la inocencia y si esta probabilidad supera un determinado umbral como para poder decir “más allá de toda
duda razonable” o “teniendo en cuenta las probabilidades” es cometido del
juzgador de los hechos. Si el cientı́fico forense presentara la probabilidad de la
hipótesis del mismo origen en contraste con la de diferentes orı́genes y la prueba fuera potencialmente incriminatoria, entonces estarı́a usurpando el papel
del juzgador de los hechos. El juzgador de los hechos no toma sus decisiones
sobre la base de una sola evidencia, más bien su tarea es llegar a una decisión
después de haber sopesado todas las evidencias presentadas en el juicio. Lo
que necesita el cientı́fico forense es una declaración sobre la fuerza o el peso
de una determinada evidencia. Un cientı́fico forense puede presentar el peso de
una evidencia relacionada con muestras de ADN, otro puede presentar el peso
de la evidencia de unas muestras de huellas digitales, etc., y el juzgador de los
hechos sopesará todas estas evidencias. No todas las evidencias serán comparaciones forenses presentadas como relaciones de verosimilitud, y el juzgador
de los hechos también debe considerar el peso de otras evidencias como el testimonio de los testigos oculares. Además, antes de que haya sido presentada
ninguna evidencia el juzgador de los hechos tendrá alguna creencia sobre la
inocencia o culpabilidad del defendido, quizás influido por conceptos como
“inocente mientras no se pruebe lo contrario”, y esto también contribuirá a su
decisión final.
Si un cientı́fico forense quisiera calcular la probabilidad de la hipótesis
del mismo origen en contraste con la hipótesis de diferentes orı́genes tendrı́a
que aplicar el teorema de Bayes. El teorema de Bayes se expresa mediante las
siguientes ecuaciones (en forma de apuestas):
p(Hmo |E)/p(Hdo |E) = p(E|Hmo )/p(E|Hdo ) × P (Hmo )/P (Hdo )
apuesta
a posteriori
relación de
verosimilitud
apuesta
a priori
(2)
Geoffrey-Stewart Morrison
9
Para calcular la apuesta a posteriori, el cientı́fico forense necesitarı́a saber
la apuesta a priori. Utilizando una de las interpretaciones del teorema de Bayes,
la apuesta a priori representarı́a la creencia del juzgador de los hechos en cuanto a las probabilidades relativas de las dos hipótesis antes de que la evidencia
sea presentada. Evidentemente, cuando lleva a cabo sus análisis, el cientı́fico
forense no puede conocer la creencia previa que puede tener el juzgador de los
hechos.
Bajo otra interpretación se pueden calcular las probabilidades a priori pragmáticas, por ejemplo, si el crimen fuera cometido en una isla y se supiera que
ha habido 100 personas en la isla en ese momento, la apuesta pragmática a
priori serı́a de 1/99; no obstante, esto implicarı́a la suposición de que cada
persona de las que estaban en la isla tiene la misma probabilidad de haber
cometido el crimen, y aunque manejar esta suposición puede ser apropiado
para el juzgador de los hechos, no lo es para el cientı́fico forense (y si en el
juicio ya se ha presentado otra evidencia, es improbable que la creencia del
juzgador de los hechos sobre la culpabilidad o no culpabilidad sea todavı́a de
1/99 inmediatamente antes de la presentación de la relación de verosimilitud
de las evidencias forenses en cuestión).
No es apropiado para el cientı́fico forense presentar las probabilidades a
posteriori porque estas incluyen información y supuestos de otras fuentes diferentes a la evaluación cientı́fica de las muestras de origen dubitado e indubitado. Si el cientı́fico forense fuera a presentar las probabilidades a posteriori,
tendrı́a entonces que aportar sus propias probabilidades a priori y serı́a posible que su testimonio pudiera estar influido por su propia opinión subjetiva
consciente o inconsciente sobre la culpabilidad o inocencia del acusado. La
tendenciosidad de los seres humanos fue una de las principales preocupaciones en el informe NRC (2009, pags.122–124). Es una ventaja del marco de la
relación de verosimilitud el hecho de que sea resistente a la influencia de esas
fuentes de predisposición.
Aunque la relación de verosimilitud es un componente del análisis bayesiano, he utilizado el término “marco de la relación de verosimilitud” en vez
de “marco bayesiano” porque este último, al contrario que el primero, puede implicar que el cientı́fico forense hace uso de las probabilidades a priori y
calcula las probabilidades a posteriori (Buckleton y otros, 2005; Champod y
Meuwly, 2000; Rose, 2006). Una alternativa al “marco de la relación de verosimilitud” utilizada por algunos autores (por ej. Buckleton y otros, 2005) es el
“logical approach” (enfoque lógico), si bien yo prefiero el “marco de la relación
de verosimilitud” porque creo que es más transparente. También es importante
Geoffrey-Stewart Morrison
10
hacer notar que el hecho de que el cientı́fico forense presente la relación de
verosimilitud en el juicio no implica que el juzgador de los hechos tenga que
asignar un peso numérico a las evidencias que no son evidencias de comparación forense, ni que tenga que llegar a una decisión a través de la aplicación
rı́gida de una fórmula como la de la Ecuación 2 (R v Adams [1996] EWCA
Crim 222, R v Adams [1997] EWCA Crim 2474, R v GK [2001] NSWCCA
413, Balding, 2005, pp. 149–151; Buckleton y otros, 2005; Donnelly, 2005;
Morrison, 2009b).
Una precisión terminológica que se plantea a partir de la discusión anterior es que en el marco de la relación de verosimilitud el cientı́fico forense
no lleva a cabo “identificaciones” o “individualizaciones”, porque estos términos implican la determinación de una probabilidad a posteriori (ver Meuwly
(2006) respecto a los problemas terminológicos y al uso de los términos “identificación” e “individualización” en la ciencia forense). Un término neutral como el de “comparación” es más apropiado (French y Harrison, 2007). Por lo
tanto, yo utilizo el término “comparación forense de la voz” (“forensic voice
comparison”) en vez de los términos tradicionales “identificación forense del
hablante” y “reconocimiento forense del hablante” (“forensic speaker identification”, “forensic speaker recognition”) (“reconocimiento” implica asimismo
una probabilidad a posteriori, nótese que también “comparación del hablante”
(“speaker comparison”) serı́a lo mismo que “comparación del tocador” si nos
refiriéramos a la comparación de huellas dactilares). Siguiendo la lógica de
Meuwly, se deberı́a realmente usar un término como “comparación forense de
grabaciones de voz”, puesto que son las propiedades de las grabaciones las que
se comparan realmente, no las propias voces. Dado que esta última denominación es un poco larga, continuaré usando el término no tan exacto (pero más
corto) de “comparación forense de la voz”. Otro término apto en castellano
serı́a “comparación forense del habla”.
1.5.
Medir validez y fiabilidad
La validez de los resultados de un sistema de comparación forense se puede calcular probándolo en un gran número de pares de muestras en las que se
conoce, para cada par, si sus miembros tienen el mismo o distinto origen, y
después comparando los resultados con lo que ya se sabe de antemano. Saks y
Koehler (2005) y NRC (2009, pags. 116–122) describe la validez cuantitativa
en términos de los ı́ndices de errores de identificación, es decir, los falsos positivos (pares de muestras de diferente origen que se declaran del mismo origen)
y los falsos negativos (pares de muestras del mismo origen que se declaran
de diferentes orı́genes). Las identificaciones están basadas en probabilidades
Geoffrey-Stewart Morrison
11
a posteriori y este enfoque es, por lo tanto, incoherente con el marco de la
relación de verosimilitud. Las relaciones de verosimilitud mayores de uno favorecen la hipótesis del mismo origen y las razones de verosimilitud menores
de uno favorecen la hipótesis de distintos orı́genes; no obstante, el objetivo de
la comparación forense de muestras dubitadas e indubitadas no es llegar a una
decisión binaria, sino más bien determinar el peso de la evidencia en relación
a las hipótesis del mismo origen y de diferente origen, es decir, establecer hasta qué punto la relación de verosimilitud es mayor o menor de uno, o lo que
es lo mismo hasta qué punto el logaritmo de la relación de verosimilitud es
mayor o menor de cero. Algunas veces conviene convertir la relación de verosimilitud en el logaritmo de la relación de verosimilitud, dado que este último
es simétrico respecto a cero, es decir, una relación de verosimilitud de 1000
(1000 a favor de la hipótesis del mismo origen) y 1/1000 (1000 a favor de la
hipótesis de diferentes orı́genes) se convierte, a través del logaritmo en base
diez de la relación de verosimilitud, en +3 y −3 respectivamente. De manera
ideal, para un par del mismo origen el sistema de comparación forense debe
dar números positivos grandes del logaritmo de la relación de verosimilitud, y
para un par de diferentes orı́genes debe dar números negativos grandes del logaritmo de la relación de verosimilitud. En una comparación del mismo origen
un número positivo pequeño del logaritmo de la relación de verosimilitud no
es tan bueno como un número positivo grande, un número negativo pequeño
es peor que un número positivo pequeño y un número negativo grande es peor
que un número negativo pequeño (mutatis mutandis para una comparación de
muestras de diferente origen). Los números negativos pequeños y grandes de
la relación de verosimilitud proporcionan respectivamente un apoyo débil o
fuerte para la hipótesis de diferentes orı́genes cuando se sabe que, de hecho,
se estaba examinado un par de muestras del mismo origen. Es peor informar
de una relación de verosimilitud de 1000 a favor de una hipótesis contraria a
los hechos que informar de una relación de verosimilitud de 10 a favor de una
hipótesis contraria a los hechos porque el primero potencialmente contribuye
más a una resolución judicial equivocada.
El coste del logaritmo de la relación de verosimilitud (log-likelihood-ratio
cost, Cllr ) (Brümmer y otros, 2007; Brümmer y du Preez, 2006; van Leeuwen
y Brümmer, 2007) es una medida de la validez de un sistema que da como
resultados relaciones de verosimilitud. Cllr se desarrolló para usarse en el reconocimiento automático de la voz y ha sido aplicada posteriormente en la
comparación forense de la voz (González Rodrı́guez y otros, 2007; Morrison,
2009b; Morrison y Kinoshita, 2008; Ramos Castro, 2007). Para calcular Cllr ,
se necesita calcular primero el valor de un componente de Cllr para la relación
Geoffrey-Stewart Morrison
12
F IGURA 1: Gráfico de la función para calcular el valor del componente Cllr
para una comparación de muestras del mismo origen.
de verosimilitud de cada uno de los pares de la prueba.
La Figura 1 proporciona un gráfico de la función para calcular el valor del
componente cuando los datos que se le suministran al sistema son un par de
muestras del mismo origen. A los valores positivos grandes del logaritmo de la
relación de verosimilitud que apoyen de manera correcta la hipótesis del mismo origen se les asigna un valor muy bajo del componente Cllr , los valores
cercanos a cero del logaritmo de la relación de verosimilitud no proporcionan
mucho apoyo para cualquiera de las dos hipótesis y se les asigna valores moderados a los componentes Cllr , y a los valores negativos del logaritmo de la
relación de verosimilitud que, en contra de los hechos, apoyan la hipótesis de
diferentes orı́genes se les asigna valores altos de los componentes Cllr , que
aumentan rápidamente según los valores del logaritmo de la relación de verosimilitud se vuelven más negativos y proporcionan un mayor apoyo en contra
de los hechos a la hipótesis de diferentes orı́genes. La función para calcular
el valor de un componente Cllr cuando los valores de entrada del sistema son
un par de diferente origen es una versión reflejada de la Figura 1 (con el espejo puesto en la lı́nea log10 (V R) = 0). Para calcular Cllr , se encuentra la
media de todos los valores del componente Cllr de pares del mismo origen, se
encuentra la media de todos los valores del componente Cllr de pares de diferente origen y se coge la media de las últimas dos medias. En consecuencia,
Geoffrey-Stewart Morrison
13
Cllr proporciona una medida cuantitativa de la validez general de un sistema
de comparación forense. Cuanto más bajo sea el valor de Cllr , mejor será el
funcionamiento del sistema. Si se prueban varios sistemas utilizando el mismo
conjunto de datos, entonces el sistema más válido es aquel que da un valor de
Cllr más bajo. Es importante hacer notar que (como en otras medidas de validez como los ı́ndices de errores de identificación) Cllr depende de los datos
de la prueba ası́ como del sistema de comparación forense; por lo tanto, sirve
mejor como una medida relativa de validez que como una medida absoluta.
Asimismo, para que todo sea judicialmente apropiado, la cantidad y la calidad
de cada par de pruebas deben coincidir tanto como se pueda con la cantidad y
calidad de las muestras dubitadas e indubitadas, por ej., en las grabaciones de
voz se intentarı́a hacer coincidir las duraciones, la calidad de la grabación y el
estilo de habla.
Dentro del marco de la relación de verosimilitud también es posible informar de un ı́ndice de errores para la relación de verosimilitud especı́fica que
se calcula para la comparación de las muestras conocidas y cuestionadas. Por
ejemplo, si se obtiene una relación de verosimilitud de 100 a favor de la hipótesis del mismo origen, se puede informar de un ı́ndice de errores como la proporción de pares de diferente origen en los datos de las pruebas que dan relaciones
de verosimilitud iguales o mayores que 100.
Un tema más, relacionado con la fiabilidad en el nuevo paradigma es el
“reporting of a measurement with an interval that has a high probability of
containing the true value” 13 (NRC, 2009, pág. 121). Aunque todavı́a se ha publicado muy poco respecto a este tema en el campo de la comparación forense
de la voz, algunas investigaciones preliminares están en vı́as de hacer cálculos
de intervalos creı́bles para las relaciones de verosimilitud.
2. Comparación forense de la voz y el lugar que ocupa en el cambio de paradigma
2.1.
Diferentes enfoques de la comparación forense de la voz
Históricamente es posible identificar por lo menos cuatro enfoques diferentes de la comparación forense de la voz: el auditivo, el espectrográfico, el
acústico-fonético y el automático. De todos ellos, son los dos últimos los más
apropiados para su uso en el nuevo paradigma. En aras de la simplicidad de la
exposición, trataremos los cuatro enfoques como discretos, pero en la práctica
no ha sido inusual la combinación de algunos aspectos de dos enfoques, por ej.,
13
la comunicación de una medición ajustada a un rango con alta probabilidad de contener el
valor verı́dico.
Geoffrey-Stewart Morrison
14
el auditivo-espectrográfico y el auditivo-acústico-fonético. La descripción que
se da a continuación de cada uno de los enfoques pretende ser sólo un bosquejo
básico, no un una exposición completa; pueden encontrarse descripciones más
exhaustivas en Jessen (2008) y Rose (2002) y, para mayores detalles acerca de
los enfoques automáticos, ver Bimbot y otros (2004) y Ramos Castro (2007).
2.1.1. Enfoque auditivo El enfoque auditivo es practicado por fonetistas
con muchos años de entrenamiento y experiencia en fonética auditiva, lo cual
tradicionalmente implica utilizar sı́mbolos fonéticos y diacrı́ticos para transcribir los sonidos del habla oı́dos. Los fonetistas escuchan las muestras de voces
dubitadas e indubitadas y comentan cualquier propiedad de la voz que tengan
en común y que por su experiencia consideran inusual, distintiva o de alguna
manera digna de mención, o cualquier caracterı́stica que valga la pena hacer
notar porque esté presente en una muestra e, inesperadamente, no en la otra. La
clase de caracterı́sticas auditivas de las que pueden servirse en estos casos puede ser del tipo de las que se emplean para distinguir dialectos. Ası́, considérese
las distintas pronunciaciones que pueda tener la frase “yo me llamo” en las
diferentes áreas del mundo hispanohablante, por ejemplo entre otras pronunciaciones puede ser [jo me Lamo] en partes del centro-norte de la penı́nsula,
[dZo me dZamo] en partes de Andalucı́a, [So me Samo] en zonas de Argentina,
y [jo me jamo] en gran parte del resto del mundo hispanohablante. Estas diferencias dialectales tan acusadas son con frecuencia sobresalientes hasta para
oı́dos no entrenados, pero un experto entrenado en fonética auditiva será capaz
de percibir y anotar sistemáticamente pequeñas diferencias idiolectales. Las
caracterı́sticas auditivas pueden estar también relacionadas con la actividad de
las cuerdas vocales, por ej. si la voz es aspirada (como la de Marilyn Monroe)
o quebrada (laringalizada, rota, como la de Louis Armstrong), o es una voz que
se inscribe en el rango de las que se pueden considerar con impedimentos del
habla de diversa gravedad, por ej., pronuncia la “rr” como “d” (/r/ como [D]).
Consultar Jessen (2008) y Rose (2002) para ver más ejemplos. Aunque pueda
haber algunas caracterı́sticas cuya frecuencia de aparición se pueda cuantificar y para las cuales se pueda calcular las relaciones de verosimilitud basadas
en los datos (ver la discusión en Rose (2003)), en general el enfoque auditivo
se basa en la experiencia y no es coherente con el nuevo paradigma. Aunque
teóricamente serı́a posible evaluar el grado de validez y fiabilidad de cualquier
experto practicante del enfoque auditivo haciéndole comparar un gran número
de pares de muestras, cuyo origen, diverso o no, sea conocido por el evaluador
(pero no por el evaluado), hasta donde yo estoy informado, no se han realizado
pruebas a gran escala de este tipo de enfoque puramente auditivo.
Geoffrey-Stewart Morrison
15
2.1.2. Enfoque espectrográfico El enfoque espectrográfico, también conocido como “voiceprinting”, está basado en una tecnologı́a desarrollada en la
década de 1940 que permite visualizar la amplitud temporal de la frecuencia
de la señal acústica en un formato conocido como espectrograma. Generalmente el tiempo se representa en el eje x y la frecuencia en el eje y; la amplitud en
este gráfico bidimensional se representa por una escala de grises, ver Figura 2.
Kersta hizo público en 1962, por primera vez, el uso judicial de los espectrogramas. Durante los años 60, 70 y 80, se desarrolló un intenso debate acerca
de la validez del enfoque espectrográfico. Aunque el enfoque todavı́a cuente
con algunos apasionados defensores, la conclusión general de la comunidad
cientı́fica es que no es cientı́fico ni válido. En julio del año 2007, en un encuentro de la International Association for Forensic Phonetics and Acoustics
(IAFPA) se emitió un comunicado en el que se decı́a que “The Association considers this approach to be without scientific foundation, and it should not be
used in forensic casework.” 14 hhttp://www.iafpa.net/voiceprintsres.htmi. Para
el no cientı́fico, la conversión desde un dominio acústico a un dominio visual
puede dar la impresión de que el enfoque es cientı́fico, pero en realidad el análisis no es objetivo, y consiste en que el perito compara visualmente un número
determinado de espectrogramas con el objetivo de llegar a una expresión cualitativa de la probabilidad de que las muestras sean del mismo o de diferentes
orı́genes (probabilidades subjetivas a posteriori). Como resumen del debate
histórico acerca de la validez del enfoque espectrográfico, consultar Gruber y
Poza (1995), Rose (2002, pags. 107–122) y, desde una perspectiva legal, Solan
y Tiersma (2003). Ver también Schwartz (2006) en relación a por qué el voiceprinting no desaparece de escena. Desde la perspectiva del nuevo paradigma
vale la pena hacer notar que un componente importante del debate acerca de
la validez del enfoque espectrográfico fueron las medidas de los ı́ndices de
errores en las pruebas que se llevaron a cabo a gran escala.
2.1.3. Enfoque acústico-fonético El enfoque acústico-fonético fue desarrollado por fonetistas entrenados en fonética acústica y supone la realización de
medidas cuantitativas de las propiedades acústicas de los sonidos del habla.
Generalmente, se identifican algunas unidades fonéticas comparables tanto en
las muestras dubitadas como en las indubitadas y se miden las propiedades
acústicas de estas propiedades. Un ejemplo de unidad fonética es la vocal “a”
/a/. Una unidad fonética puede ser un fonema (una de las unidades básicas de
la teorı́a fonológica), pero también puede consistir en un fragmento mayor o
14
La asociación considera este enfoque sin fundamento cientı́fico y no se debe usar en la
práctica forense.
Geoffrey-Stewart Morrison
16
F IGURA 2: Ejemplo de espectrograma.
menor del habla. Ejemplos de propiedades acústicas son las resonancias del
tracto vocálico (los formantes) que en la teorı́a fonética son uno de los principales correlatos acústicos de la identidad categorial de la vocal (fonema),
es decir, son claves primarias que utilizan los oyentes para determinar si un
hablante dice /aI/ (el diptongo en la palabra “hay”), /au/ (el diptongo en la palabra “aula”, “auténtico”, etc.), /e/ (el sonido de la primera vocal en palabras
como “pelo”, “dedo”, etc.), etc. Las propiedades acústicas de muchas de las
unidades utilizadas en el enfoque auditivo también se pueden utilizar de forma
cuantitativa para determinar las caracterı́sticas acústico-fonéticas. Algunas caracterı́sticas acústico-fonéticas, como la frecuencia fundamental (el correlato
acústico del tono) y el segundo formante, tienen la ventaja de ser relativamente resistentes a los efectos producidos en el sonido por el canal de transmisión.
Las medidas acústicas se realizan utilizando algoritmos de procesamiento de
señal pero con la supervisión substancial de un experto humano encaminada a
obtener una gran precisión en la medida. El tiempo y el gasto que implica el
análisis de los datos son grandes inconvenientes de la aplicación del enfoque
acústico-fonético.
2.1.4. El enfoque automático El enfoque del procesamiento automático fue
desarrollado por ingenieros especialistas en procesamiento de señales. Como
el enfoque acústico-fonético, se basa en medidas cuantitativas de ciertas propiedades acústicas del habla, pero en general no se intentan aprovechar las
unidades fonéticas. Las caracterı́sticas tı́picas en un sistema automático son
los espectros de corta duración (20-30 ms) que se extraen durante toda la duración de la grabación de la voz y se cuantifican utilizando los coeficientes de
cepstrum (serı́a complejo desarrollar una explicación de estas caracterı́sticas
accesible para una audiencia no experta, y no lo vamos a hacer aquı́). Las tı́picas caracterı́sticas automáticas no son especialmente resistentes a los efectos
Geoffrey-Stewart Morrison
17
del canal de transmisión, pero se han llevado a cabo muchas investigaciones
con procedimientos estadı́sticos para compensar las incompatibilidades debidas a los efectos del canal de transmisión. Aunque los sistemas automáticos
tı́picos tratan la información fonética detallada como ruido (variabilidad no
deseada), tienen la gran ventaja de ser capaces de procesar grandes cantidades
de datos de manera rápida y a bajo coste.
2.1.5. La relativa popularidad de los diferentes enfoques Entre los años
2004 y 2005 Tina Cambier-Langevald del Instituto Forense Neerlandés (Nederlands Forensisch Instituut, NFI) llevo a cabo una prueba en la que los 12
participantes en ella mandaron sus análisis de las mismas muestras de voz e
informaron de los enfoques seguidos (Cambier Langevald, 2007). Si bien esto
no constituye una muestra aleatoria muy grande, proporciona alguna idea de
la relativa popularidad de cada uno de los enfoques entre los investigadores
y los profesionales. La clasificación de Cambier-Langevald era algo diferente
de la mı́a, pero, hasta donde puedo confirmar, 5 participantes usaron lo que
describirı́a como enfoques auditivo-acústico-fonéticos, 4 utilizaron enfoques
acústicos-fonéticos, 2 utilizaron enfoques automáticos y 1 utilizó un enfoque
espectrográfico. Incluso dentro de cada enfoque hubo una gran heterogeneidad
con respecto a la selección de las partes de la grabación para las mediciones,
y con relación a las caracterı́sticas, las técnicas de análisis y medida y la evaluación y la publicación de los resultados. Sólo 4 de los 12 participantes informaron sobre relaciones de verosimilitud (dos de los que utilizaron el enfoque
automático y dos de los que utilizaron el enfoque acústico fonético).
2.2.
Diferencias entre los datos del ADN y los de la voz
En las lı́neas que siguen se ofrece una explicación simplificada de la comparación de los perfiles de ADN, mi intención es resaltar algunas diferencias
básicas entre los datos con los que se trabaja en la comparación del ADN y los
datos con los que se trabaja en la comparación de muestras de voz, y no discutir
temas relacionados con la interpretación de las pruebas de ADN (los lectores
interesados en este último tema pueden consultar Balding, 2005 y Buckleton y
otros, 2005). Los datos de los perfiles de ADN consisten en valores discretos
(por ej. el número de microsatélites) de un número finito de medidas (por ej.
los pares de alelos de unos loci especı́ficos). Las propiedades del ADN son
discretas a nivel molecular, sus valores son continuos a nivel de medida (que
puede ser representada, por ejemplo, como las localizaciones y alturas de los
picos de un electroferograma), pero en general se vuelven a convertir en valores discretos para proporcionar datos para el análisis estadı́stico. Es esto último
Geoffrey-Stewart Morrison
18
a lo que me refiero cuando uso el término “perfil de ADN”. En aras de la simplicidad voy a asumir (de manera no realista) que siempre se da el caso de que
los perfiles de ADN no tienen errores de medida, que las muestras no están
contaminadas, que los organismos de los que proceden las muestras de ADN
no han sufrido trasplantes, etc. Es posible obtener “correspondencia” (a match)
entre dos perfiles de ADN, eso ocurre cuando para cada locus y alelo de cada
uno de los perfiles se obtiene el mismo valor discreto. Asumiendo lo expuesto
anteriormente, el perfil de ADN de un determinado organismo no cambia de
una ocasión a otra, en consecuencia la probabilidad de obtener correspondencia entre los dos perfiles de ADN dada la hipótesis del mismo origen es 1 y la
probabilidad de no obtener correspondencia dada la hipótesis del mismo origen es 0. El numerador de la relación de verosimilitud es en consecuencia ó 1
ó 0 (Aitken y Taroni, 2004, p. 404; Evett, 1998). Si las dos muestras no coinciden, el numerador de la relación es 0 y el denominador es irrelevante, el valor
de la relación de verosimilitud es 0 y según el teorema de Bayes la apuesta a
posteriori también será 0, las dos muestras no tienen el mismo origen. Si las
dos muestras coinciden, el numerador de la relación de verosimilitud es 1, el
valor de la relación de verosimilitud es entonces dependiente del denominador,
la probabilidad de que el perfil de ADN de la muestra dubitada coincida con
el perfil de la muestra indubitada si la muestra dubitada procede de otra fuente
diferente al organismo conocido. A menudo, el informe que se aporta al juicio es la “probabilidad de correspondencia” (match probability) en vez de la
relación de verosimilitud (R v Doheny y Adams [1996] EWCA Crim 728 aconsejan a los expertos de ADN que proporcionen probabilidades de coincidencia,
ver también Evett, 1998 y Balding, 2005, pags.151–153 ), este parámetro es
simplemente el denominador de la relación de verosimilitud o de manera equivalente el inverso de la relación de verosimilitud dada en la Ecuación 1, es
decir, es la probabilidad de obtener un perfil del ADN coincidente cuando confrontamos la hipótesis de orı́genes diferentes con la del mismo origen (Balding,
2005, pág. 24; Foreman y otros, 2003, pág.484).
Un sistema de comparación forense de la voz acústico-fonético o automático se basa en las medidas de las propiedades acústicas de la voz. Estas propiedades acústicas son de naturaleza continua, no discreta. También existe una
variación substancial en el mismo hablante; incluso si un mismo hablante dice exactamente las mismas palabras una detrás de otra, será extremadamente
improbable que no haya diferencias mensurables en las propiedades acústicas
de los dos enunciados. Hay que tener en cuenta que esto no se debe a la precisión de las técnicas de medida, sino a la variabilidad intrı́nseca de la fuente. En
la práctica, es improbable que un hablante repita trozos largos que contengan
Geoffrey-Stewart Morrison
19
exactamente las mismas palabras y asimismo será probable que haya variabilidad debida a factores como el contexto fonético y el estilo del habla (y también
a menudo debidas al canal de transmisión). En relación a propiedades como estas, caracterizadas con valores continuos y con este tipo de variabilidad, toda
“correspondencia” –entendida como que dos muestras no sean distinguibles
mediante la precisión de las técnicas de medición, o en el sentido de que no
presenten (en algún nivel alfa predeterminada) una diferencia estadı́stica significativa en la combinación de su variabilidad intrı́nseca y de medición, o
entendida en relación con algún umbral -predeterminado de distinción (basado
en la experiencia o en los hechos)– sufre un efecto de cliff-edge 15 (Robertson
y Vignaux, 1995, p. 118-120; Evett, 1991; Rose y Morrison, 2009). La “correspondencia” no es, por tanto, un concepto útil para las propiedades acústicas de
la voz (probablemente lo mismo se puede decir con respecto a los elementos
objeto de comparación en muchas otras ramas de la ciencia forense). El numerador de la relación de verosimilitud calculado a partir de la comparación
forense de la voz no puede ser por tanto ni 0 ni 1, la probabilidad de coincidencia no se puede calcular y los resultados deben comunicarse estrictamente
como una relación de verosimilitud. Alguien podrı́a argüir que, dado que las
simplificaciones que se han hecho anteriormente respecto a la comparación de
los perfiles de ADN no son válidas, los resultados de ADN también deberı́an
presentarse en los informes como relaciones de verosimilitud (comunicación
personal de Didier Meuwly en abril del 2009; ver Kaye y Sensabaugh Jr. (2008,
§30:41) sobre los problemas que aparecen al convertir los valores continuos de
los electroferogramas en valores discretos).
2.3.
La adopción del nuevo paradigma por la comunidad cientı́fica
2.3.1. Propuestas para adoptar el marco de la relación de verosimilitud Parece que fue S. R. Lewis quien en 1984 avanzó publicó la primera propuesta de
adopción de la relación de verosimilitud para la comparación forense de voz.
Está claro que esta propuesta tuvo poca repercusión en la comunidad cientı́fica
porque la idea no volvió a aparecer en ninguna publicación hasta que habı́a pasado una década. En Agosto de 1995, en el International Congress of Phonetic
Sciences (ICPhS), A. P. A. Broeders afirmó someramente que las evidencias de
la comparación forense de la voz deben evaluarse utilizando la relación de verosimilitud . En algunos artı́culos publicados en revistas australianas en 1997,
1999, 2001, Philip Rose también propuso que la comparación forense de la voz
debı́a hacerse utilizando la relación de verosimilitud . Rose cita a Robertson y
15
borde de acantilado.
Geoffrey-Stewart Morrison
20
Vignaux (1995), cuya provechosa influencia le fue transmitida por Hugh Selby
(comunicación personal de Philip Rose, abril del 2009). Christophe Champod
y Didier Meuwly esgrimieron, inicialmente en el RLA2C Workshop (Reconnaissance de Locuteur et ses Applications Commerciales et Criminalistiques)
de abril de 1998, un argumento más substancial que ha tenido mayor impacto
en la comunidad cientı́fica, y que derivó en un artı́culo publicado en Speech
Communication (enviado en octubre de 1998 y publicado en septiembre del
año 2000). Este trabajo se inspiró en la bibliografı́a existente sobre la evaluación e interpretación de las evidencias forenses en el campo del ADN para
elaborar un lúcido argumento en pro de su adopción en la comparación forense de la voz. Meuwly cita a Kwan (1977), Lewis (1984), y Evett y Buckleton
(1996) como obras formativamente influyentes (comunicación personal de Didier Meuwly, abril del 2009).
Didier Meuwly y Andrzej Drygajlo también describieron la aplicación del
marco de la relación de verosimilitud en la comparación forense de la voz
en el Congrès Français d’Acoustique en septiembre del 2000. En diciembre
del2001, en la International Conference on Law and Language - Prospect and
Retrospect, Francis Nolan sugirió el uso del marco de la relación de verosimilitud como marco conceptual para la comparación forense acústico-fonética de
la voz, pero expresó algunas dudas acerca de los aspectos prácticos del marco
en su implementación cuantitativa a partir de los datos. En dos simposios sucesivos de la Interpol Forensic Science Symposia, en el año 2001 y 2004, A. P. A.
Broeders presentó informes sobre el desarrollo de la comparación forense de
la voz desde el año 1998 al 2001 y desde el 2001 al año 2004 respectivamente.
En ambos informes subrayó la necesidad de que las pruebas de comparación
forense de la voz se evalúen utilizando el marco de la relación de verosimilitud,
e hizo notar que un cierto número de sistemas automáticos podı́an dar como
resultado relaciones de verosimilitud.
2.3.2. Implementación del nuevo paradigma en la comparación forense de
la voz automática El primer sistema automático a base de datos y especı́ficamente diseñado para producir relaciones de verosimilitud para la aplicación
forense fue desarrollado por un grupo de investigación que trabajaba en Lausana, Suiza, y un par de años después les siguió un grupo de investigación que
trabajaba en Madrid, España. En abril de 1998, Didier Meuwly, Mounir ElMaliki, y Andrzej Drygajlo, del grupo de Lausana, presentaron un trabajo en
el COST-250 Workshop (Continuous Speech Recognition Over the Telephone).
En él describieron la fundamentación para el uso del marco de la relación de
verosimilitud en la comparación forense de la voz, y describieron asimismo
Geoffrey-Stewart Morrison
21
el diseño y los resultados de las pruebas de un sistema basado en el ModeloMixto-Gaussiano (Gaussian-Mixture-Model - GMM) que calculaba relaciones
de verosimilitud. El trabajo no fue bien recibido, un miembro de la audiencia
calificó el marco de la relación de verosimilitud como un marco sin sentido.
Los artı́culos que el grupo envió a diversas revistas fueron también rechazados porque los revisores no entendı́an el marco (comunicación personal de
Didier Meuwly, abril 2009). No obstante, la situación cambió rápidamente:
En el RLA2C Workshop en abril de 1998, el presidente de la sesión, George
Doddington, recomendó el uso del marco de la relación de verosimilitud. En
2001 en el Odyssey Speaker Recognition Workshop de la International Speech
Communication Association (ISCA), Meuwly y Drygajlo, del grupo de Lausana, y González Rodriguez, Ortega Garcı́a y Lucena Molina, del grupo de Madrid, presentaron sendos trabajos que describı́an sistemas automáticos GMM
de comparación forense de la voz que calculaban relaciones de verosimilitud.
La tesis doctoral de Meuwly también se concluyó en 1999 y se publicó en el
año 2001 (Meuwly, 2001).
Desde entonces, las implementaciones del marco de la relación de verosimilitud a base de datos se han establecido como un estándar en la comunidad
que se dedica a la investigación de la comparación forense de la voz mediante
un enfoque automático. La Forensic Speaker Recognition Evaluation que llevaron a cabo el Instituto Forense Neerlandés y la Organización Neerlandesa de Investigaciones Cientı́ficas Aplicadas (Nederlandse Organisatie voor Toegepast
Natuurwetenschappelijk Onderzoek, NFI-TNO) y que tuvo lugar en otoño del
año 2003 incluı́a una evaluación de los resultados de la relación de verosimilitud (van Leeuwen y Bouten, 2004), y el National Institute of Standards and
Technology (estadounidense) Speaker Recognition Evaluations (NIST SRE)
adoptó en el año 2006 (aunque sus objetivos no son principalmente forenses)
la evaluación del Cllr basada en la relación de verosimilitud.
A mediados de la década, los grupos de Lausana y Madrid publicaron importantes artı́culos describiendo el marco de la relación de verosimilitud y su
uso en el cálculo automático de las relaciones de verosimilitud utilizando bancos de datos (González Rodrı́guez y otros, 2006, 2007; Botti y otros, 2004;
Alexander y otros, 2005; Drygajlo, 2007).
En la conferencia Interspeech de la ISCA que tuvo lugar en septiembre del
2008, Joaquı́n González Rodrı́guez fue uno de los principales ponentes y el
marco de la relación de verosimilitud constituyó su tema central. También en
Interspeech 2008, Yuko Kinoshita, Geoffrey-Stewart Morrison (ambos miembros del grupo de Canberra, ver la sección 2.3.3) y Daniel Ramos (miembro
del grupo de Madrid) presentaron una breve guı́a expositiva sobre la relación
Geoffrey-Stewart Morrison
22
de verosimilitud en la comparación forense de la voz (tanto automática como
acústico-fonética).
2.3.3. Implementación del nuevo paradigma en la comparación forense acústico-fonética de la voz El grupo de trabajo de Canberra, Australia, ha sido
pionero en la comparación forense acústico-fonética de la voz a base de datos
dentro del marco de la relación de verosimilitud. El primer resultado producido por este grupo fue la tesis doctoral de Yuko Kinoshita, finalizada en el año
2001. En los años 2002 y 2003 Philip Rose publicó un libro y un capı́tulo de
un libro sobre la utilización de la relación de verosimilitud en la comparación
forense de la voz, el primero dirigido principalmente a fonetistas y el segundo
a abogados. Aunque ahora ya está un poco anticuado, Rose (2002) se ha convertido en una referencia estándar en la comparación forense acústico-fonética
de la voz utilizando la relación de verosimilitud.
Philip Rose ha sido el autor de algunas otras exposiciones del uso del marco de la relación de verosimilitud en la comparación forense acústico-fonética
de voz que se han publicado como artı́culos de revistas a mediados de la década (Rose, 2006, 2005), y (Morrison, 2009b; Rose y otros, 2003; Kinoshita,
2005; Morrison, 2008) son algunos de los artı́culos que el grupo de Canberra
ha publicado en revistas para informar de los resultados de sus investigaciones.
Recientemente, Cuiling Zhang, de la Universidad de la Policı́a Criminalı́stica
China en Shenyang, ha colaborado con el grupo de Canberra, desarrollando
la primera comparación forense acústico-fonética de la voz en lengua china a
base de datos en el marco de la relación de verosimilitud (Zhang y otros, 2008;
Zhang y Rose, 2008).
En 2008 se publicó una reseña sobre fonética forense por Michael Jessen
de la Bundeskriminalamt (BKA, Oficina Federal de Investigación Criminal de
Alemania). En ella, Jessen recomienda adoptar el marco de la relación de verosimilitud. Al contrario de lo que ocurre entre la comunidad de practicantes de
la comparación forense automática de la voz, en la comunidad de la comparación forense acústico-fonética de la voz los que trabajan en el nuevo paradigma
representan una minorı́a.
2.3.4. Combinación de los enfoques automático y acústico-fonético en el nuevo paradigma Hay un creciente interés por combinar aspectos del enfoque
automático y del enfoque acústico-fonético de la comparación forense de la
voz en el nuevo paradigma. Philip Rose y Geoffrey-Stewart Morrison, del grupo de Canberra, están actualmente trabajando en este tema en un proyecto de
investigación patrocinado por el Consejo de Investigación de Australia (Aus-
Geoffrey-Stewart Morrison
23
tralian Research Council) desde 2007 a 2010. Ello implica colaborar con el
grupo de Madrid y con el grupo de la University of New South Wales en Sidney, Australia, el cual empezó a trabajar en la comparación forense de la voz
en 2007 (Tharmarajah Thiruvaran, Eliathamby Ambikairajah, y Julien Epps
(2008) realizaron la primera publicación sobre la comparación forense de la
voz del grupo de Sidney). Otro proyecto que investiga los enfoques automático y acústico-fonético de la comparación forense de la voz es una colaboración
entre el BKA, el Ministerio de Justicia de Rumania y la Academia de Ciencias
de Austria, patrocinado por la Unión Europea desde el año 2008 hasta el 2010
(la primera publicación en este proyecto fue llevada a cabo por Timo Becker, Michael Jessen, y Catalin Grigoras (2008). Asimismo, Geoffrey-Stewart
Morrison organizó una sesión especial sobre la combinación del enfoque automático y el acústico-fonético en el Interspeech 2008, incluyendo trabajos
de los grupos de Canberra, Unión Europea, Madrid y Sidney. Entre los artı́culos de revistas que combinan las técnicas acústico-fonética y automática se
enmarcan (González Rodrı́guez y otros, 2007; Morrison, 2009b). La especialidad de Fonética Judicial en el Máster de Fonética y Fonologı́a del programa
de posgrado que imparte el Consejo Superior de Investigaciones Cientı́ficas y
la Universidad Menéndez Pelayo en España desde el año 2008 ya incluye enseñanzas sobre la comparación forense de la voz dentro del nuevo paradigma
tanto con el enfoque acústico-fonético como con el automático.
2.4.
La adopción del nuevo paradigma por los peritos forenses, la policı́a,
y los tribunales
2.4.1. España La única jurisdicción donde se puede decir que la comparación forense de la voz es práctica común utilizando implementaciones del
marco de la relación de verosimilitud a base de datos es en España. En 1997,
la Guardia Civil empezó a financiar investigaciones para desarrollar un sistema automático de comparación forense de la voz y en el año 2004 empezaron
a crear banco de datos de voces españolas. La investigación fue dirigida por
el grupo de Madrid que inicialmente estaba en la Universidad Politécnica de
Madrid y que se trasladó a la Universidad Autónoma de Madrid en el año 2005.
Ya en el año 2005 el sistema, llamado IdentiVox, daba como resultados razones
de verosimilitud, los que la Guardia Civil consideraba suficientemente válido
para mandarlos a los tribunales. En número de informes por año mandados a
los juzgados fue de 30 en el año 2005, 59 en el 2006, 74 en el 2007 y 98 en
el 2008 (comunicación personal de José Juan Lucena Molina en febrero del
2009). Una versión comercial del sistema IdentiVox, el Batvox, se comercializa a otras agencias del mantenimiento de orden público por una compañı́a
Geoffrey-Stewart Morrison
24
creada para este fı́n, Agnitio, con clientes en varios paı́ses incluyendo Chile,
China, Colombia, Francia, Finlandia, Alemania, Malasia, México, Corea del
Sur, y el Reino Unido.
2.4.2. Australia En Australia, las investigaciones sobre comparación forense de la voz se llevan a cabo generalmente por investigadores radicados en la
universidad. Hasta la fecha, sólo se han presentado ante los tribunales dos informes de comparación forense de la voz con presentación de relaciones de
verosimilitud a base de datos, ambos eran acústico-fonéticos y fueron presentados por Philip Rose, uno en Victoria en el año 2007 y otro en Nueva Gales
del Sur en el 2008. En escritos no judiciales, el Honourable David Hargraves Hodgson, juez de apelación de la corte suprema de Nueva Gales del Sur,
vertió comentarios favorables acerca de los enfoques bayesianos para la evaluación y la presentación de evidencias forenses, incluyendo las evidencias
de comparación forense de la voz (Hodgson, 2002, 2007). En el momento en
que se escribe este artı́culo (septiembre del 2009) miembros de los grupos
de investigación de Canberra, Sidney y Madrid, en colaboración con el Instituto Nacional Australiano de Ciencias Forenses (National Insitute of Foresnic
Science), la Asociación Australasiática de la Ciencia y la Tecnologı́a del Habla
(Austalasian Speech Science and Technology Association) y los laboratorios
forenses de la Policı́a Federal de Australia, la policı́a de Australia del Oeste
y la Guardia Civil de España están preparando una propuesta para financiar
una investigación y desarrollar la infraestructura necesaria con el objetivo de
que la comparación forense de voz dentro del marco de la relación del verosimilitud con validez y fiabilidad demostrables, sea una práctica real diaria en
Australia. Si se consigue la financiación, el proyecto combinara los enfoques
acústico-fonético y automático e incluirá la elaboración de un banco de datos
de grabaciones de aproximadamente 1000 hablantes de diferentes partes de
Australia.
2.4.3. Otros paı́ses No he podido obtener información concreta sobre la
adopción del nuevo paradigma en investigaciones de comparación forense de
la voz en otros paı́ses. Agradecerı́a cualquier información relevante sobre este
tema.
2.5.
Resistencia al cambio de paradigma
Según Kuhn (1962, cap.12), un cambio de paradigma en general no se
impone por completo debido a que sus proponentes propongan argumentos y
Geoffrey-Stewart Morrison
25
evidencias empı́ricas que convenzan a todos los que apoyan el antiguo paradigma. Más bien, un cambio de paradigma en general se impone definitivamente
cuando sus opositores mueren (págs. 150–151). La resistencia al cambio es un
aspecto perfectamente comprensible de la naturaleza humana, especialmente si
uno ha construido su reputación a base de años de experiencia en el trabajo con
el antiguo paradigma o si uno tiene intereses comerciales en la continuación
del antiguo paradigma. Pero la resistencia al cambio puede deberse también a
la creencia auténtica de que el antiguo paradigma permitirá solucionar en última instancia todos los problemas importantes y que no es necesario cambiar de
paradigma. De hecho, si los cientı́ficos adoptaran con mucha rapidez los nuevos paradigmas, la comunidad cientı́fica estarı́a sometida a un flujo constante
y no se podrı́an observar largos periodos de ciencia normal productiva.
Dadas las observaciones de Kuhn (publicadas en 1962), no es sorprendente
constatar que ha existido una considerable resistencia al cambio de paradigma
en las ciencias de la comparación forense. En 1977, la propuesta de D. V. Lindley en el congreso de la Royal Statistical Society / Institute of Statisticians en el
sentido de implementar un marco bayesiano completo encontró una oposición
vehemente: “I believe Lindley’s suggestion is not only mad, it is extremely dangerous” 16 R. A. Carr Hill (Lindley, 1977, pág. 216). I. W. Evett (1991) expuso
cómo en los años 80 habı́a tenido graves dificultades en publicar sus trabajos
iniciales con el enfoque bayesiano: “A paper which I submitted . . . was savaged by the referees and rejected without a single word of encouragement. A
paper which I presented at a colloquium . . . met a response which bordered
on the abusive. . . [; however,] When, several years later, I did succeed in having a Bayesian paper published . . . it was given the . . . Award for the best
paper of the year!” 17 (pág. 12). Evett (1991) describe su propia experiencia
de conversión en los años 70, incluyendo las discusiones con D. V. Lindley, en
las que inicialmente defendı́a para la comparación forense de los fragmentos
de cristales un enfoque estadı́stico de frecuencias en dos fases, si bien al final
acabó siendo un proponente del enfoque bayesiano. También describe haber
experimentado un sentimiento de déjà vu, cuando se plantearon una vez más
los mismos temas con el surgimiento de la comparación de los perfiles de ADN,
hacia el final de los años 80. Como se ha mencionado anteriormente (sección
2.3.2), a fines de los años 90 el grupo de comparación forense de la voz de
16
“Creo que la sugerencia de Lindley no sólo es una locura, sino que es extremadamente
peligrosa”.
17
Un artı́culo que envié . . . fue atacado salvajemente por los consultores y fue rechazado sin
una sola palabra de aliento. Un artı́culo que presenté en un coloquio. . . encontró una respuesta
que bordeaba lo abusivo. . . [; no obstante,] Cuando varios años después, logré publicar con
éxito un artı́culo con enfoque bayesiano. . . le dieron. . . ¡el premio del año!.
Geoffrey-Stewart Morrison
26
Lausana también era objeto de la hostilidad de un miembro de la audiencia en
respuesta a una presentación en un congreso y recibı́a revisiones negativas de
algunos artı́culos enviados a revistas.
Buckleton (2005) resume algunas de las objeciones a la adopción del marco de la relación de verosimilitud en el análisis forense del ADN, y argumenta
que muchas de ellas son debidas a una falta de entendimiento del marco de
la relación de verosimilitud, o son problemas que afectan de la misma manera
a todos los marcos. También argumenta que las dificultades reales en la implementación no son insuperables y que en algunas situaciones sólo el marco
de la relación de verosimilitud es lógicamente defendible. Señala la dificultad
de resumir lo que el denomina el enfoque frecuentista, ya que sus proponentes nunca han explicitado su definición y su lógica. Mientras que el enfoque
frecuentista puede parecer el candidato más prometedor del paradigma preexistente, no está claro que alguna vez llegue a constituir un único marco coherente
aceptado como paradigma de trabajo por la mayorı́a de los cientı́ficos forenses.
La falta de entendimiento del marco de la relación de verosimilitud parece
ser también un factor que influye en la resistencia a adoptarlo en la comparación forense de la voz y en la lingüı́stica forense. Por ejemplo, Coulthard y
Johnson (2007) presentan un cuadro más bien negativo del marco de la relación de verosimilitud, particularmente crı́tico con el trabajo de Rose, pero en
las tres páginas y media que dedican al tema hay seis inexactitudes. Morrison
(2009a) argumenta que, entendiendo correctamente el marco de la relación de
verosimilitud, la mayorı́a de las objeciones de Coulthard y Johnson pueden
descartarse.
Según Kuhn (1962), normalmente un cambio de paradigma se precipita
cuando existe la conciencia generalizada de que se está produciendo una crisis,
cuando un gran número de cientı́ficos reconocen que hay problemas tan serios
que no parece posible resolverlos dentro del paradigma al uso. En la comparación forense de la voz el origen de la crisis parece ser fundamentalmente
externo, ocasionado por algunos veredictos judiciales como el de Daubert,
Adams, y Doheny y Adams; por el desarrollo de otras ramas de las ciencias
forenses, en particular la comparación de perfiles de ADN, y por informes,
recomendaciones y estándares como el informe del NRC (2009), el Law Commission of England and Wales Consultation Paper (2009), y los Standards for
the Formulation of Evaluative Forensic Science Expert Opinion de la Association of Forensic Science Providers (2009). Varios cientı́ficos forenses del habla
con base en el Reino Unido reconocieron la existencia de una crisis entre el
año 2005 y 2007 y emitieron conjuntamente una declaración de su postura con
respeto a lo que ellos consideraban un marco correcto para la evaluación y
Geoffrey-Stewart Morrison
27
presentación de las evidencias de la comparación forense de la voz (French y
Harrison, 2007). No obstante, no adoptaron el nuevo paradigma que aquı́ se
ha descrito. De hecho, yo interpreto su acción como un intento de resistencia
a la presión de adoptar el nuevo paradigma para, en su lugar, crear y promover un paradigma alternativo que más cercano a su práctica previa y por tanto
más fácil para ellos de llevar a la práctica. Aunque presentan su marco como
capaz de proporcionar correctamente la probabilidad de las pruebas dadas las
hipótesis opuestas, dicho marco es incoherente y en dos casos defienden que
se efectúen estipulaciones de exclusión o identificación con probabilidades a
posteriori: “we see no logical flaw in making the statement that the samples are
spoken by different speakers” 18 (pág. 141). “we consider it justified to make
categorical statements of identification” 19 (pág. 142). El marco es realmente un marco en dos fases, calculando secuencialmente similitud y tipicidad, y
evoca los marcos que habı́an estado empleándose en otras ciencias de la comparación forense, incluyendo el ADN, antes de ser substituidos por el marco de
la relación de verosimilitud (Foreman y otros, 2003; Evett, 1991). La validez y
la fiabilidad no se mencionan en su manifiesto, y no sé de ninguna publicación
que compruebe la validez y la fiabilidad de la comparación forense de la voz
llevada a cabo con su marco. En Rose y Morrison (2009) se puede leer una
crı́tica completa de la postura del grupo del Reino Unido.
El manifiesto del grupo del Reino Unido (French y Harrison, 2007) termina diciendo: “Finally, we accept in principle the desirability of considering
the task of speaker comparison in a likelihood ratio (including Bayesian) conceptual framework. However, we consider the lack of demographic data along
with the problems of defining relevant reference populations as grounds for
precluding the quantitative application of this type of approach in the present
context.” 20 (p. 142). Teniendo en cuenta esta afirmación, no está claro por
qué los autores del manifiesto no han implementado el marco de la relación de
verosimilitud utilizando estimaciones de la probabilidad de la evidencia dadas
las hipótesis opuestas que estuvieran basadas en la experiencia. Al menos uno
de los firmantes del manifiesto rechaza explı́citamente esta posibilidad: “Where it is not possible to express an opinion in this way – which is in reality almost
18
no vemos ningún defecto lógico en hacer declaraciones en el sentido de que las muestras
han sido producidas por diferentes hablantes.
19
consideramos justificado hacer afirmaciones categóricas de identificación.
20
Para terminar, en principio aceptamos la conveniencia de abordar la comparación del hablante en el marco conceptual de la relación de verosimilitud (incluso en un marco bayesiano).
Sin embargo, consideramos que la falta de datos demográficos junto con los problemas para definir la poblaciones relevantes justifican la exclusión de la implementación cuantitativa de este
tipo de enfoque dentro el contexto actual.
Geoffrey-Stewart Morrison
28
always, because in most cases we lack population statistics on the distribution
of speech features even in well-described languages like English – the use of
likelihood statistics should be avoided altogether.” 21 (Watt, 2009, pág 84) . El
marco de la relación de verosimilitud es un marco conceptual, y no es dependiente en sı́ mismo de los datos, de modo que una implementación del marco
de la relación de verosimilitud basada en la experiencia serı́a defendible si se
acompañara de pruebas de validez y fiabilidad. Evett (1991, pág. 21) comenta:
“For an expert to say ‘I think this is true because I have been doing this job
for x years’ is, in my view, unscientific. On the other hand, for an expert to
say ‘I think this is true and my judgement has been tested in controlled experiments’ is fundamentally scientific.” 22 . Considero que la validez y la fiabilidad
demostrables son aspectos esenciales del nuevo paradigma y que el análisis
cuantitativo basado en los datos es una faceta muy deseable; si se puede demostrar que las relaciones de verosimilitud calculadas por un humano experto
basándose en la experiencia son más válidas y fiables que un sistema basado
en datos cuantitativos, entonces personalmente preferirı́a el sistema basado en
la experiencia al sistema basado en los datos. También, aunque soy un proponente de la implementación del marco de la relación de verosimilitud basada
en datos cuantitativos, puedo concebir circunstancias excepcionales en las que
serı́a esencialmente imposible recopilar datos significativos de la población,
pero en las que los testimonios basados en la experiencia serı́an valorables en
un juicio.
Aunque la mayor parte del manifiesto del grupo del Reino Unido parece
estar interesado en ofrecer una alternativa al marco de la relación de verosimilitud como componente del nuevo paradigma, las siguientes citas rechazan,
más bien al contrario, el componente que requiere el uso de datos: “we consider the lack of demographic data along with the problems of defining relevant
reference populations as grounds for precluding the quantitative application of
this type of approach in the present context.” 23 (pág. 142). Esto no es sólo un
rechazo de la implementación basada en los datos del marco de la relación de
21
Cuando no es posible expresar una opinión de este modo – lo que en realidad ocurre casi
siempre porque en la mayorı́a de los casos carecemos de estadı́sticas de población sobre la
distribución de las caracterı́sticas del habla incluso en lenguas bien descritas como el inglés – el
uso de estadı́sticas de verosimilitud debe evitarse por completo.
22
Que un experto diga ‘Pienso que esto es verdad porque he estado haciendo este trabajo
durante x años’ no es, bajo mi punto de vista, cientı́fico. Por otro lado, que un experto diga
‘Pienso que esto es verdad y mi opinión se ha comprobado en experimentos controlados’ es
básicamente cientı́fico.
23
consideramos que la falta de datos demográficos junto con los problemas para definir las
poblaciones relevantes justifican la exclusión de la implementación cuantitativa de este tipo de
enfoque en el contexto actual.
Geoffrey-Stewart Morrison
29
verosimilitud, sino un rechazo de todos los marcos basados en datos (debido
al problema de recopilación) y un rechazo de todos los marcos que consideran
la tipicidad (debido al problema de definir poblaciones relevantes), lo que lógicamente incluirı́a al propio marco de su manifiesto (French y Harrison, 2007).
Definir la población relevante en una muestra para calcular el componente de
tipicidad de la relación de verosimilitud, y el coste que implica el trabajo de
recopilación y el análisis de las muestras de la población relevante son problemas reales que necesitan solución (Aitken y Taroni, 2004, pág. 274–271; Lucy,
2005, pág. 129–133). También eran problemas para el desarrollo de la comparación forense de los perfiles de ADN, pero la considerable inversión llevada a
cabo en investigación y en el desarrollo de bancos de datos de perfiles de ADN
ha significado que estos problemas no suponen ahora un impedimento frecuente para la práctica de las investigaciones (Foreman y otros, 2003). No veo razones por las que, con suficiente inversión en investigación e infraestructura,
no serı́a también posible resolver estos problemas respecto a la implementación práctica de la comparación forense de la voz en el nuevo paradigma. Esto
será claramente más difı́cil en lugares como el Reino Unido, con posiciones
dialécticas más heterogéneas que las relativamente más homogéneas de otros
lugares como Australia, pero si uno acepta cualquier paradigma basado en los
datos, entonces eso supone un acicate para llevar a cabo más investigaciones
en vez de abandonar el paradigma. De hecho, la mayor heterogeneidad en las
posiciones dialécticas puede en última instancia llevar a que la comparación
forense de la voz sea más útil para el juzgador de los hechos: la heterogeneidad dialectal pudiera conducir a una mayor variación entre hablantes con el
potencial de relaciones de verosimilitud mayores, o podrı́a conducir a que el
juzgador de los hechos tuviera que considerar una población potencial de delincuentes de tamaño más reducido.
Finalmente, la experiencia que yo tengo es que algunos de los opositores al
nuevo paradigma creen erróneamente que sus defensores lo consideran como
la solución inmediata de todos los problemas existentes, lo que ellos juzgan
equivocado: pueden enumerar muchos problemas que el nuevo paradigma no
resuelve. Tal como lo define Kuhn (1962), no obstante, un paradigma no resuelve los problemas existentes, más bien proporciona una forma de entender y
resolverlos. Un nuevo paradigma solo tendrá éxito potencialmente si se muestra capaz de ofrecer mejores vı́as de resolución de los problemas. Un nuevo
paradigma puede incluso generar nuevos problemas que no existı́an en el viejo
paradigma, por ejemplo, para alguien acostumbrado a realizar la comparación
forense basada en la experiencia, el componente basado en datos del nuevo
paradigma presenta nuevos problemas prácticos muy serios. Un ejemplo de
Geoffrey-Stewart Morrison
30
problema que los opositores del nuevo paradigma utilizan para argumentar en
contra de su adopción es el siguiente: Los hablantes se diferencian en cuanto
a la lengua y los dialectos que hablan, y los locutores individuales difieren en
el estilo de habla que emplean en unas ocasiones y otras, por ejemplo, algunas
veces pueden hablar con calma y, otras, irritados. La diferencia entre un habla
calmada y otra enfadada en un dialecto puede ser distinta a la que existe entre
habla calmada y enfadada en otro dialecto y no es práctico recopilar datos de
habla calmada y enfadada en todos las lenguas y dialectos. No obstante, esto
describe un problema que existe y que necesita resolverse independientemente
de qué paradigma se haya adoptado: En cualquier paradigma que se base en
datos se necesita tenerlos para la lengua, el dialecto y el estilo de habla relevantes, ası́ como en cualquier paradigma basado en la experiencia se necesita
tener experiencia con la lengua, el dialecto y el estilo de habla relevantes; el
coste que implica la recopilación de tales datos o la adquisición de tal experiencia tiene que pagarse en cualquier caso. El hecho de que las diferencias
debidas a los estilos de habla se manifiesten de diferentes maneras en los diferentes dialectos es algo irrelevante. Si uno está trabajando en un caso particular,
entonces el caso define qué combinaciones de lenguas, dialectos y estilos de
habla son relevantes, y si uno está llevando a cabo una investigación general
con vistas a una posible investigación futura, entonces, uno presumiblemente decidirá con qué lenguas, dialectos y estilos de habla trabajar de acuerdo
con lo que uno piense que será más útil en el futuro. El nuevo paradigma en
realidad deja claro cómo se debe proceder: se deben recopilar grabaciones de
audio de los hablantes de la lengua y dialecto relevantes; para cada hablante
se debe obtener al menos una grabación de voz calmada y otra grabación de
voz enfadada; se debe elaborar un sistema de comparación forense de la voz;
y se debe calcular la validez y fiabilidad de este sistema con datos de prueba consistentes en pares de grabaciones de voz, una calmada y otra enfadada.
Probablemente hay dos maneras de resolver el problema, bien analizando las
propiedades acústicas que son resistentes a las diferencias de estilo de habla, o
bien construyendo modelos estadı́sticos que puedan predecir y compensar las
diferencias en las propiedades de la voz debidas a las diferencias en el estilo
de habla. Los detalles de las posibles soluciones no son parte del paradigma,
pero el paradigma proporciona un medio por el que se puede calcular y decidir
cuál de las posibles soluciones es la mejor.
3. Conclusión
Con base en mi interpretación del cambio de paradigma en las ciencias de
la comparación forense descrito por primera vez por Saks y Koehler (2005),
Geoffrey-Stewart Morrison
31
el nuevo paradigma se puede caracterizar como una implementación cuantitativa basada en los datos del marco de la relación de verosimilitud, con una
evaluación cuantitativa de la validez y fiabilidad del peso calculado de la evidencia. El nuevo paradigma fue adoptado en la comparación forense del ADN
en los años 90 y en la última década ha comenzado a extenderse en el ámbito de la comparación forense de la voz. Existen importantes problemas en la
implementación del nuevo paradigma, en particular, el problema práctico que
supone la recopilación y el análisis de grandes bancos de datos de voz grabada.
Resolver estos problemas hasta el punto en el que la comparación forense de
la voz en el nuevo paradigma pueda llegar a ser realmente una práctica diaria
en muchas partes del mundo supondrá una inversión substancial en recursos.
Se ha gastado una gran cantidad de dinero en el desarrollo de infraestructura
e investigación para la comparación forense de los perfiles de ADN. Espero
que los organismos de financiación atiendan el llamamiento del Consejo Nacional de Investigación de los Estados Unidos (US National Research Council)
(NRC, 2009) y proporcionen una financiación adecuada para desarrollar las
otras ramas de las ciencias forenses incluyendo la comparación forense de la
voz.
Reconocimientos
La elaboración de este artı́culo ha sido financiada por Australian Research
Council Discovery Project Grant No DP0774115. Agradezco a Didier Meuwley, Philp Rose, Yuko Kinoshita, Michael Jessen, Cuiling Zhang y a dos revisores anónimos el debate de las ideas y los comentarios de los borradores de
este artı́culo.
Referencias
A ITKEN, C.G.G. y TARONI, F. (2004). Statistics and the Evaluation of Forensic Evidence for Forensic Scientist. Wiley, Chichester, UK, 2ndedición.
A LEXANDER, A.; D ESSIMOZ, D.; B OTTI, F. y D RYGAJLO, A. (2005). ((Aural
and automatic forensic speaker recognition in mismatched conditions, International Journal of Speech)). International Journal of Speech Language and
the Law, 12, p. 214–234.
BALDING, D.J. (2005). Weight-of-evidence for Forensic DNA Profiles. Wiley,
Chichester, UK.
B ECKER, T.; J ESSEN, M. y G RIGORAS, C. (2008). ((Forensic speaker verification using formant features and Gaussian mixture models)). En: Proceedings
Geoffrey-Stewart Morrison
32
of Interspeech 2008 Incorporating SST 2008, p. 1505–1508. International
Speech Communication Association.
B IMBOT, F.; B ONASTRE, J.-F.; F REDOUILLE, C.; G RAVIEER, G.; M ARGRIN
C HAGNOLLEAU, I.; M EIGNIER, S.; M ERLIN, T.; O RTEGA G ARC ÍA, J.;
P ETROVSKA D ELACR ÉTAZ, D. y R EYNOLDS, D.A. (2004). ((A tutorial
on text-independent speaker verification)). EURASIP Journal on Applied
Signal Processing, 4, p. 430–451.
B OTTI, F.; A LEXANDER, A. y D RYGAJLO, A. (2004). ((On compensation
of mismatched recording conditions in the Bayesian approach for forensic
automatic speaker recognition)). Forensic Science International, 146, pp.
S101–S106. ISSN 0379-0738. doi: 10.1016/j.forsciint.2004.09.032.
B ROEDERS, A.P.A. (1995). ((The role of automatic speaker recognition techniques in forensic investigations)). En: Proceedings of the International
Congress of Phonetic Sciences, volumen 3, p. 154–161. Stockholm.
—— (2001). ((Forensic speech and audio analysis forensic linguistics: 1998
to 2001 A review)). En: 13th Interpol Forensic Science Symposium, pp. D2–
53–D2–54. Interpol, Lyon, France.
—— (2004). ((Forensic speech and audio analysis forensic linguistics: A review: 2001 to 2004)). En: 14th Interpol Forensic Science Symposium, p.
171–188. Interpol, Lyon, France.
B R ÜMMER, N.; B URGET, L.; C ERNOCKY, J.H.; G LEMBEK, O.; G REZL, F.;
K ARAFIAT, M.; VAN L EEUWEN, D.A.; M ATEJKA, P.; S CHWARZ, P. y
S TRASHEIM, A. (2007). ((Fusion of heterogenous speaker recognition systems in the STBU submission for the NIST SRE 2006,)). EEE Transactions on Audio, Speech and Language Processing, 15, p. 2072–2084. doi:
10.1109/TASL.2007.902870.
B R ÜMMER, N. y DU P REEZ, J. (2006). ((Application independent evaluation
of speaker detection)). Computer Speech and Language, 20, p. 230–275. doi:
10.1016/j.csl.2005.08.001.
B UCKLETON, J. (2005). ((A framework for interpreting evidence)). En: J. Buckleton; C.M. Triggs y S.J. Walsh (Eds.), Forensic DNA Evidence Interpretation, p. 27–63. CRC, Boca Raton, FL.
B UCKLETON, J.; T RIGGS, C.M. y WALSH, S.J. (2005). Forensic DNA Evidence Interpretation. CRC, Boca Raton, FL.
Geoffrey-Stewart Morrison
33
C AMBIER L ANGEVALD, T. (2007). ((Current methods in forensic speaker
identification: Results of a collaborative exercise)). International Journal
of Speech, Language and the Law, 14, p. 223–243. doi: 10.1558/ijsll.2007.
14.2.223.
C HAMPOD, C. y M EUWLY, D. (1998). ((The inference of identity in forensic speaker recognition)). En: Proceedings of RLA2C Workshop: Speaker
Recognition and its Commercial and Forensic Applications, p. 125–135.
—— (2000). ((The inference of identity in forensic speaker recognition)).
Speech Communication, 31, p. 193–203.
C OMMISSION, L AW (2009). The Admissibility of Expert Evidence in Criminal
Proceedings in England and Wales: A New Approach to the Determination
of Evidentiary Reliability. The Stationery Office, London, UK.
http://www.lawcom.gov.uk/expert_evidence.htm
C OOK, R.; E VETT, I.W.; JACKSON, G.; J ONES, P.J. y L AMBERT, J.A. (1998).
((A hierarchy of propositions: deciding which level to address in casework)).
Science & Justice, 38, p. 231–239. doi: 10.1016/S1355-0306(98)72117-3.
C OULTHARD, M. y J OHNSON, A. (2007). An Introduction to Forensic Linguistics: Language in Evidence. Routledge, London, UK.
D ONNELLY, P. (2005). ((Appealing statistics)). Significance, 2, p. 46–48. doi:
10.1111/j.1740-9713.2005.00089.x.
D RYGAJLO, A. (2007). ((Forensic automatic speaker recognition)). IEEE Signal Processing Magazine, 24(2), pp. 132–135. ISSN 1053-5888.
E VETT, I.W. (1990). ((The theory of interpreting scientific transfer evidence)).
Forensic Science Progress, 4, p. 141–179.
—— (1991). ((Interpretation: A personal odyssey)). En: C.G.G. Aitken y D.A.
Stoney (Eds.), The Use of Statistics in Forensic Science, p. 9–22. Ellis Horwood, Chichester, UK.
—— (1998). ((Towards a uniform framework for reporting opinions in forensic science case-work)). Science & Justice, 38, p. 98–202. doi: 10.1016/
S1355-0306(98)72105-7.
E VETT, I.W. y B UCKLETON, J.S. (1996). ((Statistical analysis of STR data)).
En: A. Carraredo; B. Brinkmann y W. Bär (Eds.), Advances in Forensic Haemogenetics, volumen 6, p. 79–86. Springer-Verlag, Heidelberg, Germany.
Geoffrey-Stewart Morrison
34
E VETT, I.W.; JACKSON, G.; L AMBERT, J.A. y M C C ROSSAN, S. (2000).
((The impact of the principles of evidence interpretation on the structure and content of statements)). Science & Justice, 40, p. 233–239. doi:
10.1016/S1355-0306(00)71993-9.
F OREMAN, L.A.; C HAMPOD, C.; E VETT, I.W.; L AMBERT, J.A. y P OPE, S.
(2003). ((Interpreting DNA evidence: A review)). International Statistics
Journal, 71, p. 473–473.
F RENCH, J.P. y H ARRISON, P. (2007). ((Position statement concerning use
of impressionistic likelihood terms in forensic speaker comparison cases)).
International Journal of Speech, Language and the Law, 14, p. 137–144.
doi: 10.1558/ijsll.v14i1.137.
G ONZ ÁLEZ RODRIGUEZ, J.; O RTEGA G ARC ÍA, J. y L UCENA M OLINA, J.J.
(2001). ((On the application of the Bayesian Framework to real forensic
conditions with GMM-based systems)). En: Proceedings of 2001: A Speaker
Odyssey, The Speaker Recognition Workshop, pp. 135–138.
G ONZ ÁLEZ RODR ÍGUEZ, J.; D RYGAJLO, A.; R AMOS C ASTRO, D.; G ARC ÍA
G OMAR, M. y O RTEGA G ARC ÍA, J. (2006). ((Robust estimation, interpretation and assessment of likelihood ratios in forensic speaker recognition)).
Computer Speech and Language, 20, p. 331–355. doi: 10.1016/j.csl.2005.
08.005.
G ONZ ÁLEZ RODR ÍGUEZ, J.; ROSE, P.; R AMOS, D.; T OLEDANO, D.T. y
O RTEGA G ARC ÍA, J. (2007). ((Emulating DNA: Rigorous quantification
of evidential weight in transparent and testable forensic speaker recognition)). IEEE Transactions on Audio, Speech, and Language Processing, 15,
p. 2104–2115. doi: 10.1109/TASL.2007.902747.
G RUBER, J.S. y P OZA, F. (1995). Voicegram Identification Evidence. volumen 54. American Jurisprudence Trials, Westlaw.
H ODGSON, D. (2002). ((A lawyer looks at Bayes’ Theorem)). The Australian
Law Journal, 76, p. 109–118.
—— (2007). ((Speaker identification - a judicial perspective)). En: Paper
presented at the Australian Research Council Human Communications Network Workshop on Forensic Speaker Recognition (FSI not CSI: Perspectives
in State-of-the-Art Forensic Speaker Recognition), Sydney, New South Wales, Australia.
http://forensic-voice-comparison.net
Geoffrey-Stewart Morrison
35
J ESSEN, M. (2008). ((Forensic phonetics)). Language and Linguistics Compass, 2, p. 671–711. doi: 10.1111/j.1749-818x.2008.00066.x.
K AYE, D.H. y S ENSABAUGH J R ., G.F. (2008). ((Modern Scientific Evidence:
The Law and Science of Expert Testimony)). Thomson West, 4, p. 83–224.
K ERSTA, L. G. (1962).
1253–1257.
((Voiceprint identification)).
Nature, 196, p.
K INOSHITA, Y. (2001). Testing Realistic Forensic Speaker Identification in Japanese: A Likelihood Ratio Based Approach Using Formants. Tesis doctoral,
Australian National University, Canberra, Australia.
—— (2005). ((Does Lindley’s LR estimation formula work for speech data? Investigation using long-term f0)). International Journal of Speech, Language
and the Law, 12, p. 235–254.
K UHN, T.S. (1962). The Structure of Scientific Revolutions. University of
Chicago Press, Chicago, IL.
—— (1970). The Structure of Scientific Revolutions. University of Chicago
Press, Chicago, IL, 2a edición.
K WAN, Q.Y. (1977). Inference of Identity of Source. Tesis doctoral, University
of California, Berkeley, USA.
L EWIS, S.R. (1984). ((Philosophy of speaker identification. Police applications
of speech and tape recording analysis)). En: Proceedings of the Institute of
Acoustics, volumen 6, p. 69–77.
L INDLEY, D.V. (1977). ((Probability and the law)). The Statistician, 26, p.
203–220.
L UCY, D. (2005). Introduction to Statistics for Forensic Scientists. Wiley,
Chichester, UK.
M EUWLY, D. (2001). Reconnaissance de locuteurs en sciences forensiques:
l’apport d’une approche automatique. Tesis doctoral, University of Lausanne, Lausanne, Switzerland.
—— (2006). ((Forensic individualisation from biometric data)). Science &
Justice, 38, p. 198–202. doi: 10.1016/S1355-0306(06)71600-8.
Geoffrey-Stewart Morrison
36
M EUWLY, D. y D RYGAJLO, A. (2000). ((Reconnaissance automatique de locuteurs en sciences forensiques: Modélisation de la variabilité intralocuteur
et interlocuteur)). En: Proceedings of 5éme Congrès Français d’Acoustique,
p. 522–525.
—— (2001). ((Forensic speaker recognition based on a Bayesian framework
and Gaussian Mixture Modelling (GMM))).
M EUWLY, D.; E L -M ALIKI, M. y D RYGAJLO, A. (1998). ((Forensic speaker
recognition using Gaussian mixture models and a Bayesian framework)). En:
Proceedings of the COST-250 Workshop, Ankara, Turkey.
M ORRISON, G.S. (2008). ((Forensic voice comparison using likelihood ratios
based on polynomial curves fitted to the formant trajectories of Australian
English /aI/)). International Journal of Speech, Language and the Law, 15,
p. 247–264. doi: 10.1558/ijsll.v15i2.249.
—— (2009a). ((Comments on Coulthard & Johnson’s portrayal of the
likelihood-ratio framework)). Australian Journal of Forensic Sciences, 41,
p. 155–161. doi: 10.1080/00450610903147701.
—— (2009b). ((Likelihood-ratio forensic voice comparison using parametric
representations of the formant trajectories of diphthongs)). Journal of the
Acoustical Society of America, 125, p. 2387– 2397. doi: 10.1121/1.3081384.
M ORRISON, G.S. y K INOSHITA, Y. (2008). ((Automatic-type calibration of
traditionally derived likelihood ratios: Forensic analysis of Australian English /o/ formant trajectories)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p. 1501–1504. International Speech Communication Association.
N OLAN, F. (2001). ((Speaker identification evidence: its forms, limitations
and roles)). En: Proceedings of the International Conference on Law and
Language: Prospect and Retrospect, University of Lapland, Levi, Finland.
http://www.ling.cam.ac.uk/francis/LawLang.doc
NRC (2009). Strengthening Forensic Science in the United States: A Path
Forward. National Academies Press, Washington, DC.
R AMOS C ASTRO, D. (2007). Forensic evaluation of the evidence using automatic speaker recognition systems. Tesis doctoral, Universidad Autónoma
de Madrid, Madrid, Spain.
Geoffrey-Stewart Morrison
37
ROBERTSON, B. y V IGNAUX, G.A. (1995). Interpreting Evidence. Wiley,
Chichester, UK.
ROSE, P. (1997). ((Identifying criminals by their voice: The emerging applied
discipline of forensic phonetics)). Australian Language Matters, 5(2), p.
6–7.
—— (1999). ((Differences and distinguishability in the acoustic characteristics
of hello in voices of similar-sounding speakers: a forensic-phonetic investigation)). Australian Review of Applied Linguistics, 22, p. 1–42.
—— (2002). Forensic Speaker Identification. Taylor and Francis, London,
UK.
—— (2003). ((The technical comparison of forensic voice samples)). En:
I. Freckelton y H. Selby (Eds.), Expert Evidence, Thomson Lawbook Company, Sydney, Australia.
—— (2005). ((Forensic speaker recognition at the beginning of the twenty-first
century: An over-view and a demonstration)). Australian Journal of Forensic
Sciences, 37(2), p. 49–71.
—— (2006). ((Technical forensic speaker recognition)). Computer Speech and
Language, 20, p. 159–191. doi: 10.1016/j.csl.2005.07.003.
ROSE, P. y C LERMONT, F. (2001). ((A comparison of two acoustic methods
for forensic speaker discrimination)). Acoustics Australia, 29, p. 31–35.
ROSE, P. y M ORRISON, G.S. (2009). ((A response to the UK position statement on forensic speaker comparison)). International Journal of Speech,
Language and the Law, 16, p. 139–163. doi: 10.1558/ijsll.v16i1.139.
ROSE, P.; O SANAI, T. y K INOSHITA, Y. (2003). ((Strength of forensic speaker
identification evidence: Multispeaker formant- and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold)). Forensic
Linguistics, 10, p. 179–202.
S AKS, M. J. y KOEHLER, J.J. (2005). ((The coming paradigm shift in forensic
identification science)). Science, 309, p. 892–895.
S CHWARTZ, R. (2006). ((Voiceprints in the United States - Why they won’t
go away)). En: Proceedings of the International Association for Forensic
Phonetics and Acoustics Conference, Göteborg, Sweden.
http://www.ling.gu.se/konferenser/iafpa2006/
Geoffrey-Stewart Morrison
38
S OLAN, L.M. y T IERSMA, P.M. (2003). ((Hearing voices: Speaker identification in court)). Hastings Law Journal, 54, p. 373–435.
T HIRUVARAN, T.; A MBIKAIRAJAH, E. y E PPS, J. (2008). ((FM features for
automatic forensic speaker recognition)). En: Proceedings of Interspeech
2008 Incorporating SST 2008, p. 1497–1500. International Speech Communication Association.
L EEUWEN, D.A. y B OUTEN, J.S. (2004). ((Results of the 2003 NFI-TNO
Forensic Speaker Recognition Evaluation)). En: Proceedings of Odyssey04:
The Speaker and Language Recognition Workshop, pp. 75–82. International
Speech Communication Association.
VAN
L EEUWEN, D.A. y B R ÜMMER, N. (2007). ((An introduction to
application-independent evaluation of speaker recognition systems)). En:
C. Müller (Ed.), Speaker Classification I: Selected Projects, p. 330–353.
Springer-Verlag, Heidelberg, Germany. doi: 10.1007/978-3-540-74200-5
19.
VAN
WATT, D. (2009). ((The identification of the individual through speech)). En:
C. Llamas y D. Watt (Eds.), Language and Identities, p. 76–85. Edinburgh
University Press, Edinburgh.
Z HANG, C.; M ORRISON, G.S. y ROSE, P. (2008). ((Forensic speaker recognition in Chinese: A multivariate likelihood ratio discrimination on /i/
and /y/)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p.
1937–1940. International Speech Communication Association.
Z HANG, C. y ROSE, P. (2008). ((Strength evaluation of forensic speaker recognition evidence based on likelihood ratio approach [en chino])). Zheng ju ke
xue [Evidence Science], 16, p. 337–342.

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download Versión para imprimir