Download Versión para imprimir

Document related concepts
no text concepts found
Transcript
La comparación forense de la voz y el cambio de
paradigma *
Geoffrey-Stewart Morrison**
Resumen
Nos encontramos en medio de un proceso de cambio de paradigma
en las ciencias relacionadas con la comparación forense de la voz. El
nuevo paradigma puede caracterizarse como una implementación cuantitativa del marco de la relación de verosimilitud y de la evaluación cuantitativa de la validez y la fiabilidad de los resultados. Durante los años 90
este nuevo paradigma se adoptó ampliamente en la comparación de los
perfiles de ADN, y se ha ido extendiendo gradualmente a otras ramas de
las ciencias forenses, incluyendo la comparación forense de la voz. El
presente artı́culo describe en primer lugar el nuevo paradigma y, a continuación, expone la historia de su adopción en la comparación forense
de la voz durante la última década. El cambio de paradigma es un proceso todavı́a incompleto, y aquellos que trabajan en él todavı́a representan
una minorı́a entre la comunidad dedicada a la comparación forense de la
voz.
1. El nuevo paradigma en la ciencia forense
1.1.
Un cambio de paradigma
En estos dı́as nos hallamos en mitad de lo que Saks y Koehler (2005) han
llamado un cambio de paradigma con respecto a la evaluación y presentación
de las evidencias en las ciencias forenses que se ocupan de las propiedades
cuantificables de los objetos de origen conocido y desconocido, por ej., perfiles de ADN, huellas dactilares, pelos, fibras, fragmentos de cristales, marcas de
*
Esta es una traducción realizada por Carlos Curiá de G.-S. Morrison (2009), Forensic voice comparison and the paradigm shift, Science & Justice, 49, pp. 298–308.
doi:10.1016/j.scijus.2009.09.002, que a su vez es una versión revisada de una presentación realizada en el 2nd International Conference on Evidence Law and Forensic Science, Beijing, China,
25–26 julio, 2009.
**
School of Language Studies, Australian National University, Canberra, ACT 0200, Australia. School of Electrical Engineering and Telecommunications, University of New South Wales,
Sydney, NSW 2052, Australia.
http://geoff-morrison.net
Estudios Fónicos / Cuadernos de Trabajo 1 (2011), 1–38
Geoffrey-Stewart Morrison
2
herramientas, escritura manual y grabaciones de voz. Saks y Koehler señalan:
que ellos “use the notion of paradigm shift not as a literal application of Thomas Kuhn’s concept , but as a metaphor highlighting the transformation involved in moving from a pre-science to an empirically grounded science”1 (Kuhn,
1962, pág. 892). Como dirı́a Kuhn, el cambio de paradigma al que se refieren
Saks y Koehler se podrı́a describir con mayor exactitud como un cambio desde
una etapa preparadigmática hacia un periodo en el que, por primera vez, existe un único paradigma unificado para llevar a cabo un procedimiento cientı́fico normal, es decir, un cambio desde un periodo en el que diferentes escuelas buscaban soluciones a distintos conjuntos de problemas (con solo algunos
solapamientos parciales entre los diferentes conjuntos) utilizando marcos diversos e incompatibles, hacia un periodo en el que existe acuerdo en toda la
comunidad cientı́fica sobre qué problemas son importantes (con frecuencia un
superconjunto de los problemas que intentaban resolver algunas de las escuelas preparadigmáticas), sobre los procedimientos generales para resolver tales
problemas y sobre la naturaleza de las soluciones adecuadas. Mientras que en
el periodo preparadigmático los cientı́ficos tienen que atender a una audiencia
general y explicar sus teorı́as desde el principio, durante el periodo cientı́fico
como tal, los cientı́ficos se dirigen fundamentalmente a una audiencia que ya
ha sido educada en los fundamentos del paradigma (porque han realizado, por
ejemplo, estudios superiores de alguna carrera de ciencias), y pueden, desde el
principio, concentrar sus esfuerzos en cuestiones particulares que forman parte
de un problema más complejo. Como consecuencia, la eficiencia y la productividad que se alcanzan en el periodo de ciencia normal son mayores que las
que se logran en el periodo preparadigmático.
Kuhn utiliza el término “paradigma” con dos sentidos diferentes, uno más
amplio y el otro más restringido: “On the one hand, it stands for the entire constellation of beliefs, values, techniques, and so on shared by the members of a
given community. On the other, it denotes one sort of element in that constellation, the concrete puzzle-solutions which, employed as models or examples,
can replace explicit rules as the basis for the solution of the remaining puzzles
of normal science.” 2 (Kuhn, 1970, pág. 175). En este trabajo se partirá princi1
usamos la noción de cambio de paradigma no como una aplicación literal del concepto de
Kuhn, sino como una metáfora para acentuar la importancia de la transformación que implica
el paso de una etapa precientı́fica a una ciencia asentada en la experimentación.
2
Por un lado, hace alusión a toda la toda la constelación de creencias, valores, técnicas y
demás, compartidas por los miembros de una comunidad dada. Por otro, denota un tipo de
elemento de dicha constelación, las soluciones concretas a rompecabezas que, usadas como
modelos o ejemplos, pueden sustituir a las reglas explı́citas como base para la solución de los
restantes rompecabezas de la ciencia normal (Traducción: Fondo de Cultura Económica).
Geoffrey-Stewart Morrison
3
palmente del sentido más amplio de “paradigma”, que abarca el sentido más
restringido. Aunque mi opinión es que el pensamiento de Kuhn sobre las revoluciones cientı́ficas proporciona una herramienta útil para entender la actual
situación de la ciencia forense, y señalo más adelante varios paralelismos, no
aprecio una correlación al 100 %. Una de las razones de ello puede tener que
ver con que la ciencia forense es una ciencia aplicada que necesita atender
las necesidades inmediatas de la sociedad, y esta consideración la afecta en
mayor medida que a las ciencias naturales. En relación con esto, el cientı́fico
forense se parece más a un ingeniero: “Unlike the engineer, and many doctors,
and most theologians, the scientist need not choose problems because they urgently need solution and without regard for the tools available to solve them.”3
(Kuhn, 1962, pág. 163).
Saks y Koehler defienden que ya se ha producido un cambio de paradigma
en el ámbito de la comparación de los perfiles de ADN, y que las otras ciencias de comparación forense están ahora cambiando hacia el nuevo paradigma.
En este trabajo mi objetivo es, primero, describir las caracterı́sticas del nuevo
paradigma y, después, resumir la historia de su adopción en el campo de la
comparación de la voz hasta el momento presente.
1.2.
El nuevo paradigma
Saks y Koehler (2005) describen el nuevo paradigma como “empirically
grounded science” 4 (pág. 892) como se puede comprobar en la práctica actual de la comparación forense del ADN, que se caracteriza por “data-based,
probabilistic assessment” 5 (pág. 893). Dichos autores recomiendan que las
otras ciencias de la comparación forense emulen los métodos de la comparación del ADN, incluyendo “construct[ing] databases of sample characteristics
and use[ing] these databases to support a probabilistic approach” 6 (pág. 893).
También dejan claro que otro aspecto importante del nuevo paradigma es el
hecho de que cuantifica y explicita las limitaciones de la comparación forense
midiendo los ı́ndices de error. Por lo tanto, el nuevo paradigma refleja los requisitos necesarios para poder ser admitido como evidencia cientı́fica tal como
propone el reglamento de la Corte Suprema de los Estados Unidos en Dau3
Al contrario que el ingeniero, muchos doctores y la mayorı́a de los teólogos, el cientı́fico no
precisa elegir problemas que necesitan una solución urgente sin tener en cuenta las herramientas
que hay para resolverlos.
4
una ciencia con fundamentación empı́rica.
5
juicios o cálculos probabilı́sticos a partir /de datos.
6
la construcción de bancos de datos con las caracterı́sticas de las muestras, y la utilización
de tales bancos de datos para apoyar el enfoque probabilı́stico.
Geoffrey-Stewart Morrison
4
bert v Merrell Dow Pharmaceuticals (92–102) 509 US 579 [1993], que Saks
y Koehler identifican como una fuerza impulsora del cambio de paradigma.
La Corte regula que, al considerar si se debe admitir la evidencia cientı́fica,
el juez debe calibrar la validez de la metodologı́a cientı́fica y la fiabilidad de
la evidencia, tomando en cuenta si ha sido probada empı́ricamente y si tiene
unos ı́ndices aceptables de errores. Recientemente, en el informe de febrero de
2009 del National Research Council (NRC) “Strengthening Forensic Science
in the United States” 7 , se ha reiterado el llamamiento a que otras ramas de la
ciencia forense sean más “cientı́ficas”, imiten la comparación de los perfiles de
ADN y cumplan los requisitos de Daubert. Entre los aspectos importantes de
un enfoque cientı́fico identificados en el informe se incluyen “the careful and
precise characterization of the scientific procedure, so that others can replicate
and validate it; . . . the quantification of measurements . . .; the reporting of a
measurement with an interval that has a high probability of containing the true
value; . . . [and] the conducting of validation studies of the performance of a
forensic procedure” 8 (pág. 121); el último punto requiere el uso de “quantifiable measures of the reliability and accuracy of forensic analyses” 9 (pág. 23).
El informe del NRC recomienda con claridad que se empleen preferentemente
metodologı́as más analı́ticas y objetivas en vez metodologı́as mas subjetivas
basadas en la experiencia.
Aunque no parece haber indicios de que los autores de cualquiera de las
publicaciones fueran conscientes de ello, hay otro componente del nuevo paradigma que yo creo que está implı́cito en la recomendación de Saks y Koehler
(2005) y del informe de la NRC (2009) acerca de que el resto de las ciencias de
este campo imiten la comparación forense del ADN: la adopción del marco de
la relación de verosimilitud (likelihood-ratio framework) para la evaluación de
las evidencias. En realidad, coherentemente a lo largo del informe de la NRC
la “identificación” y la “individualización” se mencionan como los objetivos
(metas) de la ciencia forense, lo que es incompatible con el uso del marco de la
relación de verosimilitud (ver el apartado 1.4 más abajo). El término “relación
de verosimilitud” aparece sólo una vez, en el tı́tulo de la cita de un trabajo;
no obstante el informe recomienda a Aitken y Taroni (2004), Evett (1990), y
Evett y otros (2000) como las fuentes que proporcionan “the essential building
7
“El fortalecimiento de la ciencia forense en los Estados Unidos”.
la caracterización cuidadosa y precisa del procedimiento cientı́fico de manera que otros
puedan replicarlo y validarlo;. . . la cuantificación de las medidas. . . ; la comunicación de una
medición ajustada a un rango con alta probabilidad de contener el valor verı́dico;. . . [y] la
realización de pruebas de validación de un procedimiento forense.
9
mediciones cuantificables de la fiabilidad y la exactitud de los análisis forenses.
8
Geoffrey-Stewart Morrison
5
blocks for the proper assessment and communication of forensic findings” 10
(pág. 186), y estas tres publicaciones apoyan el uso del marco de la relación de
verosimilitud.
1.3.
El marco de la relación de verosimilitud
El papel vanguardista de la comparación forense del ADN en el cambio de
paradigma puede atribuirse, en gran medida, al hecho de que es una rama relativamente nueva en la ciencia forense que se ha puesto extensamente a prueba
desde que se presentó por primera vez en los juzgados a finales de los años 80 y
principios de los años 90, y también al hecho de que la desarrollaron investigadores con preparación y experiencia en un enfoque moderno de investigación
cientı́fica. El alto nivel de educación cientı́fica de aquellos que trabajaban en
el análisis forense de ADN les hizo posiblemente más fácil entender y, en último término, adoptar lo que muchos estadı́sticos forenses recomiendan como el
marco lógicamente correcto para la evaluación de las evidencias comparativas,
el marco de la relación de verosimilitud. Pueden consultarse descripciones del
marco de la relación de verosimilitud en diversos textos y artı́culos, incluyendo
el de Aitken y Taroni (2004), Balding (2005), Buckleton y otros (2005), Evett
(1998), Lucy (2005), Robertson y Vignaux (1995) y, en cuanto a las referencias
especı́ficas a la comparación forense de la voz, en Champod y Meuwly (2000),
González Rodrı́guez y otros (2006), González Rodrı́guez y otros (2007) y Rose (2002, 2006). Se puede encontrar una historia del desarrollo de la estadı́stica
forense anterior al advenimiento del análisis forense del ADN (incluyendo el
uso del marco de la relación de verosimilitud) en Evett (1990), y, en Foreman
y otros (2003), una historia de los procedimientos estadı́sticos aplicados a la
evaluación de las evidencias que aporta el ADN y la adopción final del marco
de la relación de verosimilitud.
Lo que sigue es una breve descripción del marco de la relación de verosimilitud. Para simplificar, tal descripción se ofrece solo al nivel de la fuente, ya
que este es el nivel más relevante para la comparación forense de la voz (ver en
Cook y otros (1998) la jerarquı́a de propuestas de nivel “source”, “activity”, y
“offence” 11 ). El nivel de actividad es normalmente poco importante en la comparación forense de la voz porque los temas de transferencia y persistencia son
rara vez pertinentes: las grabaciones de voz normalmente se hacen de forma deliberada y las que se presentan para el análisis forense se asocian normalmente
con documentación vinculada a garantes (mandamiento judicial) y cadenas de
custodia. La autentificación de las grabaciones de audio y el análisis de las
10
11
los elementos esenciales para evaluar y presentar correctamente los hallazgos forenses.
fuente, actividad, y delito.
Geoffrey-Stewart Morrison
6
palabras representadas por la señal acústica se consideran normalmente aéreas
periciales distintas de la comparación forense de la voz. En la comparación
forense de la voz se debe, no obstante, considerar el efecto de la conversión
que sufre la señal acústica al pasar a ser una señal electrónica que a menudo es
transmitida por una lı́nea telefónica, lo que da como resultado grabaciones de
voz de calidad relativamente pobre y diferencias potenciales entre la calidad
de grabación de las muestras de voz indubitada y voz dubitada (efectos del
canal de transmisión). También puede haber diferencias en el estilo del habla,
por ejemplo, entre una grabación de una conversación telefónica animada (grabación de la voz dubitada) y las respuestas poco animadas a preguntas de un
interrogatorio policial (grabación de la voz indubitada). Los resultados de una
comparación forense de la voz pueden ser directamente relevantes en relación
con la tipificación y propuesta del nivel del delito, por ejemplo, si el delito es
proferir amenazas de muerte y la grabación de la voz dubitada es una grabación
de alguien profiriendo amenazas de muerte.
En el marco de la relación de verosimilitud la tarea del cientı́fico forense
es proporcionar a los tribunales una declaración del peso de la evidencia en
respuesta a la pregunta:
¿Cuánto más probables son las diferencias observadas entre la muestra indubitada y la muestra dubitada si fuera verdad la hipótesis de que las dos tuviesen el mismo origen en comparación con si fuera verdad la hipótesis de que la
dubitada tuviese otro origen?
La respuesta a esta pregunta se expresa cuantitativamente como una relación de verosimilitud, calculada utilizando la Ecuación 1.
RV = p(E|Hmo )/p(E|Hdo )
(1)
Donde RV es el relación de verosimilitud (LR en inglés), E es la evidencia, en otras palabras, las diferencias medidas entre las muestras de origen
indubitado y dubitado, Hmo es la hipótesis del mismo origen, y Hdo es la
hipótesis de diferente origen. Si la evidencia es más probable si fuera verdad
la hipótesis del mismo origen en vez de si fuera verdad la hipótesis de distinto
origen, entonces el valor del relación de verosimilitud serı́a mayor que 1, y si
la evidencia es más probable si fuera verdad la hipótesis de diferente origen
en vez de si fuera verdad la del mismo origen, entonces el valor del relación
de verosimilitud serı́a menor que 1. El valor de la relación de verosimilitud es
una expresión numérica del peso de la evidencia con respecto a las hipótesis
opuestas. Si el cientı́fico forense testifica que es 100 veces más probable que
las diferencias observadas entre las muestras de origen conocido y cuestionado
se deban a la hipótesis del mismo origen que a la hipótesis de diferente origen
Geoffrey-Stewart Morrison
7
(RV = 100), el juzgador de los hechos (trier of fact)12 , al oı́r esto y sea cual
sea su creencia anterior, debe estar 100 veces más proclive que antes a creer
que las muestras tienen el mismo origen. De la misma manera, si el cientı́fico
forense testifica que es 1000 veces más probable que las diferencias observadas se deban a la hipótesis de diferente origen que a la hipótesis del mismo
origen (RV = 1/1000), entonces el juzgador de los hechos, al oı́r esto y sea
cual sea su creencia anterior, debe estar 1000 veces más proclive que antes a
creer que las muestras tienen diferentes orı́genes.
El numerador de la relación de verosimilitud se puede considerar una expresión de similitud (similarity), y el denominador, una expresión de tipicidad
(typicality). Al calcular la fuerza de la evidencia, el cientı́fico forense debe
considerar no sólo el grado de similitud entre las muestras, sino también en
qué medida su valor es tı́pico con respecto a la población relevante. La similitud a solas no significa un apoyo claro de la hipótesis del mismo origen. Por
ejemplo, si se determina que dos muestras son muy similares en cuanto a algunas propiedades fı́sicas, esto tiene poco valor si esas propiedades fı́sicas son
también muy tı́picas y las muestras seleccionadas al azar de dos individuos
cualesquiera de la población relevante tienen una probabilidad alta de ser similares en igual medida. Por otro lado, si se encuentra que dos muestras son muy
similares en cuanto a propiedades muy atı́picas en la población, las muestras
seleccionadas al azar de dos individuos cualesquiera en la población relevante
tendrán una probabilidad muy baja de ser similares en igual medida. En general, un mayor nivel de similitud y un menor nivel de tipicidad conllevan un
apoyo relativamente mayor para la hipótesis del mismo origen, y un menor nivel de similitud y un mayor nivel de tipicidad conllevan un apoyo relativamente
mayor para la hipótesis de diferentes orı́genes.
El marco de la relación de verosimilitud es un marco conceptual que se
puede aplicar a creencias subjetivas basadas en la experiencia, como la probabilidad de la evidencia dadas las hipótesis opuestas; no obstante, el cientı́fico
forense tiene que tener acceso a un banco de datos de muestras que sean representativas de la población relevante, para cumplir los requisitos del nuevo
paradigma, que está basado en los datos y en las medidas cuantitativas. Ello es
necesario para poder realizar una estimación cuantitativa de la tipicidad de las
muestras de origen dubitado e indubitado. La población relevante es la población a la cual pertenece el delincuente. En la práctica, es menos que la población entera del planeta, puede restringirse a un área geográfica particular, a un
grupo étnico concreto, o, en la comparación forense de la voz, a hablantes de
12
El juzgador de los hechos es la persona o grupo de personas que decide el veredicto. Según
el sistema judicial el juzgador de los hechos puede ser un juez, un grupo de jueces, o un jurado.
Geoffrey-Stewart Morrison
8
una lengua y un dialecto particular. La selección de una población apropiada
para las muestras no es una tarea sencilla, ver la discusión en Aitken y Taroni
(2004, pág. 272–271) y en Lucy (2005, pág. 129–133).
1.4.
Por qué el cientı́fico forense debe presentar la probabilidad de la
evidencia y no debe presentar la probabilidad de la hipótesis
Una relación de verosimilitud es la expresión de la probabilidad de obtener
la evidencia dada la hipótesis del mismo origen frente a la hipótesis de diferentes orı́genes. Hay razones lógicas y legales por las que el cientı́fico forense debe presentar una declaración respecto al peso de la evidencia de esta manera y
no debe presentar la probabilidad de la hipótesis dada la evidencia. Determinar
la probabilidad de la culpabilidad en contra de la inocencia y si esta probabilidad supera un determinado umbral como para poder decir “más allá de toda
duda razonable” o “teniendo en cuenta las probabilidades” es cometido del
juzgador de los hechos. Si el cientı́fico forense presentara la probabilidad de la
hipótesis del mismo origen en contraste con la de diferentes orı́genes y la prueba fuera potencialmente incriminatoria, entonces estarı́a usurpando el papel
del juzgador de los hechos. El juzgador de los hechos no toma sus decisiones
sobre la base de una sola evidencia, más bien su tarea es llegar a una decisión
después de haber sopesado todas las evidencias presentadas en el juicio. Lo
que necesita el cientı́fico forense es una declaración sobre la fuerza o el peso
de una determinada evidencia. Un cientı́fico forense puede presentar el peso de
una evidencia relacionada con muestras de ADN, otro puede presentar el peso
de la evidencia de unas muestras de huellas digitales, etc., y el juzgador de los
hechos sopesará todas estas evidencias. No todas las evidencias serán comparaciones forenses presentadas como relaciones de verosimilitud, y el juzgador
de los hechos también debe considerar el peso de otras evidencias como el testimonio de los testigos oculares. Además, antes de que haya sido presentada
ninguna evidencia el juzgador de los hechos tendrá alguna creencia sobre la
inocencia o culpabilidad del defendido, quizás influido por conceptos como
“inocente mientras no se pruebe lo contrario”, y esto también contribuirá a su
decisión final.
Si un cientı́fico forense quisiera calcular la probabilidad de la hipótesis
del mismo origen en contraste con la hipótesis de diferentes orı́genes tendrı́a
que aplicar el teorema de Bayes. El teorema de Bayes se expresa mediante las
siguientes ecuaciones (en forma de apuestas):
p(Hmo |E)/p(Hdo |E) = p(E|Hmo )/p(E|Hdo ) × P (Hmo )/P (Hdo )
apuesta
a posteriori
relación de
verosimilitud
apuesta
a priori
(2)
Geoffrey-Stewart Morrison
9
Para calcular la apuesta a posteriori, el cientı́fico forense necesitarı́a saber
la apuesta a priori. Utilizando una de las interpretaciones del teorema de Bayes,
la apuesta a priori representarı́a la creencia del juzgador de los hechos en cuanto a las probabilidades relativas de las dos hipótesis antes de que la evidencia
sea presentada. Evidentemente, cuando lleva a cabo sus análisis, el cientı́fico
forense no puede conocer la creencia previa que puede tener el juzgador de los
hechos.
Bajo otra interpretación se pueden calcular las probabilidades a priori pragmáticas, por ejemplo, si el crimen fuera cometido en una isla y se supiera que
ha habido 100 personas en la isla en ese momento, la apuesta pragmática a
priori serı́a de 1/99; no obstante, esto implicarı́a la suposición de que cada
persona de las que estaban en la isla tiene la misma probabilidad de haber
cometido el crimen, y aunque manejar esta suposición puede ser apropiado
para el juzgador de los hechos, no lo es para el cientı́fico forense (y si en el
juicio ya se ha presentado otra evidencia, es improbable que la creencia del
juzgador de los hechos sobre la culpabilidad o no culpabilidad sea todavı́a de
1/99 inmediatamente antes de la presentación de la relación de verosimilitud
de las evidencias forenses en cuestión).
No es apropiado para el cientı́fico forense presentar las probabilidades a
posteriori porque estas incluyen información y supuestos de otras fuentes diferentes a la evaluación cientı́fica de las muestras de origen dubitado e indubitado. Si el cientı́fico forense fuera a presentar las probabilidades a posteriori,
tendrı́a entonces que aportar sus propias probabilidades a priori y serı́a posible que su testimonio pudiera estar influido por su propia opinión subjetiva
consciente o inconsciente sobre la culpabilidad o inocencia del acusado. La
tendenciosidad de los seres humanos fue una de las principales preocupaciones en el informe NRC (2009, pags.122–124). Es una ventaja del marco de la
relación de verosimilitud el hecho de que sea resistente a la influencia de esas
fuentes de predisposición.
Aunque la relación de verosimilitud es un componente del análisis bayesiano, he utilizado el término “marco de la relación de verosimilitud” en vez
de “marco bayesiano” porque este último, al contrario que el primero, puede implicar que el cientı́fico forense hace uso de las probabilidades a priori y
calcula las probabilidades a posteriori (Buckleton y otros, 2005; Champod y
Meuwly, 2000; Rose, 2006). Una alternativa al “marco de la relación de verosimilitud” utilizada por algunos autores (por ej. Buckleton y otros, 2005) es el
“logical approach” (enfoque lógico), si bien yo prefiero el “marco de la relación
de verosimilitud” porque creo que es más transparente. También es importante
Geoffrey-Stewart Morrison
10
hacer notar que el hecho de que el cientı́fico forense presente la relación de
verosimilitud en el juicio no implica que el juzgador de los hechos tenga que
asignar un peso numérico a las evidencias que no son evidencias de comparación forense, ni que tenga que llegar a una decisión a través de la aplicación
rı́gida de una fórmula como la de la Ecuación 2 (R v Adams [1996] EWCA
Crim 222, R v Adams [1997] EWCA Crim 2474, R v GK [2001] NSWCCA
413, Balding, 2005, pp. 149–151; Buckleton y otros, 2005; Donnelly, 2005;
Morrison, 2009b).
Una precisión terminológica que se plantea a partir de la discusión anterior es que en el marco de la relación de verosimilitud el cientı́fico forense
no lleva a cabo “identificaciones” o “individualizaciones”, porque estos términos implican la determinación de una probabilidad a posteriori (ver Meuwly
(2006) respecto a los problemas terminológicos y al uso de los términos “identificación” e “individualización” en la ciencia forense). Un término neutral como el de “comparación” es más apropiado (French y Harrison, 2007). Por lo
tanto, yo utilizo el término “comparación forense de la voz” (“forensic voice
comparison”) en vez de los términos tradicionales “identificación forense del
hablante” y “reconocimiento forense del hablante” (“forensic speaker identification”, “forensic speaker recognition”) (“reconocimiento” implica asimismo
una probabilidad a posteriori, nótese que también “comparación del hablante”
(“speaker comparison”) serı́a lo mismo que “comparación del tocador” si nos
refiriéramos a la comparación de huellas dactilares). Siguiendo la lógica de
Meuwly, se deberı́a realmente usar un término como “comparación forense de
grabaciones de voz”, puesto que son las propiedades de las grabaciones las que
se comparan realmente, no las propias voces. Dado que esta última denominación es un poco larga, continuaré usando el término no tan exacto (pero más
corto) de “comparación forense de la voz”. Otro término apto en castellano
serı́a “comparación forense del habla”.
1.5.
Medir validez y fiabilidad
La validez de los resultados de un sistema de comparación forense se puede calcular probándolo en un gran número de pares de muestras en las que se
conoce, para cada par, si sus miembros tienen el mismo o distinto origen, y
después comparando los resultados con lo que ya se sabe de antemano. Saks y
Koehler (2005) y NRC (2009, pags. 116–122) describe la validez cuantitativa
en términos de los ı́ndices de errores de identificación, es decir, los falsos positivos (pares de muestras de diferente origen que se declaran del mismo origen)
y los falsos negativos (pares de muestras del mismo origen que se declaran
de diferentes orı́genes). Las identificaciones están basadas en probabilidades
Geoffrey-Stewart Morrison
11
a posteriori y este enfoque es, por lo tanto, incoherente con el marco de la
relación de verosimilitud. Las relaciones de verosimilitud mayores de uno favorecen la hipótesis del mismo origen y las razones de verosimilitud menores
de uno favorecen la hipótesis de distintos orı́genes; no obstante, el objetivo de
la comparación forense de muestras dubitadas e indubitadas no es llegar a una
decisión binaria, sino más bien determinar el peso de la evidencia en relación
a las hipótesis del mismo origen y de diferente origen, es decir, establecer hasta qué punto la relación de verosimilitud es mayor o menor de uno, o lo que
es lo mismo hasta qué punto el logaritmo de la relación de verosimilitud es
mayor o menor de cero. Algunas veces conviene convertir la relación de verosimilitud en el logaritmo de la relación de verosimilitud, dado que este último
es simétrico respecto a cero, es decir, una relación de verosimilitud de 1000
(1000 a favor de la hipótesis del mismo origen) y 1/1000 (1000 a favor de la
hipótesis de diferentes orı́genes) se convierte, a través del logaritmo en base
diez de la relación de verosimilitud, en +3 y −3 respectivamente. De manera
ideal, para un par del mismo origen el sistema de comparación forense debe
dar números positivos grandes del logaritmo de la relación de verosimilitud, y
para un par de diferentes orı́genes debe dar números negativos grandes del logaritmo de la relación de verosimilitud. En una comparación del mismo origen
un número positivo pequeño del logaritmo de la relación de verosimilitud no
es tan bueno como un número positivo grande, un número negativo pequeño
es peor que un número positivo pequeño y un número negativo grande es peor
que un número negativo pequeño (mutatis mutandis para una comparación de
muestras de diferente origen). Los números negativos pequeños y grandes de
la relación de verosimilitud proporcionan respectivamente un apoyo débil o
fuerte para la hipótesis de diferentes orı́genes cuando se sabe que, de hecho,
se estaba examinado un par de muestras del mismo origen. Es peor informar
de una relación de verosimilitud de 1000 a favor de una hipótesis contraria a
los hechos que informar de una relación de verosimilitud de 10 a favor de una
hipótesis contraria a los hechos porque el primero potencialmente contribuye
más a una resolución judicial equivocada.
El coste del logaritmo de la relación de verosimilitud (log-likelihood-ratio
cost, Cllr ) (Brümmer y otros, 2007; Brümmer y du Preez, 2006; van Leeuwen
y Brümmer, 2007) es una medida de la validez de un sistema que da como
resultados relaciones de verosimilitud. Cllr se desarrolló para usarse en el reconocimiento automático de la voz y ha sido aplicada posteriormente en la
comparación forense de la voz (González Rodrı́guez y otros, 2007; Morrison,
2009b; Morrison y Kinoshita, 2008; Ramos Castro, 2007). Para calcular Cllr ,
se necesita calcular primero el valor de un componente de Cllr para la relación
Geoffrey-Stewart Morrison
12
F IGURA 1: Gráfico de la función para calcular el valor del componente Cllr
para una comparación de muestras del mismo origen.
de verosimilitud de cada uno de los pares de la prueba.
La Figura 1 proporciona un gráfico de la función para calcular el valor del
componente cuando los datos que se le suministran al sistema son un par de
muestras del mismo origen. A los valores positivos grandes del logaritmo de la
relación de verosimilitud que apoyen de manera correcta la hipótesis del mismo origen se les asigna un valor muy bajo del componente Cllr , los valores
cercanos a cero del logaritmo de la relación de verosimilitud no proporcionan
mucho apoyo para cualquiera de las dos hipótesis y se les asigna valores moderados a los componentes Cllr , y a los valores negativos del logaritmo de la
relación de verosimilitud que, en contra de los hechos, apoyan la hipótesis de
diferentes orı́genes se les asigna valores altos de los componentes Cllr , que
aumentan rápidamente según los valores del logaritmo de la relación de verosimilitud se vuelven más negativos y proporcionan un mayor apoyo en contra
de los hechos a la hipótesis de diferentes orı́genes. La función para calcular
el valor de un componente Cllr cuando los valores de entrada del sistema son
un par de diferente origen es una versión reflejada de la Figura 1 (con el espejo puesto en la lı́nea log10 (V R) = 0). Para calcular Cllr , se encuentra la
media de todos los valores del componente Cllr de pares del mismo origen, se
encuentra la media de todos los valores del componente Cllr de pares de diferente origen y se coge la media de las últimas dos medias. En consecuencia,
Geoffrey-Stewart Morrison
13
Cllr proporciona una medida cuantitativa de la validez general de un sistema
de comparación forense. Cuanto más bajo sea el valor de Cllr , mejor será el
funcionamiento del sistema. Si se prueban varios sistemas utilizando el mismo
conjunto de datos, entonces el sistema más válido es aquel que da un valor de
Cllr más bajo. Es importante hacer notar que (como en otras medidas de validez como los ı́ndices de errores de identificación) Cllr depende de los datos
de la prueba ası́ como del sistema de comparación forense; por lo tanto, sirve
mejor como una medida relativa de validez que como una medida absoluta.
Asimismo, para que todo sea judicialmente apropiado, la cantidad y la calidad
de cada par de pruebas deben coincidir tanto como se pueda con la cantidad y
calidad de las muestras dubitadas e indubitadas, por ej., en las grabaciones de
voz se intentarı́a hacer coincidir las duraciones, la calidad de la grabación y el
estilo de habla.
Dentro del marco de la relación de verosimilitud también es posible informar de un ı́ndice de errores para la relación de verosimilitud especı́fica que
se calcula para la comparación de las muestras conocidas y cuestionadas. Por
ejemplo, si se obtiene una relación de verosimilitud de 100 a favor de la hipótesis del mismo origen, se puede informar de un ı́ndice de errores como la proporción de pares de diferente origen en los datos de las pruebas que dan relaciones
de verosimilitud iguales o mayores que 100.
Un tema más, relacionado con la fiabilidad en el nuevo paradigma es el
“reporting of a measurement with an interval that has a high probability of
containing the true value” 13 (NRC, 2009, pág. 121). Aunque todavı́a se ha publicado muy poco respecto a este tema en el campo de la comparación forense
de la voz, algunas investigaciones preliminares están en vı́as de hacer cálculos
de intervalos creı́bles para las relaciones de verosimilitud.
2. Comparación forense de la voz y el lugar que ocupa en el cambio de paradigma
2.1.
Diferentes enfoques de la comparación forense de la voz
Históricamente es posible identificar por lo menos cuatro enfoques diferentes de la comparación forense de la voz: el auditivo, el espectrográfico, el
acústico-fonético y el automático. De todos ellos, son los dos últimos los más
apropiados para su uso en el nuevo paradigma. En aras de la simplicidad de la
exposición, trataremos los cuatro enfoques como discretos, pero en la práctica
no ha sido inusual la combinación de algunos aspectos de dos enfoques, por ej.,
13
la comunicación de una medición ajustada a un rango con alta probabilidad de contener el
valor verı́dico.
Geoffrey-Stewart Morrison
14
el auditivo-espectrográfico y el auditivo-acústico-fonético. La descripción que
se da a continuación de cada uno de los enfoques pretende ser sólo un bosquejo
básico, no un una exposición completa; pueden encontrarse descripciones más
exhaustivas en Jessen (2008) y Rose (2002) y, para mayores detalles acerca de
los enfoques automáticos, ver Bimbot y otros (2004) y Ramos Castro (2007).
2.1.1. Enfoque auditivo El enfoque auditivo es practicado por fonetistas
con muchos años de entrenamiento y experiencia en fonética auditiva, lo cual
tradicionalmente implica utilizar sı́mbolos fonéticos y diacrı́ticos para transcribir los sonidos del habla oı́dos. Los fonetistas escuchan las muestras de voces
dubitadas e indubitadas y comentan cualquier propiedad de la voz que tengan
en común y que por su experiencia consideran inusual, distintiva o de alguna
manera digna de mención, o cualquier caracterı́stica que valga la pena hacer
notar porque esté presente en una muestra e, inesperadamente, no en la otra. La
clase de caracterı́sticas auditivas de las que pueden servirse en estos casos puede ser del tipo de las que se emplean para distinguir dialectos. Ası́, considérese
las distintas pronunciaciones que pueda tener la frase “yo me llamo” en las
diferentes áreas del mundo hispanohablante, por ejemplo entre otras pronunciaciones puede ser [jo me Lamo] en partes del centro-norte de la penı́nsula,
[dZo me dZamo] en partes de Andalucı́a, [So me Samo] en zonas de Argentina,
y [jo me jamo] en gran parte del resto del mundo hispanohablante. Estas diferencias dialectales tan acusadas son con frecuencia sobresalientes hasta para
oı́dos no entrenados, pero un experto entrenado en fonética auditiva será capaz
de percibir y anotar sistemáticamente pequeñas diferencias idiolectales. Las
caracterı́sticas auditivas pueden estar también relacionadas con la actividad de
las cuerdas vocales, por ej. si la voz es aspirada (como la de Marilyn Monroe)
o quebrada (laringalizada, rota, como la de Louis Armstrong), o es una voz que
se inscribe en el rango de las que se pueden considerar con impedimentos del
habla de diversa gravedad, por ej., pronuncia la “rr” como “d” (/r/ como [D]).
Consultar Jessen (2008) y Rose (2002) para ver más ejemplos. Aunque pueda
haber algunas caracterı́sticas cuya frecuencia de aparición se pueda cuantificar y para las cuales se pueda calcular las relaciones de verosimilitud basadas
en los datos (ver la discusión en Rose (2003)), en general el enfoque auditivo
se basa en la experiencia y no es coherente con el nuevo paradigma. Aunque
teóricamente serı́a posible evaluar el grado de validez y fiabilidad de cualquier
experto practicante del enfoque auditivo haciéndole comparar un gran número
de pares de muestras, cuyo origen, diverso o no, sea conocido por el evaluador
(pero no por el evaluado), hasta donde yo estoy informado, no se han realizado
pruebas a gran escala de este tipo de enfoque puramente auditivo.
Geoffrey-Stewart Morrison
15
2.1.2. Enfoque espectrográfico El enfoque espectrográfico, también conocido como “voiceprinting”, está basado en una tecnologı́a desarrollada en la
década de 1940 que permite visualizar la amplitud temporal de la frecuencia
de la señal acústica en un formato conocido como espectrograma. Generalmente el tiempo se representa en el eje x y la frecuencia en el eje y; la amplitud en
este gráfico bidimensional se representa por una escala de grises, ver Figura 2.
Kersta hizo público en 1962, por primera vez, el uso judicial de los espectrogramas. Durante los años 60, 70 y 80, se desarrolló un intenso debate acerca
de la validez del enfoque espectrográfico. Aunque el enfoque todavı́a cuente
con algunos apasionados defensores, la conclusión general de la comunidad
cientı́fica es que no es cientı́fico ni válido. En julio del año 2007, en un encuentro de la International Association for Forensic Phonetics and Acoustics
(IAFPA) se emitió un comunicado en el que se decı́a que “The Association considers this approach to be without scientific foundation, and it should not be
used in forensic casework.” 14 hhttp://www.iafpa.net/voiceprintsres.htmi. Para
el no cientı́fico, la conversión desde un dominio acústico a un dominio visual
puede dar la impresión de que el enfoque es cientı́fico, pero en realidad el análisis no es objetivo, y consiste en que el perito compara visualmente un número
determinado de espectrogramas con el objetivo de llegar a una expresión cualitativa de la probabilidad de que las muestras sean del mismo o de diferentes
orı́genes (probabilidades subjetivas a posteriori). Como resumen del debate
histórico acerca de la validez del enfoque espectrográfico, consultar Gruber y
Poza (1995), Rose (2002, pags. 107–122) y, desde una perspectiva legal, Solan
y Tiersma (2003). Ver también Schwartz (2006) en relación a por qué el voiceprinting no desaparece de escena. Desde la perspectiva del nuevo paradigma
vale la pena hacer notar que un componente importante del debate acerca de
la validez del enfoque espectrográfico fueron las medidas de los ı́ndices de
errores en las pruebas que se llevaron a cabo a gran escala.
2.1.3. Enfoque acústico-fonético El enfoque acústico-fonético fue desarrollado por fonetistas entrenados en fonética acústica y supone la realización de
medidas cuantitativas de las propiedades acústicas de los sonidos del habla.
Generalmente, se identifican algunas unidades fonéticas comparables tanto en
las muestras dubitadas como en las indubitadas y se miden las propiedades
acústicas de estas propiedades. Un ejemplo de unidad fonética es la vocal “a”
/a/. Una unidad fonética puede ser un fonema (una de las unidades básicas de
la teorı́a fonológica), pero también puede consistir en un fragmento mayor o
14
La asociación considera este enfoque sin fundamento cientı́fico y no se debe usar en la
práctica forense.
Geoffrey-Stewart Morrison
16
F IGURA 2: Ejemplo de espectrograma.
menor del habla. Ejemplos de propiedades acústicas son las resonancias del
tracto vocálico (los formantes) que en la teorı́a fonética son uno de los principales correlatos acústicos de la identidad categorial de la vocal (fonema),
es decir, son claves primarias que utilizan los oyentes para determinar si un
hablante dice /aI/ (el diptongo en la palabra “hay”), /au/ (el diptongo en la palabra “aula”, “auténtico”, etc.), /e/ (el sonido de la primera vocal en palabras
como “pelo”, “dedo”, etc.), etc. Las propiedades acústicas de muchas de las
unidades utilizadas en el enfoque auditivo también se pueden utilizar de forma
cuantitativa para determinar las caracterı́sticas acústico-fonéticas. Algunas caracterı́sticas acústico-fonéticas, como la frecuencia fundamental (el correlato
acústico del tono) y el segundo formante, tienen la ventaja de ser relativamente resistentes a los efectos producidos en el sonido por el canal de transmisión.
Las medidas acústicas se realizan utilizando algoritmos de procesamiento de
señal pero con la supervisión substancial de un experto humano encaminada a
obtener una gran precisión en la medida. El tiempo y el gasto que implica el
análisis de los datos son grandes inconvenientes de la aplicación del enfoque
acústico-fonético.
2.1.4. El enfoque automático El enfoque del procesamiento automático fue
desarrollado por ingenieros especialistas en procesamiento de señales. Como
el enfoque acústico-fonético, se basa en medidas cuantitativas de ciertas propiedades acústicas del habla, pero en general no se intentan aprovechar las
unidades fonéticas. Las caracterı́sticas tı́picas en un sistema automático son
los espectros de corta duración (20-30 ms) que se extraen durante toda la duración de la grabación de la voz y se cuantifican utilizando los coeficientes de
cepstrum (serı́a complejo desarrollar una explicación de estas caracterı́sticas
accesible para una audiencia no experta, y no lo vamos a hacer aquı́). Las tı́picas caracterı́sticas automáticas no son especialmente resistentes a los efectos
Geoffrey-Stewart Morrison
17
del canal de transmisión, pero se han llevado a cabo muchas investigaciones
con procedimientos estadı́sticos para compensar las incompatibilidades debidas a los efectos del canal de transmisión. Aunque los sistemas automáticos
tı́picos tratan la información fonética detallada como ruido (variabilidad no
deseada), tienen la gran ventaja de ser capaces de procesar grandes cantidades
de datos de manera rápida y a bajo coste.
2.1.5. La relativa popularidad de los diferentes enfoques Entre los años
2004 y 2005 Tina Cambier-Langevald del Instituto Forense Neerlandés (Nederlands Forensisch Instituut, NFI) llevo a cabo una prueba en la que los 12
participantes en ella mandaron sus análisis de las mismas muestras de voz e
informaron de los enfoques seguidos (Cambier Langevald, 2007). Si bien esto
no constituye una muestra aleatoria muy grande, proporciona alguna idea de
la relativa popularidad de cada uno de los enfoques entre los investigadores
y los profesionales. La clasificación de Cambier-Langevald era algo diferente
de la mı́a, pero, hasta donde puedo confirmar, 5 participantes usaron lo que
describirı́a como enfoques auditivo-acústico-fonéticos, 4 utilizaron enfoques
acústicos-fonéticos, 2 utilizaron enfoques automáticos y 1 utilizó un enfoque
espectrográfico. Incluso dentro de cada enfoque hubo una gran heterogeneidad
con respecto a la selección de las partes de la grabación para las mediciones,
y con relación a las caracterı́sticas, las técnicas de análisis y medida y la evaluación y la publicación de los resultados. Sólo 4 de los 12 participantes informaron sobre relaciones de verosimilitud (dos de los que utilizaron el enfoque
automático y dos de los que utilizaron el enfoque acústico fonético).
2.2.
Diferencias entre los datos del ADN y los de la voz
En las lı́neas que siguen se ofrece una explicación simplificada de la comparación de los perfiles de ADN, mi intención es resaltar algunas diferencias
básicas entre los datos con los que se trabaja en la comparación del ADN y los
datos con los que se trabaja en la comparación de muestras de voz, y no discutir
temas relacionados con la interpretación de las pruebas de ADN (los lectores
interesados en este último tema pueden consultar Balding, 2005 y Buckleton y
otros, 2005). Los datos de los perfiles de ADN consisten en valores discretos
(por ej. el número de microsatélites) de un número finito de medidas (por ej.
los pares de alelos de unos loci especı́ficos). Las propiedades del ADN son
discretas a nivel molecular, sus valores son continuos a nivel de medida (que
puede ser representada, por ejemplo, como las localizaciones y alturas de los
picos de un electroferograma), pero en general se vuelven a convertir en valores discretos para proporcionar datos para el análisis estadı́stico. Es esto último
Geoffrey-Stewart Morrison
18
a lo que me refiero cuando uso el término “perfil de ADN”. En aras de la simplicidad voy a asumir (de manera no realista) que siempre se da el caso de que
los perfiles de ADN no tienen errores de medida, que las muestras no están
contaminadas, que los organismos de los que proceden las muestras de ADN
no han sufrido trasplantes, etc. Es posible obtener “correspondencia” (a match)
entre dos perfiles de ADN, eso ocurre cuando para cada locus y alelo de cada
uno de los perfiles se obtiene el mismo valor discreto. Asumiendo lo expuesto
anteriormente, el perfil de ADN de un determinado organismo no cambia de
una ocasión a otra, en consecuencia la probabilidad de obtener correspondencia entre los dos perfiles de ADN dada la hipótesis del mismo origen es 1 y la
probabilidad de no obtener correspondencia dada la hipótesis del mismo origen es 0. El numerador de la relación de verosimilitud es en consecuencia ó 1
ó 0 (Aitken y Taroni, 2004, p. 404; Evett, 1998). Si las dos muestras no coinciden, el numerador de la relación es 0 y el denominador es irrelevante, el valor
de la relación de verosimilitud es 0 y según el teorema de Bayes la apuesta a
posteriori también será 0, las dos muestras no tienen el mismo origen. Si las
dos muestras coinciden, el numerador de la relación de verosimilitud es 1, el
valor de la relación de verosimilitud es entonces dependiente del denominador,
la probabilidad de que el perfil de ADN de la muestra dubitada coincida con
el perfil de la muestra indubitada si la muestra dubitada procede de otra fuente
diferente al organismo conocido. A menudo, el informe que se aporta al juicio es la “probabilidad de correspondencia” (match probability) en vez de la
relación de verosimilitud (R v Doheny y Adams [1996] EWCA Crim 728 aconsejan a los expertos de ADN que proporcionen probabilidades de coincidencia,
ver también Evett, 1998 y Balding, 2005, pags.151–153 ), este parámetro es
simplemente el denominador de la relación de verosimilitud o de manera equivalente el inverso de la relación de verosimilitud dada en la Ecuación 1, es
decir, es la probabilidad de obtener un perfil del ADN coincidente cuando confrontamos la hipótesis de orı́genes diferentes con la del mismo origen (Balding,
2005, pág. 24; Foreman y otros, 2003, pág.484).
Un sistema de comparación forense de la voz acústico-fonético o automático se basa en las medidas de las propiedades acústicas de la voz. Estas propiedades acústicas son de naturaleza continua, no discreta. También existe una
variación substancial en el mismo hablante; incluso si un mismo hablante dice exactamente las mismas palabras una detrás de otra, será extremadamente
improbable que no haya diferencias mensurables en las propiedades acústicas
de los dos enunciados. Hay que tener en cuenta que esto no se debe a la precisión de las técnicas de medida, sino a la variabilidad intrı́nseca de la fuente. En
la práctica, es improbable que un hablante repita trozos largos que contengan
Geoffrey-Stewart Morrison
19
exactamente las mismas palabras y asimismo será probable que haya variabilidad debida a factores como el contexto fonético y el estilo del habla (y también
a menudo debidas al canal de transmisión). En relación a propiedades como estas, caracterizadas con valores continuos y con este tipo de variabilidad, toda
“correspondencia” –entendida como que dos muestras no sean distinguibles
mediante la precisión de las técnicas de medición, o en el sentido de que no
presenten (en algún nivel alfa predeterminada) una diferencia estadı́stica significativa en la combinación de su variabilidad intrı́nseca y de medición, o
entendida en relación con algún umbral -predeterminado de distinción (basado
en la experiencia o en los hechos)– sufre un efecto de cliff-edge 15 (Robertson
y Vignaux, 1995, p. 118-120; Evett, 1991; Rose y Morrison, 2009). La “correspondencia” no es, por tanto, un concepto útil para las propiedades acústicas de
la voz (probablemente lo mismo se puede decir con respecto a los elementos
objeto de comparación en muchas otras ramas de la ciencia forense). El numerador de la relación de verosimilitud calculado a partir de la comparación
forense de la voz no puede ser por tanto ni 0 ni 1, la probabilidad de coincidencia no se puede calcular y los resultados deben comunicarse estrictamente
como una relación de verosimilitud. Alguien podrı́a argüir que, dado que las
simplificaciones que se han hecho anteriormente respecto a la comparación de
los perfiles de ADN no son válidas, los resultados de ADN también deberı́an
presentarse en los informes como relaciones de verosimilitud (comunicación
personal de Didier Meuwly en abril del 2009; ver Kaye y Sensabaugh Jr. (2008,
§30:41) sobre los problemas que aparecen al convertir los valores continuos de
los electroferogramas en valores discretos).
2.3.
La adopción del nuevo paradigma por la comunidad cientı́fica
2.3.1. Propuestas para adoptar el marco de la relación de verosimilitud Parece que fue S. R. Lewis quien en 1984 avanzó publicó la primera propuesta de
adopción de la relación de verosimilitud para la comparación forense de voz.
Está claro que esta propuesta tuvo poca repercusión en la comunidad cientı́fica
porque la idea no volvió a aparecer en ninguna publicación hasta que habı́a pasado una década. En Agosto de 1995, en el International Congress of Phonetic
Sciences (ICPhS), A. P. A. Broeders afirmó someramente que las evidencias de
la comparación forense de la voz deben evaluarse utilizando la relación de verosimilitud . En algunos artı́culos publicados en revistas australianas en 1997,
1999, 2001, Philip Rose también propuso que la comparación forense de la voz
debı́a hacerse utilizando la relación de verosimilitud . Rose cita a Robertson y
15
borde de acantilado.
Geoffrey-Stewart Morrison
20
Vignaux (1995), cuya provechosa influencia le fue transmitida por Hugh Selby
(comunicación personal de Philip Rose, abril del 2009). Christophe Champod
y Didier Meuwly esgrimieron, inicialmente en el RLA2C Workshop (Reconnaissance de Locuteur et ses Applications Commerciales et Criminalistiques)
de abril de 1998, un argumento más substancial que ha tenido mayor impacto
en la comunidad cientı́fica, y que derivó en un artı́culo publicado en Speech
Communication (enviado en octubre de 1998 y publicado en septiembre del
año 2000). Este trabajo se inspiró en la bibliografı́a existente sobre la evaluación e interpretación de las evidencias forenses en el campo del ADN para
elaborar un lúcido argumento en pro de su adopción en la comparación forense de la voz. Meuwly cita a Kwan (1977), Lewis (1984), y Evett y Buckleton
(1996) como obras formativamente influyentes (comunicación personal de Didier Meuwly, abril del 2009).
Didier Meuwly y Andrzej Drygajlo también describieron la aplicación del
marco de la relación de verosimilitud en la comparación forense de la voz
en el Congrès Français d’Acoustique en septiembre del 2000. En diciembre
del2001, en la International Conference on Law and Language - Prospect and
Retrospect, Francis Nolan sugirió el uso del marco de la relación de verosimilitud como marco conceptual para la comparación forense acústico-fonética de
la voz, pero expresó algunas dudas acerca de los aspectos prácticos del marco
en su implementación cuantitativa a partir de los datos. En dos simposios sucesivos de la Interpol Forensic Science Symposia, en el año 2001 y 2004, A. P. A.
Broeders presentó informes sobre el desarrollo de la comparación forense de
la voz desde el año 1998 al 2001 y desde el 2001 al año 2004 respectivamente.
En ambos informes subrayó la necesidad de que las pruebas de comparación
forense de la voz se evalúen utilizando el marco de la relación de verosimilitud,
e hizo notar que un cierto número de sistemas automáticos podı́an dar como
resultado relaciones de verosimilitud.
2.3.2. Implementación del nuevo paradigma en la comparación forense de
la voz automática El primer sistema automático a base de datos y especı́ficamente diseñado para producir relaciones de verosimilitud para la aplicación
forense fue desarrollado por un grupo de investigación que trabajaba en Lausana, Suiza, y un par de años después les siguió un grupo de investigación que
trabajaba en Madrid, España. En abril de 1998, Didier Meuwly, Mounir ElMaliki, y Andrzej Drygajlo, del grupo de Lausana, presentaron un trabajo en
el COST-250 Workshop (Continuous Speech Recognition Over the Telephone).
En él describieron la fundamentación para el uso del marco de la relación de
verosimilitud en la comparación forense de la voz, y describieron asimismo
Geoffrey-Stewart Morrison
21
el diseño y los resultados de las pruebas de un sistema basado en el ModeloMixto-Gaussiano (Gaussian-Mixture-Model - GMM) que calculaba relaciones
de verosimilitud. El trabajo no fue bien recibido, un miembro de la audiencia
calificó el marco de la relación de verosimilitud como un marco sin sentido.
Los artı́culos que el grupo envió a diversas revistas fueron también rechazados porque los revisores no entendı́an el marco (comunicación personal de
Didier Meuwly, abril 2009). No obstante, la situación cambió rápidamente:
En el RLA2C Workshop en abril de 1998, el presidente de la sesión, George
Doddington, recomendó el uso del marco de la relación de verosimilitud. En
2001 en el Odyssey Speaker Recognition Workshop de la International Speech
Communication Association (ISCA), Meuwly y Drygajlo, del grupo de Lausana, y González Rodriguez, Ortega Garcı́a y Lucena Molina, del grupo de Madrid, presentaron sendos trabajos que describı́an sistemas automáticos GMM
de comparación forense de la voz que calculaban relaciones de verosimilitud.
La tesis doctoral de Meuwly también se concluyó en 1999 y se publicó en el
año 2001 (Meuwly, 2001).
Desde entonces, las implementaciones del marco de la relación de verosimilitud a base de datos se han establecido como un estándar en la comunidad
que se dedica a la investigación de la comparación forense de la voz mediante
un enfoque automático. La Forensic Speaker Recognition Evaluation que llevaron a cabo el Instituto Forense Neerlandés y la Organización Neerlandesa de Investigaciones Cientı́ficas Aplicadas (Nederlandse Organisatie voor Toegepast
Natuurwetenschappelijk Onderzoek, NFI-TNO) y que tuvo lugar en otoño del
año 2003 incluı́a una evaluación de los resultados de la relación de verosimilitud (van Leeuwen y Bouten, 2004), y el National Institute of Standards and
Technology (estadounidense) Speaker Recognition Evaluations (NIST SRE)
adoptó en el año 2006 (aunque sus objetivos no son principalmente forenses)
la evaluación del Cllr basada en la relación de verosimilitud.
A mediados de la década, los grupos de Lausana y Madrid publicaron importantes artı́culos describiendo el marco de la relación de verosimilitud y su
uso en el cálculo automático de las relaciones de verosimilitud utilizando bancos de datos (González Rodrı́guez y otros, 2006, 2007; Botti y otros, 2004;
Alexander y otros, 2005; Drygajlo, 2007).
En la conferencia Interspeech de la ISCA que tuvo lugar en septiembre del
2008, Joaquı́n González Rodrı́guez fue uno de los principales ponentes y el
marco de la relación de verosimilitud constituyó su tema central. También en
Interspeech 2008, Yuko Kinoshita, Geoffrey-Stewart Morrison (ambos miembros del grupo de Canberra, ver la sección 2.3.3) y Daniel Ramos (miembro
del grupo de Madrid) presentaron una breve guı́a expositiva sobre la relación
Geoffrey-Stewart Morrison
22
de verosimilitud en la comparación forense de la voz (tanto automática como
acústico-fonética).
2.3.3. Implementación del nuevo paradigma en la comparación forense acústico-fonética de la voz El grupo de trabajo de Canberra, Australia, ha sido
pionero en la comparación forense acústico-fonética de la voz a base de datos
dentro del marco de la relación de verosimilitud. El primer resultado producido por este grupo fue la tesis doctoral de Yuko Kinoshita, finalizada en el año
2001. En los años 2002 y 2003 Philip Rose publicó un libro y un capı́tulo de
un libro sobre la utilización de la relación de verosimilitud en la comparación
forense de la voz, el primero dirigido principalmente a fonetistas y el segundo
a abogados. Aunque ahora ya está un poco anticuado, Rose (2002) se ha convertido en una referencia estándar en la comparación forense acústico-fonética
de la voz utilizando la relación de verosimilitud.
Philip Rose ha sido el autor de algunas otras exposiciones del uso del marco de la relación de verosimilitud en la comparación forense acústico-fonética
de voz que se han publicado como artı́culos de revistas a mediados de la década (Rose, 2006, 2005), y (Morrison, 2009b; Rose y otros, 2003; Kinoshita,
2005; Morrison, 2008) son algunos de los artı́culos que el grupo de Canberra
ha publicado en revistas para informar de los resultados de sus investigaciones.
Recientemente, Cuiling Zhang, de la Universidad de la Policı́a Criminalı́stica
China en Shenyang, ha colaborado con el grupo de Canberra, desarrollando
la primera comparación forense acústico-fonética de la voz en lengua china a
base de datos en el marco de la relación de verosimilitud (Zhang y otros, 2008;
Zhang y Rose, 2008).
En 2008 se publicó una reseña sobre fonética forense por Michael Jessen
de la Bundeskriminalamt (BKA, Oficina Federal de Investigación Criminal de
Alemania). En ella, Jessen recomienda adoptar el marco de la relación de verosimilitud. Al contrario de lo que ocurre entre la comunidad de practicantes de
la comparación forense automática de la voz, en la comunidad de la comparación forense acústico-fonética de la voz los que trabajan en el nuevo paradigma
representan una minorı́a.
2.3.4. Combinación de los enfoques automático y acústico-fonético en el nuevo paradigma Hay un creciente interés por combinar aspectos del enfoque
automático y del enfoque acústico-fonético de la comparación forense de la
voz en el nuevo paradigma. Philip Rose y Geoffrey-Stewart Morrison, del grupo de Canberra, están actualmente trabajando en este tema en un proyecto de
investigación patrocinado por el Consejo de Investigación de Australia (Aus-
Geoffrey-Stewart Morrison
23
tralian Research Council) desde 2007 a 2010. Ello implica colaborar con el
grupo de Madrid y con el grupo de la University of New South Wales en Sidney, Australia, el cual empezó a trabajar en la comparación forense de la voz
en 2007 (Tharmarajah Thiruvaran, Eliathamby Ambikairajah, y Julien Epps
(2008) realizaron la primera publicación sobre la comparación forense de la
voz del grupo de Sidney). Otro proyecto que investiga los enfoques automático y acústico-fonético de la comparación forense de la voz es una colaboración
entre el BKA, el Ministerio de Justicia de Rumania y la Academia de Ciencias
de Austria, patrocinado por la Unión Europea desde el año 2008 hasta el 2010
(la primera publicación en este proyecto fue llevada a cabo por Timo Becker, Michael Jessen, y Catalin Grigoras (2008). Asimismo, Geoffrey-Stewart
Morrison organizó una sesión especial sobre la combinación del enfoque automático y el acústico-fonético en el Interspeech 2008, incluyendo trabajos
de los grupos de Canberra, Unión Europea, Madrid y Sidney. Entre los artı́culos de revistas que combinan las técnicas acústico-fonética y automática se
enmarcan (González Rodrı́guez y otros, 2007; Morrison, 2009b). La especialidad de Fonética Judicial en el Máster de Fonética y Fonologı́a del programa
de posgrado que imparte el Consejo Superior de Investigaciones Cientı́ficas y
la Universidad Menéndez Pelayo en España desde el año 2008 ya incluye enseñanzas sobre la comparación forense de la voz dentro del nuevo paradigma
tanto con el enfoque acústico-fonético como con el automático.
2.4.
La adopción del nuevo paradigma por los peritos forenses, la policı́a,
y los tribunales
2.4.1. España La única jurisdicción donde se puede decir que la comparación forense de la voz es práctica común utilizando implementaciones del
marco de la relación de verosimilitud a base de datos es en España. En 1997,
la Guardia Civil empezó a financiar investigaciones para desarrollar un sistema automático de comparación forense de la voz y en el año 2004 empezaron
a crear banco de datos de voces españolas. La investigación fue dirigida por
el grupo de Madrid que inicialmente estaba en la Universidad Politécnica de
Madrid y que se trasladó a la Universidad Autónoma de Madrid en el año 2005.
Ya en el año 2005 el sistema, llamado IdentiVox, daba como resultados razones
de verosimilitud, los que la Guardia Civil consideraba suficientemente válido
para mandarlos a los tribunales. En número de informes por año mandados a
los juzgados fue de 30 en el año 2005, 59 en el 2006, 74 en el 2007 y 98 en
el 2008 (comunicación personal de José Juan Lucena Molina en febrero del
2009). Una versión comercial del sistema IdentiVox, el Batvox, se comercializa a otras agencias del mantenimiento de orden público por una compañı́a
Geoffrey-Stewart Morrison
24
creada para este fı́n, Agnitio, con clientes en varios paı́ses incluyendo Chile,
China, Colombia, Francia, Finlandia, Alemania, Malasia, México, Corea del
Sur, y el Reino Unido.
2.4.2. Australia En Australia, las investigaciones sobre comparación forense de la voz se llevan a cabo generalmente por investigadores radicados en la
universidad. Hasta la fecha, sólo se han presentado ante los tribunales dos informes de comparación forense de la voz con presentación de relaciones de
verosimilitud a base de datos, ambos eran acústico-fonéticos y fueron presentados por Philip Rose, uno en Victoria en el año 2007 y otro en Nueva Gales
del Sur en el 2008. En escritos no judiciales, el Honourable David Hargraves Hodgson, juez de apelación de la corte suprema de Nueva Gales del Sur,
vertió comentarios favorables acerca de los enfoques bayesianos para la evaluación y la presentación de evidencias forenses, incluyendo las evidencias
de comparación forense de la voz (Hodgson, 2002, 2007). En el momento en
que se escribe este artı́culo (septiembre del 2009) miembros de los grupos
de investigación de Canberra, Sidney y Madrid, en colaboración con el Instituto Nacional Australiano de Ciencias Forenses (National Insitute of Foresnic
Science), la Asociación Australasiática de la Ciencia y la Tecnologı́a del Habla
(Austalasian Speech Science and Technology Association) y los laboratorios
forenses de la Policı́a Federal de Australia, la policı́a de Australia del Oeste
y la Guardia Civil de España están preparando una propuesta para financiar
una investigación y desarrollar la infraestructura necesaria con el objetivo de
que la comparación forense de voz dentro del marco de la relación del verosimilitud con validez y fiabilidad demostrables, sea una práctica real diaria en
Australia. Si se consigue la financiación, el proyecto combinara los enfoques
acústico-fonético y automático e incluirá la elaboración de un banco de datos
de grabaciones de aproximadamente 1000 hablantes de diferentes partes de
Australia.
2.4.3. Otros paı́ses No he podido obtener información concreta sobre la
adopción del nuevo paradigma en investigaciones de comparación forense de
la voz en otros paı́ses. Agradecerı́a cualquier información relevante sobre este
tema.
2.5.
Resistencia al cambio de paradigma
Según Kuhn (1962, cap.12), un cambio de paradigma en general no se
impone por completo debido a que sus proponentes propongan argumentos y
Geoffrey-Stewart Morrison
25
evidencias empı́ricas que convenzan a todos los que apoyan el antiguo paradigma. Más bien, un cambio de paradigma en general se impone definitivamente
cuando sus opositores mueren (págs. 150–151). La resistencia al cambio es un
aspecto perfectamente comprensible de la naturaleza humana, especialmente si
uno ha construido su reputación a base de años de experiencia en el trabajo con
el antiguo paradigma o si uno tiene intereses comerciales en la continuación
del antiguo paradigma. Pero la resistencia al cambio puede deberse también a
la creencia auténtica de que el antiguo paradigma permitirá solucionar en última instancia todos los problemas importantes y que no es necesario cambiar de
paradigma. De hecho, si los cientı́ficos adoptaran con mucha rapidez los nuevos paradigmas, la comunidad cientı́fica estarı́a sometida a un flujo constante
y no se podrı́an observar largos periodos de ciencia normal productiva.
Dadas las observaciones de Kuhn (publicadas en 1962), no es sorprendente
constatar que ha existido una considerable resistencia al cambio de paradigma
en las ciencias de la comparación forense. En 1977, la propuesta de D. V. Lindley en el congreso de la Royal Statistical Society / Institute of Statisticians en el
sentido de implementar un marco bayesiano completo encontró una oposición
vehemente: “I believe Lindley’s suggestion is not only mad, it is extremely dangerous” 16 R. A. Carr Hill (Lindley, 1977, pág. 216). I. W. Evett (1991) expuso
cómo en los años 80 habı́a tenido graves dificultades en publicar sus trabajos
iniciales con el enfoque bayesiano: “A paper which I submitted . . . was savaged by the referees and rejected without a single word of encouragement. A
paper which I presented at a colloquium . . . met a response which bordered
on the abusive. . . [; however,] When, several years later, I did succeed in having a Bayesian paper published . . . it was given the . . . Award for the best
paper of the year!” 17 (pág. 12). Evett (1991) describe su propia experiencia
de conversión en los años 70, incluyendo las discusiones con D. V. Lindley, en
las que inicialmente defendı́a para la comparación forense de los fragmentos
de cristales un enfoque estadı́stico de frecuencias en dos fases, si bien al final
acabó siendo un proponente del enfoque bayesiano. También describe haber
experimentado un sentimiento de déjà vu, cuando se plantearon una vez más
los mismos temas con el surgimiento de la comparación de los perfiles de ADN,
hacia el final de los años 80. Como se ha mencionado anteriormente (sección
2.3.2), a fines de los años 90 el grupo de comparación forense de la voz de
16
“Creo que la sugerencia de Lindley no sólo es una locura, sino que es extremadamente
peligrosa”.
17
Un artı́culo que envié . . . fue atacado salvajemente por los consultores y fue rechazado sin
una sola palabra de aliento. Un artı́culo que presenté en un coloquio. . . encontró una respuesta
que bordeaba lo abusivo. . . [; no obstante,] Cuando varios años después, logré publicar con
éxito un artı́culo con enfoque bayesiano. . . le dieron. . . ¡el premio del año!.
Geoffrey-Stewart Morrison
26
Lausana también era objeto de la hostilidad de un miembro de la audiencia en
respuesta a una presentación en un congreso y recibı́a revisiones negativas de
algunos artı́culos enviados a revistas.
Buckleton (2005) resume algunas de las objeciones a la adopción del marco de la relación de verosimilitud en el análisis forense del ADN, y argumenta
que muchas de ellas son debidas a una falta de entendimiento del marco de
la relación de verosimilitud, o son problemas que afectan de la misma manera
a todos los marcos. También argumenta que las dificultades reales en la implementación no son insuperables y que en algunas situaciones sólo el marco
de la relación de verosimilitud es lógicamente defendible. Señala la dificultad
de resumir lo que el denomina el enfoque frecuentista, ya que sus proponentes nunca han explicitado su definición y su lógica. Mientras que el enfoque
frecuentista puede parecer el candidato más prometedor del paradigma preexistente, no está claro que alguna vez llegue a constituir un único marco coherente
aceptado como paradigma de trabajo por la mayorı́a de los cientı́ficos forenses.
La falta de entendimiento del marco de la relación de verosimilitud parece
ser también un factor que influye en la resistencia a adoptarlo en la comparación forense de la voz y en la lingüı́stica forense. Por ejemplo, Coulthard y
Johnson (2007) presentan un cuadro más bien negativo del marco de la relación de verosimilitud, particularmente crı́tico con el trabajo de Rose, pero en
las tres páginas y media que dedican al tema hay seis inexactitudes. Morrison
(2009a) argumenta que, entendiendo correctamente el marco de la relación de
verosimilitud, la mayorı́a de las objeciones de Coulthard y Johnson pueden
descartarse.
Según Kuhn (1962), normalmente un cambio de paradigma se precipita
cuando existe la conciencia generalizada de que se está produciendo una crisis,
cuando un gran número de cientı́ficos reconocen que hay problemas tan serios
que no parece posible resolverlos dentro del paradigma al uso. En la comparación forense de la voz el origen de la crisis parece ser fundamentalmente
externo, ocasionado por algunos veredictos judiciales como el de Daubert,
Adams, y Doheny y Adams; por el desarrollo de otras ramas de las ciencias
forenses, en particular la comparación de perfiles de ADN, y por informes,
recomendaciones y estándares como el informe del NRC (2009), el Law Commission of England and Wales Consultation Paper (2009), y los Standards for
the Formulation of Evaluative Forensic Science Expert Opinion de la Association of Forensic Science Providers (2009). Varios cientı́ficos forenses del habla
con base en el Reino Unido reconocieron la existencia de una crisis entre el
año 2005 y 2007 y emitieron conjuntamente una declaración de su postura con
respeto a lo que ellos consideraban un marco correcto para la evaluación y
Geoffrey-Stewart Morrison
27
presentación de las evidencias de la comparación forense de la voz (French y
Harrison, 2007). No obstante, no adoptaron el nuevo paradigma que aquı́ se
ha descrito. De hecho, yo interpreto su acción como un intento de resistencia
a la presión de adoptar el nuevo paradigma para, en su lugar, crear y promover un paradigma alternativo que más cercano a su práctica previa y por tanto
más fácil para ellos de llevar a la práctica. Aunque presentan su marco como
capaz de proporcionar correctamente la probabilidad de las pruebas dadas las
hipótesis opuestas, dicho marco es incoherente y en dos casos defienden que
se efectúen estipulaciones de exclusión o identificación con probabilidades a
posteriori: “we see no logical flaw in making the statement that the samples are
spoken by different speakers” 18 (pág. 141). “we consider it justified to make
categorical statements of identification” 19 (pág. 142). El marco es realmente un marco en dos fases, calculando secuencialmente similitud y tipicidad, y
evoca los marcos que habı́an estado empleándose en otras ciencias de la comparación forense, incluyendo el ADN, antes de ser substituidos por el marco de
la relación de verosimilitud (Foreman y otros, 2003; Evett, 1991). La validez y
la fiabilidad no se mencionan en su manifiesto, y no sé de ninguna publicación
que compruebe la validez y la fiabilidad de la comparación forense de la voz
llevada a cabo con su marco. En Rose y Morrison (2009) se puede leer una
crı́tica completa de la postura del grupo del Reino Unido.
El manifiesto del grupo del Reino Unido (French y Harrison, 2007) termina diciendo: “Finally, we accept in principle the desirability of considering
the task of speaker comparison in a likelihood ratio (including Bayesian) conceptual framework. However, we consider the lack of demographic data along
with the problems of defining relevant reference populations as grounds for
precluding the quantitative application of this type of approach in the present
context.” 20 (p. 142). Teniendo en cuenta esta afirmación, no está claro por
qué los autores del manifiesto no han implementado el marco de la relación de
verosimilitud utilizando estimaciones de la probabilidad de la evidencia dadas
las hipótesis opuestas que estuvieran basadas en la experiencia. Al menos uno
de los firmantes del manifiesto rechaza explı́citamente esta posibilidad: “Where it is not possible to express an opinion in this way – which is in reality almost
18
no vemos ningún defecto lógico en hacer declaraciones en el sentido de que las muestras
han sido producidas por diferentes hablantes.
19
consideramos justificado hacer afirmaciones categóricas de identificación.
20
Para terminar, en principio aceptamos la conveniencia de abordar la comparación del hablante en el marco conceptual de la relación de verosimilitud (incluso en un marco bayesiano).
Sin embargo, consideramos que la falta de datos demográficos junto con los problemas para definir la poblaciones relevantes justifican la exclusión de la implementación cuantitativa de este
tipo de enfoque dentro el contexto actual.
Geoffrey-Stewart Morrison
28
always, because in most cases we lack population statistics on the distribution
of speech features even in well-described languages like English – the use of
likelihood statistics should be avoided altogether.” 21 (Watt, 2009, pág 84) . El
marco de la relación de verosimilitud es un marco conceptual, y no es dependiente en sı́ mismo de los datos, de modo que una implementación del marco
de la relación de verosimilitud basada en la experiencia serı́a defendible si se
acompañara de pruebas de validez y fiabilidad. Evett (1991, pág. 21) comenta:
“For an expert to say ‘I think this is true because I have been doing this job
for x years’ is, in my view, unscientific. On the other hand, for an expert to
say ‘I think this is true and my judgement has been tested in controlled experiments’ is fundamentally scientific.” 22 . Considero que la validez y la fiabilidad
demostrables son aspectos esenciales del nuevo paradigma y que el análisis
cuantitativo basado en los datos es una faceta muy deseable; si se puede demostrar que las relaciones de verosimilitud calculadas por un humano experto
basándose en la experiencia son más válidas y fiables que un sistema basado
en datos cuantitativos, entonces personalmente preferirı́a el sistema basado en
la experiencia al sistema basado en los datos. También, aunque soy un proponente de la implementación del marco de la relación de verosimilitud basada
en datos cuantitativos, puedo concebir circunstancias excepcionales en las que
serı́a esencialmente imposible recopilar datos significativos de la población,
pero en las que los testimonios basados en la experiencia serı́an valorables en
un juicio.
Aunque la mayor parte del manifiesto del grupo del Reino Unido parece
estar interesado en ofrecer una alternativa al marco de la relación de verosimilitud como componente del nuevo paradigma, las siguientes citas rechazan,
más bien al contrario, el componente que requiere el uso de datos: “we consider the lack of demographic data along with the problems of defining relevant
reference populations as grounds for precluding the quantitative application of
this type of approach in the present context.” 23 (pág. 142). Esto no es sólo un
rechazo de la implementación basada en los datos del marco de la relación de
21
Cuando no es posible expresar una opinión de este modo – lo que en realidad ocurre casi
siempre porque en la mayorı́a de los casos carecemos de estadı́sticas de población sobre la
distribución de las caracterı́sticas del habla incluso en lenguas bien descritas como el inglés – el
uso de estadı́sticas de verosimilitud debe evitarse por completo.
22
Que un experto diga ‘Pienso que esto es verdad porque he estado haciendo este trabajo
durante x años’ no es, bajo mi punto de vista, cientı́fico. Por otro lado, que un experto diga
‘Pienso que esto es verdad y mi opinión se ha comprobado en experimentos controlados’ es
básicamente cientı́fico.
23
consideramos que la falta de datos demográficos junto con los problemas para definir las
poblaciones relevantes justifican la exclusión de la implementación cuantitativa de este tipo de
enfoque en el contexto actual.
Geoffrey-Stewart Morrison
29
verosimilitud, sino un rechazo de todos los marcos basados en datos (debido
al problema de recopilación) y un rechazo de todos los marcos que consideran
la tipicidad (debido al problema de definir poblaciones relevantes), lo que lógicamente incluirı́a al propio marco de su manifiesto (French y Harrison, 2007).
Definir la población relevante en una muestra para calcular el componente de
tipicidad de la relación de verosimilitud, y el coste que implica el trabajo de
recopilación y el análisis de las muestras de la población relevante son problemas reales que necesitan solución (Aitken y Taroni, 2004, pág. 274–271; Lucy,
2005, pág. 129–133). También eran problemas para el desarrollo de la comparación forense de los perfiles de ADN, pero la considerable inversión llevada a
cabo en investigación y en el desarrollo de bancos de datos de perfiles de ADN
ha significado que estos problemas no suponen ahora un impedimento frecuente para la práctica de las investigaciones (Foreman y otros, 2003). No veo razones por las que, con suficiente inversión en investigación e infraestructura,
no serı́a también posible resolver estos problemas respecto a la implementación práctica de la comparación forense de la voz en el nuevo paradigma. Esto
será claramente más difı́cil en lugares como el Reino Unido, con posiciones
dialécticas más heterogéneas que las relativamente más homogéneas de otros
lugares como Australia, pero si uno acepta cualquier paradigma basado en los
datos, entonces eso supone un acicate para llevar a cabo más investigaciones
en vez de abandonar el paradigma. De hecho, la mayor heterogeneidad en las
posiciones dialécticas puede en última instancia llevar a que la comparación
forense de la voz sea más útil para el juzgador de los hechos: la heterogeneidad dialectal pudiera conducir a una mayor variación entre hablantes con el
potencial de relaciones de verosimilitud mayores, o podrı́a conducir a que el
juzgador de los hechos tuviera que considerar una población potencial de delincuentes de tamaño más reducido.
Finalmente, la experiencia que yo tengo es que algunos de los opositores al
nuevo paradigma creen erróneamente que sus defensores lo consideran como
la solución inmediata de todos los problemas existentes, lo que ellos juzgan
equivocado: pueden enumerar muchos problemas que el nuevo paradigma no
resuelve. Tal como lo define Kuhn (1962), no obstante, un paradigma no resuelve los problemas existentes, más bien proporciona una forma de entender y
resolverlos. Un nuevo paradigma solo tendrá éxito potencialmente si se muestra capaz de ofrecer mejores vı́as de resolución de los problemas. Un nuevo
paradigma puede incluso generar nuevos problemas que no existı́an en el viejo
paradigma, por ejemplo, para alguien acostumbrado a realizar la comparación
forense basada en la experiencia, el componente basado en datos del nuevo
paradigma presenta nuevos problemas prácticos muy serios. Un ejemplo de
Geoffrey-Stewart Morrison
30
problema que los opositores del nuevo paradigma utilizan para argumentar en
contra de su adopción es el siguiente: Los hablantes se diferencian en cuanto
a la lengua y los dialectos que hablan, y los locutores individuales difieren en
el estilo de habla que emplean en unas ocasiones y otras, por ejemplo, algunas
veces pueden hablar con calma y, otras, irritados. La diferencia entre un habla
calmada y otra enfadada en un dialecto puede ser distinta a la que existe entre
habla calmada y enfadada en otro dialecto y no es práctico recopilar datos de
habla calmada y enfadada en todos las lenguas y dialectos. No obstante, esto
describe un problema que existe y que necesita resolverse independientemente
de qué paradigma se haya adoptado: En cualquier paradigma que se base en
datos se necesita tenerlos para la lengua, el dialecto y el estilo de habla relevantes, ası́ como en cualquier paradigma basado en la experiencia se necesita
tener experiencia con la lengua, el dialecto y el estilo de habla relevantes; el
coste que implica la recopilación de tales datos o la adquisición de tal experiencia tiene que pagarse en cualquier caso. El hecho de que las diferencias
debidas a los estilos de habla se manifiesten de diferentes maneras en los diferentes dialectos es algo irrelevante. Si uno está trabajando en un caso particular,
entonces el caso define qué combinaciones de lenguas, dialectos y estilos de
habla son relevantes, y si uno está llevando a cabo una investigación general
con vistas a una posible investigación futura, entonces, uno presumiblemente decidirá con qué lenguas, dialectos y estilos de habla trabajar de acuerdo
con lo que uno piense que será más útil en el futuro. El nuevo paradigma en
realidad deja claro cómo se debe proceder: se deben recopilar grabaciones de
audio de los hablantes de la lengua y dialecto relevantes; para cada hablante
se debe obtener al menos una grabación de voz calmada y otra grabación de
voz enfadada; se debe elaborar un sistema de comparación forense de la voz;
y se debe calcular la validez y fiabilidad de este sistema con datos de prueba consistentes en pares de grabaciones de voz, una calmada y otra enfadada.
Probablemente hay dos maneras de resolver el problema, bien analizando las
propiedades acústicas que son resistentes a las diferencias de estilo de habla, o
bien construyendo modelos estadı́sticos que puedan predecir y compensar las
diferencias en las propiedades de la voz debidas a las diferencias en el estilo
de habla. Los detalles de las posibles soluciones no son parte del paradigma,
pero el paradigma proporciona un medio por el que se puede calcular y decidir
cuál de las posibles soluciones es la mejor.
3. Conclusión
Con base en mi interpretación del cambio de paradigma en las ciencias de
la comparación forense descrito por primera vez por Saks y Koehler (2005),
Geoffrey-Stewart Morrison
31
el nuevo paradigma se puede caracterizar como una implementación cuantitativa basada en los datos del marco de la relación de verosimilitud, con una
evaluación cuantitativa de la validez y fiabilidad del peso calculado de la evidencia. El nuevo paradigma fue adoptado en la comparación forense del ADN
en los años 90 y en la última década ha comenzado a extenderse en el ámbito de la comparación forense de la voz. Existen importantes problemas en la
implementación del nuevo paradigma, en particular, el problema práctico que
supone la recopilación y el análisis de grandes bancos de datos de voz grabada.
Resolver estos problemas hasta el punto en el que la comparación forense de
la voz en el nuevo paradigma pueda llegar a ser realmente una práctica diaria
en muchas partes del mundo supondrá una inversión substancial en recursos.
Se ha gastado una gran cantidad de dinero en el desarrollo de infraestructura
e investigación para la comparación forense de los perfiles de ADN. Espero
que los organismos de financiación atiendan el llamamiento del Consejo Nacional de Investigación de los Estados Unidos (US National Research Council)
(NRC, 2009) y proporcionen una financiación adecuada para desarrollar las
otras ramas de las ciencias forenses incluyendo la comparación forense de la
voz.
Reconocimientos
La elaboración de este artı́culo ha sido financiada por Australian Research
Council Discovery Project Grant No DP0774115. Agradezco a Didier Meuwley, Philp Rose, Yuko Kinoshita, Michael Jessen, Cuiling Zhang y a dos revisores anónimos el debate de las ideas y los comentarios de los borradores de
este artı́culo.
Referencias
A ITKEN, C.G.G. y TARONI, F. (2004). Statistics and the Evaluation of Forensic Evidence for Forensic Scientist. Wiley, Chichester, UK, 2ndedición.
A LEXANDER, A.; D ESSIMOZ, D.; B OTTI, F. y D RYGAJLO, A. (2005). ((Aural
and automatic forensic speaker recognition in mismatched conditions, International Journal of Speech)). International Journal of Speech Language and
the Law, 12, p. 214–234.
BALDING, D.J. (2005). Weight-of-evidence for Forensic DNA Profiles. Wiley,
Chichester, UK.
B ECKER, T.; J ESSEN, M. y G RIGORAS, C. (2008). ((Forensic speaker verification using formant features and Gaussian mixture models)). En: Proceedings
Geoffrey-Stewart Morrison
32
of Interspeech 2008 Incorporating SST 2008, p. 1505–1508. International
Speech Communication Association.
B IMBOT, F.; B ONASTRE, J.-F.; F REDOUILLE, C.; G RAVIEER, G.; M ARGRIN
C HAGNOLLEAU, I.; M EIGNIER, S.; M ERLIN, T.; O RTEGA G ARC ÍA, J.;
P ETROVSKA D ELACR ÉTAZ, D. y R EYNOLDS, D.A. (2004). ((A tutorial
on text-independent speaker verification)). EURASIP Journal on Applied
Signal Processing, 4, p. 430–451.
B OTTI, F.; A LEXANDER, A. y D RYGAJLO, A. (2004). ((On compensation
of mismatched recording conditions in the Bayesian approach for forensic
automatic speaker recognition)). Forensic Science International, 146, pp.
S101–S106. ISSN 0379-0738. doi: 10.1016/j.forsciint.2004.09.032.
B ROEDERS, A.P.A. (1995). ((The role of automatic speaker recognition techniques in forensic investigations)). En: Proceedings of the International
Congress of Phonetic Sciences, volumen 3, p. 154–161. Stockholm.
—— (2001). ((Forensic speech and audio analysis forensic linguistics: 1998
to 2001 A review)). En: 13th Interpol Forensic Science Symposium, pp. D2–
53–D2–54. Interpol, Lyon, France.
—— (2004). ((Forensic speech and audio analysis forensic linguistics: A review: 2001 to 2004)). En: 14th Interpol Forensic Science Symposium, p.
171–188. Interpol, Lyon, France.
B R ÜMMER, N.; B URGET, L.; C ERNOCKY, J.H.; G LEMBEK, O.; G REZL, F.;
K ARAFIAT, M.; VAN L EEUWEN, D.A.; M ATEJKA, P.; S CHWARZ, P. y
S TRASHEIM, A. (2007). ((Fusion of heterogenous speaker recognition systems in the STBU submission for the NIST SRE 2006,)). EEE Transactions on Audio, Speech and Language Processing, 15, p. 2072–2084. doi:
10.1109/TASL.2007.902870.
B R ÜMMER, N. y DU P REEZ, J. (2006). ((Application independent evaluation
of speaker detection)). Computer Speech and Language, 20, p. 230–275. doi:
10.1016/j.csl.2005.08.001.
B UCKLETON, J. (2005). ((A framework for interpreting evidence)). En: J. Buckleton; C.M. Triggs y S.J. Walsh (Eds.), Forensic DNA Evidence Interpretation, p. 27–63. CRC, Boca Raton, FL.
B UCKLETON, J.; T RIGGS, C.M. y WALSH, S.J. (2005). Forensic DNA Evidence Interpretation. CRC, Boca Raton, FL.
Geoffrey-Stewart Morrison
33
C AMBIER L ANGEVALD, T. (2007). ((Current methods in forensic speaker
identification: Results of a collaborative exercise)). International Journal
of Speech, Language and the Law, 14, p. 223–243. doi: 10.1558/ijsll.2007.
14.2.223.
C HAMPOD, C. y M EUWLY, D. (1998). ((The inference of identity in forensic speaker recognition)). En: Proceedings of RLA2C Workshop: Speaker
Recognition and its Commercial and Forensic Applications, p. 125–135.
—— (2000). ((The inference of identity in forensic speaker recognition)).
Speech Communication, 31, p. 193–203.
C OMMISSION, L AW (2009). The Admissibility of Expert Evidence in Criminal
Proceedings in England and Wales: A New Approach to the Determination
of Evidentiary Reliability. The Stationery Office, London, UK.
http://www.lawcom.gov.uk/expert_evidence.htm
C OOK, R.; E VETT, I.W.; JACKSON, G.; J ONES, P.J. y L AMBERT, J.A. (1998).
((A hierarchy of propositions: deciding which level to address in casework)).
Science & Justice, 38, p. 231–239. doi: 10.1016/S1355-0306(98)72117-3.
C OULTHARD, M. y J OHNSON, A. (2007). An Introduction to Forensic Linguistics: Language in Evidence. Routledge, London, UK.
D ONNELLY, P. (2005). ((Appealing statistics)). Significance, 2, p. 46–48. doi:
10.1111/j.1740-9713.2005.00089.x.
D RYGAJLO, A. (2007). ((Forensic automatic speaker recognition)). IEEE Signal Processing Magazine, 24(2), pp. 132–135. ISSN 1053-5888.
E VETT, I.W. (1990). ((The theory of interpreting scientific transfer evidence)).
Forensic Science Progress, 4, p. 141–179.
—— (1991). ((Interpretation: A personal odyssey)). En: C.G.G. Aitken y D.A.
Stoney (Eds.), The Use of Statistics in Forensic Science, p. 9–22. Ellis Horwood, Chichester, UK.
—— (1998). ((Towards a uniform framework for reporting opinions in forensic science case-work)). Science & Justice, 38, p. 98–202. doi: 10.1016/
S1355-0306(98)72105-7.
E VETT, I.W. y B UCKLETON, J.S. (1996). ((Statistical analysis of STR data)).
En: A. Carraredo; B. Brinkmann y W. Bär (Eds.), Advances in Forensic Haemogenetics, volumen 6, p. 79–86. Springer-Verlag, Heidelberg, Germany.
Geoffrey-Stewart Morrison
34
E VETT, I.W.; JACKSON, G.; L AMBERT, J.A. y M C C ROSSAN, S. (2000).
((The impact of the principles of evidence interpretation on the structure and content of statements)). Science & Justice, 40, p. 233–239. doi:
10.1016/S1355-0306(00)71993-9.
F OREMAN, L.A.; C HAMPOD, C.; E VETT, I.W.; L AMBERT, J.A. y P OPE, S.
(2003). ((Interpreting DNA evidence: A review)). International Statistics
Journal, 71, p. 473–473.
F RENCH, J.P. y H ARRISON, P. (2007). ((Position statement concerning use
of impressionistic likelihood terms in forensic speaker comparison cases)).
International Journal of Speech, Language and the Law, 14, p. 137–144.
doi: 10.1558/ijsll.v14i1.137.
G ONZ ÁLEZ RODRIGUEZ, J.; O RTEGA G ARC ÍA, J. y L UCENA M OLINA, J.J.
(2001). ((On the application of the Bayesian Framework to real forensic
conditions with GMM-based systems)). En: Proceedings of 2001: A Speaker
Odyssey, The Speaker Recognition Workshop, pp. 135–138.
G ONZ ÁLEZ RODR ÍGUEZ, J.; D RYGAJLO, A.; R AMOS C ASTRO, D.; G ARC ÍA
G OMAR, M. y O RTEGA G ARC ÍA, J. (2006). ((Robust estimation, interpretation and assessment of likelihood ratios in forensic speaker recognition)).
Computer Speech and Language, 20, p. 331–355. doi: 10.1016/j.csl.2005.
08.005.
G ONZ ÁLEZ RODR ÍGUEZ, J.; ROSE, P.; R AMOS, D.; T OLEDANO, D.T. y
O RTEGA G ARC ÍA, J. (2007). ((Emulating DNA: Rigorous quantification
of evidential weight in transparent and testable forensic speaker recognition)). IEEE Transactions on Audio, Speech, and Language Processing, 15,
p. 2104–2115. doi: 10.1109/TASL.2007.902747.
G RUBER, J.S. y P OZA, F. (1995). Voicegram Identification Evidence. volumen 54. American Jurisprudence Trials, Westlaw.
H ODGSON, D. (2002). ((A lawyer looks at Bayes’ Theorem)). The Australian
Law Journal, 76, p. 109–118.
—— (2007). ((Speaker identification - a judicial perspective)). En: Paper
presented at the Australian Research Council Human Communications Network Workshop on Forensic Speaker Recognition (FSI not CSI: Perspectives
in State-of-the-Art Forensic Speaker Recognition), Sydney, New South Wales, Australia.
http://forensic-voice-comparison.net
Geoffrey-Stewart Morrison
35
J ESSEN, M. (2008). ((Forensic phonetics)). Language and Linguistics Compass, 2, p. 671–711. doi: 10.1111/j.1749-818x.2008.00066.x.
K AYE, D.H. y S ENSABAUGH J R ., G.F. (2008). ((Modern Scientific Evidence:
The Law and Science of Expert Testimony)). Thomson West, 4, p. 83–224.
K ERSTA, L. G. (1962).
1253–1257.
((Voiceprint identification)).
Nature, 196, p.
K INOSHITA, Y. (2001). Testing Realistic Forensic Speaker Identification in Japanese: A Likelihood Ratio Based Approach Using Formants. Tesis doctoral,
Australian National University, Canberra, Australia.
—— (2005). ((Does Lindley’s LR estimation formula work for speech data? Investigation using long-term f0)). International Journal of Speech, Language
and the Law, 12, p. 235–254.
K UHN, T.S. (1962). The Structure of Scientific Revolutions. University of
Chicago Press, Chicago, IL.
—— (1970). The Structure of Scientific Revolutions. University of Chicago
Press, Chicago, IL, 2a edición.
K WAN, Q.Y. (1977). Inference of Identity of Source. Tesis doctoral, University
of California, Berkeley, USA.
L EWIS, S.R. (1984). ((Philosophy of speaker identification. Police applications
of speech and tape recording analysis)). En: Proceedings of the Institute of
Acoustics, volumen 6, p. 69–77.
L INDLEY, D.V. (1977). ((Probability and the law)). The Statistician, 26, p.
203–220.
L UCY, D. (2005). Introduction to Statistics for Forensic Scientists. Wiley,
Chichester, UK.
M EUWLY, D. (2001). Reconnaissance de locuteurs en sciences forensiques:
l’apport d’une approche automatique. Tesis doctoral, University of Lausanne, Lausanne, Switzerland.
—— (2006). ((Forensic individualisation from biometric data)). Science &
Justice, 38, p. 198–202. doi: 10.1016/S1355-0306(06)71600-8.
Geoffrey-Stewart Morrison
36
M EUWLY, D. y D RYGAJLO, A. (2000). ((Reconnaissance automatique de locuteurs en sciences forensiques: Modélisation de la variabilité intralocuteur
et interlocuteur)). En: Proceedings of 5éme Congrès Français d’Acoustique,
p. 522–525.
—— (2001). ((Forensic speaker recognition based on a Bayesian framework
and Gaussian Mixture Modelling (GMM))).
M EUWLY, D.; E L -M ALIKI, M. y D RYGAJLO, A. (1998). ((Forensic speaker
recognition using Gaussian mixture models and a Bayesian framework)). En:
Proceedings of the COST-250 Workshop, Ankara, Turkey.
M ORRISON, G.S. (2008). ((Forensic voice comparison using likelihood ratios
based on polynomial curves fitted to the formant trajectories of Australian
English /aI/)). International Journal of Speech, Language and the Law, 15,
p. 247–264. doi: 10.1558/ijsll.v15i2.249.
—— (2009a). ((Comments on Coulthard & Johnson’s portrayal of the
likelihood-ratio framework)). Australian Journal of Forensic Sciences, 41,
p. 155–161. doi: 10.1080/00450610903147701.
—— (2009b). ((Likelihood-ratio forensic voice comparison using parametric
representations of the formant trajectories of diphthongs)). Journal of the
Acoustical Society of America, 125, p. 2387– 2397. doi: 10.1121/1.3081384.
M ORRISON, G.S. y K INOSHITA, Y. (2008). ((Automatic-type calibration of
traditionally derived likelihood ratios: Forensic analysis of Australian English /o/ formant trajectories)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p. 1501–1504. International Speech Communication Association.
N OLAN, F. (2001). ((Speaker identification evidence: its forms, limitations
and roles)). En: Proceedings of the International Conference on Law and
Language: Prospect and Retrospect, University of Lapland, Levi, Finland.
http://www.ling.cam.ac.uk/francis/LawLang.doc
NRC (2009). Strengthening Forensic Science in the United States: A Path
Forward. National Academies Press, Washington, DC.
R AMOS C ASTRO, D. (2007). Forensic evaluation of the evidence using automatic speaker recognition systems. Tesis doctoral, Universidad Autónoma
de Madrid, Madrid, Spain.
Geoffrey-Stewart Morrison
37
ROBERTSON, B. y V IGNAUX, G.A. (1995). Interpreting Evidence. Wiley,
Chichester, UK.
ROSE, P. (1997). ((Identifying criminals by their voice: The emerging applied
discipline of forensic phonetics)). Australian Language Matters, 5(2), p.
6–7.
—— (1999). ((Differences and distinguishability in the acoustic characteristics
of hello in voices of similar-sounding speakers: a forensic-phonetic investigation)). Australian Review of Applied Linguistics, 22, p. 1–42.
—— (2002). Forensic Speaker Identification. Taylor and Francis, London,
UK.
—— (2003). ((The technical comparison of forensic voice samples)). En:
I. Freckelton y H. Selby (Eds.), Expert Evidence, Thomson Lawbook Company, Sydney, Australia.
—— (2005). ((Forensic speaker recognition at the beginning of the twenty-first
century: An over-view and a demonstration)). Australian Journal of Forensic
Sciences, 37(2), p. 49–71.
—— (2006). ((Technical forensic speaker recognition)). Computer Speech and
Language, 20, p. 159–191. doi: 10.1016/j.csl.2005.07.003.
ROSE, P. y C LERMONT, F. (2001). ((A comparison of two acoustic methods
for forensic speaker discrimination)). Acoustics Australia, 29, p. 31–35.
ROSE, P. y M ORRISON, G.S. (2009). ((A response to the UK position statement on forensic speaker comparison)). International Journal of Speech,
Language and the Law, 16, p. 139–163. doi: 10.1558/ijsll.v16i1.139.
ROSE, P.; O SANAI, T. y K INOSHITA, Y. (2003). ((Strength of forensic speaker
identification evidence: Multispeaker formant- and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold)). Forensic
Linguistics, 10, p. 179–202.
S AKS, M. J. y KOEHLER, J.J. (2005). ((The coming paradigm shift in forensic
identification science)). Science, 309, p. 892–895.
S CHWARTZ, R. (2006). ((Voiceprints in the United States - Why they won’t
go away)). En: Proceedings of the International Association for Forensic
Phonetics and Acoustics Conference, Göteborg, Sweden.
http://www.ling.gu.se/konferenser/iafpa2006/
Geoffrey-Stewart Morrison
38
S OLAN, L.M. y T IERSMA, P.M. (2003). ((Hearing voices: Speaker identification in court)). Hastings Law Journal, 54, p. 373–435.
T HIRUVARAN, T.; A MBIKAIRAJAH, E. y E PPS, J. (2008). ((FM features for
automatic forensic speaker recognition)). En: Proceedings of Interspeech
2008 Incorporating SST 2008, p. 1497–1500. International Speech Communication Association.
L EEUWEN, D.A. y B OUTEN, J.S. (2004). ((Results of the 2003 NFI-TNO
Forensic Speaker Recognition Evaluation)). En: Proceedings of Odyssey04:
The Speaker and Language Recognition Workshop, pp. 75–82. International
Speech Communication Association.
VAN
L EEUWEN, D.A. y B R ÜMMER, N. (2007). ((An introduction to
application-independent evaluation of speaker recognition systems)). En:
C. Müller (Ed.), Speaker Classification I: Selected Projects, p. 330–353.
Springer-Verlag, Heidelberg, Germany. doi: 10.1007/978-3-540-74200-5
19.
VAN
WATT, D. (2009). ((The identification of the individual through speech)). En:
C. Llamas y D. Watt (Eds.), Language and Identities, p. 76–85. Edinburgh
University Press, Edinburgh.
Z HANG, C.; M ORRISON, G.S. y ROSE, P. (2008). ((Forensic speaker recognition in Chinese: A multivariate likelihood ratio discrimination on /i/
and /y/)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p.
1937–1940. International Speech Communication Association.
Z HANG, C. y ROSE, P. (2008). ((Strength evaluation of forensic speaker recognition evidence based on likelihood ratio approach [en chino])). Zheng ju ke
xue [Evidence Science], 16, p. 337–342.