Download Versión para imprimir
Document related concepts
no text concepts found
Transcript
La comparación forense de la voz y el cambio de paradigma * Geoffrey-Stewart Morrison** Resumen Nos encontramos en medio de un proceso de cambio de paradigma en las ciencias relacionadas con la comparación forense de la voz. El nuevo paradigma puede caracterizarse como una implementación cuantitativa del marco de la relación de verosimilitud y de la evaluación cuantitativa de la validez y la fiabilidad de los resultados. Durante los años 90 este nuevo paradigma se adoptó ampliamente en la comparación de los perfiles de ADN, y se ha ido extendiendo gradualmente a otras ramas de las ciencias forenses, incluyendo la comparación forense de la voz. El presente artı́culo describe en primer lugar el nuevo paradigma y, a continuación, expone la historia de su adopción en la comparación forense de la voz durante la última década. El cambio de paradigma es un proceso todavı́a incompleto, y aquellos que trabajan en él todavı́a representan una minorı́a entre la comunidad dedicada a la comparación forense de la voz. 1. El nuevo paradigma en la ciencia forense 1.1. Un cambio de paradigma En estos dı́as nos hallamos en mitad de lo que Saks y Koehler (2005) han llamado un cambio de paradigma con respecto a la evaluación y presentación de las evidencias en las ciencias forenses que se ocupan de las propiedades cuantificables de los objetos de origen conocido y desconocido, por ej., perfiles de ADN, huellas dactilares, pelos, fibras, fragmentos de cristales, marcas de * Esta es una traducción realizada por Carlos Curiá de G.-S. Morrison (2009), Forensic voice comparison and the paradigm shift, Science & Justice, 49, pp. 298–308. doi:10.1016/j.scijus.2009.09.002, que a su vez es una versión revisada de una presentación realizada en el 2nd International Conference on Evidence Law and Forensic Science, Beijing, China, 25–26 julio, 2009. ** School of Language Studies, Australian National University, Canberra, ACT 0200, Australia. School of Electrical Engineering and Telecommunications, University of New South Wales, Sydney, NSW 2052, Australia. http://geoff-morrison.net Estudios Fónicos / Cuadernos de Trabajo 1 (2011), 1–38 Geoffrey-Stewart Morrison 2 herramientas, escritura manual y grabaciones de voz. Saks y Koehler señalan: que ellos “use the notion of paradigm shift not as a literal application of Thomas Kuhn’s concept , but as a metaphor highlighting the transformation involved in moving from a pre-science to an empirically grounded science”1 (Kuhn, 1962, pág. 892). Como dirı́a Kuhn, el cambio de paradigma al que se refieren Saks y Koehler se podrı́a describir con mayor exactitud como un cambio desde una etapa preparadigmática hacia un periodo en el que, por primera vez, existe un único paradigma unificado para llevar a cabo un procedimiento cientı́fico normal, es decir, un cambio desde un periodo en el que diferentes escuelas buscaban soluciones a distintos conjuntos de problemas (con solo algunos solapamientos parciales entre los diferentes conjuntos) utilizando marcos diversos e incompatibles, hacia un periodo en el que existe acuerdo en toda la comunidad cientı́fica sobre qué problemas son importantes (con frecuencia un superconjunto de los problemas que intentaban resolver algunas de las escuelas preparadigmáticas), sobre los procedimientos generales para resolver tales problemas y sobre la naturaleza de las soluciones adecuadas. Mientras que en el periodo preparadigmático los cientı́ficos tienen que atender a una audiencia general y explicar sus teorı́as desde el principio, durante el periodo cientı́fico como tal, los cientı́ficos se dirigen fundamentalmente a una audiencia que ya ha sido educada en los fundamentos del paradigma (porque han realizado, por ejemplo, estudios superiores de alguna carrera de ciencias), y pueden, desde el principio, concentrar sus esfuerzos en cuestiones particulares que forman parte de un problema más complejo. Como consecuencia, la eficiencia y la productividad que se alcanzan en el periodo de ciencia normal son mayores que las que se logran en el periodo preparadigmático. Kuhn utiliza el término “paradigma” con dos sentidos diferentes, uno más amplio y el otro más restringido: “On the one hand, it stands for the entire constellation of beliefs, values, techniques, and so on shared by the members of a given community. On the other, it denotes one sort of element in that constellation, the concrete puzzle-solutions which, employed as models or examples, can replace explicit rules as the basis for the solution of the remaining puzzles of normal science.” 2 (Kuhn, 1970, pág. 175). En este trabajo se partirá princi1 usamos la noción de cambio de paradigma no como una aplicación literal del concepto de Kuhn, sino como una metáfora para acentuar la importancia de la transformación que implica el paso de una etapa precientı́fica a una ciencia asentada en la experimentación. 2 Por un lado, hace alusión a toda la toda la constelación de creencias, valores, técnicas y demás, compartidas por los miembros de una comunidad dada. Por otro, denota un tipo de elemento de dicha constelación, las soluciones concretas a rompecabezas que, usadas como modelos o ejemplos, pueden sustituir a las reglas explı́citas como base para la solución de los restantes rompecabezas de la ciencia normal (Traducción: Fondo de Cultura Económica). Geoffrey-Stewart Morrison 3 palmente del sentido más amplio de “paradigma”, que abarca el sentido más restringido. Aunque mi opinión es que el pensamiento de Kuhn sobre las revoluciones cientı́ficas proporciona una herramienta útil para entender la actual situación de la ciencia forense, y señalo más adelante varios paralelismos, no aprecio una correlación al 100 %. Una de las razones de ello puede tener que ver con que la ciencia forense es una ciencia aplicada que necesita atender las necesidades inmediatas de la sociedad, y esta consideración la afecta en mayor medida que a las ciencias naturales. En relación con esto, el cientı́fico forense se parece más a un ingeniero: “Unlike the engineer, and many doctors, and most theologians, the scientist need not choose problems because they urgently need solution and without regard for the tools available to solve them.”3 (Kuhn, 1962, pág. 163). Saks y Koehler defienden que ya se ha producido un cambio de paradigma en el ámbito de la comparación de los perfiles de ADN, y que las otras ciencias de comparación forense están ahora cambiando hacia el nuevo paradigma. En este trabajo mi objetivo es, primero, describir las caracterı́sticas del nuevo paradigma y, después, resumir la historia de su adopción en el campo de la comparación de la voz hasta el momento presente. 1.2. El nuevo paradigma Saks y Koehler (2005) describen el nuevo paradigma como “empirically grounded science” 4 (pág. 892) como se puede comprobar en la práctica actual de la comparación forense del ADN, que se caracteriza por “data-based, probabilistic assessment” 5 (pág. 893). Dichos autores recomiendan que las otras ciencias de la comparación forense emulen los métodos de la comparación del ADN, incluyendo “construct[ing] databases of sample characteristics and use[ing] these databases to support a probabilistic approach” 6 (pág. 893). También dejan claro que otro aspecto importante del nuevo paradigma es el hecho de que cuantifica y explicita las limitaciones de la comparación forense midiendo los ı́ndices de error. Por lo tanto, el nuevo paradigma refleja los requisitos necesarios para poder ser admitido como evidencia cientı́fica tal como propone el reglamento de la Corte Suprema de los Estados Unidos en Dau3 Al contrario que el ingeniero, muchos doctores y la mayorı́a de los teólogos, el cientı́fico no precisa elegir problemas que necesitan una solución urgente sin tener en cuenta las herramientas que hay para resolverlos. 4 una ciencia con fundamentación empı́rica. 5 juicios o cálculos probabilı́sticos a partir /de datos. 6 la construcción de bancos de datos con las caracterı́sticas de las muestras, y la utilización de tales bancos de datos para apoyar el enfoque probabilı́stico. Geoffrey-Stewart Morrison 4 bert v Merrell Dow Pharmaceuticals (92–102) 509 US 579 [1993], que Saks y Koehler identifican como una fuerza impulsora del cambio de paradigma. La Corte regula que, al considerar si se debe admitir la evidencia cientı́fica, el juez debe calibrar la validez de la metodologı́a cientı́fica y la fiabilidad de la evidencia, tomando en cuenta si ha sido probada empı́ricamente y si tiene unos ı́ndices aceptables de errores. Recientemente, en el informe de febrero de 2009 del National Research Council (NRC) “Strengthening Forensic Science in the United States” 7 , se ha reiterado el llamamiento a que otras ramas de la ciencia forense sean más “cientı́ficas”, imiten la comparación de los perfiles de ADN y cumplan los requisitos de Daubert. Entre los aspectos importantes de un enfoque cientı́fico identificados en el informe se incluyen “the careful and precise characterization of the scientific procedure, so that others can replicate and validate it; . . . the quantification of measurements . . .; the reporting of a measurement with an interval that has a high probability of containing the true value; . . . [and] the conducting of validation studies of the performance of a forensic procedure” 8 (pág. 121); el último punto requiere el uso de “quantifiable measures of the reliability and accuracy of forensic analyses” 9 (pág. 23). El informe del NRC recomienda con claridad que se empleen preferentemente metodologı́as más analı́ticas y objetivas en vez metodologı́as mas subjetivas basadas en la experiencia. Aunque no parece haber indicios de que los autores de cualquiera de las publicaciones fueran conscientes de ello, hay otro componente del nuevo paradigma que yo creo que está implı́cito en la recomendación de Saks y Koehler (2005) y del informe de la NRC (2009) acerca de que el resto de las ciencias de este campo imiten la comparación forense del ADN: la adopción del marco de la relación de verosimilitud (likelihood-ratio framework) para la evaluación de las evidencias. En realidad, coherentemente a lo largo del informe de la NRC la “identificación” y la “individualización” se mencionan como los objetivos (metas) de la ciencia forense, lo que es incompatible con el uso del marco de la relación de verosimilitud (ver el apartado 1.4 más abajo). El término “relación de verosimilitud” aparece sólo una vez, en el tı́tulo de la cita de un trabajo; no obstante el informe recomienda a Aitken y Taroni (2004), Evett (1990), y Evett y otros (2000) como las fuentes que proporcionan “the essential building 7 “El fortalecimiento de la ciencia forense en los Estados Unidos”. la caracterización cuidadosa y precisa del procedimiento cientı́fico de manera que otros puedan replicarlo y validarlo;. . . la cuantificación de las medidas. . . ; la comunicación de una medición ajustada a un rango con alta probabilidad de contener el valor verı́dico;. . . [y] la realización de pruebas de validación de un procedimiento forense. 9 mediciones cuantificables de la fiabilidad y la exactitud de los análisis forenses. 8 Geoffrey-Stewart Morrison 5 blocks for the proper assessment and communication of forensic findings” 10 (pág. 186), y estas tres publicaciones apoyan el uso del marco de la relación de verosimilitud. 1.3. El marco de la relación de verosimilitud El papel vanguardista de la comparación forense del ADN en el cambio de paradigma puede atribuirse, en gran medida, al hecho de que es una rama relativamente nueva en la ciencia forense que se ha puesto extensamente a prueba desde que se presentó por primera vez en los juzgados a finales de los años 80 y principios de los años 90, y también al hecho de que la desarrollaron investigadores con preparación y experiencia en un enfoque moderno de investigación cientı́fica. El alto nivel de educación cientı́fica de aquellos que trabajaban en el análisis forense de ADN les hizo posiblemente más fácil entender y, en último término, adoptar lo que muchos estadı́sticos forenses recomiendan como el marco lógicamente correcto para la evaluación de las evidencias comparativas, el marco de la relación de verosimilitud. Pueden consultarse descripciones del marco de la relación de verosimilitud en diversos textos y artı́culos, incluyendo el de Aitken y Taroni (2004), Balding (2005), Buckleton y otros (2005), Evett (1998), Lucy (2005), Robertson y Vignaux (1995) y, en cuanto a las referencias especı́ficas a la comparación forense de la voz, en Champod y Meuwly (2000), González Rodrı́guez y otros (2006), González Rodrı́guez y otros (2007) y Rose (2002, 2006). Se puede encontrar una historia del desarrollo de la estadı́stica forense anterior al advenimiento del análisis forense del ADN (incluyendo el uso del marco de la relación de verosimilitud) en Evett (1990), y, en Foreman y otros (2003), una historia de los procedimientos estadı́sticos aplicados a la evaluación de las evidencias que aporta el ADN y la adopción final del marco de la relación de verosimilitud. Lo que sigue es una breve descripción del marco de la relación de verosimilitud. Para simplificar, tal descripción se ofrece solo al nivel de la fuente, ya que este es el nivel más relevante para la comparación forense de la voz (ver en Cook y otros (1998) la jerarquı́a de propuestas de nivel “source”, “activity”, y “offence” 11 ). El nivel de actividad es normalmente poco importante en la comparación forense de la voz porque los temas de transferencia y persistencia son rara vez pertinentes: las grabaciones de voz normalmente se hacen de forma deliberada y las que se presentan para el análisis forense se asocian normalmente con documentación vinculada a garantes (mandamiento judicial) y cadenas de custodia. La autentificación de las grabaciones de audio y el análisis de las 10 11 los elementos esenciales para evaluar y presentar correctamente los hallazgos forenses. fuente, actividad, y delito. Geoffrey-Stewart Morrison 6 palabras representadas por la señal acústica se consideran normalmente aéreas periciales distintas de la comparación forense de la voz. En la comparación forense de la voz se debe, no obstante, considerar el efecto de la conversión que sufre la señal acústica al pasar a ser una señal electrónica que a menudo es transmitida por una lı́nea telefónica, lo que da como resultado grabaciones de voz de calidad relativamente pobre y diferencias potenciales entre la calidad de grabación de las muestras de voz indubitada y voz dubitada (efectos del canal de transmisión). También puede haber diferencias en el estilo del habla, por ejemplo, entre una grabación de una conversación telefónica animada (grabación de la voz dubitada) y las respuestas poco animadas a preguntas de un interrogatorio policial (grabación de la voz indubitada). Los resultados de una comparación forense de la voz pueden ser directamente relevantes en relación con la tipificación y propuesta del nivel del delito, por ejemplo, si el delito es proferir amenazas de muerte y la grabación de la voz dubitada es una grabación de alguien profiriendo amenazas de muerte. En el marco de la relación de verosimilitud la tarea del cientı́fico forense es proporcionar a los tribunales una declaración del peso de la evidencia en respuesta a la pregunta: ¿Cuánto más probables son las diferencias observadas entre la muestra indubitada y la muestra dubitada si fuera verdad la hipótesis de que las dos tuviesen el mismo origen en comparación con si fuera verdad la hipótesis de que la dubitada tuviese otro origen? La respuesta a esta pregunta se expresa cuantitativamente como una relación de verosimilitud, calculada utilizando la Ecuación 1. RV = p(E|Hmo )/p(E|Hdo ) (1) Donde RV es el relación de verosimilitud (LR en inglés), E es la evidencia, en otras palabras, las diferencias medidas entre las muestras de origen indubitado y dubitado, Hmo es la hipótesis del mismo origen, y Hdo es la hipótesis de diferente origen. Si la evidencia es más probable si fuera verdad la hipótesis del mismo origen en vez de si fuera verdad la hipótesis de distinto origen, entonces el valor del relación de verosimilitud serı́a mayor que 1, y si la evidencia es más probable si fuera verdad la hipótesis de diferente origen en vez de si fuera verdad la del mismo origen, entonces el valor del relación de verosimilitud serı́a menor que 1. El valor de la relación de verosimilitud es una expresión numérica del peso de la evidencia con respecto a las hipótesis opuestas. Si el cientı́fico forense testifica que es 100 veces más probable que las diferencias observadas entre las muestras de origen conocido y cuestionado se deban a la hipótesis del mismo origen que a la hipótesis de diferente origen Geoffrey-Stewart Morrison 7 (RV = 100), el juzgador de los hechos (trier of fact)12 , al oı́r esto y sea cual sea su creencia anterior, debe estar 100 veces más proclive que antes a creer que las muestras tienen el mismo origen. De la misma manera, si el cientı́fico forense testifica que es 1000 veces más probable que las diferencias observadas se deban a la hipótesis de diferente origen que a la hipótesis del mismo origen (RV = 1/1000), entonces el juzgador de los hechos, al oı́r esto y sea cual sea su creencia anterior, debe estar 1000 veces más proclive que antes a creer que las muestras tienen diferentes orı́genes. El numerador de la relación de verosimilitud se puede considerar una expresión de similitud (similarity), y el denominador, una expresión de tipicidad (typicality). Al calcular la fuerza de la evidencia, el cientı́fico forense debe considerar no sólo el grado de similitud entre las muestras, sino también en qué medida su valor es tı́pico con respecto a la población relevante. La similitud a solas no significa un apoyo claro de la hipótesis del mismo origen. Por ejemplo, si se determina que dos muestras son muy similares en cuanto a algunas propiedades fı́sicas, esto tiene poco valor si esas propiedades fı́sicas son también muy tı́picas y las muestras seleccionadas al azar de dos individuos cualesquiera de la población relevante tienen una probabilidad alta de ser similares en igual medida. Por otro lado, si se encuentra que dos muestras son muy similares en cuanto a propiedades muy atı́picas en la población, las muestras seleccionadas al azar de dos individuos cualesquiera en la población relevante tendrán una probabilidad muy baja de ser similares en igual medida. En general, un mayor nivel de similitud y un menor nivel de tipicidad conllevan un apoyo relativamente mayor para la hipótesis del mismo origen, y un menor nivel de similitud y un mayor nivel de tipicidad conllevan un apoyo relativamente mayor para la hipótesis de diferentes orı́genes. El marco de la relación de verosimilitud es un marco conceptual que se puede aplicar a creencias subjetivas basadas en la experiencia, como la probabilidad de la evidencia dadas las hipótesis opuestas; no obstante, el cientı́fico forense tiene que tener acceso a un banco de datos de muestras que sean representativas de la población relevante, para cumplir los requisitos del nuevo paradigma, que está basado en los datos y en las medidas cuantitativas. Ello es necesario para poder realizar una estimación cuantitativa de la tipicidad de las muestras de origen dubitado e indubitado. La población relevante es la población a la cual pertenece el delincuente. En la práctica, es menos que la población entera del planeta, puede restringirse a un área geográfica particular, a un grupo étnico concreto, o, en la comparación forense de la voz, a hablantes de 12 El juzgador de los hechos es la persona o grupo de personas que decide el veredicto. Según el sistema judicial el juzgador de los hechos puede ser un juez, un grupo de jueces, o un jurado. Geoffrey-Stewart Morrison 8 una lengua y un dialecto particular. La selección de una población apropiada para las muestras no es una tarea sencilla, ver la discusión en Aitken y Taroni (2004, pág. 272–271) y en Lucy (2005, pág. 129–133). 1.4. Por qué el cientı́fico forense debe presentar la probabilidad de la evidencia y no debe presentar la probabilidad de la hipótesis Una relación de verosimilitud es la expresión de la probabilidad de obtener la evidencia dada la hipótesis del mismo origen frente a la hipótesis de diferentes orı́genes. Hay razones lógicas y legales por las que el cientı́fico forense debe presentar una declaración respecto al peso de la evidencia de esta manera y no debe presentar la probabilidad de la hipótesis dada la evidencia. Determinar la probabilidad de la culpabilidad en contra de la inocencia y si esta probabilidad supera un determinado umbral como para poder decir “más allá de toda duda razonable” o “teniendo en cuenta las probabilidades” es cometido del juzgador de los hechos. Si el cientı́fico forense presentara la probabilidad de la hipótesis del mismo origen en contraste con la de diferentes orı́genes y la prueba fuera potencialmente incriminatoria, entonces estarı́a usurpando el papel del juzgador de los hechos. El juzgador de los hechos no toma sus decisiones sobre la base de una sola evidencia, más bien su tarea es llegar a una decisión después de haber sopesado todas las evidencias presentadas en el juicio. Lo que necesita el cientı́fico forense es una declaración sobre la fuerza o el peso de una determinada evidencia. Un cientı́fico forense puede presentar el peso de una evidencia relacionada con muestras de ADN, otro puede presentar el peso de la evidencia de unas muestras de huellas digitales, etc., y el juzgador de los hechos sopesará todas estas evidencias. No todas las evidencias serán comparaciones forenses presentadas como relaciones de verosimilitud, y el juzgador de los hechos también debe considerar el peso de otras evidencias como el testimonio de los testigos oculares. Además, antes de que haya sido presentada ninguna evidencia el juzgador de los hechos tendrá alguna creencia sobre la inocencia o culpabilidad del defendido, quizás influido por conceptos como “inocente mientras no se pruebe lo contrario”, y esto también contribuirá a su decisión final. Si un cientı́fico forense quisiera calcular la probabilidad de la hipótesis del mismo origen en contraste con la hipótesis de diferentes orı́genes tendrı́a que aplicar el teorema de Bayes. El teorema de Bayes se expresa mediante las siguientes ecuaciones (en forma de apuestas): p(Hmo |E)/p(Hdo |E) = p(E|Hmo )/p(E|Hdo ) × P (Hmo )/P (Hdo ) apuesta a posteriori relación de verosimilitud apuesta a priori (2) Geoffrey-Stewart Morrison 9 Para calcular la apuesta a posteriori, el cientı́fico forense necesitarı́a saber la apuesta a priori. Utilizando una de las interpretaciones del teorema de Bayes, la apuesta a priori representarı́a la creencia del juzgador de los hechos en cuanto a las probabilidades relativas de las dos hipótesis antes de que la evidencia sea presentada. Evidentemente, cuando lleva a cabo sus análisis, el cientı́fico forense no puede conocer la creencia previa que puede tener el juzgador de los hechos. Bajo otra interpretación se pueden calcular las probabilidades a priori pragmáticas, por ejemplo, si el crimen fuera cometido en una isla y se supiera que ha habido 100 personas en la isla en ese momento, la apuesta pragmática a priori serı́a de 1/99; no obstante, esto implicarı́a la suposición de que cada persona de las que estaban en la isla tiene la misma probabilidad de haber cometido el crimen, y aunque manejar esta suposición puede ser apropiado para el juzgador de los hechos, no lo es para el cientı́fico forense (y si en el juicio ya se ha presentado otra evidencia, es improbable que la creencia del juzgador de los hechos sobre la culpabilidad o no culpabilidad sea todavı́a de 1/99 inmediatamente antes de la presentación de la relación de verosimilitud de las evidencias forenses en cuestión). No es apropiado para el cientı́fico forense presentar las probabilidades a posteriori porque estas incluyen información y supuestos de otras fuentes diferentes a la evaluación cientı́fica de las muestras de origen dubitado e indubitado. Si el cientı́fico forense fuera a presentar las probabilidades a posteriori, tendrı́a entonces que aportar sus propias probabilidades a priori y serı́a posible que su testimonio pudiera estar influido por su propia opinión subjetiva consciente o inconsciente sobre la culpabilidad o inocencia del acusado. La tendenciosidad de los seres humanos fue una de las principales preocupaciones en el informe NRC (2009, pags.122–124). Es una ventaja del marco de la relación de verosimilitud el hecho de que sea resistente a la influencia de esas fuentes de predisposición. Aunque la relación de verosimilitud es un componente del análisis bayesiano, he utilizado el término “marco de la relación de verosimilitud” en vez de “marco bayesiano” porque este último, al contrario que el primero, puede implicar que el cientı́fico forense hace uso de las probabilidades a priori y calcula las probabilidades a posteriori (Buckleton y otros, 2005; Champod y Meuwly, 2000; Rose, 2006). Una alternativa al “marco de la relación de verosimilitud” utilizada por algunos autores (por ej. Buckleton y otros, 2005) es el “logical approach” (enfoque lógico), si bien yo prefiero el “marco de la relación de verosimilitud” porque creo que es más transparente. También es importante Geoffrey-Stewart Morrison 10 hacer notar que el hecho de que el cientı́fico forense presente la relación de verosimilitud en el juicio no implica que el juzgador de los hechos tenga que asignar un peso numérico a las evidencias que no son evidencias de comparación forense, ni que tenga que llegar a una decisión a través de la aplicación rı́gida de una fórmula como la de la Ecuación 2 (R v Adams [1996] EWCA Crim 222, R v Adams [1997] EWCA Crim 2474, R v GK [2001] NSWCCA 413, Balding, 2005, pp. 149–151; Buckleton y otros, 2005; Donnelly, 2005; Morrison, 2009b). Una precisión terminológica que se plantea a partir de la discusión anterior es que en el marco de la relación de verosimilitud el cientı́fico forense no lleva a cabo “identificaciones” o “individualizaciones”, porque estos términos implican la determinación de una probabilidad a posteriori (ver Meuwly (2006) respecto a los problemas terminológicos y al uso de los términos “identificación” e “individualización” en la ciencia forense). Un término neutral como el de “comparación” es más apropiado (French y Harrison, 2007). Por lo tanto, yo utilizo el término “comparación forense de la voz” (“forensic voice comparison”) en vez de los términos tradicionales “identificación forense del hablante” y “reconocimiento forense del hablante” (“forensic speaker identification”, “forensic speaker recognition”) (“reconocimiento” implica asimismo una probabilidad a posteriori, nótese que también “comparación del hablante” (“speaker comparison”) serı́a lo mismo que “comparación del tocador” si nos refiriéramos a la comparación de huellas dactilares). Siguiendo la lógica de Meuwly, se deberı́a realmente usar un término como “comparación forense de grabaciones de voz”, puesto que son las propiedades de las grabaciones las que se comparan realmente, no las propias voces. Dado que esta última denominación es un poco larga, continuaré usando el término no tan exacto (pero más corto) de “comparación forense de la voz”. Otro término apto en castellano serı́a “comparación forense del habla”. 1.5. Medir validez y fiabilidad La validez de los resultados de un sistema de comparación forense se puede calcular probándolo en un gran número de pares de muestras en las que se conoce, para cada par, si sus miembros tienen el mismo o distinto origen, y después comparando los resultados con lo que ya se sabe de antemano. Saks y Koehler (2005) y NRC (2009, pags. 116–122) describe la validez cuantitativa en términos de los ı́ndices de errores de identificación, es decir, los falsos positivos (pares de muestras de diferente origen que se declaran del mismo origen) y los falsos negativos (pares de muestras del mismo origen que se declaran de diferentes orı́genes). Las identificaciones están basadas en probabilidades Geoffrey-Stewart Morrison 11 a posteriori y este enfoque es, por lo tanto, incoherente con el marco de la relación de verosimilitud. Las relaciones de verosimilitud mayores de uno favorecen la hipótesis del mismo origen y las razones de verosimilitud menores de uno favorecen la hipótesis de distintos orı́genes; no obstante, el objetivo de la comparación forense de muestras dubitadas e indubitadas no es llegar a una decisión binaria, sino más bien determinar el peso de la evidencia en relación a las hipótesis del mismo origen y de diferente origen, es decir, establecer hasta qué punto la relación de verosimilitud es mayor o menor de uno, o lo que es lo mismo hasta qué punto el logaritmo de la relación de verosimilitud es mayor o menor de cero. Algunas veces conviene convertir la relación de verosimilitud en el logaritmo de la relación de verosimilitud, dado que este último es simétrico respecto a cero, es decir, una relación de verosimilitud de 1000 (1000 a favor de la hipótesis del mismo origen) y 1/1000 (1000 a favor de la hipótesis de diferentes orı́genes) se convierte, a través del logaritmo en base diez de la relación de verosimilitud, en +3 y −3 respectivamente. De manera ideal, para un par del mismo origen el sistema de comparación forense debe dar números positivos grandes del logaritmo de la relación de verosimilitud, y para un par de diferentes orı́genes debe dar números negativos grandes del logaritmo de la relación de verosimilitud. En una comparación del mismo origen un número positivo pequeño del logaritmo de la relación de verosimilitud no es tan bueno como un número positivo grande, un número negativo pequeño es peor que un número positivo pequeño y un número negativo grande es peor que un número negativo pequeño (mutatis mutandis para una comparación de muestras de diferente origen). Los números negativos pequeños y grandes de la relación de verosimilitud proporcionan respectivamente un apoyo débil o fuerte para la hipótesis de diferentes orı́genes cuando se sabe que, de hecho, se estaba examinado un par de muestras del mismo origen. Es peor informar de una relación de verosimilitud de 1000 a favor de una hipótesis contraria a los hechos que informar de una relación de verosimilitud de 10 a favor de una hipótesis contraria a los hechos porque el primero potencialmente contribuye más a una resolución judicial equivocada. El coste del logaritmo de la relación de verosimilitud (log-likelihood-ratio cost, Cllr ) (Brümmer y otros, 2007; Brümmer y du Preez, 2006; van Leeuwen y Brümmer, 2007) es una medida de la validez de un sistema que da como resultados relaciones de verosimilitud. Cllr se desarrolló para usarse en el reconocimiento automático de la voz y ha sido aplicada posteriormente en la comparación forense de la voz (González Rodrı́guez y otros, 2007; Morrison, 2009b; Morrison y Kinoshita, 2008; Ramos Castro, 2007). Para calcular Cllr , se necesita calcular primero el valor de un componente de Cllr para la relación Geoffrey-Stewart Morrison 12 F IGURA 1: Gráfico de la función para calcular el valor del componente Cllr para una comparación de muestras del mismo origen. de verosimilitud de cada uno de los pares de la prueba. La Figura 1 proporciona un gráfico de la función para calcular el valor del componente cuando los datos que se le suministran al sistema son un par de muestras del mismo origen. A los valores positivos grandes del logaritmo de la relación de verosimilitud que apoyen de manera correcta la hipótesis del mismo origen se les asigna un valor muy bajo del componente Cllr , los valores cercanos a cero del logaritmo de la relación de verosimilitud no proporcionan mucho apoyo para cualquiera de las dos hipótesis y se les asigna valores moderados a los componentes Cllr , y a los valores negativos del logaritmo de la relación de verosimilitud que, en contra de los hechos, apoyan la hipótesis de diferentes orı́genes se les asigna valores altos de los componentes Cllr , que aumentan rápidamente según los valores del logaritmo de la relación de verosimilitud se vuelven más negativos y proporcionan un mayor apoyo en contra de los hechos a la hipótesis de diferentes orı́genes. La función para calcular el valor de un componente Cllr cuando los valores de entrada del sistema son un par de diferente origen es una versión reflejada de la Figura 1 (con el espejo puesto en la lı́nea log10 (V R) = 0). Para calcular Cllr , se encuentra la media de todos los valores del componente Cllr de pares del mismo origen, se encuentra la media de todos los valores del componente Cllr de pares de diferente origen y se coge la media de las últimas dos medias. En consecuencia, Geoffrey-Stewart Morrison 13 Cllr proporciona una medida cuantitativa de la validez general de un sistema de comparación forense. Cuanto más bajo sea el valor de Cllr , mejor será el funcionamiento del sistema. Si se prueban varios sistemas utilizando el mismo conjunto de datos, entonces el sistema más válido es aquel que da un valor de Cllr más bajo. Es importante hacer notar que (como en otras medidas de validez como los ı́ndices de errores de identificación) Cllr depende de los datos de la prueba ası́ como del sistema de comparación forense; por lo tanto, sirve mejor como una medida relativa de validez que como una medida absoluta. Asimismo, para que todo sea judicialmente apropiado, la cantidad y la calidad de cada par de pruebas deben coincidir tanto como se pueda con la cantidad y calidad de las muestras dubitadas e indubitadas, por ej., en las grabaciones de voz se intentarı́a hacer coincidir las duraciones, la calidad de la grabación y el estilo de habla. Dentro del marco de la relación de verosimilitud también es posible informar de un ı́ndice de errores para la relación de verosimilitud especı́fica que se calcula para la comparación de las muestras conocidas y cuestionadas. Por ejemplo, si se obtiene una relación de verosimilitud de 100 a favor de la hipótesis del mismo origen, se puede informar de un ı́ndice de errores como la proporción de pares de diferente origen en los datos de las pruebas que dan relaciones de verosimilitud iguales o mayores que 100. Un tema más, relacionado con la fiabilidad en el nuevo paradigma es el “reporting of a measurement with an interval that has a high probability of containing the true value” 13 (NRC, 2009, pág. 121). Aunque todavı́a se ha publicado muy poco respecto a este tema en el campo de la comparación forense de la voz, algunas investigaciones preliminares están en vı́as de hacer cálculos de intervalos creı́bles para las relaciones de verosimilitud. 2. Comparación forense de la voz y el lugar que ocupa en el cambio de paradigma 2.1. Diferentes enfoques de la comparación forense de la voz Históricamente es posible identificar por lo menos cuatro enfoques diferentes de la comparación forense de la voz: el auditivo, el espectrográfico, el acústico-fonético y el automático. De todos ellos, son los dos últimos los más apropiados para su uso en el nuevo paradigma. En aras de la simplicidad de la exposición, trataremos los cuatro enfoques como discretos, pero en la práctica no ha sido inusual la combinación de algunos aspectos de dos enfoques, por ej., 13 la comunicación de una medición ajustada a un rango con alta probabilidad de contener el valor verı́dico. Geoffrey-Stewart Morrison 14 el auditivo-espectrográfico y el auditivo-acústico-fonético. La descripción que se da a continuación de cada uno de los enfoques pretende ser sólo un bosquejo básico, no un una exposición completa; pueden encontrarse descripciones más exhaustivas en Jessen (2008) y Rose (2002) y, para mayores detalles acerca de los enfoques automáticos, ver Bimbot y otros (2004) y Ramos Castro (2007). 2.1.1. Enfoque auditivo El enfoque auditivo es practicado por fonetistas con muchos años de entrenamiento y experiencia en fonética auditiva, lo cual tradicionalmente implica utilizar sı́mbolos fonéticos y diacrı́ticos para transcribir los sonidos del habla oı́dos. Los fonetistas escuchan las muestras de voces dubitadas e indubitadas y comentan cualquier propiedad de la voz que tengan en común y que por su experiencia consideran inusual, distintiva o de alguna manera digna de mención, o cualquier caracterı́stica que valga la pena hacer notar porque esté presente en una muestra e, inesperadamente, no en la otra. La clase de caracterı́sticas auditivas de las que pueden servirse en estos casos puede ser del tipo de las que se emplean para distinguir dialectos. Ası́, considérese las distintas pronunciaciones que pueda tener la frase “yo me llamo” en las diferentes áreas del mundo hispanohablante, por ejemplo entre otras pronunciaciones puede ser [jo me Lamo] en partes del centro-norte de la penı́nsula, [dZo me dZamo] en partes de Andalucı́a, [So me Samo] en zonas de Argentina, y [jo me jamo] en gran parte del resto del mundo hispanohablante. Estas diferencias dialectales tan acusadas son con frecuencia sobresalientes hasta para oı́dos no entrenados, pero un experto entrenado en fonética auditiva será capaz de percibir y anotar sistemáticamente pequeñas diferencias idiolectales. Las caracterı́sticas auditivas pueden estar también relacionadas con la actividad de las cuerdas vocales, por ej. si la voz es aspirada (como la de Marilyn Monroe) o quebrada (laringalizada, rota, como la de Louis Armstrong), o es una voz que se inscribe en el rango de las que se pueden considerar con impedimentos del habla de diversa gravedad, por ej., pronuncia la “rr” como “d” (/r/ como [D]). Consultar Jessen (2008) y Rose (2002) para ver más ejemplos. Aunque pueda haber algunas caracterı́sticas cuya frecuencia de aparición se pueda cuantificar y para las cuales se pueda calcular las relaciones de verosimilitud basadas en los datos (ver la discusión en Rose (2003)), en general el enfoque auditivo se basa en la experiencia y no es coherente con el nuevo paradigma. Aunque teóricamente serı́a posible evaluar el grado de validez y fiabilidad de cualquier experto practicante del enfoque auditivo haciéndole comparar un gran número de pares de muestras, cuyo origen, diverso o no, sea conocido por el evaluador (pero no por el evaluado), hasta donde yo estoy informado, no se han realizado pruebas a gran escala de este tipo de enfoque puramente auditivo. Geoffrey-Stewart Morrison 15 2.1.2. Enfoque espectrográfico El enfoque espectrográfico, también conocido como “voiceprinting”, está basado en una tecnologı́a desarrollada en la década de 1940 que permite visualizar la amplitud temporal de la frecuencia de la señal acústica en un formato conocido como espectrograma. Generalmente el tiempo se representa en el eje x y la frecuencia en el eje y; la amplitud en este gráfico bidimensional se representa por una escala de grises, ver Figura 2. Kersta hizo público en 1962, por primera vez, el uso judicial de los espectrogramas. Durante los años 60, 70 y 80, se desarrolló un intenso debate acerca de la validez del enfoque espectrográfico. Aunque el enfoque todavı́a cuente con algunos apasionados defensores, la conclusión general de la comunidad cientı́fica es que no es cientı́fico ni válido. En julio del año 2007, en un encuentro de la International Association for Forensic Phonetics and Acoustics (IAFPA) se emitió un comunicado en el que se decı́a que “The Association considers this approach to be without scientific foundation, and it should not be used in forensic casework.” 14 hhttp://www.iafpa.net/voiceprintsres.htmi. Para el no cientı́fico, la conversión desde un dominio acústico a un dominio visual puede dar la impresión de que el enfoque es cientı́fico, pero en realidad el análisis no es objetivo, y consiste en que el perito compara visualmente un número determinado de espectrogramas con el objetivo de llegar a una expresión cualitativa de la probabilidad de que las muestras sean del mismo o de diferentes orı́genes (probabilidades subjetivas a posteriori). Como resumen del debate histórico acerca de la validez del enfoque espectrográfico, consultar Gruber y Poza (1995), Rose (2002, pags. 107–122) y, desde una perspectiva legal, Solan y Tiersma (2003). Ver también Schwartz (2006) en relación a por qué el voiceprinting no desaparece de escena. Desde la perspectiva del nuevo paradigma vale la pena hacer notar que un componente importante del debate acerca de la validez del enfoque espectrográfico fueron las medidas de los ı́ndices de errores en las pruebas que se llevaron a cabo a gran escala. 2.1.3. Enfoque acústico-fonético El enfoque acústico-fonético fue desarrollado por fonetistas entrenados en fonética acústica y supone la realización de medidas cuantitativas de las propiedades acústicas de los sonidos del habla. Generalmente, se identifican algunas unidades fonéticas comparables tanto en las muestras dubitadas como en las indubitadas y se miden las propiedades acústicas de estas propiedades. Un ejemplo de unidad fonética es la vocal “a” /a/. Una unidad fonética puede ser un fonema (una de las unidades básicas de la teorı́a fonológica), pero también puede consistir en un fragmento mayor o 14 La asociación considera este enfoque sin fundamento cientı́fico y no se debe usar en la práctica forense. Geoffrey-Stewart Morrison 16 F IGURA 2: Ejemplo de espectrograma. menor del habla. Ejemplos de propiedades acústicas son las resonancias del tracto vocálico (los formantes) que en la teorı́a fonética son uno de los principales correlatos acústicos de la identidad categorial de la vocal (fonema), es decir, son claves primarias que utilizan los oyentes para determinar si un hablante dice /aI/ (el diptongo en la palabra “hay”), /au/ (el diptongo en la palabra “aula”, “auténtico”, etc.), /e/ (el sonido de la primera vocal en palabras como “pelo”, “dedo”, etc.), etc. Las propiedades acústicas de muchas de las unidades utilizadas en el enfoque auditivo también se pueden utilizar de forma cuantitativa para determinar las caracterı́sticas acústico-fonéticas. Algunas caracterı́sticas acústico-fonéticas, como la frecuencia fundamental (el correlato acústico del tono) y el segundo formante, tienen la ventaja de ser relativamente resistentes a los efectos producidos en el sonido por el canal de transmisión. Las medidas acústicas se realizan utilizando algoritmos de procesamiento de señal pero con la supervisión substancial de un experto humano encaminada a obtener una gran precisión en la medida. El tiempo y el gasto que implica el análisis de los datos son grandes inconvenientes de la aplicación del enfoque acústico-fonético. 2.1.4. El enfoque automático El enfoque del procesamiento automático fue desarrollado por ingenieros especialistas en procesamiento de señales. Como el enfoque acústico-fonético, se basa en medidas cuantitativas de ciertas propiedades acústicas del habla, pero en general no se intentan aprovechar las unidades fonéticas. Las caracterı́sticas tı́picas en un sistema automático son los espectros de corta duración (20-30 ms) que se extraen durante toda la duración de la grabación de la voz y se cuantifican utilizando los coeficientes de cepstrum (serı́a complejo desarrollar una explicación de estas caracterı́sticas accesible para una audiencia no experta, y no lo vamos a hacer aquı́). Las tı́picas caracterı́sticas automáticas no son especialmente resistentes a los efectos Geoffrey-Stewart Morrison 17 del canal de transmisión, pero se han llevado a cabo muchas investigaciones con procedimientos estadı́sticos para compensar las incompatibilidades debidas a los efectos del canal de transmisión. Aunque los sistemas automáticos tı́picos tratan la información fonética detallada como ruido (variabilidad no deseada), tienen la gran ventaja de ser capaces de procesar grandes cantidades de datos de manera rápida y a bajo coste. 2.1.5. La relativa popularidad de los diferentes enfoques Entre los años 2004 y 2005 Tina Cambier-Langevald del Instituto Forense Neerlandés (Nederlands Forensisch Instituut, NFI) llevo a cabo una prueba en la que los 12 participantes en ella mandaron sus análisis de las mismas muestras de voz e informaron de los enfoques seguidos (Cambier Langevald, 2007). Si bien esto no constituye una muestra aleatoria muy grande, proporciona alguna idea de la relativa popularidad de cada uno de los enfoques entre los investigadores y los profesionales. La clasificación de Cambier-Langevald era algo diferente de la mı́a, pero, hasta donde puedo confirmar, 5 participantes usaron lo que describirı́a como enfoques auditivo-acústico-fonéticos, 4 utilizaron enfoques acústicos-fonéticos, 2 utilizaron enfoques automáticos y 1 utilizó un enfoque espectrográfico. Incluso dentro de cada enfoque hubo una gran heterogeneidad con respecto a la selección de las partes de la grabación para las mediciones, y con relación a las caracterı́sticas, las técnicas de análisis y medida y la evaluación y la publicación de los resultados. Sólo 4 de los 12 participantes informaron sobre relaciones de verosimilitud (dos de los que utilizaron el enfoque automático y dos de los que utilizaron el enfoque acústico fonético). 2.2. Diferencias entre los datos del ADN y los de la voz En las lı́neas que siguen se ofrece una explicación simplificada de la comparación de los perfiles de ADN, mi intención es resaltar algunas diferencias básicas entre los datos con los que se trabaja en la comparación del ADN y los datos con los que se trabaja en la comparación de muestras de voz, y no discutir temas relacionados con la interpretación de las pruebas de ADN (los lectores interesados en este último tema pueden consultar Balding, 2005 y Buckleton y otros, 2005). Los datos de los perfiles de ADN consisten en valores discretos (por ej. el número de microsatélites) de un número finito de medidas (por ej. los pares de alelos de unos loci especı́ficos). Las propiedades del ADN son discretas a nivel molecular, sus valores son continuos a nivel de medida (que puede ser representada, por ejemplo, como las localizaciones y alturas de los picos de un electroferograma), pero en general se vuelven a convertir en valores discretos para proporcionar datos para el análisis estadı́stico. Es esto último Geoffrey-Stewart Morrison 18 a lo que me refiero cuando uso el término “perfil de ADN”. En aras de la simplicidad voy a asumir (de manera no realista) que siempre se da el caso de que los perfiles de ADN no tienen errores de medida, que las muestras no están contaminadas, que los organismos de los que proceden las muestras de ADN no han sufrido trasplantes, etc. Es posible obtener “correspondencia” (a match) entre dos perfiles de ADN, eso ocurre cuando para cada locus y alelo de cada uno de los perfiles se obtiene el mismo valor discreto. Asumiendo lo expuesto anteriormente, el perfil de ADN de un determinado organismo no cambia de una ocasión a otra, en consecuencia la probabilidad de obtener correspondencia entre los dos perfiles de ADN dada la hipótesis del mismo origen es 1 y la probabilidad de no obtener correspondencia dada la hipótesis del mismo origen es 0. El numerador de la relación de verosimilitud es en consecuencia ó 1 ó 0 (Aitken y Taroni, 2004, p. 404; Evett, 1998). Si las dos muestras no coinciden, el numerador de la relación es 0 y el denominador es irrelevante, el valor de la relación de verosimilitud es 0 y según el teorema de Bayes la apuesta a posteriori también será 0, las dos muestras no tienen el mismo origen. Si las dos muestras coinciden, el numerador de la relación de verosimilitud es 1, el valor de la relación de verosimilitud es entonces dependiente del denominador, la probabilidad de que el perfil de ADN de la muestra dubitada coincida con el perfil de la muestra indubitada si la muestra dubitada procede de otra fuente diferente al organismo conocido. A menudo, el informe que se aporta al juicio es la “probabilidad de correspondencia” (match probability) en vez de la relación de verosimilitud (R v Doheny y Adams [1996] EWCA Crim 728 aconsejan a los expertos de ADN que proporcionen probabilidades de coincidencia, ver también Evett, 1998 y Balding, 2005, pags.151–153 ), este parámetro es simplemente el denominador de la relación de verosimilitud o de manera equivalente el inverso de la relación de verosimilitud dada en la Ecuación 1, es decir, es la probabilidad de obtener un perfil del ADN coincidente cuando confrontamos la hipótesis de orı́genes diferentes con la del mismo origen (Balding, 2005, pág. 24; Foreman y otros, 2003, pág.484). Un sistema de comparación forense de la voz acústico-fonético o automático se basa en las medidas de las propiedades acústicas de la voz. Estas propiedades acústicas son de naturaleza continua, no discreta. También existe una variación substancial en el mismo hablante; incluso si un mismo hablante dice exactamente las mismas palabras una detrás de otra, será extremadamente improbable que no haya diferencias mensurables en las propiedades acústicas de los dos enunciados. Hay que tener en cuenta que esto no se debe a la precisión de las técnicas de medida, sino a la variabilidad intrı́nseca de la fuente. En la práctica, es improbable que un hablante repita trozos largos que contengan Geoffrey-Stewart Morrison 19 exactamente las mismas palabras y asimismo será probable que haya variabilidad debida a factores como el contexto fonético y el estilo del habla (y también a menudo debidas al canal de transmisión). En relación a propiedades como estas, caracterizadas con valores continuos y con este tipo de variabilidad, toda “correspondencia” –entendida como que dos muestras no sean distinguibles mediante la precisión de las técnicas de medición, o en el sentido de que no presenten (en algún nivel alfa predeterminada) una diferencia estadı́stica significativa en la combinación de su variabilidad intrı́nseca y de medición, o entendida en relación con algún umbral -predeterminado de distinción (basado en la experiencia o en los hechos)– sufre un efecto de cliff-edge 15 (Robertson y Vignaux, 1995, p. 118-120; Evett, 1991; Rose y Morrison, 2009). La “correspondencia” no es, por tanto, un concepto útil para las propiedades acústicas de la voz (probablemente lo mismo se puede decir con respecto a los elementos objeto de comparación en muchas otras ramas de la ciencia forense). El numerador de la relación de verosimilitud calculado a partir de la comparación forense de la voz no puede ser por tanto ni 0 ni 1, la probabilidad de coincidencia no se puede calcular y los resultados deben comunicarse estrictamente como una relación de verosimilitud. Alguien podrı́a argüir que, dado que las simplificaciones que se han hecho anteriormente respecto a la comparación de los perfiles de ADN no son válidas, los resultados de ADN también deberı́an presentarse en los informes como relaciones de verosimilitud (comunicación personal de Didier Meuwly en abril del 2009; ver Kaye y Sensabaugh Jr. (2008, §30:41) sobre los problemas que aparecen al convertir los valores continuos de los electroferogramas en valores discretos). 2.3. La adopción del nuevo paradigma por la comunidad cientı́fica 2.3.1. Propuestas para adoptar el marco de la relación de verosimilitud Parece que fue S. R. Lewis quien en 1984 avanzó publicó la primera propuesta de adopción de la relación de verosimilitud para la comparación forense de voz. Está claro que esta propuesta tuvo poca repercusión en la comunidad cientı́fica porque la idea no volvió a aparecer en ninguna publicación hasta que habı́a pasado una década. En Agosto de 1995, en el International Congress of Phonetic Sciences (ICPhS), A. P. A. Broeders afirmó someramente que las evidencias de la comparación forense de la voz deben evaluarse utilizando la relación de verosimilitud . En algunos artı́culos publicados en revistas australianas en 1997, 1999, 2001, Philip Rose también propuso que la comparación forense de la voz debı́a hacerse utilizando la relación de verosimilitud . Rose cita a Robertson y 15 borde de acantilado. Geoffrey-Stewart Morrison 20 Vignaux (1995), cuya provechosa influencia le fue transmitida por Hugh Selby (comunicación personal de Philip Rose, abril del 2009). Christophe Champod y Didier Meuwly esgrimieron, inicialmente en el RLA2C Workshop (Reconnaissance de Locuteur et ses Applications Commerciales et Criminalistiques) de abril de 1998, un argumento más substancial que ha tenido mayor impacto en la comunidad cientı́fica, y que derivó en un artı́culo publicado en Speech Communication (enviado en octubre de 1998 y publicado en septiembre del año 2000). Este trabajo se inspiró en la bibliografı́a existente sobre la evaluación e interpretación de las evidencias forenses en el campo del ADN para elaborar un lúcido argumento en pro de su adopción en la comparación forense de la voz. Meuwly cita a Kwan (1977), Lewis (1984), y Evett y Buckleton (1996) como obras formativamente influyentes (comunicación personal de Didier Meuwly, abril del 2009). Didier Meuwly y Andrzej Drygajlo también describieron la aplicación del marco de la relación de verosimilitud en la comparación forense de la voz en el Congrès Français d’Acoustique en septiembre del 2000. En diciembre del2001, en la International Conference on Law and Language - Prospect and Retrospect, Francis Nolan sugirió el uso del marco de la relación de verosimilitud como marco conceptual para la comparación forense acústico-fonética de la voz, pero expresó algunas dudas acerca de los aspectos prácticos del marco en su implementación cuantitativa a partir de los datos. En dos simposios sucesivos de la Interpol Forensic Science Symposia, en el año 2001 y 2004, A. P. A. Broeders presentó informes sobre el desarrollo de la comparación forense de la voz desde el año 1998 al 2001 y desde el 2001 al año 2004 respectivamente. En ambos informes subrayó la necesidad de que las pruebas de comparación forense de la voz se evalúen utilizando el marco de la relación de verosimilitud, e hizo notar que un cierto número de sistemas automáticos podı́an dar como resultado relaciones de verosimilitud. 2.3.2. Implementación del nuevo paradigma en la comparación forense de la voz automática El primer sistema automático a base de datos y especı́ficamente diseñado para producir relaciones de verosimilitud para la aplicación forense fue desarrollado por un grupo de investigación que trabajaba en Lausana, Suiza, y un par de años después les siguió un grupo de investigación que trabajaba en Madrid, España. En abril de 1998, Didier Meuwly, Mounir ElMaliki, y Andrzej Drygajlo, del grupo de Lausana, presentaron un trabajo en el COST-250 Workshop (Continuous Speech Recognition Over the Telephone). En él describieron la fundamentación para el uso del marco de la relación de verosimilitud en la comparación forense de la voz, y describieron asimismo Geoffrey-Stewart Morrison 21 el diseño y los resultados de las pruebas de un sistema basado en el ModeloMixto-Gaussiano (Gaussian-Mixture-Model - GMM) que calculaba relaciones de verosimilitud. El trabajo no fue bien recibido, un miembro de la audiencia calificó el marco de la relación de verosimilitud como un marco sin sentido. Los artı́culos que el grupo envió a diversas revistas fueron también rechazados porque los revisores no entendı́an el marco (comunicación personal de Didier Meuwly, abril 2009). No obstante, la situación cambió rápidamente: En el RLA2C Workshop en abril de 1998, el presidente de la sesión, George Doddington, recomendó el uso del marco de la relación de verosimilitud. En 2001 en el Odyssey Speaker Recognition Workshop de la International Speech Communication Association (ISCA), Meuwly y Drygajlo, del grupo de Lausana, y González Rodriguez, Ortega Garcı́a y Lucena Molina, del grupo de Madrid, presentaron sendos trabajos que describı́an sistemas automáticos GMM de comparación forense de la voz que calculaban relaciones de verosimilitud. La tesis doctoral de Meuwly también se concluyó en 1999 y se publicó en el año 2001 (Meuwly, 2001). Desde entonces, las implementaciones del marco de la relación de verosimilitud a base de datos se han establecido como un estándar en la comunidad que se dedica a la investigación de la comparación forense de la voz mediante un enfoque automático. La Forensic Speaker Recognition Evaluation que llevaron a cabo el Instituto Forense Neerlandés y la Organización Neerlandesa de Investigaciones Cientı́ficas Aplicadas (Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek, NFI-TNO) y que tuvo lugar en otoño del año 2003 incluı́a una evaluación de los resultados de la relación de verosimilitud (van Leeuwen y Bouten, 2004), y el National Institute of Standards and Technology (estadounidense) Speaker Recognition Evaluations (NIST SRE) adoptó en el año 2006 (aunque sus objetivos no son principalmente forenses) la evaluación del Cllr basada en la relación de verosimilitud. A mediados de la década, los grupos de Lausana y Madrid publicaron importantes artı́culos describiendo el marco de la relación de verosimilitud y su uso en el cálculo automático de las relaciones de verosimilitud utilizando bancos de datos (González Rodrı́guez y otros, 2006, 2007; Botti y otros, 2004; Alexander y otros, 2005; Drygajlo, 2007). En la conferencia Interspeech de la ISCA que tuvo lugar en septiembre del 2008, Joaquı́n González Rodrı́guez fue uno de los principales ponentes y el marco de la relación de verosimilitud constituyó su tema central. También en Interspeech 2008, Yuko Kinoshita, Geoffrey-Stewart Morrison (ambos miembros del grupo de Canberra, ver la sección 2.3.3) y Daniel Ramos (miembro del grupo de Madrid) presentaron una breve guı́a expositiva sobre la relación Geoffrey-Stewart Morrison 22 de verosimilitud en la comparación forense de la voz (tanto automática como acústico-fonética). 2.3.3. Implementación del nuevo paradigma en la comparación forense acústico-fonética de la voz El grupo de trabajo de Canberra, Australia, ha sido pionero en la comparación forense acústico-fonética de la voz a base de datos dentro del marco de la relación de verosimilitud. El primer resultado producido por este grupo fue la tesis doctoral de Yuko Kinoshita, finalizada en el año 2001. En los años 2002 y 2003 Philip Rose publicó un libro y un capı́tulo de un libro sobre la utilización de la relación de verosimilitud en la comparación forense de la voz, el primero dirigido principalmente a fonetistas y el segundo a abogados. Aunque ahora ya está un poco anticuado, Rose (2002) se ha convertido en una referencia estándar en la comparación forense acústico-fonética de la voz utilizando la relación de verosimilitud. Philip Rose ha sido el autor de algunas otras exposiciones del uso del marco de la relación de verosimilitud en la comparación forense acústico-fonética de voz que se han publicado como artı́culos de revistas a mediados de la década (Rose, 2006, 2005), y (Morrison, 2009b; Rose y otros, 2003; Kinoshita, 2005; Morrison, 2008) son algunos de los artı́culos que el grupo de Canberra ha publicado en revistas para informar de los resultados de sus investigaciones. Recientemente, Cuiling Zhang, de la Universidad de la Policı́a Criminalı́stica China en Shenyang, ha colaborado con el grupo de Canberra, desarrollando la primera comparación forense acústico-fonética de la voz en lengua china a base de datos en el marco de la relación de verosimilitud (Zhang y otros, 2008; Zhang y Rose, 2008). En 2008 se publicó una reseña sobre fonética forense por Michael Jessen de la Bundeskriminalamt (BKA, Oficina Federal de Investigación Criminal de Alemania). En ella, Jessen recomienda adoptar el marco de la relación de verosimilitud. Al contrario de lo que ocurre entre la comunidad de practicantes de la comparación forense automática de la voz, en la comunidad de la comparación forense acústico-fonética de la voz los que trabajan en el nuevo paradigma representan una minorı́a. 2.3.4. Combinación de los enfoques automático y acústico-fonético en el nuevo paradigma Hay un creciente interés por combinar aspectos del enfoque automático y del enfoque acústico-fonético de la comparación forense de la voz en el nuevo paradigma. Philip Rose y Geoffrey-Stewart Morrison, del grupo de Canberra, están actualmente trabajando en este tema en un proyecto de investigación patrocinado por el Consejo de Investigación de Australia (Aus- Geoffrey-Stewart Morrison 23 tralian Research Council) desde 2007 a 2010. Ello implica colaborar con el grupo de Madrid y con el grupo de la University of New South Wales en Sidney, Australia, el cual empezó a trabajar en la comparación forense de la voz en 2007 (Tharmarajah Thiruvaran, Eliathamby Ambikairajah, y Julien Epps (2008) realizaron la primera publicación sobre la comparación forense de la voz del grupo de Sidney). Otro proyecto que investiga los enfoques automático y acústico-fonético de la comparación forense de la voz es una colaboración entre el BKA, el Ministerio de Justicia de Rumania y la Academia de Ciencias de Austria, patrocinado por la Unión Europea desde el año 2008 hasta el 2010 (la primera publicación en este proyecto fue llevada a cabo por Timo Becker, Michael Jessen, y Catalin Grigoras (2008). Asimismo, Geoffrey-Stewart Morrison organizó una sesión especial sobre la combinación del enfoque automático y el acústico-fonético en el Interspeech 2008, incluyendo trabajos de los grupos de Canberra, Unión Europea, Madrid y Sidney. Entre los artı́culos de revistas que combinan las técnicas acústico-fonética y automática se enmarcan (González Rodrı́guez y otros, 2007; Morrison, 2009b). La especialidad de Fonética Judicial en el Máster de Fonética y Fonologı́a del programa de posgrado que imparte el Consejo Superior de Investigaciones Cientı́ficas y la Universidad Menéndez Pelayo en España desde el año 2008 ya incluye enseñanzas sobre la comparación forense de la voz dentro del nuevo paradigma tanto con el enfoque acústico-fonético como con el automático. 2.4. La adopción del nuevo paradigma por los peritos forenses, la policı́a, y los tribunales 2.4.1. España La única jurisdicción donde se puede decir que la comparación forense de la voz es práctica común utilizando implementaciones del marco de la relación de verosimilitud a base de datos es en España. En 1997, la Guardia Civil empezó a financiar investigaciones para desarrollar un sistema automático de comparación forense de la voz y en el año 2004 empezaron a crear banco de datos de voces españolas. La investigación fue dirigida por el grupo de Madrid que inicialmente estaba en la Universidad Politécnica de Madrid y que se trasladó a la Universidad Autónoma de Madrid en el año 2005. Ya en el año 2005 el sistema, llamado IdentiVox, daba como resultados razones de verosimilitud, los que la Guardia Civil consideraba suficientemente válido para mandarlos a los tribunales. En número de informes por año mandados a los juzgados fue de 30 en el año 2005, 59 en el 2006, 74 en el 2007 y 98 en el 2008 (comunicación personal de José Juan Lucena Molina en febrero del 2009). Una versión comercial del sistema IdentiVox, el Batvox, se comercializa a otras agencias del mantenimiento de orden público por una compañı́a Geoffrey-Stewart Morrison 24 creada para este fı́n, Agnitio, con clientes en varios paı́ses incluyendo Chile, China, Colombia, Francia, Finlandia, Alemania, Malasia, México, Corea del Sur, y el Reino Unido. 2.4.2. Australia En Australia, las investigaciones sobre comparación forense de la voz se llevan a cabo generalmente por investigadores radicados en la universidad. Hasta la fecha, sólo se han presentado ante los tribunales dos informes de comparación forense de la voz con presentación de relaciones de verosimilitud a base de datos, ambos eran acústico-fonéticos y fueron presentados por Philip Rose, uno en Victoria en el año 2007 y otro en Nueva Gales del Sur en el 2008. En escritos no judiciales, el Honourable David Hargraves Hodgson, juez de apelación de la corte suprema de Nueva Gales del Sur, vertió comentarios favorables acerca de los enfoques bayesianos para la evaluación y la presentación de evidencias forenses, incluyendo las evidencias de comparación forense de la voz (Hodgson, 2002, 2007). En el momento en que se escribe este artı́culo (septiembre del 2009) miembros de los grupos de investigación de Canberra, Sidney y Madrid, en colaboración con el Instituto Nacional Australiano de Ciencias Forenses (National Insitute of Foresnic Science), la Asociación Australasiática de la Ciencia y la Tecnologı́a del Habla (Austalasian Speech Science and Technology Association) y los laboratorios forenses de la Policı́a Federal de Australia, la policı́a de Australia del Oeste y la Guardia Civil de España están preparando una propuesta para financiar una investigación y desarrollar la infraestructura necesaria con el objetivo de que la comparación forense de voz dentro del marco de la relación del verosimilitud con validez y fiabilidad demostrables, sea una práctica real diaria en Australia. Si se consigue la financiación, el proyecto combinara los enfoques acústico-fonético y automático e incluirá la elaboración de un banco de datos de grabaciones de aproximadamente 1000 hablantes de diferentes partes de Australia. 2.4.3. Otros paı́ses No he podido obtener información concreta sobre la adopción del nuevo paradigma en investigaciones de comparación forense de la voz en otros paı́ses. Agradecerı́a cualquier información relevante sobre este tema. 2.5. Resistencia al cambio de paradigma Según Kuhn (1962, cap.12), un cambio de paradigma en general no se impone por completo debido a que sus proponentes propongan argumentos y Geoffrey-Stewart Morrison 25 evidencias empı́ricas que convenzan a todos los que apoyan el antiguo paradigma. Más bien, un cambio de paradigma en general se impone definitivamente cuando sus opositores mueren (págs. 150–151). La resistencia al cambio es un aspecto perfectamente comprensible de la naturaleza humana, especialmente si uno ha construido su reputación a base de años de experiencia en el trabajo con el antiguo paradigma o si uno tiene intereses comerciales en la continuación del antiguo paradigma. Pero la resistencia al cambio puede deberse también a la creencia auténtica de que el antiguo paradigma permitirá solucionar en última instancia todos los problemas importantes y que no es necesario cambiar de paradigma. De hecho, si los cientı́ficos adoptaran con mucha rapidez los nuevos paradigmas, la comunidad cientı́fica estarı́a sometida a un flujo constante y no se podrı́an observar largos periodos de ciencia normal productiva. Dadas las observaciones de Kuhn (publicadas en 1962), no es sorprendente constatar que ha existido una considerable resistencia al cambio de paradigma en las ciencias de la comparación forense. En 1977, la propuesta de D. V. Lindley en el congreso de la Royal Statistical Society / Institute of Statisticians en el sentido de implementar un marco bayesiano completo encontró una oposición vehemente: “I believe Lindley’s suggestion is not only mad, it is extremely dangerous” 16 R. A. Carr Hill (Lindley, 1977, pág. 216). I. W. Evett (1991) expuso cómo en los años 80 habı́a tenido graves dificultades en publicar sus trabajos iniciales con el enfoque bayesiano: “A paper which I submitted . . . was savaged by the referees and rejected without a single word of encouragement. A paper which I presented at a colloquium . . . met a response which bordered on the abusive. . . [; however,] When, several years later, I did succeed in having a Bayesian paper published . . . it was given the . . . Award for the best paper of the year!” 17 (pág. 12). Evett (1991) describe su propia experiencia de conversión en los años 70, incluyendo las discusiones con D. V. Lindley, en las que inicialmente defendı́a para la comparación forense de los fragmentos de cristales un enfoque estadı́stico de frecuencias en dos fases, si bien al final acabó siendo un proponente del enfoque bayesiano. También describe haber experimentado un sentimiento de déjà vu, cuando se plantearon una vez más los mismos temas con el surgimiento de la comparación de los perfiles de ADN, hacia el final de los años 80. Como se ha mencionado anteriormente (sección 2.3.2), a fines de los años 90 el grupo de comparación forense de la voz de 16 “Creo que la sugerencia de Lindley no sólo es una locura, sino que es extremadamente peligrosa”. 17 Un artı́culo que envié . . . fue atacado salvajemente por los consultores y fue rechazado sin una sola palabra de aliento. Un artı́culo que presenté en un coloquio. . . encontró una respuesta que bordeaba lo abusivo. . . [; no obstante,] Cuando varios años después, logré publicar con éxito un artı́culo con enfoque bayesiano. . . le dieron. . . ¡el premio del año!. Geoffrey-Stewart Morrison 26 Lausana también era objeto de la hostilidad de un miembro de la audiencia en respuesta a una presentación en un congreso y recibı́a revisiones negativas de algunos artı́culos enviados a revistas. Buckleton (2005) resume algunas de las objeciones a la adopción del marco de la relación de verosimilitud en el análisis forense del ADN, y argumenta que muchas de ellas son debidas a una falta de entendimiento del marco de la relación de verosimilitud, o son problemas que afectan de la misma manera a todos los marcos. También argumenta que las dificultades reales en la implementación no son insuperables y que en algunas situaciones sólo el marco de la relación de verosimilitud es lógicamente defendible. Señala la dificultad de resumir lo que el denomina el enfoque frecuentista, ya que sus proponentes nunca han explicitado su definición y su lógica. Mientras que el enfoque frecuentista puede parecer el candidato más prometedor del paradigma preexistente, no está claro que alguna vez llegue a constituir un único marco coherente aceptado como paradigma de trabajo por la mayorı́a de los cientı́ficos forenses. La falta de entendimiento del marco de la relación de verosimilitud parece ser también un factor que influye en la resistencia a adoptarlo en la comparación forense de la voz y en la lingüı́stica forense. Por ejemplo, Coulthard y Johnson (2007) presentan un cuadro más bien negativo del marco de la relación de verosimilitud, particularmente crı́tico con el trabajo de Rose, pero en las tres páginas y media que dedican al tema hay seis inexactitudes. Morrison (2009a) argumenta que, entendiendo correctamente el marco de la relación de verosimilitud, la mayorı́a de las objeciones de Coulthard y Johnson pueden descartarse. Según Kuhn (1962), normalmente un cambio de paradigma se precipita cuando existe la conciencia generalizada de que se está produciendo una crisis, cuando un gran número de cientı́ficos reconocen que hay problemas tan serios que no parece posible resolverlos dentro del paradigma al uso. En la comparación forense de la voz el origen de la crisis parece ser fundamentalmente externo, ocasionado por algunos veredictos judiciales como el de Daubert, Adams, y Doheny y Adams; por el desarrollo de otras ramas de las ciencias forenses, en particular la comparación de perfiles de ADN, y por informes, recomendaciones y estándares como el informe del NRC (2009), el Law Commission of England and Wales Consultation Paper (2009), y los Standards for the Formulation of Evaluative Forensic Science Expert Opinion de la Association of Forensic Science Providers (2009). Varios cientı́ficos forenses del habla con base en el Reino Unido reconocieron la existencia de una crisis entre el año 2005 y 2007 y emitieron conjuntamente una declaración de su postura con respeto a lo que ellos consideraban un marco correcto para la evaluación y Geoffrey-Stewart Morrison 27 presentación de las evidencias de la comparación forense de la voz (French y Harrison, 2007). No obstante, no adoptaron el nuevo paradigma que aquı́ se ha descrito. De hecho, yo interpreto su acción como un intento de resistencia a la presión de adoptar el nuevo paradigma para, en su lugar, crear y promover un paradigma alternativo que más cercano a su práctica previa y por tanto más fácil para ellos de llevar a la práctica. Aunque presentan su marco como capaz de proporcionar correctamente la probabilidad de las pruebas dadas las hipótesis opuestas, dicho marco es incoherente y en dos casos defienden que se efectúen estipulaciones de exclusión o identificación con probabilidades a posteriori: “we see no logical flaw in making the statement that the samples are spoken by different speakers” 18 (pág. 141). “we consider it justified to make categorical statements of identification” 19 (pág. 142). El marco es realmente un marco en dos fases, calculando secuencialmente similitud y tipicidad, y evoca los marcos que habı́an estado empleándose en otras ciencias de la comparación forense, incluyendo el ADN, antes de ser substituidos por el marco de la relación de verosimilitud (Foreman y otros, 2003; Evett, 1991). La validez y la fiabilidad no se mencionan en su manifiesto, y no sé de ninguna publicación que compruebe la validez y la fiabilidad de la comparación forense de la voz llevada a cabo con su marco. En Rose y Morrison (2009) se puede leer una crı́tica completa de la postura del grupo del Reino Unido. El manifiesto del grupo del Reino Unido (French y Harrison, 2007) termina diciendo: “Finally, we accept in principle the desirability of considering the task of speaker comparison in a likelihood ratio (including Bayesian) conceptual framework. However, we consider the lack of demographic data along with the problems of defining relevant reference populations as grounds for precluding the quantitative application of this type of approach in the present context.” 20 (p. 142). Teniendo en cuenta esta afirmación, no está claro por qué los autores del manifiesto no han implementado el marco de la relación de verosimilitud utilizando estimaciones de la probabilidad de la evidencia dadas las hipótesis opuestas que estuvieran basadas en la experiencia. Al menos uno de los firmantes del manifiesto rechaza explı́citamente esta posibilidad: “Where it is not possible to express an opinion in this way – which is in reality almost 18 no vemos ningún defecto lógico en hacer declaraciones en el sentido de que las muestras han sido producidas por diferentes hablantes. 19 consideramos justificado hacer afirmaciones categóricas de identificación. 20 Para terminar, en principio aceptamos la conveniencia de abordar la comparación del hablante en el marco conceptual de la relación de verosimilitud (incluso en un marco bayesiano). Sin embargo, consideramos que la falta de datos demográficos junto con los problemas para definir la poblaciones relevantes justifican la exclusión de la implementación cuantitativa de este tipo de enfoque dentro el contexto actual. Geoffrey-Stewart Morrison 28 always, because in most cases we lack population statistics on the distribution of speech features even in well-described languages like English – the use of likelihood statistics should be avoided altogether.” 21 (Watt, 2009, pág 84) . El marco de la relación de verosimilitud es un marco conceptual, y no es dependiente en sı́ mismo de los datos, de modo que una implementación del marco de la relación de verosimilitud basada en la experiencia serı́a defendible si se acompañara de pruebas de validez y fiabilidad. Evett (1991, pág. 21) comenta: “For an expert to say ‘I think this is true because I have been doing this job for x years’ is, in my view, unscientific. On the other hand, for an expert to say ‘I think this is true and my judgement has been tested in controlled experiments’ is fundamentally scientific.” 22 . Considero que la validez y la fiabilidad demostrables son aspectos esenciales del nuevo paradigma y que el análisis cuantitativo basado en los datos es una faceta muy deseable; si se puede demostrar que las relaciones de verosimilitud calculadas por un humano experto basándose en la experiencia son más válidas y fiables que un sistema basado en datos cuantitativos, entonces personalmente preferirı́a el sistema basado en la experiencia al sistema basado en los datos. También, aunque soy un proponente de la implementación del marco de la relación de verosimilitud basada en datos cuantitativos, puedo concebir circunstancias excepcionales en las que serı́a esencialmente imposible recopilar datos significativos de la población, pero en las que los testimonios basados en la experiencia serı́an valorables en un juicio. Aunque la mayor parte del manifiesto del grupo del Reino Unido parece estar interesado en ofrecer una alternativa al marco de la relación de verosimilitud como componente del nuevo paradigma, las siguientes citas rechazan, más bien al contrario, el componente que requiere el uso de datos: “we consider the lack of demographic data along with the problems of defining relevant reference populations as grounds for precluding the quantitative application of this type of approach in the present context.” 23 (pág. 142). Esto no es sólo un rechazo de la implementación basada en los datos del marco de la relación de 21 Cuando no es posible expresar una opinión de este modo – lo que en realidad ocurre casi siempre porque en la mayorı́a de los casos carecemos de estadı́sticas de población sobre la distribución de las caracterı́sticas del habla incluso en lenguas bien descritas como el inglés – el uso de estadı́sticas de verosimilitud debe evitarse por completo. 22 Que un experto diga ‘Pienso que esto es verdad porque he estado haciendo este trabajo durante x años’ no es, bajo mi punto de vista, cientı́fico. Por otro lado, que un experto diga ‘Pienso que esto es verdad y mi opinión se ha comprobado en experimentos controlados’ es básicamente cientı́fico. 23 consideramos que la falta de datos demográficos junto con los problemas para definir las poblaciones relevantes justifican la exclusión de la implementación cuantitativa de este tipo de enfoque en el contexto actual. Geoffrey-Stewart Morrison 29 verosimilitud, sino un rechazo de todos los marcos basados en datos (debido al problema de recopilación) y un rechazo de todos los marcos que consideran la tipicidad (debido al problema de definir poblaciones relevantes), lo que lógicamente incluirı́a al propio marco de su manifiesto (French y Harrison, 2007). Definir la población relevante en una muestra para calcular el componente de tipicidad de la relación de verosimilitud, y el coste que implica el trabajo de recopilación y el análisis de las muestras de la población relevante son problemas reales que necesitan solución (Aitken y Taroni, 2004, pág. 274–271; Lucy, 2005, pág. 129–133). También eran problemas para el desarrollo de la comparación forense de los perfiles de ADN, pero la considerable inversión llevada a cabo en investigación y en el desarrollo de bancos de datos de perfiles de ADN ha significado que estos problemas no suponen ahora un impedimento frecuente para la práctica de las investigaciones (Foreman y otros, 2003). No veo razones por las que, con suficiente inversión en investigación e infraestructura, no serı́a también posible resolver estos problemas respecto a la implementación práctica de la comparación forense de la voz en el nuevo paradigma. Esto será claramente más difı́cil en lugares como el Reino Unido, con posiciones dialécticas más heterogéneas que las relativamente más homogéneas de otros lugares como Australia, pero si uno acepta cualquier paradigma basado en los datos, entonces eso supone un acicate para llevar a cabo más investigaciones en vez de abandonar el paradigma. De hecho, la mayor heterogeneidad en las posiciones dialécticas puede en última instancia llevar a que la comparación forense de la voz sea más útil para el juzgador de los hechos: la heterogeneidad dialectal pudiera conducir a una mayor variación entre hablantes con el potencial de relaciones de verosimilitud mayores, o podrı́a conducir a que el juzgador de los hechos tuviera que considerar una población potencial de delincuentes de tamaño más reducido. Finalmente, la experiencia que yo tengo es que algunos de los opositores al nuevo paradigma creen erróneamente que sus defensores lo consideran como la solución inmediata de todos los problemas existentes, lo que ellos juzgan equivocado: pueden enumerar muchos problemas que el nuevo paradigma no resuelve. Tal como lo define Kuhn (1962), no obstante, un paradigma no resuelve los problemas existentes, más bien proporciona una forma de entender y resolverlos. Un nuevo paradigma solo tendrá éxito potencialmente si se muestra capaz de ofrecer mejores vı́as de resolución de los problemas. Un nuevo paradigma puede incluso generar nuevos problemas que no existı́an en el viejo paradigma, por ejemplo, para alguien acostumbrado a realizar la comparación forense basada en la experiencia, el componente basado en datos del nuevo paradigma presenta nuevos problemas prácticos muy serios. Un ejemplo de Geoffrey-Stewart Morrison 30 problema que los opositores del nuevo paradigma utilizan para argumentar en contra de su adopción es el siguiente: Los hablantes se diferencian en cuanto a la lengua y los dialectos que hablan, y los locutores individuales difieren en el estilo de habla que emplean en unas ocasiones y otras, por ejemplo, algunas veces pueden hablar con calma y, otras, irritados. La diferencia entre un habla calmada y otra enfadada en un dialecto puede ser distinta a la que existe entre habla calmada y enfadada en otro dialecto y no es práctico recopilar datos de habla calmada y enfadada en todos las lenguas y dialectos. No obstante, esto describe un problema que existe y que necesita resolverse independientemente de qué paradigma se haya adoptado: En cualquier paradigma que se base en datos se necesita tenerlos para la lengua, el dialecto y el estilo de habla relevantes, ası́ como en cualquier paradigma basado en la experiencia se necesita tener experiencia con la lengua, el dialecto y el estilo de habla relevantes; el coste que implica la recopilación de tales datos o la adquisición de tal experiencia tiene que pagarse en cualquier caso. El hecho de que las diferencias debidas a los estilos de habla se manifiesten de diferentes maneras en los diferentes dialectos es algo irrelevante. Si uno está trabajando en un caso particular, entonces el caso define qué combinaciones de lenguas, dialectos y estilos de habla son relevantes, y si uno está llevando a cabo una investigación general con vistas a una posible investigación futura, entonces, uno presumiblemente decidirá con qué lenguas, dialectos y estilos de habla trabajar de acuerdo con lo que uno piense que será más útil en el futuro. El nuevo paradigma en realidad deja claro cómo se debe proceder: se deben recopilar grabaciones de audio de los hablantes de la lengua y dialecto relevantes; para cada hablante se debe obtener al menos una grabación de voz calmada y otra grabación de voz enfadada; se debe elaborar un sistema de comparación forense de la voz; y se debe calcular la validez y fiabilidad de este sistema con datos de prueba consistentes en pares de grabaciones de voz, una calmada y otra enfadada. Probablemente hay dos maneras de resolver el problema, bien analizando las propiedades acústicas que son resistentes a las diferencias de estilo de habla, o bien construyendo modelos estadı́sticos que puedan predecir y compensar las diferencias en las propiedades de la voz debidas a las diferencias en el estilo de habla. Los detalles de las posibles soluciones no son parte del paradigma, pero el paradigma proporciona un medio por el que se puede calcular y decidir cuál de las posibles soluciones es la mejor. 3. Conclusión Con base en mi interpretación del cambio de paradigma en las ciencias de la comparación forense descrito por primera vez por Saks y Koehler (2005), Geoffrey-Stewart Morrison 31 el nuevo paradigma se puede caracterizar como una implementación cuantitativa basada en los datos del marco de la relación de verosimilitud, con una evaluación cuantitativa de la validez y fiabilidad del peso calculado de la evidencia. El nuevo paradigma fue adoptado en la comparación forense del ADN en los años 90 y en la última década ha comenzado a extenderse en el ámbito de la comparación forense de la voz. Existen importantes problemas en la implementación del nuevo paradigma, en particular, el problema práctico que supone la recopilación y el análisis de grandes bancos de datos de voz grabada. Resolver estos problemas hasta el punto en el que la comparación forense de la voz en el nuevo paradigma pueda llegar a ser realmente una práctica diaria en muchas partes del mundo supondrá una inversión substancial en recursos. Se ha gastado una gran cantidad de dinero en el desarrollo de infraestructura e investigación para la comparación forense de los perfiles de ADN. Espero que los organismos de financiación atiendan el llamamiento del Consejo Nacional de Investigación de los Estados Unidos (US National Research Council) (NRC, 2009) y proporcionen una financiación adecuada para desarrollar las otras ramas de las ciencias forenses incluyendo la comparación forense de la voz. Reconocimientos La elaboración de este artı́culo ha sido financiada por Australian Research Council Discovery Project Grant No DP0774115. Agradezco a Didier Meuwley, Philp Rose, Yuko Kinoshita, Michael Jessen, Cuiling Zhang y a dos revisores anónimos el debate de las ideas y los comentarios de los borradores de este artı́culo. Referencias A ITKEN, C.G.G. y TARONI, F. (2004). Statistics and the Evaluation of Forensic Evidence for Forensic Scientist. Wiley, Chichester, UK, 2ndedición. A LEXANDER, A.; D ESSIMOZ, D.; B OTTI, F. y D RYGAJLO, A. (2005). ((Aural and automatic forensic speaker recognition in mismatched conditions, International Journal of Speech)). International Journal of Speech Language and the Law, 12, p. 214–234. BALDING, D.J. (2005). Weight-of-evidence for Forensic DNA Profiles. Wiley, Chichester, UK. B ECKER, T.; J ESSEN, M. y G RIGORAS, C. (2008). ((Forensic speaker verification using formant features and Gaussian mixture models)). En: Proceedings Geoffrey-Stewart Morrison 32 of Interspeech 2008 Incorporating SST 2008, p. 1505–1508. International Speech Communication Association. B IMBOT, F.; B ONASTRE, J.-F.; F REDOUILLE, C.; G RAVIEER, G.; M ARGRIN C HAGNOLLEAU, I.; M EIGNIER, S.; M ERLIN, T.; O RTEGA G ARC ÍA, J.; P ETROVSKA D ELACR ÉTAZ, D. y R EYNOLDS, D.A. (2004). ((A tutorial on text-independent speaker verification)). EURASIP Journal on Applied Signal Processing, 4, p. 430–451. B OTTI, F.; A LEXANDER, A. y D RYGAJLO, A. (2004). ((On compensation of mismatched recording conditions in the Bayesian approach for forensic automatic speaker recognition)). Forensic Science International, 146, pp. S101–S106. ISSN 0379-0738. doi: 10.1016/j.forsciint.2004.09.032. B ROEDERS, A.P.A. (1995). ((The role of automatic speaker recognition techniques in forensic investigations)). En: Proceedings of the International Congress of Phonetic Sciences, volumen 3, p. 154–161. Stockholm. —— (2001). ((Forensic speech and audio analysis forensic linguistics: 1998 to 2001 A review)). En: 13th Interpol Forensic Science Symposium, pp. D2– 53–D2–54. Interpol, Lyon, France. —— (2004). ((Forensic speech and audio analysis forensic linguistics: A review: 2001 to 2004)). En: 14th Interpol Forensic Science Symposium, p. 171–188. Interpol, Lyon, France. B R ÜMMER, N.; B URGET, L.; C ERNOCKY, J.H.; G LEMBEK, O.; G REZL, F.; K ARAFIAT, M.; VAN L EEUWEN, D.A.; M ATEJKA, P.; S CHWARZ, P. y S TRASHEIM, A. (2007). ((Fusion of heterogenous speaker recognition systems in the STBU submission for the NIST SRE 2006,)). EEE Transactions on Audio, Speech and Language Processing, 15, p. 2072–2084. doi: 10.1109/TASL.2007.902870. B R ÜMMER, N. y DU P REEZ, J. (2006). ((Application independent evaluation of speaker detection)). Computer Speech and Language, 20, p. 230–275. doi: 10.1016/j.csl.2005.08.001. B UCKLETON, J. (2005). ((A framework for interpreting evidence)). En: J. Buckleton; C.M. Triggs y S.J. Walsh (Eds.), Forensic DNA Evidence Interpretation, p. 27–63. CRC, Boca Raton, FL. B UCKLETON, J.; T RIGGS, C.M. y WALSH, S.J. (2005). Forensic DNA Evidence Interpretation. CRC, Boca Raton, FL. Geoffrey-Stewart Morrison 33 C AMBIER L ANGEVALD, T. (2007). ((Current methods in forensic speaker identification: Results of a collaborative exercise)). International Journal of Speech, Language and the Law, 14, p. 223–243. doi: 10.1558/ijsll.2007. 14.2.223. C HAMPOD, C. y M EUWLY, D. (1998). ((The inference of identity in forensic speaker recognition)). En: Proceedings of RLA2C Workshop: Speaker Recognition and its Commercial and Forensic Applications, p. 125–135. —— (2000). ((The inference of identity in forensic speaker recognition)). Speech Communication, 31, p. 193–203. C OMMISSION, L AW (2009). The Admissibility of Expert Evidence in Criminal Proceedings in England and Wales: A New Approach to the Determination of Evidentiary Reliability. The Stationery Office, London, UK. http://www.lawcom.gov.uk/expert_evidence.htm C OOK, R.; E VETT, I.W.; JACKSON, G.; J ONES, P.J. y L AMBERT, J.A. (1998). ((A hierarchy of propositions: deciding which level to address in casework)). Science & Justice, 38, p. 231–239. doi: 10.1016/S1355-0306(98)72117-3. C OULTHARD, M. y J OHNSON, A. (2007). An Introduction to Forensic Linguistics: Language in Evidence. Routledge, London, UK. D ONNELLY, P. (2005). ((Appealing statistics)). Significance, 2, p. 46–48. doi: 10.1111/j.1740-9713.2005.00089.x. D RYGAJLO, A. (2007). ((Forensic automatic speaker recognition)). IEEE Signal Processing Magazine, 24(2), pp. 132–135. ISSN 1053-5888. E VETT, I.W. (1990). ((The theory of interpreting scientific transfer evidence)). Forensic Science Progress, 4, p. 141–179. —— (1991). ((Interpretation: A personal odyssey)). En: C.G.G. Aitken y D.A. Stoney (Eds.), The Use of Statistics in Forensic Science, p. 9–22. Ellis Horwood, Chichester, UK. —— (1998). ((Towards a uniform framework for reporting opinions in forensic science case-work)). Science & Justice, 38, p. 98–202. doi: 10.1016/ S1355-0306(98)72105-7. E VETT, I.W. y B UCKLETON, J.S. (1996). ((Statistical analysis of STR data)). En: A. Carraredo; B. Brinkmann y W. Bär (Eds.), Advances in Forensic Haemogenetics, volumen 6, p. 79–86. Springer-Verlag, Heidelberg, Germany. Geoffrey-Stewart Morrison 34 E VETT, I.W.; JACKSON, G.; L AMBERT, J.A. y M C C ROSSAN, S. (2000). ((The impact of the principles of evidence interpretation on the structure and content of statements)). Science & Justice, 40, p. 233–239. doi: 10.1016/S1355-0306(00)71993-9. F OREMAN, L.A.; C HAMPOD, C.; E VETT, I.W.; L AMBERT, J.A. y P OPE, S. (2003). ((Interpreting DNA evidence: A review)). International Statistics Journal, 71, p. 473–473. F RENCH, J.P. y H ARRISON, P. (2007). ((Position statement concerning use of impressionistic likelihood terms in forensic speaker comparison cases)). International Journal of Speech, Language and the Law, 14, p. 137–144. doi: 10.1558/ijsll.v14i1.137. G ONZ ÁLEZ RODRIGUEZ, J.; O RTEGA G ARC ÍA, J. y L UCENA M OLINA, J.J. (2001). ((On the application of the Bayesian Framework to real forensic conditions with GMM-based systems)). En: Proceedings of 2001: A Speaker Odyssey, The Speaker Recognition Workshop, pp. 135–138. G ONZ ÁLEZ RODR ÍGUEZ, J.; D RYGAJLO, A.; R AMOS C ASTRO, D.; G ARC ÍA G OMAR, M. y O RTEGA G ARC ÍA, J. (2006). ((Robust estimation, interpretation and assessment of likelihood ratios in forensic speaker recognition)). Computer Speech and Language, 20, p. 331–355. doi: 10.1016/j.csl.2005. 08.005. G ONZ ÁLEZ RODR ÍGUEZ, J.; ROSE, P.; R AMOS, D.; T OLEDANO, D.T. y O RTEGA G ARC ÍA, J. (2007). ((Emulating DNA: Rigorous quantification of evidential weight in transparent and testable forensic speaker recognition)). IEEE Transactions on Audio, Speech, and Language Processing, 15, p. 2104–2115. doi: 10.1109/TASL.2007.902747. G RUBER, J.S. y P OZA, F. (1995). Voicegram Identification Evidence. volumen 54. American Jurisprudence Trials, Westlaw. H ODGSON, D. (2002). ((A lawyer looks at Bayes’ Theorem)). The Australian Law Journal, 76, p. 109–118. —— (2007). ((Speaker identification - a judicial perspective)). En: Paper presented at the Australian Research Council Human Communications Network Workshop on Forensic Speaker Recognition (FSI not CSI: Perspectives in State-of-the-Art Forensic Speaker Recognition), Sydney, New South Wales, Australia. http://forensic-voice-comparison.net Geoffrey-Stewart Morrison 35 J ESSEN, M. (2008). ((Forensic phonetics)). Language and Linguistics Compass, 2, p. 671–711. doi: 10.1111/j.1749-818x.2008.00066.x. K AYE, D.H. y S ENSABAUGH J R ., G.F. (2008). ((Modern Scientific Evidence: The Law and Science of Expert Testimony)). Thomson West, 4, p. 83–224. K ERSTA, L. G. (1962). 1253–1257. ((Voiceprint identification)). Nature, 196, p. K INOSHITA, Y. (2001). Testing Realistic Forensic Speaker Identification in Japanese: A Likelihood Ratio Based Approach Using Formants. Tesis doctoral, Australian National University, Canberra, Australia. —— (2005). ((Does Lindley’s LR estimation formula work for speech data? Investigation using long-term f0)). International Journal of Speech, Language and the Law, 12, p. 235–254. K UHN, T.S. (1962). The Structure of Scientific Revolutions. University of Chicago Press, Chicago, IL. —— (1970). The Structure of Scientific Revolutions. University of Chicago Press, Chicago, IL, 2a edición. K WAN, Q.Y. (1977). Inference of Identity of Source. Tesis doctoral, University of California, Berkeley, USA. L EWIS, S.R. (1984). ((Philosophy of speaker identification. Police applications of speech and tape recording analysis)). En: Proceedings of the Institute of Acoustics, volumen 6, p. 69–77. L INDLEY, D.V. (1977). ((Probability and the law)). The Statistician, 26, p. 203–220. L UCY, D. (2005). Introduction to Statistics for Forensic Scientists. Wiley, Chichester, UK. M EUWLY, D. (2001). Reconnaissance de locuteurs en sciences forensiques: l’apport d’une approche automatique. Tesis doctoral, University of Lausanne, Lausanne, Switzerland. —— (2006). ((Forensic individualisation from biometric data)). Science & Justice, 38, p. 198–202. doi: 10.1016/S1355-0306(06)71600-8. Geoffrey-Stewart Morrison 36 M EUWLY, D. y D RYGAJLO, A. (2000). ((Reconnaissance automatique de locuteurs en sciences forensiques: Modélisation de la variabilité intralocuteur et interlocuteur)). En: Proceedings of 5éme Congrès Français d’Acoustique, p. 522–525. —— (2001). ((Forensic speaker recognition based on a Bayesian framework and Gaussian Mixture Modelling (GMM))). M EUWLY, D.; E L -M ALIKI, M. y D RYGAJLO, A. (1998). ((Forensic speaker recognition using Gaussian mixture models and a Bayesian framework)). En: Proceedings of the COST-250 Workshop, Ankara, Turkey. M ORRISON, G.S. (2008). ((Forensic voice comparison using likelihood ratios based on polynomial curves fitted to the formant trajectories of Australian English /aI/)). International Journal of Speech, Language and the Law, 15, p. 247–264. doi: 10.1558/ijsll.v15i2.249. —— (2009a). ((Comments on Coulthard & Johnson’s portrayal of the likelihood-ratio framework)). Australian Journal of Forensic Sciences, 41, p. 155–161. doi: 10.1080/00450610903147701. —— (2009b). ((Likelihood-ratio forensic voice comparison using parametric representations of the formant trajectories of diphthongs)). Journal of the Acoustical Society of America, 125, p. 2387– 2397. doi: 10.1121/1.3081384. M ORRISON, G.S. y K INOSHITA, Y. (2008). ((Automatic-type calibration of traditionally derived likelihood ratios: Forensic analysis of Australian English /o/ formant trajectories)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p. 1501–1504. International Speech Communication Association. N OLAN, F. (2001). ((Speaker identification evidence: its forms, limitations and roles)). En: Proceedings of the International Conference on Law and Language: Prospect and Retrospect, University of Lapland, Levi, Finland. http://www.ling.cam.ac.uk/francis/LawLang.doc NRC (2009). Strengthening Forensic Science in the United States: A Path Forward. National Academies Press, Washington, DC. R AMOS C ASTRO, D. (2007). Forensic evaluation of the evidence using automatic speaker recognition systems. Tesis doctoral, Universidad Autónoma de Madrid, Madrid, Spain. Geoffrey-Stewart Morrison 37 ROBERTSON, B. y V IGNAUX, G.A. (1995). Interpreting Evidence. Wiley, Chichester, UK. ROSE, P. (1997). ((Identifying criminals by their voice: The emerging applied discipline of forensic phonetics)). Australian Language Matters, 5(2), p. 6–7. —— (1999). ((Differences and distinguishability in the acoustic characteristics of hello in voices of similar-sounding speakers: a forensic-phonetic investigation)). Australian Review of Applied Linguistics, 22, p. 1–42. —— (2002). Forensic Speaker Identification. Taylor and Francis, London, UK. —— (2003). ((The technical comparison of forensic voice samples)). En: I. Freckelton y H. Selby (Eds.), Expert Evidence, Thomson Lawbook Company, Sydney, Australia. —— (2005). ((Forensic speaker recognition at the beginning of the twenty-first century: An over-view and a demonstration)). Australian Journal of Forensic Sciences, 37(2), p. 49–71. —— (2006). ((Technical forensic speaker recognition)). Computer Speech and Language, 20, p. 159–191. doi: 10.1016/j.csl.2005.07.003. ROSE, P. y C LERMONT, F. (2001). ((A comparison of two acoustic methods for forensic speaker discrimination)). Acoustics Australia, 29, p. 31–35. ROSE, P. y M ORRISON, G.S. (2009). ((A response to the UK position statement on forensic speaker comparison)). International Journal of Speech, Language and the Law, 16, p. 139–163. doi: 10.1558/ijsll.v16i1.139. ROSE, P.; O SANAI, T. y K INOSHITA, Y. (2003). ((Strength of forensic speaker identification evidence: Multispeaker formant- and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold)). Forensic Linguistics, 10, p. 179–202. S AKS, M. J. y KOEHLER, J.J. (2005). ((The coming paradigm shift in forensic identification science)). Science, 309, p. 892–895. S CHWARTZ, R. (2006). ((Voiceprints in the United States - Why they won’t go away)). En: Proceedings of the International Association for Forensic Phonetics and Acoustics Conference, Göteborg, Sweden. http://www.ling.gu.se/konferenser/iafpa2006/ Geoffrey-Stewart Morrison 38 S OLAN, L.M. y T IERSMA, P.M. (2003). ((Hearing voices: Speaker identification in court)). Hastings Law Journal, 54, p. 373–435. T HIRUVARAN, T.; A MBIKAIRAJAH, E. y E PPS, J. (2008). ((FM features for automatic forensic speaker recognition)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p. 1497–1500. International Speech Communication Association. L EEUWEN, D.A. y B OUTEN, J.S. (2004). ((Results of the 2003 NFI-TNO Forensic Speaker Recognition Evaluation)). En: Proceedings of Odyssey04: The Speaker and Language Recognition Workshop, pp. 75–82. International Speech Communication Association. VAN L EEUWEN, D.A. y B R ÜMMER, N. (2007). ((An introduction to application-independent evaluation of speaker recognition systems)). En: C. Müller (Ed.), Speaker Classification I: Selected Projects, p. 330–353. Springer-Verlag, Heidelberg, Germany. doi: 10.1007/978-3-540-74200-5 19. VAN WATT, D. (2009). ((The identification of the individual through speech)). En: C. Llamas y D. Watt (Eds.), Language and Identities, p. 76–85. Edinburgh University Press, Edinburgh. Z HANG, C.; M ORRISON, G.S. y ROSE, P. (2008). ((Forensic speaker recognition in Chinese: A multivariate likelihood ratio discrimination on /i/ and /y/)). En: Proceedings of Interspeech 2008 Incorporating SST 2008, p. 1937–1940. International Speech Communication Association. Z HANG, C. y ROSE, P. (2008). ((Strength evaluation of forensic speaker recognition evidence based on likelihood ratio approach [en chino])). Zheng ju ke xue [Evidence Science], 16, p. 337–342.