Download p(E|Hp) p(E|Hd) p(E|Hp) p(E|Hd)
Document related concepts
no text concepts found
Transcript
CSIC/UIMP Máster en fonética y fonología La evaluación de las evidencias y la comparación forense del habla Geoffrey Stewart Morrison p(E|Hp ) p(E|Hd ) Enfoques, Marcos, y Paradigmas Enfoques para la comparación forense del habla ? auditivo ? espectrográfico / auditivo-espectrográfico ? auditivo-acústico-fonético ? acústico-fonético-estadístico ? automático con supervisión humano ? completamente automático Marcos para el análisis y la presentación del peso de la evidencia ? identifición / exclusión / no concluyente ? probabilidad a posteriori numérica ? relación de verosimilitud numérica ? escala verbal de probabilidad a posteriori ? escala verbal de relación de verosimilitud ? marco reinounidense (3 niveles de consistencia, 5 de peculiaridad) El Nuevo Paradigma para la Evaluación de las Evidencias Forenses ? Uso del marco de relaciones de verosimilitud para la evaluación de las evidencias ? Uso de mediciones cuantitativas, bases de datos representativas de la población relevante, y modelos estadísticos ? Evaluación empírica de validez y fiabilidad bajo condiciones que reflejan las condiciones del caso bajo investigación ? Transparencia sobre las decisiones tomados y los hecho cumplidos como parte del análisis forense El Nuevo Paradigma para la Evaluación de las Evidencias Forenses ? Uso del marco de relaciones de verosimilitud para la evaluación de las evidencias – lógicamente correcta – se adoptó para ADN a mediados de los años 90 – 2015 ENFSI guideline for evaluative reporting in forensic science guía para la presentación de evaluaciones en la ciencia forense El Nuevo Paradigma para la Evaluación de las Evidencias Forenses ? Uso de mediciones cuantitativas, bases de datos representativas de la población relevante, y modelos estadísticos – transparente – replicable – más fácil para probar El Nuevo Paradigma para la Evaluación de las Evidencias Forenses ? Evaluación empírica de validez y fiabilidad bajo condiciones que reflejan las condiciones del caso bajo investigación – 1993 Daubert – 2009 National Research Council Report El Nuevo Paradigma para la Evaluación de las Evidencias Forenses ? Transparencia sobre las decisiones tomados y los hecho cumplidos como parte del análisis forense – 2010 R v T – comentarios sobre R v T Relación de Verosimilitud I: La Lógica Imagina que conduces hacia el aeropuerto... Imagina que conduces hacia el aeropuerto... Imagina que conduces hacia el aeropuerto... Imagina que conduces hacia el aeropuerto... creencia probabilística + inicial evidencia creencia probabilística actualizada ¿más alta? o ¿más baja? Imagina que conduces hacia el aeropuerto... creencia probabilística + inicial evidencia creencia probabilística actualizada ¿más alta? o ¿más baja? ? Razonamiento Bayesiano: – se trata de la lógica – no se trata de formulas matemáticas – no hay nada complicado ni extraño con esto – es la manera lógica de pensar sobre muchos problemas ¿Thomas Bayes? Pierre-Simon Laplace Imagina que trabajas en un centro de reciclaje de zapatos... ? Te encuentras con dos zapatos del mismo tamaño – ¿El hecho de que tienen el mismo tamaño indica que proceden de la misma persona? – ¿El hecho de que tienen el mismo tamaño indica que es muy probable que proceden de la misma persona? Imagina que trabajas en un centro de reciclaje de zapatos... ? Te encuentras con dos zapatos del mismo tamaño – ¿El hecho de que tienen el mismo tamaño indica que proceden de la misma persona? – ¿El hecho de que tienen el mismo tamaño indica que es muy probable que proceden de la misma persona? ? Tanto similitud como tipicidad son importantes Imagina que eres un experto forense en comparación de calzado... zapato del sospechoso huella de la escena del crimen Imagina que eres un experto forense en comparación de calzado... ? La huella del zapato en la escena del crimen tiene un tamaño 43 ? El tamaño del pie del sospechoso es 43 – ¿Cuál es la probabilidad de que la huella de la escena del crimen sea 43 si la dejó el zapato del sospechoso? (similitud) ? La mitad de los zapatos en el centro de reciclaje son de tamaño 43 – ¿Cuál es la probabilidad de que la huella de la escena del crimen sea 43 si la dejó el zapato de una persona seleccionada al azar? (tipicidad) Imagina que eres un experto forense en comparación de calzado... ? La huella del zapato en la escena del crimen tiene un tamaño 48 ? El tamaño del pie del sospechoso es 48 – ¿Cuál es la probabilidad de que la huella de la escena del crimen sea 48 si la dejó el zapato del sospechoso? (similitud) ? 1% de los zapatos en el centro de reciclaje son de tamaño 48 – ¿Cuál es la probabilidad de que la huella de la escena del crimen sea 48 si la dejó el zapato de una persona seleccionada al azar? (tipicidad) Imagina que eres un experto forense en comparación de calzado... ? La huella del zapato en la escena del crimen tiene un tamaño 43 similitud / tipicidad = 1 / 0.5 = 2 encontrar la huella de tamaño 43 sería 2 veces más probable si fuera hecho por el zapato del sospechoso en vez de si fuera hecho por el zapato de una persona seleccionada al azar Imagina que eres un experto forense en comparación de calzado... ? La huella del zapato en la escena del crimen tiene un tamaño 48 similitud / tipicidad = 1 / 0.01 = 100 encontrar la huella de tamaño 43 sería 100 veces más probable si fuera hecho por el zapato del sospechoso en vez de si fuera hecho por el zapato de una persona seleccionada al azar Imagina que eres un experto forense en comparación de calzado... ? tamaño 43 similitud / tipicidad = 1 / 0.5 = 2 ? tamaño 48 similitud / tipicidad = 1 / 0.01 = 100 ? Sin tener una base de datos, ¿sería posible estimar subjetivamente las proporciones relativas de los diferentes tamaños de zapatos en la población y aplicar la misma lógica para llegar a una respuesta conceptualmente similar? ¿Area? similitud / tipicidad = relación de verosimilitud Dado que es una vaca, ¿cuál es la probabilidad de que tenga 4 patas? p( 4 patas | vaca ) = ¿? Dado que tiene 4 patas, ¿cuál es la probabilidad de que sea una vaca? p( vaca | 4 patas ) = ¿? Dadas dos muestras de voz con propiedades acústicas x1 y x2, ¿cuál es la probabilidad de que fueran producidas por el mismo locutor? p( mismo locutor | propiedades acústicas x1, x2 ) = ¿? 0.05 0.04 0.03 0.02 0.01 0 -0.01 -0.02 -0.03 -0.04 0.06 0.05 0.04 0.03 0.02 0.01 0 -0.01 -0.02 -0.03 p( mismo locutor | propiedades acústicas x1, x2 ) = ¿? p( mismo andante | tamaño xhuella, xzapato ) = ¿? p( vaca | x patas ) = ¿? Teorema de Bayes: apuesta a posteriori p( mismo locutor | propiedades acústicas x1, x2 ) p( diferente locutor | propiedades acústicas x1, x2 ) = p( propiedades acústicas x1, x2 | mismo locutor ) × p( mismo locutor ) p( propiedades acústicas x1, x2 | diferente locutor ) p( diferente locutor ) relación de verosimilitud apuesta a priori Teorema de Bayes: creencia probabilística + inicial evidencia creencia probabilística actualizada ¿más alta? o ¿más baja? ¡¡¡ Sin Embargo !!! El científico forense actuando como testigo experto NO puede dar una probabilidad a posteriori. NO puede dar la probabilidad de que dos muestras de voz fueran producidos por el mismo locutor. ¿Por qué no? ? El científico forense no sabe las probabilidades a priori. ? Determinar la probabilidad de culpabilidad (si es lo que indica la decisión “mismo locutor”) es la tarea del juzgador de los hechos (trier of fact: juez, panel de jueces, o jurado), no la del científico forense. ? La tarea del científico forense es presentar el peso de la evidencia que se puede extraer de las muestras del habla. Teorema de Bayes: apuesta a posteriori p( mismo locutor | propiedades acústicas x1, x2 ) p( diferente locutor | propiedades acústicas x1, x2 ) = p( propiedades acústicas x1, x2 | mismo locutor ) × p( mismo locutor ) p( propiedades acústicas x1, x2 | diferente locutor ) p( diferente locutor ) relación de verosimilitud apuesta a priori Teorema de Bayes: apuesta a posteriori p( mismo locutor | propiedades acústicas x1, x2 ) p( diferente locutor | propiedades acústicas x1, x2 ) = p( propiedades acústicas x1, x2 | mismo locutor ) × p( mismo locutor ) p( propiedades acústicas x1, x2 | diferente locutor ) p( diferente locutor ) relación de verosimilitud apuesta a priori responsabilidad del juzgador de los hechos Teorema de Bayes: apuesta a posteriori p( mismo locutor | propiedades acústicas x1, x2 ) p( diferente locutor | propiedades acústicas x1, x2 ) = p( propiedades acústicas x1, x2 | mismo locutor ) × p( mismo locutor ) p( propiedades acústicas x1, x2 | diferente locutor ) p( diferente locutor ) relación de verosimilitud responsabilidad del científico forense apuesta a priori responsabilidad del juzgador de los hechos Relación de Verosimilitud p( propiedades acústicas x1, x2 | mismo locutor ) p( propiedades acústicas x1, x2 | diferente locutor ) p( tamaño xhuella, xzapato | mismo andante) p( tamaño xhuella, xzapato | diferente andante) p( x patas | vaca ) p( x patas | no vaca ) p( E | Hprosecución ) p( E | Hdefensa ) Ejemplo ? La probabilidad de observar las propiedades acústicas de la grabación del delicuente sería 4 veces más probable si fuese la voz del sospechoso contra si fuese la voz de una persona seleccionada al azar de la población relevante. ? Sea cual sea su creencia anterior sobre las probabilidades relativas de que la voz sea del sospecho contra de que sea de otra persona, después de oír la relación de verosimilitud el juzgador de los hechos debe cambiar su creencia de tal manera que debe pensar que la probabilidad relativa de que sea la voz del sospechoso contra de que sea otro locutor será 4 veces más alto de lo que fuese antes. Ejemplo: La evidencia es 4 veces más probable dada la hipótesis de mismo locutor que dada la hipótesis de diferente locutor multiplicar este por 4 antes después 1 1 1 1 1 diferente mismo si antes pensaba que la hipótesis de mismo locutor y la de diferente locutor estaban igualmente probable 1 1 1 1 1 4 diferente mismo ya debe pensar que la probabilidad de la hipótesis de mismo locutor es 4 veces más probable que la hipótesis de diferente locutor Ejemplo: La evidencia es 4 veces más probable dada la hipótesis de mismo locutor que dada la hipótesis de diferente locutor multiplicar este por 4 antes después 1 1 1 1 1 1 2 diferente mismo si antes pensaba que la hipótesis de mismo locutor estaba 2 veces más probable que la hipótesis de diferente locutor 1 1 1 1 1 1 1 1 8 diferente mismo ya debe pensar que la probabilidad de la hipótesis de mismo locutor es 8 veces más probable que la hipótesis de diferente locutor Ejemplo: La evidencia es 4 veces más probable dada la hipótesis de mismo locutor que dada la hipótesis de diferente locutor multiplicar este por 4 antes 1 2 1 1 1 diferente mismo si antes pensaba que la hipótesis de diferente locutor estaba 2 veces más probable que la hipótesis de mismo locutor después 2 1 1 1 1 1 1 4 diferente mismo ya debe pensar que la probabilidad de la hipótesis de mismo locutor es 8 veces más probable que la hipótesis de diferente locutor Ejemplo: La evidencia es 4 veces más probable dada la hipótesis de mismo locutor que dada la hipótesis de diferente locutor multiplicar este por 4 antes después 1 1 8 8 1 1 1 1 1 1 1 1 diferente mismo si antes pensaba que la hipótesis de diferente locutor estaba 8 veces más probable que la hipótesis de mismo locutor 1 1 1 1 1 1 1 1 1 1 1 1 4 diferente mismo ya debe pensar que la probabilidad de la hipótesis de diferente locutor es 2 veces más probable que la hipótesis de mismo locutor Relación de Verosimilitud II: Pasado, Presente, Futuro RV y el pasado ? 1906 nuevo juicio de Alfred Dreyfus ? Jean-Gaston Darboux, Paul Émile Appell, Jules Henri Poincaré RV y el presente ? Se adoptaron para ADN a mediados de los años 90 RV y el futuro ? Crece el apoyo para la postura de que el marco de la relación de verosimilitud representa la lógica correcta para le evaluación y interpretación de las evidencias forenses RV y el futuro ? Crece el apoyo para la postura de que el marco de la relación de verosimilitud representa la lógica correcta para le evaluación y interpretación de las evidencias forenses ? 2011 declaración de postura* – 2010 fallo R v T del tribunal de apelación de Inglaterra y Gales – 31 firmantes – la respaldó ENFSI, 58 laboratorios en 33 países ? 2015 ENFSI guideline for evaluative reporting in forensic science *Evett IW, Aitken CGG, Berger CEH, Buckleton JS, Champod C, Curran JM, Dawid AP, Gill P, González-Rodríguez J, Jackson G, Kloosterman A, Lovelock T, Lucy D, Margot P, McKenna L, Meuwly D, Neumann C, Nic Daeid N, Nordgaard A, Puch-Solis R, Rasmusson B, Radmayne M, Roberts P, Robertson B, Roux C, Sjerps MJ, Taroni F, Tjin-A-Tsoi T, Vignaux GA, Willis SM, Zadora G (2011). Expressing evaluative opinions: A position statement, Science & Justice, 51, 1–2. doi:10.1016/j.scijus.2011.01.002 RV y el futuro ? Crece el apoyo para la postura de que el marco de la relación de verosimilitud representa la lógica correcta para le evaluación y interpretación de las evidencias forenses ? 2012 respuesta* – borrador de la norma australiana de interpretación de las evidencias forenses – 22 respaldaron – 5 respuestas propias *Morrison GS, Evett IW, Willis SM, Champod C, Grigoras C, Lindh J, Fenton N, Hepler A, Berger CEH, Buckleton JS, Thompson WC, González-Rodríguez J, Neumann C, Curran JM, Zhang C, Aitken CGG, Ramos D, Lucena-Molina JJ, Jackson G, Meuwly D, Robertson B, Vignaux GA (2012). Response to Draft Australian Standard: DR AS 5388.3 Forensic Analysis - Part 3 - Interpretation. http://forensic-evaluation.net/australian-standards/#Morrison_et_al_2012 RV y el futuro ? Crece el apoyo para la postura de que el marco de la relación de verosimilitud representa la lógica correcta para le evaluación y interpretación de las evidencias forenses ? 2012 NIST/NIJ informe sobre análisis de huellas dactilares latentes* – grupo de trabajo de 34 expertos – otros contribuyeron Expert Working Group on Human Factors in Latent Print Analysis (2012). Latent Print Examination and Human Factors: Improving the Practice through a Systems Approach (US Department of Commerce, National Institute of Standards and Technology). http://www.nist.gov/manuscript-publication-search.cfm?pub_id=910745 Relación de Verosimilitud III: Cálculo Datos discretos Relación de Verosimilitud p( propiedades acústicas x1, x2 | mismo locutor ) p( propiedades acústicas x1, x2 | diferente locutor ) p( tamaño xhuella, xzapato | mismo andante) p( tamaño xhuella, xzapato | diferente andante) p( x patas | vaca ) p( x patas | no vaca ) p( E | Hprosecución ) p( E | Hdefensa ) Datos discretos: gráfico de barras 1 vacas no vacas proporción 0.8 0.6 0.4 0.2 0 1 2 3 4 5 patas 6 7 8 Datos discretos: gráfico de barras 1 0.98→ vacas no vacas proporción 0.8 0.6 ←0.49 0.4 0.2 0 1 2 3 4 5 patas 6 7 8 p( 4 patas | vaca ) p( 4 patas | no vaca ) Datos discretos: gráfico de barras 1 0.98→ vacas no vacas proporción 0.8 p( 4 patas | vaca ) p( 4 patas | no vaca ) 0.6 0.98 0.49 ←0.49 0.4 0.2 0 1 2 3 4 5 patas 6 7 8 =2 Datos continuos univariados Datos continuos: histogramas → funciones de densidad de probabilidad 0.014 (a) (b) 0.012 0.010 0.008 0.006 0.004 0.002 0 0 20 40 60 80 100 120 140 160 180 rectangle width: 10 200 0 20 40 60 80 100 120 140 160 180 200 80 100 120 140 160 180 200 rectangle width: 5 0.014 (c) (d) 0.012 0.010 0.008 0.006 0.004 0.002 0 0 20 40 60 rectangle width: 2.5 80 100 120 140 160 180 200 0 20 40 60 rectangle width: 0.1 Datos continuos: histogramas → funciones de densidad de probabilidad 0.014 (a) (b) 0.012 0.010 0.008 0.006 0.004 0.002 0 0 20 40 60 80 100 120 140 160 180 rectangle width: 10 200 0 20 40 60 80 100 120 140 160 180 200 rectangle width: 5 0.014 (c) (d) μ = 100 σ = 30 0.012 0.010 0.008 0.006 0.004 0.002 0 0 20 40 60 rectangle width: 2.5 80 100 120 140 160 180 200 0 20 40 60 rectangle width: 0.1 80 100 120 140 160 180 200 modelo del sospechoso densidad de probabailidad 0.025 0.020 0.015 0.010 modelo de la población 0.005 0 0 20 40 60 80 100 x 120 140 160 180 200 RV = 0.021 / 0.005 = 4.02 0.025 modelo del sospechoso densidad de probabailidad 0.021 0.020 0.015 0.010 modelo de la población 0.005 0.005 0 0 20 40 60 80 100 x 120 140 160 valor del culpable 180 200 Datos multivariados sin correlación 2 2 1 1 0 0 -1 -1 -2 -2 -2 0 2 0 0 0.2 0.4 Prueba A: fdp univariada x = 0.242 fdp univariada y = 0.242 fdp Bayesiano ingenuo (x*y) = 0.059 fdp bivariada = 0.059 0.1 0.2 0.3 0.4 -2 0 2 Prueba B: fdp univariada x = 0.242 fdp univariada y = 0.242 fdp Bayesiano ingenuo (x*y) = 0.059 fdp bivariada = 0.059 con correlación 2 2 1 1 0 0 -1 -1 -2 -2 -2 0 2 0 0 0.2 0.4 Prueba A: fdp univariada x = 0.242 fdp univariada y = 0.242 fdp Bayesiano ingenuo (x*y) = 0.059 fdp bivariada = 0.094 0.1 0.2 0.3 0.4 -2 0 2 Prueba B: fdp univariada x = 0.242 fdp univariada y = 0.242 fdp Bayesiano ingenuo (x*y) = 0.059 fdp bivariada = 0.025 Modelo de Mezclas Gaussianas Modelo de Fondo Universal (Gaussian Mixture Model - Universal Background Model, GMM-UBM) Reynolds DA, Quatieri TF, Dunn RB (2000) Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 10, 19–41. doi:10.1006/dspr.1999.0361 Modelos de Mezclas Gaussianas 0.035 modelo del sospechoso modelo de fondo 0.030 0.025 0.020 0.015 0.010 0.005 0 0 20 40 60 80 100 120 140 160 180 200 Datos de Fondo x 10 -3 1.5 1 0.5 0 1980 1990 380 2000 390 400 2010 410 2020 420 2030 430 2040 440 Modelo de Fondo Datos del sospechoso x 10 -3 1.5 1 0.5 0 1980 1990 380 2000 390 400 2010 410 2020 420 2030 430 2040 440 Adaptación del Modelo del Sospechoso Adaptación del Modelo del Sospechoso Adaptación del Modelo del Sospechoso Adaptación del Modelo del Sospechoso Modelo del Sospechoso Datos del culpable Relación de Verosimilitud IV: Población Relevante Imagina que eres un experto forense en comparación del pelo... ? Todos los testigos dicen que el delicuente tiene pelo rubio ? El sospechoso tiene pelo rubio ? ¿Qué haces? Imagina que eres un experto forense en comparación del pelo... ? Todos los testigos dicen que el delicuente tiene pelo rubio ? El sospechoso tiene pelo rubio p( tener pelo rubio | el sospechoso) p( tener pelo rubio | otra persona) Imagina que eres un experto forense en comparación del pelo... ? Todos los testigos dicen que el delicuente tiene pelo rubio ? El sospechoso tiene pelo rubio p( tener pelo rubio | el sospechoso) p( tener pelo rubio | otra persona) ? ¿Cuál es la población relevante? Imagina que eres un experto forense en comparación del pelo... ? Todos los testigos dicen que el delicuente tiene pelo rubio ? El sospechoso tiene pelo rubio p( tener pelo rubio | el sospechoso) p( tener pelo rubio | otra persona) ? ¿Cuál es la población relevante? – Estocolmo – Pekín ? Se necesita una muestra de la población relevante ? Una relación de verosimilitud es la respuesta a una pregunta específica definido por la hipótesis de la prosecución y la hipótesis de la defensa. ? La hipótesis de la defensa especifica la población relevante. ? El científico forense tiene que hacer explícito la pregunta que ha contestado para que el juzgado de los hechos pueda: – entender la pregunta – considerar si la pregunta es apropiada – entender la respuesta Relación de Verosimilitud V: Falacias de Interpretación Falacia del Fiscal ? Científico Forense: – La probabilidad de obtener las propiedades acústicas del la voz en la llamada telefónica sería mil veces más probable si fuese la voz del acusado en vez de si fuese la voz de otra personal seleccionada al azar de la población relevante. ? Fiscal: – Entonces, para simplificar: es mil veces mas probable que la voz de la llamada telefónica es la voz de acusado de que es la voz de otra persona. Falacia del Fiscal ? Científico Forense: – La probabilidad de obtener las propiedades acústicas del la voz en la llamada telefónica sería mil veces más probable si fuese la voz del acusado en vez de si fuese la voz de otra personal seleccionada al azar de la población relevante. p( E | Hprosecución ) p( E | Hdefensa ) ? Fiscal: – Entonces, para simplificar: es mil veces mas probable que la voz de la llamada telefónica es la voz de acusado de que es la voz de otra persona. p( Hprosecución | E ) p( Hdefensa | E ) Falacia del Abogado Defensor ? Científico Forense: – Sería mil veces más probable obtener las propiedades medidas de huella dactilar parcial si su origen fuese el dedo del acusado contra de si fuese de un dedo de otra persona. ? Abogado Defensor: – Bueno, dado que hay aproximadamente un millón de personas en la región, y bajo la asunción de que cualquiera de ellos pudiera haber dejado la huella, empezamos con una apuesta a priori de uno dividido por un millón, y multiplicando por mil llegamos a una apesta a posteriori de uno dividido por mil. Uno dividido por mil es un número pequeño. Dado que es mil veces más probable que la huella procede de otra persona de que procede de mi cliente, sostengo que la huella dactilar no prueba que mi cliente estuve presente en la escena del crimen y que el jurado deba desatender de la evidencia de la huella dactilar. apuesta a priori × relación de verosimilitud = apuesta a posteriori (1 / 1 000 000) × 1 000 = 1 / 1 000 Falacia de Números Grandes ? Científico Forense: – Obtener las propiedades medidas del ADN encontrado en la escena del crimen sería un billón veces más probable si fuera la ADN del acusado contra de si fuera la ADN de otra persona en el país. ? Juzcador de los Hechos: – Un billón es un número grande. Está cierto que el ADN procede del acusado. Puedo descartar cualquier otra evidencia que sugiere que no procedió de él. Evaluación I: Validez Morrison GS (2011). Measuring the validity and reliability of forensic likelihood-ratio systems. Science & Justice, 51, 91–98. doi:10.1016/j.scijus.2011.03.002 Validez y Fiabilidad (Exactitud y Precisión) no válido, fiable no válido, no fiable válido, fiable válido, no fiable valor verdadero promedio mala exactitud mala precisión buena exactitud mala precisión mala exactitud buena precisión buena exactitud buena precisión Validez y Fiabilidad en la Ciencia Forense ? El Informe al Congreso del National Research Council sobre Strengthening Forensic Science in the United States (2009) urgió la adopción de procedimientos que incluyen: ? “quantifiable measures of the reliability and accuracy of forensic analyses” (p. 23) ? “the reporting of a measurement with an interval that has a high probability of containing the true value” (p. 121) ? “the conducting of validation studies of the performance of a forensic procedure” (p. 121) Evaluación Empírica de la Validez de un Sistema de Comparación Forense Medir Validez ? El conjunto de prueba consiste de un gran número de pares, unos del mismo origen y otros de diferentes orígenes ? El conjunto de prueba debe representar la población relevante y las condiciones del caso bajo investigación ? Se usa el sistema de comparación forense para calcular una RV por cada par de muestras de prueba ? Para cada par de muestras de prueba, se compara la salida del sistema con el conocimiento que se tiene sobre la entrada Medir Validez ? La tasa de clasificación correcta / la tasa de clasificación errónea no es apropiada – se basa en probabilidades a posteriori – se usa un umbral en vez de presentar un valor gradiente decisión hecho mismo diferente mismo aceptación correcta rechazo incorrecto diferente aceptación incorrecta rechazo correcto Medir Validez ? La validez se indica por el grado hasta que los de pares de muestras del mismo origen tengan RV > 1, y los de diferentes orígenes tengan RV < 1 ? La validez se indica por el grado hasta que los pares de muestras del mismo origen tengan log(RV) > 0, y los de diferentes orígenes tengan log(RV) < 0 RV 1/1000 1/100 1/10 1 10 100 1000 -3 -2 -1 0 +1 +2 +3 log10(RV) Medir Validez ? Una medida continua que capta la validez de un conjunto de relaciones de verosimilitud procedentes de datos de prueba es el coste del logaritmo de la relación de verosimilitud, loglikelihood-ratio cost, Cllr Brümmer N, du Preez J (2006). Application independent evaluation of speaker detection, Computer Speech & Language, 20, 230–275. doi:10.1016/j.csl.2005.08.001 1 æç 1 Cllr = ç 2 è Nmo æ 1 ö 1 ÷÷ + log 2 çç 1 + å RVmoi ø Ndo è i =1 N mo N do å log j =1 2 ö 1 + RVdoj ÷÷ ø ( ) 9 8 7 6 Cllr 5 4 3 2 1 -3 -2 -1 0 1 Log10 Relación de Verosimilitud 2 3 Ejemplo de Evaluar la Validez de un Sistema de Comparación Forense Sistema y Datos Morrison, G. S. (2013). Vowel inherent spectral change in forensic voice comparison. In Morrison, G. S., & Assmann, P. (Eds.), Vowel inherent spectral change (ch. 11 / pp. 263–282). doi:10.1007/978-3-642-14209-3_11 ? Sistema acústico-fonético: – doble objetivo: valor del “objetivo inicial” y del “objetivo final” en ejemplos de /aI/ – trayectorias: valores de coeficientes de polinomios cúbicos ajustados a las trayectorias del los formantes en ejemplos de /aI/ – Aitken & Lucy (2004) MVKD – calibración de regresión logística – 25 locutores masculinos de inglés australiano – 2 grabaciones no-contemporaneas (24 ejemplos / grabación) – validación cruzada 2000 frequency (Hz) ? Base de datos: 2500 1500 1000 500 0 0.05 0.1 0.15 time (s) 0.2 0.25 Resultados ? doble objetivo 1 Cllr = 0.43 0.9 0.8 Cllr = 0.10 Cumulative Proportion ? trayectoria 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -10 -5 0 Log10 Likelihood Ratio 5 Evaluación II: Gráficos Tippett Gráficos Tippett 1 proporción cumulativa 0.8 0.6 0.4 0.2 0 −6 −4 −2 0 log10(RV) 2 4 6 Gráficos Tippett 1 proporción cumulativa 0.8 0.6 0.4 0.2 0 −6 −4 −2 0 log10(RV) 2 4 6 Gráficos Tippett 1 proporción cumulativa 0.8 0.6 0.4 0.2 0 −6 −4 −2 0 log10(RV) 2 4 6 Calibración y Fusión Morrison, G. S. (2013). Tutorial on logistic-regression calibration and fusion: Converting a score to a likelihood ratio. Australian Journal of Forensic Sciences, 45, 173–197. doi:10.1080/00450618.2012.733025 Calibración Calibración: ? Puntuaciones cuantifican la similitud de pares de muestras teniendo en cuenta la tipicidad de las mismas.* Sin embargo, los valores absolutos de puntuaciones no se puede interpretar como si fueran logaritmos de relaciones de verosimilitud. ? La calibración transforma una puntuación en el logaritmo de una relación de verosimilitud – en GMM-UBM, cada puntuación procede de múltiples muestras obtenidas de la grabación del culpable *Existen puntuaciones que solo toman en cuenta similitud. Estas no son aptas para la calculación be relaciones de verosimilitud. Calibración ? “All models are wrong and should be recalibrated empirically.” Welling (2012) observación en Neumann C, Evett IW, Skerret J. (2012) Quantifying the weight of evidence from a forensic fingerprint comparison: a new paradigm. Journal of the Royal Statistical Society A, 175, 371–415. doi:10.1111/j.1467-985X.2011.01027.x – violaciones de supuestos de modelización – datos limitados – gran número de variables – fdp complejos – problemas con dependencia estadística “The fact that [a model] is an approximation does not necessarily detract from its usefulness because all models are approximations. Essentially, all models are wrong, but some are useful.” Box GEP, Draper NR (1987). Empirical model-building and response surfaces. Oxford: Wiley. p.424 Calibración de Regresión Logística Univariada: ? Traslado y cambio de pendiente linear de las puntuaciones ? Penaliza mucho a las puntuaciones que soporten mucho a las hipótesis contrarias a la verdad – funciona de manera continua ? Resulta en un logaritmo de relación de verosimilitud Brümmer N, du Preez J (2006). Application independent evaluation of speaker detection, Computer Speech & Language, 20, 230–275. doi:10.1016/j.csl.2005.08.001 van Leeuwen DA, Brümmer N (2007). An introduction to application-independent evaluation of speaker recognition systems. In: Müller C, editor. Speaker Classification I: Fundamentals, Features, and Methods. Heidelberg, Germany: Springer-Verlag, p. 330–353. doi:10.1007/978-3-540-74200-5_19. RV = 0.021 / 0.005 = 4.02 0.025 modelo del sospechoso densidad de probabailidad 0.021 0.020 0.015 0.010 modelo de la población 0.005 0.005 0 0 20 40 60 80 100 x 120 140 160 valor del culpable 180 200 probabilidades a priori iguales p(x) = f(x|Hmo) densidad de probabilidad Calibración 0.4 modelo de diferentes orígenes 0.3 modelo del mismo origen 0.2 0.1 0 f(x|Hmo)+f(x|Hdo) 1 p(x) RV = 1-p(x) 0.4 0 4 f(x|Hmo) f(x|Hdo) 0.6 0.2 y = a + bx a=0 b=1 2 log(RV) RV = probabilidad 0.8 0 -2 -4 -4 -3 -2 -1 0 1 puntuación 2 3 4 densidad de probabilidad 0.4 0.3 0.2 0.1 0 1 probabilidad 0.8 0.6 0.4 0.2 0 4 y = a + bx a=1 b=1 2 log(RV) Calibración 0 -2 -4 -4 -3 -2 -1 0 1 puntuación 2 3 4 densidad de probabilidad 0.4 0.3 0.2 0.1 0 1 probabilitad 0.8 0.6 0.4 0.2 0 4 y = a + bx a=0 b = 0.5 2 log(RV) Calibración 0 -2 -4 -4 -3 -2 -1 0 1 puntuación 2 3 4 densidad de probabilidad 0.4 0.3 0.2 0.1 0 1 probabilitad 0.8 0.6 0.4 0.2 0 4 y = a + bx a=1 b=2 2 log(RV) Calibración 0 -2 -4 -4 -3 -2 -1 0 1 puntuación 2 3 4 Table 1. Performance of Neumann et al.16 fingerprint/finger-mark systems (defined according to number of minutiae exploited) pre-calibration (Cllr for scores) and postcalibration (Cllr for LRs). num. minutiae: 4 5 6 7 8 9 10 11 12 0.150 0.122 0.112 0.046 0.123 0.032 0.138 0.016 0.185 0.018 0.196 0.009 0.235 0.007 0.212 0.009 0.223 0.009 0.174 0.014 1 0.9 0.8 Proporción Cumulativa Cllr for scores Cllr for LRs 3 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -12 -9 -6 -3 0 3 Log10 Relación de Verosimilitud 6 9 12 Fusión Fusión: ? Fusión transforma un conjunto de múltiples puntuaciones en un logaritmo de una relación de verosimilitud – puntuaciones procedentes de múltiples sistemas que han analizados las mismas grabaciones – puntuaciones procedentes de múltiples unidades fonéticas de la misma grabación ? Regresión logística – con probabilidades a priori iguales (apuesta a priori = 1) el objetivo de la optimización es Cllr Fusión de Regresión Logística Multivariada: ? Combina conjuntos paralelos de puntuaciones – puntuaciones procedentes de múltiples sistemas que han comparados las mismas grabaciones de voz – puntuaciones procedentes de múltiples fonemas procedentes de las mismas grabaciones de voz ? Toma en cuenta la correlación entre los conjuntos de puntuaciones – suma las puntuaciones con pesos – y = a + bx1 + cx2 . . . ? Calibra → relaciones de verosimilitud como salida Pigeon S, Druyts P, Verlinde P (2000). Applying logistic regression to the fusion of the NIST’99 1-speaker submissions. Digital Signal Processing, 10; 237–248. doi:10.1006/dspr.1999.0358 Fusión ? Conjuntos de puntuaciones paralelos Loc01 v Loc01 Loc01 v Loc02 Loc01 v Loc03 : : Loc02 v Loc02 Loc02 v Loc03 : : x1 x2 +5 -3 -1 +1 -2 -1 +6 +1 +3 -2 Fusión 4 log (RV )= 0 2 0 x2 -2 -4 -6 x1 -8 -6 -4 -2 x1 0 2 4 y = a + bx1 + cx2 a = –0.93 b = +0.97 c = +2.32 x2 Ejemplo de Fusión Morrison, G. S. (2011). A comparison of procedures for the calculation of forensic likelihood ratios from acoustic-phonetic data: Multvariate kernel density (MVKD) versus Gaussian mixture model – universal background model (GMM-UBM). Speech Communication, 53, 242–256. doi:10.1016/j.specom.2010.09.005 ? 2 grabaciones no contemporáneas de cada uno de 27 locutores masculinos de inglés australiano, habla leído, calidad de estudio ? transformada de coseno discreta (TCD) de 3º orden ajustadas a las trayectorias de F2 de ejemplos de: /aI/, /eI/, /oU/, /aU/, /I/ ? 16–20 ejemplos de cada fonema de cada grabación ? Calculo de relaciones de verosimilitud por GMM-UBM ? Validación cruzada Ejemplo de Fusión Cllr /aI/ 0.375 /eI/ 0.367 /oU/ /aU/ /I/ 1 0.9 0.326 0.455 0.311 0.8 cumulative proportion sistema 0.7 0.6 0.5 0.4 0.3 0.2 fusado 0.035 0.1 0 -12 -9 -6 -3 0 log10(LR) 3 6 9 12 Evaluación III: Fiabilidad Morrison GS (2011). Measuring the validity and reliability of forensic likelihood-ratio systems. Science & Justice, 51, 91–98. doi:10.1016/j.scijus.2011.03.002 Medir Fiabilidad ? Imagia que tenemos tres grabaciones (A, B, C) de cada locutor ? A tiene las mismas condiciones (estilo de habla, canal de transmisión, duración, etc.) como la grabación del delicuente ? B y C tienen las mismas condiciones como la grabación del sospechoso ? Usamos LRs calculados a base de pares A-B y A-C para estimar un intervalo de credibilidad (IC) de 95% Medir Fiabilidad ? Dos pares para cada comparación del mismo locutor grab. del sospech. 001 B 001 C 002 B 002 C : : grab. del delicuente 001 A 001 A 002 A 002 A : : Medir Fiabilidad ? Cuatro pares para cada comparación de diferentes locutores grab. del sospech. 002 B 002 C 003 B 003 C : : 001 B 001 C : : grab. del delicuente 001 A 001 A 001 A 001 A : : 002 A 002 A : : Medir Fiabilidad log(RV) → Medir Fiabilidad promedio log(RV) → promedio ← desviación desde el promedio → Medir Fiabilidad log(RV) → ← desviación desde el promedio → Medir Fiabilidad 5% 95% ? ? ? ? paramétrico (homocedástico) varianca agrupada distribución t suposición de probabilidad a priori uniforme ← desviación desde el promedio → Medir Fiabilidad ? no paramétrico (heterocedástico) 5% 95% log(RV) → | desviación desde el promedio | → Medir Fiabilidad ? no paramétrico (heterocedástico) 5% 95% log(RV) → Medir Fiabilidad ? no paramétrico (heterocedástico) ? regresión local linear absolute deviation from mean log10(LR) 3 2.5 2 1.5 1 0.5 0 -0.5 0 0.5 1 1.5 2 2.5 mean log10(LR) 3 3.5 4 4.5 Sumario Si fueran consistentes los datos de fondo, calibración, y prueba con las condiciones del caso bajo investigación, y si la comparación entre las grabaciones del delicuente y del sospechoso resultara en una relación de verosimilitud de 100 (log10(RV) de +2), y la estimación no paramétrica del IC 95% arrojara un valor de ±1.17 en log10(RV), el científico forense podría presentar una declaración como la siguiente: Basado en mi evaluación de las evidencias, he calculado que las propiedades acústicas de la grabación del delicuente sería 100 veces más probable si la grabación hubiera sido producido por el acusado en contraste de que si hubiera sido producido por otro locutor de la población relevante. Lo anterior significa que cualquiera que haya sido su creencia previa sobre las probabilidades relativas de que el locutor en la grabación del delicuente era el acusado en vez de que era otro locutor, ahora su creencia en el valor de la probabilidad relativa de que sea al acusado contra de que sea otro locutor debe ser 100 veces más de lo que fuera antes. Basado en mis calculaciones, tengo una certeza de 95% que obtener estas propiedades acústicas es a lo menos 7 veces más probable y no más que 1450 veces más probable si el locutor en la grabación del delicuente fuera el acusado contra de que fuera otro locutor. Ejemplo de Evaluar la Validez y Fiabilidad de un Sistema de Comparación Forense Sistema y datos Zhang, C., Morrison, G. S., Ochoa, F., & Enzinger, E. (2013). Reliability of human-supervised formant-trajectory measurement for forensic voice comparison. Journal of the Acoustical Society of America. 133, EL54–EL60. doi:10.1121/1.4773223 ? Datos: – 60 locutores femeninas chinas, tarea de cambio de información a través de teléfono, 2 sesiones de grabación, audio de alta calidad – 20 fondo, 20 desarrollo, 20 prueba ? Sistema: – 16 MFCCs (20 ms ventana, traslapo de 10 ms) + deltas, cumulative density mapping, 1024 Gaussianas GMM-UBM – TCDs ajustados a F2 & F3 trayectorias de /iau/, coeficientes TCD 0–4, MVKD – fusión y calibración por regresión logística ? Mediciones: – 4 supervisores humanos – 3 juegos de mediciones de trayectorias de formantes por supervisor Resultados ? Cllr por las medias de los grupos ? IC 95% (paramétrico) en ordenes de magnitud Cllr = 0.004 IC 95% = ±2.18 Cllr = 0.007 IC 95% = ±0.45 GSM CZ -12 -9 -6 -3 0 3 6 log10 Relación de Verosimilitud 9 12 -12 -9 -6 -3 0 3 6 log10 Relación de Verosimilitud 9 12 Ejemplo Basado en un Caso Real Enzinger, E., Morrison, G. S., & Ochoa, F. (submitted). A demonstration of the application of the new paradigm for the evaluation of forensic evidence under conditions reflecting those of a real forensic-voice-comparison case. Caso Real ? Grabación del delicuente llamada al centro de atención de clientes de una entidad financiera – llamada telefónica línea fija – ruido del centro de llamadas (“babble”, tecleos) – archivado con compresión ? Grabación del sospechoso entrevista en comisaria de policía – reverberación – ruido de sistema de ventilación – archivado con compresión Caso Real ? Grabación del delicuente está claro que el locutor es: – hombre – habla inglés con acento australiano ? Tenemos base de datos de grabaciones de voces que incluye: – 231 hombres angloparlantes australianos – grabaciones de alta calidad – estilos de hablar: – intercambio de información a través del teléfono – entrevista policial simulada – múltiples grabaciones no contemporáneas en cada estilo Replicación de las condiciones de la grabación del delicuente xr [i] a-Law 8kHz 300 Hz G.723.1 compression/ decompression 3400 Hz scaling offender recording noise play audio compression/ decompression s yr [i] r xn [i] Replicación de las condiciones de la grabación del sospechoso MPEG-1 layer 2 xr [i] compression/ decompression scaling suspect recording noise play audio s yr [i] r xn [i] Selección de muestras representativas de la población ? Solo recibimos estas grabaciones para analizar porque un agente de policía pasaba que sonaba suficiente similar que merecía enviarlas al laboratorio forense ? Oyentes similar al agente, seleccionaron las grabaciones para incluir en la muestra de al población – mismo género – aproximadamente misa edad – mismo fondo lingüístico (monolingües de inglés australiano) Selección de muestras representativas de la población Selección de muestras representativas de la población The number of speakers selected by N or more listeners. number of listeners, N 11 10 9 8 7 6 5 4 3 2 1 16 24 34 42 51 75 100 128 166 195 216 number of speakers selected by N or more listeners Medidas acústicas speech preemphasis Magnitude Mel filterbank Frequency ? MFCCs + deltas windowing power spectrum Medidas acústicas Modelos estadísticos ? GMM-UBM – UBM condición del sospechoso – modelo del sospechoso 1.) Training the background model data from suspectcondition recordings of speakers in the background set Expectation maximization 2.) Training a suspect model UBM data from suspect sample 3.) Score calculation UBM MAP adaptation suspect model suspect model p(xt|λsuspect) ÷ 1 T T t =1 log(LRt) Σ score UBM 4.) Score-to-likelihood-ratio transformation (calibration) score development scores from same-speaker 1 comparisons prob. – pares de condición del sospechoso + condición del delicuente – condiciones incluyen numero de MFCCs p(xt|λbackground) log(LR) ? Puntuación a log RV data from offender sample development scores from different-speaker comparisons 0.5 0 5 0 −5 −2 −1 0 score LR 1 2 200 0 −15 −10 −5 0 5 10 15 400 Landline band-pass G.723.1 compression Offender background noise after feature warping Reverberation simulation MPEG-1 layer 2 compression Suspect background noise after feature warping 200 0 400 200 ? Feature warping 0 −15 −10 −5 0 5 10 −15 −10 −5 0 5 10 −15 −10 −5 0 5 10 −3 −2 −1 0 1 2 3 1 Cumulative proportion 400 High-quality suspect condition offender condition Compensación por diferencias de condiciones warping 0.8 Percentile of emprical distribution correspondig to cj 0.6 0.4 Warped value 0.2 0 −6 −4 −2 0 2 4 MFCC value Empirical CDF Normal CDF 6 8 10 12 Compensación por diferencias de condiciones 6 ? Probabilistic Feature mapping Offender-condition data Mapped data 5 4 MFCC2 3 2 1 0 −1 −2 Offender distribution Suspect distribution −3 −4 −10 −8 −6 −4 −2 MFCC1 ? Nuisance Attribute Projection mh M UB channel (C) −m r ke ea sp ) (S 0 2 4 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 C llr−pooled C llr−mean Compensación por diferencias de condiciones 0.5 No mismatch compensation Feature Warping (FW) 0.4 0.4 Probabilistic Feature Warping (PFM) Nuisance Attribute Projection (NAP) 0.3 0.3 FW + PFM 0.2 FW + PFM + NAP 0.1 0 0.2 FW + NAP 0.1 PFM + NAP 0 0.1 0.2 0.3 0.4 0.5 0.6 log10 credible interval 0.7 0.8 0.9 1 0 Prestaciones - sin compensación Cumulative Proportion 0.75 0.5 0.25 (a) 0 −4 −3 −2 −1 0 1 Log10 Likelihood Ratio 2 3 4 Prestaciones - feature warping + probabilistic feature mapping 1 Cumulative Proportion 0.75 0.5 0.25 (b) 0 −4 −3 −2 −1 0 1 Log10 Likelihood Ratio 2 3 4 Prestaciones - FW+PFM - buenas condiciones del sospechoso 1 Cumulative Proportion 0.75 0.5 0.25 (c) 0 −4 −3 −2 −1 0 1 Log10 Likelihood Ratio 2 3 4 Resultados ? Cllr-pooled: 0.423 ? Cllr-mean: 0.344 ? 95% IC: ±0.95 ? LR: 343 ? log10 LR: 2.54 ? 98% IC: ±1.13 [25 4599] Conclusiones A base de nuestras calculaciones: ? Estimamos que la probabilidad de obtener las propiedades acústicas de la grabación del delicuente sería aproximadamente 300 veces más probable si fuera la voz del acusado contra de si fuera la voz de otra persona seleccionada al azar de la población relevante. ? Nuestra mejor estimación del peso de la evidencia es una relación de verosimilitud de 343, y tenemos una certeza de 99% de que es a lo menos 25. ? Estimamos que la probabilidad de obtener un valor de 343 o más si la voz fuera de otra persona de la población relevante es menos que cuatro en diez mil (0.00033). APÉNDICE Trayectorias Formáticas Curvas paramétricas Curvas polinómicas se definen por los valores de los coeficientes asociados con los amplitudes de sus componentes Componentes: y=a y 2 y = bx 3 y = cx y = dx 8 8 8 8 6 6 6 6 4 4 4 4 2 2 2 2 y 0 y 0 y 0 0 -2 -2 -2 -2 -4 -4 -4 -4 -6 -6 -6 -6 -8 -2 -1 0 x 1 2 -8 -2 -1 0 x 1 2 -8 -2 -1 0 x 1 2 -8 -2 -1 0 x 1 2 Curvas paramétricas Transformadas discretas de cosenos (TDC) se definen por los valores de los coeficientes asociados con los amplitudes de sus componentes Componentes: y=a y y = b·cos(πx/T) y = c·cos(2πx/T) y = d·cos(3πx/T) 1 1 1 1 0.5 0.5 0.5 0.5 y 0 y 0 y 0 0 -0.5 -0.5 -0.5 -0.5 -1 -1 -1 -1 0 20 40 60 x 80 100 0 20 40 60 x 80 100 0 20 40 60 x 80 100 0 20 40 60 x 80 100 Orden cero (constate (media)) a = +1491 TDC 2500 2500 2000 2000 frecuencia (Hz) frecuencia (Hz) polinomio 1500 1500 1000 1000 500 500 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25 Primer orden (linear) a = +1491 b = −447 TDC 2500 2500 2000 2000 frecuencia (Hz) frecuencia (Hz) polinomio 1500 1500 1000 1000 500 500 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25 Segundo orden (cuadrático) a = +1491 b = −447 c = +79 TDC 2500 2500 2000 2000 frecuencia (Hz) frecuencia (Hz) polinomio 1500 1500 1000 1000 500 500 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25 Tercer orden (cubico) TDC 2500 2500 2000 2000 frecuencia (Hz) frecuencia (Hz) polinomio 1500 1500 1000 1000 500 500 0 0.05 0.1 0.15 tiempo (s) 0.2 a = +1491 b = −447 c = +79 d = +34 0.25 0 0.05 0.1 0.15 tiempo (s) 0.2 0.25