Download Distribución de probabilidad y correlación

Document related concepts
no text concepts found
Transcript
Curso básico de física
computacional
Asociación
EURATOM-CIEMAT
Para Fusión
B.Ph. van Milligen
II. Análisis de Datos
• En este apartado del curso trataremos métodos de análisis de señales
experimentales provenientes de un experimento de fusión.
• Considerar que las aplicaciones de estos métodos son muy generales y que son
relevantes en muchas situaciones experimentales y de computación.
• Los datos sujetos del análisis no sólo provienen de experimentos, sino también,
en su caso, de modelos de ordenador (por ejemplo, de turbulencia) que producen
grandes cantidades de datos que deben ser sometidos a tratamientos estadísticos
que nos permiten comprenderlos.
1
Tipos de datos
Asociación
EURATOM-CIEMAT
Para Fusión
• Centrándonos en datos experimentales: ¿qué tipos de datos produce un
experimento de fusión?
• Datos espaciales
• Cero-dimensional (punto)
• Uni-dimensional (línea / cuerda)
• Bi-dimensional (plano / superficie)
• Etc. (en fusión, hasta la fecha no hay datos tri-dimensionales)
• Datos temporales
• Un canal
• Múltiples canales (correspondiendo, por ejemplo, a varias posiciones)
• Datos espacio-temporales
• Combinaciones de los dos tipos de arriba
2
Datos espaciales: ejemplo
Asociación
EURATOM-CIEMAT
Para Fusión
• Ejemplo de una línea de datos (en un único instante temporal): Thomson
Scattering.
3
Datos espacio-temporales:
ejemplo
Asociación
EURATOM-CIEMAT
Para Fusión
• Ejemplo de múltiples canales de datos (en una serie de instantes temporales):
Tomografía de Rayos X.
Las líneas de visión cruzadas
permiten reconstruir, con cierta
aproximación, la emisión local de
rayos X en el plasma en un plano
(mediante un proceso numérico
conocido como “inversión de
Abel”): cada línea proporciona
información sobre la integral de la
emisión a lo largo de la línea.
(Ver curso “Diagnósticos de
plasmas”)
4
Asociación
EURATOM-CIEMAT
Para Fusión
Datos temporales: ejemplos
0.015
0.01
0.005
Value
• Sin embargo, el tipo de datos más
común es la serie temporal:
• Campo magnético en un punto
(Mirnov coils)
• Corriente en ciertas bobinas
• Integral de la densidad
(densidad de línea,
interferometría)
• Potencial flotante de una sonda
de Langmuir
• Etc.
• Nos concentraremos en este tipo de
datos, por ser el más común
0
-0.005
-0.01
-0.015
451
452
453
454
455
Time (ms)
Flujo de partículas calculado a partir
de señales medidas con una sonda de
Langmuir
5
Datos temporales: análisis
Asociación
EURATOM-CIEMAT
Para Fusión
Value
• A la derecha, una ampliación de la
señal anterior.
0.015
• Hay una doble discretización (tiempo y
0.01
valor)
Discretización del valor medido
• Ambas tienen consecuencias para los
0.005
cálculos posteriores basados en estos
0
datos.
-0.005
• El registro de señales contínuas es
Discretización en el tiempo
posible pero no se abordará aquí por ser
-0.01
poco común; en todo caso para poder tratar -0.015
452
452.03
452.05
452.08
452.1
señales contínuas por medio de cálculos de
Time (ms)
ordenador se requiere su digitalización.
• La discretización se puede tomar en cuenta considerando que las medidas tienen
(al menos) un error Dt en tiempo y un error Dy en valor. Las consecuencias de
estos “errores” se pueden estimar cuando la estadística es Gaussiana (normal), pero
es muy difícil cuando la estadística no es Guassiana (por ej., fractal).
6
Asociación
EURATOM-CIEMAT
Para Fusión
Análisis básico: distribución
de probabilidad
• La función de distribución se obtiene dividiendo el rango de valores
[ymin,ymax] en un número N de intervalos y contando cuántos elementos hay en cada
intervalo.
Counts
700
600
500
400
300
200
100
0
1.5 10-2
1 10-2
Signal
5 10-3
0 100
-5 10-3
-1 10-2
-1.5 10-2
451
451.2
451.4
451.6
Time (ms)
451.8
452
Se pierde toda información sobre
la correlación temporal.
7
Análisis básico: distribución
de probabilidad
Asociación
EURATOM-CIEMAT
Para Fusión
• La función de distribución de probabilidad (PDF) es la función de distribución
(de los valores) dividida entre el número total de valores.
• Para una señal y(t), la probabilidad de que el valor y(t) esté entre y y y+dy
está dado por: p(y) dy, donde p(y) es la función de probabilidad.
• p(y) está normalizado tal que su integral es 1.
• Ejemplo: y(t) = y0 sin (wt)  p(y) = 1/[p√(y02 – y2)]
• Muchos procesos físicos tienen un ingrediente “aleatorio”. Consideramos que
un proceso es verdaderamente aleatorio cuando no hay correlación alguna entre
un valor y(t) y el siguiente y(t+D) (se discutirá más adelante). El proceso “no tiene
memoria”. Un ejemplo de un proceso así es el “random walk” (tomar un paso
hacia adelante o hacia atrás según lo decide una moneda echada), o la moción
Browniana. Para estos procesos, la distribución de probabilidad es una Gaussiana
o “normal”:
 ( y  y )2 
1

p( y) 
exp
2

 2 

2p 
8
Asociación
EURATOM-CIEMAT
Para Fusión
Momentos de la función de
distribución de probabilidad
• Los momentos de la función de probabilidad contienen mucha información:
• El momento n es:

 
M n   y p( y) dy  E y
n
n

• Es también el “expectation value” (valor más probable) de yn
• Momento 1: el promedio y
• Momento 2: define la desviación estándar mediante
2 

  E y  E y  E y2  E y


2

 
      M
2
2
 M0
• Momento 3: el “skewness”
3

3
S E  y  E y  


• Momento 4: la “kurtosis”
4

4
K  E y  E y  




2
 
 
9
Momentos: utilidad
Asociación
EURATOM-CIEMAT
Para Fusión
• Los momentos permiten distinguir entre variables con una distribución
Gaussiana (aleatorias) y otras.
• Si la distribución p(y) es la función de Gauss, entonces:
S = 0 y K = 3.
Esto es un primer paso para la identificación de una señal como Gaussiana.
• Sin embargo, ni la función de probabilidad misma ni todos sus momentos
pueden por sí solos identificar una señal como Gaussiana; para ello, es necesario
considerar correlaciones temporales. (Hay que establecer que están ausentes.)
Esto se discutirá más adelante.
• Por contra, si la función de probabilidad no es una función de Gauss (y sus
momentos difieren significativamente del valor para una Gaussiana), entonces
la señal no es Gaussiana.
10
Asociación
EURATOM-CIEMAT
Para Fusión
Momentos estadísticos
• A la derecha, un ejemplo
muy claro.
=
=
=
=
0.1 6449 60
2.6 5564 66E- 02
0.3 2167 17
2.8 0530 7
10000
Gaussian fit
1000
Number
• En la práctica, a menudo una
señal es casi Gaussiana; y es
difícil establecer su
no-Gaussianidad porque la
desviación de la curva de
Gauss se produce en las
colas de la distribución, donde
la estadística es mala (pocos
datos).
Av erag e
St anda rd d evia tion
Sk ewne ss
Ku rtos is
100
10
1
0.05
0.1
0.15
0.2
Amplitude
0.25
0.3
11
Asociación
EURATOM-CIEMAT
Para Fusión
PDF bi-dimensional
• Lo anterior es fácilmente generalizable a 2 (o más) dimensiones
• Para señales x(t) e y(t), la probabilidad de que el valor x(t) está entre x y x+dx Y
el valor y(t) está entre y y y+dy está dado por:
p(x,y) dx dy, donde p(x,y) es la función de probabilidad bidimensional.
• La probabilidad unidimensional sigue de la bidimensional:

p(y) 
 p(x,y)dx

• (=la probabilidad de obtener un y, no importa cual sea el valor de x)
• Si x e y son independientes, entonces p(x,y) = p(x)p(y)
Esto proporciona un interesante método para determinar la independencia
estadística de 2 variables. Se pospone la discusión para más adelante.
12
Probabilidad condicional
Asociación
EURATOM-CIEMAT
Para Fusión
• En el caso de tener 2 señales xe y, uno puede preguntarse cual es la probabilidad
de obtener x cuando y tenga un valor dado (y = y0). Esta es la
probabilidad condicional p(x|y0).
• La probabilidad condicional p(x|y0) es igual a la probabilidad p(x,y0), normalizada
por la probabilidad de obtener y0 (porque ponemos como condición que y= y0).
p(x|y0) = p(x,y0)/p(y0)
13
Correlación temporal
Asociación
EURATOM-CIEMAT
Para Fusión
• Para establecer la naturaleza aleatoria si/no de una señal, no basta con la PDF y
es necesario estudiar su correlación temporal.
• Básicamente, existe correlación cuando se puede predecir de algún modo
(mediante modelos) cuál va a ser el comportamiento futuro de una señal,
conociendo su comportamiento pasado.
• Este es un tema que nos ocupará durante gran parte del curso debido a su
complejidad y a su importancia para entender la relación entre los modelos de
sistemas físicos y medidas, especialmente cuando el sistema es complejo
(no-lineal y/o caótico).
• Si se puede predecir algo (aún si es con error o sólo en sentido estadístico) del
comportamiento futuro de una señal, es indicativo que se ha avananzado en el
entendimiento del sistema que se está estudiando.
14
Asociación
EURATOM-CIEMAT
Para Fusión
Correlación lineal
• La función de correlación lineal es la herramienta más sencilla para obtener
información del comportamiento temporal.
• Definición:

Rxy ( )   x(t )y(t   ) dt

Cxy ( ) 
1
 x y



x(t)  x y(t   )  y  dt
• Las  aparecen para normalizar C tal que su valor está en el rango [-1,1].
• De esta correlación cruzada se obtiene la auto-correlación poniendo x = y.
15
Asociación
EURATOM-CIEMAT
Para Fusión
Correlación cruzada
• Estructura típica de Rxy()
• Envolvente decae exponencialmente
y da el Tiempo de correlación
(cuando cae a 1/e)
R()
1
0.5
• Máximo igual a
x y   x y
0
• Mínimo igual a
x y   x y
-0.5
• Valor para   :
D
-1
-1
-0.5
0

0.5
1
xy
• Posición del máximo da la desfase
D (=0 para la autocorrelación)
• A menudo conviene “simetrizar” la autocorrelación restando el promedio
de las señales x(t) e y(t) antes de analizarlas.
16
Asociación
EURATOM-CIEMAT
Para Fusión
Autocorrelación lineal:
ejemplo (seno)
Autocorrelación del seno
Seno puro
1.5
T
T
1
1
0.5
0.5
C()
y(t)
1.5
0
0
-0.5
-0.5
-1
-1
-1.5
-1.5
0
1
2
3
4
5
-1
5
1
2.5
0.5
C( )
y(t)
t (misma amplitud)
Seno + ruido blanco
0
-2.5
-0.5
0

Autocorrelación
0.5
1
Caída
rápida del
ruido
0
-0.5
-5
-1
0
1
2
3
t
4
5
-1
-0.5
0

0.5
1
Identificación
perfecta del
seno
17
Asociación
EURATOM-CIEMAT
Para Fusión
Autocorrelación lineal
1.2
1
0.8
C()
• Como pudimos observar en el
ejemplo anterior, la correlación lineal
sirve para detectar procesos
periódicos en el tiempo, al eliminar
todo lo que no sea periódico en la
integral.
• Contiene la misma información que
el espectro (ver más delante), pero
tiene mejor resolución para las
frecuencias bajas.
• Para señales no-periódicas, la
correlación lineal sólo proporciona
una información interesante: el
tiempo de decorrelación (y el desfase
en el caso de la correlación cruzada).
0.6
0.4
1/e
corr
0.2
0
-0.08 -0.06 -0.04 -0.02
0

0.02 0.04 0.06 0.08
Típica señal de turbulencia
18