Download Repaso de conceptos de álgebra lineal

Document related concepts
no text concepts found
Transcript
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL:
TEORÍA
Í Y APLICACIONES A PROBLEMAS DE PREDICCIÓN
Ó
Manuel Sánchez-Montañés
Luis Lago
Ana González
Escuela Politécnica Superior
Universidad Autónoma de Madrid
Repaso de conceptos de álgebra
lineal
•
Notación vectorial y matricial
•
V t
Vectores
•
Matrices
•
Espacios de vectores
•
Transformaciones lineales
•
Autovalores y autovectores
Notación vectorial y matricial
•
Un vector columna x de d dimensiones y su transpuesta se escriben así:
y
•
Una matriz rectangular de n x d dimensiones y su transpuesta se escriben así:
y
•
El producto de dos matrices es:
donde
Vectores (1)
•
El producto interno de dos vectores (o “producto
producto escalar”)
escalar ) se define por:
•
La norma de un vector (o “magnitud”
magnitud , “longitud”)
longitud ) es:
•
La proyección ortogonal del vector y sobre el vector x es:
Donde el vector ux tiene norma 1 y la misma dirección que x
•
El ángulo entre los vectores x e y está definido por:
•
Dos vectores x e y son:
Ortogonales si xT y = 0
Ortonormales si xT y = 0 y |x| = |y| = 1
Vectores (2)
•
Un conjunto de vectores x1, x2, …, xn son linealmente dependientes si existe un conjunto de coeficientes
a1, a2, …, an (con al menos uno diferente de cero) tales que
Intuitivamente, esto quiere decir que hay por lo menos un vector “redundante”, que podemos expresar como
combinación de los otros.
Por ejemplo, si a1 ≠ 0:
x1 = c2 x2 + c3 x3 + … + cn xn
con
ck = - ak / a1
•
Alternativamente un conjunto de vectores x1, x2, …, xn son linealmente independientes si
Alternativamente,
Matrices
•
El determinante de una matriz cuadrada A de d x d dimensiones es:
- donde
Aik es el “menor”, matriz formada cogiendo A y eliminando su fila i y su
columna k
- El determinante de una matriz es igual al de su transpuesta: |A| = |AT|
•
La traza de una matriz cuadrada A de d x d dimensiones es la suma de los
elementos de su diagonal:
•
•
El rango de una matriz es el número de filas (o columnas) linealmente
independientes
Se dice de una matriz cuadrada que es no singular si y sólo si su rango es
igual al número de filas (o columnas)
- El determinante de una matriz no singular es distinto de 0
•
Se dice de una matriz cuadrada que es ortonormal si AAT = ATA = I
Matrices
•
Dado una matriz cuadrada A:
- Si xT A x > 0 para todo x ≠ 0, entonces se dice que A es definida positiva
(ejemplo: matriz de correlación)
- Si xT A x ≥ 0 para todo
d x ≠ 0,
0 entonces se dice
di que A es semidefinida
id fi id
positiva
•
•
La inversa de una matriz cuadrada A se denomina A-1, y es una matriz tal que
A-1 A = A A-1 = I
- La inversa de A existe si y sólo si A es no singular (su determinante no es
cero)
En algunos problemas cuando la inversa de A no existe (porque A no es
cuadrada o es singular)
cuadrada,
singular), se utiliza la pseudoinversa A†, que se define
como:
A† = [AT A]-1 AT con A† A = I (notad que en general A A† ≠ I )
Espacios de vectores
•
El espacio n-dimensional en el cual todos los vectores de n
dimensiones residen se denomina un “espacio
espacio de vectores”
vectores
•
Se dice que un conjunto de vectores { u1, u2, …, un } es una
base de un espacio vectorial si cualquier vector x puede ser
expresado como una combinación lineal de los { ui }
- Los coeficientes { a1, a2, …, an } se denominan
componentes del vector x con respecto a la base { ui }
- Para ser una base,, es necesario y suficiente que
q los n
vectores { ui } sean linealmente independientes
•
•
Se dice que una base { ui } es ortogonal si
Se dice que una base { ui } es ortonormal si
- Por ejemplo la base cartesiana de coordenadas es una base ortonormal
Espacios de vectores
•
Dados n vectores {v1, v2, …, vn} linealmente independientes, podemos construir
una base ortonormal {w1, w2, …, wn } por el procedimiento de
ortonormalización de Gram
Gram-Schmidt
Schmidt
w1 = v1
j −i
wj = v j − ∑
i =1
•
v j wi
wi
2
wi
La distancia entre dos puntos en un espacio vectorial se define como la
norma del vector diferencia entre los dos puntos:
Transformaciones lineales
•
Una transformación lineal es un
n mapeo del espacio vectorial
ectorial XN al espacio vectorial
ectorial YM, y se representa
por una matriz
- Dado un vector x Є XN, el correspondiente vector y de YM se calcula así:
- Notad que la dimensión de los dos espacios no tiene por qué ser la misma
- Para problemas de reconocimiento de patrones típicamente tendremos M < N (proyección en un espacio
de menor dimensión)
•
Se dice que una transformación lineal representada por la matriz cuadrada A es ortonormal cuando
AAT = ATA = I
- Esto implica que AT = A-1
- Las transformaciones ortonormales preservan la norma de los vectores:
- Las transformaciones ortonormales se pueden ver como rotaciones del sistema de ejes de referencia
- Los vectores fila de una transformación ortonormal forman una base de vectores ortonormales
con
Autovectores y autovalores (1)
•
Dada una matriz cuadrada A de N x N dimensiones, decimos que v es un
autovector si existe un escalar λ tal que
Av=λ v
Entonces, se dice que λ es autovalor de A
•
Cál l d
Cálculo
de llos autovectores
t
t
solución trivial
solución no trivial
“ecuación característica”
•
La matriz formada por los autovectores columna se denomina matriz modal M
L matriz
La
t i Λ es la
l forma
f
canónica
ó i de
d A:
A una matriz
t i di
diagonall con llos autovalores
t
l
en su
diagonal
0
0
Autovectores y autovalores (2)
•
Propiedades
- Si A es no singular
Todos los autovalores son diferentes de cero
- Si A es reall y simétrica
i é i
Todos los autovalores son reales
g
entre sí
Dos autovectores asociados a diferentes autovalores son ortogonales
- Si A es definida positiva
Todos los autovalores son positivos
- Si A es semidefinida positiva
Todos los autovalores son mayor o igual que cero
Interpretación de los autovectores y
autovalores (1)
•
Si consideramos la matriz A como una transformación lineal,
lineal entonces un autovector
representa una dirección invariante en el espacio vectorial
Cualquier punto en la dirección de v es transformado por A en otro punto que está en la
misma dirección,
dirección y su módulo es multiplicado por el correspondiente autovalor λ
•
Por ejemplo, la transformación que rota los vectores de 3 dimensiones en torno al eje Z tiene un
solo autovector, que es [0 0 1]T, siendo 1 es su autovalor correspondiente
Repaso de conceptos de
probabilidad y estadística
•
Definición y propiedades de la probabilidad
•
Variables aleatorias
- Definición de variable aleatoria
- Función de distribución acumulada
- Función de densidad de probabilidad
- Caracterización estadística de variables aleatorias
•
Vectores aleatorios
- Vector promedio
- Matriz de covarianzas
•
Distribución de probabilidad gaussiana
Variables aleatorias
•
Cuando consideramos un proceso aleatorio, normalmente nos interesa saber
alguna medida o atributo numérico que genera una secuencia de valores
modelizables.
Ejemplos:
•
Cuando muestreamos una población nos puede interesar por ejemplo el peso y
la altura
•
Cuando calculamos el rendimiento de dos ordenadores nos interesa el tiempo
de ejecución de un programa de test
•
Cuando tratamos de reconocer un avión intruso, nos puede interesar medir los
parámetros que caracterizan la forma del avión
Variables aleatorias
Definimos una variable aleatoria X que puede tomar un conjunto de valores {xi}
como una función X( · ) que asigna un número real x a cada resultado ζ en el
espacio de muestreo de un experimento aleatorio x= X( ζ ).
- Esta función X(·) realiza un mapeo de todos los posibles elementos en el espacio de
muestreo a la recta real (números reales).
- La función X(·)
X( ) que asigna valores a cada resultado es fija
y determinista
- La aleatoriedad en los valores observados se debe a
la aleatoriedad del argumento de la función X(·) , es decir,
el resultado ζ del experimento
-
Las variables aleatorias pueden ser:
-
- Discretas: por ejemplo, el resultado en el lanzamiento de un dado
Continuas: por ejemplo, el peso de un individuo escogido al azar
map
Función de distribución acumulada
(fda)
•
Fx((x)) = P[X
[ < x]]
•
1 lb = 0.454
0 454 Kg
Dada una variable aleatoria X
X, se define su función de
distribución acumulada Fx(x) como la probabilidad del
evento {X < x}
para
p
- ∞ < x < +∞
De manera intuitiva, Fx(b) representa la proporción de
veces en la q
que X(( ζ ) < b
fda del peso de una persona
•
Propiedades de la función de distribución acumulada
Función acotada y
monótonamente
creciente
si a ≤ b
fd del
fda
d l resultado
lt d de
d un dado
d d
Función de densidad de
probabilidad (fdp)
1 lb = 0.454 Kg
La función de densidad de probabilidad de una variable
aleatoria continua X, si existe, se define como la derivada
de Fx(x)
fdp
p
•
fdp del peso de una persona
El equivalente a la fdp para variables aleatorias discretas
es la función de masa de probabilidad ( fmp ):
fmp
•
f
fmp
del
d l resultado
lt d de
d un dado
d d
Función de densidad de
probabilidad (fdp)
•
Propiedades de la función de densidad de probabilidad
donde
si
Densidad de probabilidad versus
probabilidad
•
¿ Cuál es la probabilidad de que alguien pese 200 libras =90.8 Kg ?
- De acuerdo a la fdp
fdp, es cerca de 0
0.62
62
- Suena razonable, ¿ no ?
fdp
p
•
Ahora, ¿ cuál es la probabilidad de que alguien pese 124.876
libras = 56.70 Kg?
- De
D acuerdo
d a lla fd
fdp, es cerca d
de 0
0.43
43
- Pero, intuitivamente, la probabilidad debería ser cero Î
Probabilidad en un punto es cero.
fdp del peso de una persona
•
¿ Cómo explicamos esta paradoja ?
- La
L fd
fdp no d
define
fi una probabilidad,
b bilid d sino
i una DENSIDAD de
d probabilidad!
b bilid d!
- Para obtener una verdadera probabilidad, debemos integrar en un intervalo
- La pregunta original es incorrecta, nos deberían haber preguntado: ¿ Cuál es
la probabilidad de que alguien pese 124.876 libras, más / menos 2 libras ?
Caracterización estadística de
variables aleatorias
•
La fdp o fmp son SUFICIENTES para caracterizar completamente una variable aleatoria
aleatoria.
Sin embargo, una variable aleatoria puede ser PARCIALMENTE caracterizada por otras
medidas
•
Valor esperado (media)
•
•
Varianza
•
•
Representa la dispersión alrededor de la media
Desviación estándar
•
•
Representa el centro de masa de la densidad
Es la raíz cuadrada de la varianza, por lo que tiene las mismas unidades que la variable
aleatoria
Momento de orden N
Vectores aleatorios
•
La noción de vector aleatorio es una extensión de la noción de variable aleatoria
- Una variable vectorial aleatoria X es una función que asigna un número real a cada posible
valor ζ del espacio de muestreo S
- Consideraremos siempre a un vector aleatorio como un vector columna
•
Las nociones de fda y fdp se sustituyen por “fda conjunta” y “fdp conjunta”
- Dado un vector aleatorio X = [x1 x2 … xN]T definimos
- La función de distribución acumulada conjunta como:
- La función de distribución de probabilidad conjunta como:
⎛ x1 ⎞
⎜ ⎟
⎜ x2 ⎟
⎜x ⎟
⎝ 3⎠
Vectores aleatorios
•
El término “fdp
fdp marginal
marginal” se usa para representar la fdp de un subconjunto de los
componentes del vector
- Se obtiene integrando la fdp en las componentes que no son de interés
- Por ejemplo, si tenemos un vector X = [x1 x2]T , la fdp marginal de x1, dado la fdp
conjunta fx1 x2 (x1, x2) es:
Caracterización estadística de
vectores aleatorios
•
Al igual que en el caso escalar
escalar, un vector aleatorio está completamente caracterizado por su fda
conjunta o su fdp conjunta
•
Alternativamente, podemos describir parcialmente un vector aleatorio por medio de medidas
para el caso escalar
similares a las definidas p
•
Vector promedio
T
•
Matriz de covarianza
Matriz de covarianza
•
La matriz de covarianza indica la tendencia de cada par de atributos (las componentes del vector
aleatorio) de variar juntas, es decir, co-variar
•
La matriz de covarianza C tiene varias propiedades importantes:
- Si
xi y xk tienden a aumentar juntas, entonces cik > 0
- Si xi tiende a disminuir cuando xk aumenta, entonces cik < 0
- Si xi y xk no están correlacionadas, entonces cik = 0
- |cik| ≤ σi σk donde σi es la desviación estándar de xi
- cii = σi2 = VAR(xi)
Matriz de covarianza
•
Los componentes
p
de la matriz de covarianza se p
pueden escribir como:
cii = σi2 y cik = ρik σi σk
- donde ρik es el llamado coeficiente de correlación
Correlación versus independencia
•
Se dice que dos variables aleatorias xi y xk no están correlacionadas si
E [xi · xk] = E [xi] · E [xk]
- En este caso también se dice que estas variables aleatorias son linealmente
independientes (no confundir con la noción de independencia lineal de
vectores).
•
Se dice que dos variables aleatorias xi y xk son independientes,
independientes su distribución
conjunta será el producto de las marginales.
P [x
[ i , xk] = P [[xi] · P [x
[ k]
La distribución Gaussiana o “Normal”
Normal (1)
•
La distribución multivariable “Normal”
Normal o
“Gaussiana” N(μ , Σ) se define como
•
En una sola dimensión, esta expresión se
reduce a
La distribución Gaussiana o “Normal”
Normal (2)
•
Las distribuciones gaussianas son muy utilizadas ya que:
- Los parámetros (μ , Σ) son suficientes para caracterizar completamente la
distribución gaussiana
- Si llos atributos
t ib t
no están
tá correlacionados
l i
d ( cik = 0 ),
) entonces
t
son también
t bié
independientes Î La matriz de covarianza es entonces diagonal, con las
varianzas individuales en la diagonal
- Las densidades marginales y condicionadas son también Gaussianas
- Cualquier transformación lineal de N variables conjuntamente Gaussianas, nos da
un vector
t cuya distribución
di t ib ió es también
t bié Gaussiana
G
i
- Si la distribución del vector X = [X1 X2 … XN]T es Gaussiana, y A es una matriz,
entonces la distribución de Y=AX es también Gaussiana.
Para el caso particular de que A sea una matriz invertible, entonces:
La distribución Gaussiana o “Normal”
Normal (3)
•
Dada la matriz de covarianza Σ de una distribución gaussiana
- Los autovectores de Σ son las direcciones principales de la distribución
- Los autovalores son las varianzas de las correspondientes direcciones principales
•
La transformación lineal definida por los autovectores de Σ lleva a componentes que están
descorrelacionadas, independientemente de la forma de la distribución
En el caso particular de que la distribución sea gaussiana, entonces las variables
transformadas serán estadísticamente independientes
con
y
Estadísticamente
Independientes
El Teorema Central del Límite
•
El teorema dice q
que si y = Σ xk , siendo xk N variables aleatorias independientes
p
con distribuciones individuales arbitrarias, entonces la distribución de y tiende
a ser Gaussiana según se va haciendo mayor N.
En el límite N→
•
p
∞ , termina siendo una Gaussiana perfecta.
•
En otras palabras, cualquier variable que sea la contribución de muchos factores
aleatorios independientes tiende a ser Gaussiana.
•
Ejemplos: ruido en aparatos medidores, …
Ejemplo numérico: calculamos un histograma
a partir de 500 valores de y generados con
y = Σ xk