Download Tema 5.- Ortogonalidad y mejor aproximación.

Document related concepts
no text concepts found
Transcript
Ingenierı́a Civil.
Matemáticas I. 2012-2013.
Departamento de Matemática Aplicada II.
Escuela Superior de Ingenieros. Universidad de Sevilla.
Tema 5.- Ortogonalidad y mejor aproximación.
5.1.- El producto escalar.
Norma, distancia, ángulos y ortogonalidad.
Desigualdades y teorema de Pitágoras.
5.2.- El complemento ortogonal de un subespacio.
5.3.- Bases ortogonales.
Bases ortogonales de un subespacio.
El método de Gram-Schmidt.
Matrices ortogonales.
5.4.- La proyección ortogonal.
Proyección ortogonal sobre un subespacio.
El teorema de la mejor aproximación.
5.5.- Problemas de mı́nimos cuadrados. Ecuaciones normales de Gauss.
5.6.- Ejercicios.
Enunciados.
Soluciones.
En este tema estudiamos la estructura métrica de los espacios Rn , es decir, las cuestiones
relacionadas con distancias y ángulos con especial énfasis en la ortogonalidad entre vectores
y entre subespacios vectoriales. En el estudio de la resolución de sistemas de ecuaciones
lineales, el álgebra de matrices, etc., podı́amos considerar coeficientes reales o complejos de
manera indistinta sin afectar ni a los conceptos ni a los resultados. Aquı́ no sucede lo mismo.
El hecho de considerar vectores reales es esencial. Para poder considerar conceptos métricos
en los espacios Cn , de vectores de coordenadas complejas, habrı́a que considerar la definición
apropiada (coherente) de producto escalar de vectores complejos, que se suele denominar
producto hermı́tico y habrı́a que modificar el enunciado de algunas propiedades. Al aplicar
dicha definición, de vectores complejos, a vectores reales nos darı́a la definición usual que
vemos a continuación y que el alumno conoce en dimensiones dos y tres.
Además de considerar las definiciones y propiedades básicas estudiaremos algunos tipos de
matrices directamente relacionadas con la estructura metrica de los espacios de coordenadas
reales (matrices de proyección ortogonal sobre un subespacio, matrices ortogonales,...)
125
126
Tema 5.- Ortogonalidad y mejor aproximación.
5.1.- El producto escalar. Norma, distancia, ángulos y ortogonalidad.
El Producto escalar de dos vectores reales x, y ∈ Rn es el número real
x · y = x1 y1 + x2 y2 + · · · + xn yn ∈ R.
5.1.1.- Norma, distancia, ángulos y ortogonalidad.
Definiciones. Consideremos x, y ∈ Rn .
Se denomina Norma de un vector x ∈ Rn al número real no-negativo
q
√
||x|| = |x1 |2 + · · · + |xn |2 = x · x ≥ 0.
Se denomina Distancia entre dos vectores x, y ∈ Rn al número real no-negativo
d(x, y) = ||x − y|| .
Ortogonalidad.
(a) Se dice que dos vectores x, y ∈ Rn son ortogonales (x ⊥ y) si x · y = xT y = 0.
(b) Se dice que un conjunto de vectores {v1 , . . . , vm } de Rn es un conjunto ortogonal
si cada uno de los vectores vk es ortogonal a todos los demás,
vk · vj = 0, j 6= k.
(c) Se dice que un conjunto de vectores {v1 , . . . , vm } de Rn es un conjunto ortonormal si es un conjunto ortogonal y cada uno de los vectores vk tiene norma
uno,
vk · vj = 0, j 6= k; ||v1 || = · · · = ||vm || = 1.
Las propiedades del producto escalar, la norma, la distancia y la ortogonalidad son conocidas por el alumno para vectores en R2 y en R3 . En los espacios Rn , las propiedades son
esencialmente las mismas. Notemos que si considerasemos dichos conceptos de forma independiente de un sistema de referencia, en cada uno de ellos aparecen involucrados uno o dos
vectores. Algunas de las propiedades del producto escalar pueden obtenerse directamente
del hecho de que el producto escalar de dos vectores puede expresarse como un producto
matricial, vector-fila por vector-columna, x · y = xT y = y T x. Es inmediato comprobar que
se verifican las siguientes propiedades:
Propiedades.(1) El producto escalar es simétrico: x · y = y · x.
(2) El producto escalar es lineal en cada variable, es decir, siendo x, x′ , y, y ′ ∈ Rn y
α, β, λ, µ ∈ R,
(αx + βx′ ) · y = αx · y + βx′ · y,
x · (λy + µy ′) = λx · y + µx · y ′.
(3) ||x|| = 0 ⇐⇒ x = 0.
(4) ||αx|| = |α| ||x|| , ∀α ∈ R, x ∈ Rn .
Notemos que el producto escalar No es asociativo. Es decir, puede suceder que (x · y)z 6=
x(y · z). De hecho es lo más probable. Ejercicio. Busca un ejemplo e interpreta geométricamente el resultado.
Matemáticas I.
Ingenierı́a Civil
5.2.- El complemento ortogonal de un subespacio.
127
5.1.2.- Desigualdades y teorema de Pitágoras.
Teorema. Sean x, y ∈ Rn
(1) Desigualdad de Cauchy-Schwartz: |x · y| ≤ ||x|| ||y||.
(2) Desigualdad triangular: ||x + y|| ≤ ||x|| + ||y|| ( ||x − y|| ≤ ||x|| + ||y||)
(3) Teorema de Pitágoras: x ⊥ y ⇐⇒ ||x + y||2 = ||x||2 + ||y||2 .
El ángulo (los ángulos) determinado por dos vectores no-nulos x, y ∈ Rn puede caracterizarse (definirse) mediante la igualdad
x · y = ||x|| ||y|| cos(θ).
Los resultados clásicos de la geometrı́a métrica plana, como el Teorema del seno o el Teorema
del coseno, son válidos cuando consideramos vectores n−dimensionales.
5.2.- El complemento ortogonal de un subespacio.
Definición. (El complemento ortogonal de un subespacio) Dado un subespacio vectorial S
de Rn se denomina complemento ortogonal de S al conjunto
S ⊥ = {v ∈ Rn : v ⊥ u ∀u ∈ S} .
Es decir, S ⊥ está formado por todos los vectores que son ortogonales
a todos los vectores de
n o
S. Por tanto, el complemento ortogonal del subespacio nulo ~0 es Rn puesto que cualquier
vector es ortogonal al vector nulo. Por otra parte, el complemento ortogonal del espacio total
Rn es el subespacio nulo, puesto que el vector nulo (de Rn ) es el único que es ortogonal a
todos los vectores de Rn .
Ejemplos. Cuando se trabaja con el complemento ortogonal de un subespacio es conveniente tener presente cómo se puede caracterizar dicho complemento ortogonal cuando el
subespacio viene dado en forma paramétrica o cuando viene dado en forma implı́cita. En R2 ,
un subespacio vectorial de dimensión 1 es una recta que pasa por el origen y su complemento
ortogonal será (como es natural) la recta que pasa por el origen (es un subespacio vectorial)
y es perpendicular a la recta dada. En R3 , un subespacio vectorial de dimensión 1 es una
recta que pasa por el origen. Su complemento ortogonal será el plano que pasa por el origen
(es un subespacio vectorial) y es perpendicular a la recta dada. Un subespacio vectorial de
dimensión 2 es un plano que pasa por el origen. Su complemento ortogonal será la recta que
pasa por el origen (es un subespacio vectorial) y es perpendicular al plano dado.
(1) Consideremos un subespacio de dimensión 1 en R2 , dado en forma paramétrica, es decir,
una recta que pasa por el origen de coordenadas, dada por un vector dirección v1 . Por
ejemplo, para v1 = [2, −1]T
x1 = 2α
,
S = Gen {v1 } = {v = αv1 : α ∈ R} ≡
x2 = −α
Matemáticas I.
2012-2013
128
Tema 5.- Ortogonalidad y mejor aproximación.
su complemento ortogonal estará formado por los vectores v = [x1 , x2 ]T ∈ R2 que son
ortogonales a todos los vectores de la forma αv1 , α ∈ R
v ∈ S ⊥ ⇔ (αv1 ) · v = 0, ∀α ∈ R ⇐⇒ v1 · v = 0 ⇔ 2x1 − x2 = 0.
Es decir, el complemento ortogonal S ⊥ está formado por los vectores v = [x1 , x2 ]T ∈ R2
cuyas coordenadas verifican la ecuación 2x1 − x2 = 0. Por tanto, S ⊥ es un subespacio
vectorial (de dimensión 1) que viene dado en forma implı́cita y los coeficientes de la
ecuación implı́cita son las coordenadas del vector dirección de S. Si hubieramos considerado otro vector dirección de S (que será un múltiplo no-nulo de v1 ), habrı́amos
obtenido una ecuación equivalente.
(2) Si consideramos un subespacio vectorial S de dimensión 1 en Rn , es decir una recta que
pasa por el origen, generada por un vector no-nulo v1 ∈ Rn




a1 


 .. 
S = Gen v1 =  . 



an 
su complemento ortogonal estará formado por los vectores v = [x1 , . . . , xn ]T ∈ Rn
cuyas coordenadas verifican la ecuación
v1 · v = 0 ≡ a1 x1 + · · · + an xn = 0
con lo cual S ⊥ es un subespacio vectorial (de dimensión n−1) que viene dado mediante
una ecuación implı́cita y los coeficientes de dicha ecuación son las coordenadas del
vector dirección de S.
Teorema. Sea S un subespacio vectorial de Rn .
(1) S ⊥ es un subespacio vectorial de Rn .
⊥
(2) S ⊥ = S.
(3) El vector nulo es el nico vector de Rn que pertenece a la interseccin de S con S ⊥ .
(4) Si S = Gen {v1 , . . . , vp }, entonces
v ∈ S ⊥ ⇐⇒ v ⊥ v1 , . . . , v ⊥ vp .
Ejemplo. Antes hemos obtenido el complemento ortogonal de un subespacio de Rn
de dimensión 1, que era un subespacio vectorial de dimensión n − 1 (estos subespacios se
suelen denominar hiperplanos). Las propiedades anteriores permiten obtener fácilmente el
complemento ortogonal de un subespacio de dimensión n − 1 dado en forma implı́cita
W ≡ a1 x1 + · · · + an xn = 0
(para que esta ecuación defina un subespacio de dimensión 1 alguno de los coeficientes
a1 , . . . , an tiene que ser no nulo). Puesto que, como vimos antes,



 a1 

 .. 
⊥
W =S
siendo S = Gen  . 


 a

n
Matemáticas I.
Ingenierı́a Civil
5.3.- Bases ortogonales.
tenemos que W ⊥ = S ⊥
paramétrica.
129
⊥
= S. Es decir, de manera inmediata obtenemos W ⊥ en forma
El hecho de expresar el complemento ortogonal de una u otra forma paramétrica/implı́cita
dependiendo de como venga expresado el subespacio vectorial:
S en forma paramétrica −→
S en forma implı́cita
−→
queda reflejado con el siguiente Teorema.
S ⊥ en forma implı́cita
S ⊥ en forma paramétrica
Teorema. (Los cuatro subespacios asociados a una matriz) Sea A una matriz real m × n.
Se verifica:
[Col (A)]⊥ = Nul (AT ),
[Nul (A)]⊥ = Col (AT ).
El espacio Col (AT ) se suele denominar espacio fila de la matriz A.
Notemos que en lo que se refiere a las dimensiones de los complementos ortogonales
tenemos
dim [Col (A)]⊥ = dim Nul (AT ) = m− pivotes de AT = m−rang (A) = m−dim (Col (A)) .
Puesto que cualquier subespacio vectorial se puede expresar como el espacio columna de una
matriz tenemos que para cualquier subespacio vectorial S de Rm se verifica
dim S ⊥ = m − dim (S).
5.3.- Bases ortogonales.
5.3.1.- Bases ortogonales de un subespacio.
Una base ortogonal de un subespacio vectorial S es una base de S formada por vectores
que son ortogonales dos a dos. Para calcular las coordenadas de un vector respecto de una
base genérica de S hay que resolver un sistema de ecuaciones lineales cuya soluci´’on son las
coordenadas del vector respecto de dicha base. Como veremos en la sección 6.4, la principal
ventaja, de tener una base ortogonal de un subespacio, es que el cálculo de las coordenadas
de un vector respecto de dicha base es particularmente sencillo y se tiene una fórmula para
dichas coordenadas (ver el desarrollo de Fourier). Una base ortonormal de un subespacio
vectorial es una base formada por vectores que son ortogonales dos a dos y unitarios (con
norma igual a 1).
Teorema. Si {v1 , v2 , . . . , vr } es un conjunto de vectores no-nulos ortogonales dos a dos,
entonces son linealmente independientes.
Cuando se tiene un conjunto ortogonal de vectores no-nulos y se normalizan (se divide
cada uno por su norma), obtenemos un conjunto ortonormal de vectores que formarán una
base ortonormal del subespacio vectorial que generan. Vamos a considerar ahora las propiedades de las matrices cuyas columnas son ortonormales. Más adelante veremos el caso
particular de las matrices cuadradas cuyas columnas son ortonormales.
Proposición. Sea U = [u1 , . . . , un ] una matriz real m × n.
Matemáticas I.
2012-2013
130
Tema 5.- Ortogonalidad y mejor aproximación.
(1) U tiene columnas ortonormales ⇐⇒ U T U = I.
(2) Si U tiene columnas ortonormales, entonces conserva ángulos y distancias. Es decir
(Ux) · (Uy) = x · y, ∀x, y ∈ Rn . En particular,
(a) ||Ux|| = ||x|| ,
∀x ∈ Rn .
(b) Ux ⊥ Uy ⇐⇒ x ⊥ y.
5.3.2.- El método de Gram-Schmidt.
En los temas anteriores hemos visto cómo obtener una base de un subespacio vectorial
a partir de un conjunto de vectores que genere dicho subespacio vectorial. El método de
ortogonalización de Gram-Schmidt, que vamos a describir, permite construir, de manera
progresiva, una base ortogonal de un subespacio vectorial a partir de una base de dicho
subespacio e incluso de un conjunto de vectores que genere el subespacio, sin necesidad de
que los vectores sean linealmente independientes.
Partiendo de una base {v1 , v2 , . . . , vp } de un subespacio S, el método consiste en generar uno a uno vectores que son ortogonales a los construidos. Denotamos por S1 , S2 , · · · los
subespacios vectoriales definidos por
S1 = Gen {v1 } , S2 = Gen {v1 , v2 } , . . . , Sp = Gen {v1 , v2 , . . . , vp } = S.
El método de Gram-Schmidt consiste en generar los vectores:
u1 = v1 ∈ S1 ,
u2 = v2 − proy S1 (v2 ) ∈ S2 , es decir, u2 es el único vector de la forma
u2 = v2 + αu1 que es ortogonal a u1 ,
u3 = v3 − proy S2 (v3 ) ∈ S3 , es decir, u3 es el único vector de la forma
u3 = v3 + αu1 + βu2 que es ortogonal a u1 y a u2 ,
...
Notemos que, puesto que los vectores {v1 , v2 , . . . , vp } son linealmente independientes, los
subespacios
S1 ⊂ S2 ⊂ · · · ⊂ Sp = S
son todos distintos (dim (Sk ) = k, k = 1, 2, . . . , p), los vectores u1 , u2 , . . . , up son todos nonulos y linealmente independientes y se verifica que
S1 = Gen v1
= Gen u1 ,
S2 = Gen {v1 , v2 }
= Gen {u1 , u2} ,
S3 = Gen {v1 , v2 , v3 } = Gen {u1 , u2 , v3 } = Gen {u1 , u2, u3 } ,
..
..
.
.
Sp = Gen {v1 , . . . , vp } = · · ·
= Gen {u1 , · · · , up } .
Teorema (Método de ortogonalización de Gram-Schmidt). Consideremos una base
{v1 , v2 , . . . , vp } de un subespacio vectorial S de Rn . Entonces, los siguientes vectores están
bien definidos
Matemáticas I.
Ingenierı́a Civil
5.3.2.- El método de Gram-Schmidt.
131
u1 = v1
u2 = v2 −
v2 · u1
u1
||u1 ||2
u3 = v3 −
v3 · u1
v3 · u2
u2
2 u1 −
||u1 ||
||u2 ||2
..
.
vp · up−1
vp · u1
up−1
up = vp −
2 u1 − · · ·
||u1 ||
||up−1 ||2
y son no-nulos y ortogonales dos a dos. Además, para cada k = 1, . . . , p, {u1 , u2 , . . . , uk }
es una base ortogonal de Sk = Gen {v1 , v2 , . . . , vk }. En particular {u1, u2 , . . . , up } es una
base ortogonal de S = Gen {v1 , v2 , . . . , vp }.
Observaciones.
(a) Si el objetivo es obtener una base ortonormal de S, una vez que se ha obtenido una base
ortogonal basta normalizar los vectores obtenidos.
(b) En cada paso del método de Gram-Schmidt que acabamos de describir podrı́amos multiplicar (o dividir) el vector obtenido por un coeficiente no-nulo y seguir los cálculos
con dicho vector.
(c) ¿Qué sucede al aplicar el método de Gram-Schmidt a un conjunto de vectores linealmente
dependientes?
5.3.3.- Matrices ortogonales.
Un caso particularmente importante de matrices reales con columnas ortonormales lo
constituyen las matrices cuadradas con dicha propiedad.
Definición. (Matriz ortogonal) Se denomina matriz ortogonal a toda matriz Q real cuadrada no-singular cuya inversa coincide con su traspuesta, Q−1 = QT .
Ejercicio. Prueba las siguientes propiedades de las matrices ortogonales
(1) Si Q es ortogonal =⇒ det (Q) = ±1
(2) Q es ortogonal ⇐⇒ QT es ortogonal.
(3) Si Q1 y Q2 son ortogonales, entonces Q1 Q2 es ortogonal.
Proposición. Sea Q una matriz real cuadrada n × n. Son equivalentes:
(1) Q es una matriz ortogonal.
(2) Las n columnas de Q son ortonormales (y por tanto forman una base ortonormal de
Rn ).
(3) Las n filas de Q son ortonormales (y por tanto forman una base ortonormal de Rn ).
Matemáticas I.
2012-2013
132
Tema 5.- Ortogonalidad y mejor aproximación.
Observación.- Notemos que el que las columnas de una matriz (real) sean ortonormales es equivalente a que lo sean las filas sólo en el caso de una matriz cuadrada. Una matriz real no cuadrada
puede tener columnas (o filas) ortonormales sin serlo sus filas (o columnas). Por ejemplo, las matrices
  1


  √1
√
√1
0
1 0
3
2
2
  1
1 
 0 1 ,
 0 1  ,  √3 − √2 
√1
√1
0 0
0
0
2
3
tienen sus columnas ortonormales pero no sus filas. Las traspuestas tienen filas ortonormales pero
no columnas.
5.4.- La proyección ortogonal.
5.4.1.- Proyección ortogonal sobre un subespacio.
Si consideramos el subespacio vectorial S, de dimensión uno (una recta), generado por
un vector, u1 , no-nulo, S = Gen {u1 }, la proyección ortogonal de un vector v ∈ Rn sobre S
será el vector u = αu1 ∈ S que verifica que
v − u = v − αu1
es ortogonal a S. Es decir, tenemos que determinar α con la condición de que v − αu1 sea
ortogonal a u1 ,
v · u1
⇒
(v − αu1) · u1 = v · u1 − α ||u1 ||2 = 0 ⇐⇒ α =
||u1 ||2
v · u1 v · u1
.
u1 ,
=⇒ ||u|| = =⇒ u = proy S (v) =
||u1 || ||u1 ||2
No hay que confundir el vector proyección ortogonal de v sobre (la recta que genera)
otro,
v · u1 v · u1
, que
u1 , que es un vector
u1 , con la magnitud de dicha proyección ortogonal, ||u1|| ||u1 ||2
es un número real.
Para un subespacio de dimensión arbitraria puede darse una expresión de la proyección
ortogonal de un vector sobre dicho subespacio cuando disponemos de una base ortogonal de
dicho subespacio. Considerando una base ortonormal puede darse una expresión cómoda de
la matriz de la proyección ortogonal.
Teorema (de la descomposición ortogonal). Sea S un subespacio vectorial de Rn . Dado
cualquier vector v ∈ Rn existe un único vector u ∈ S (llamado proyección ortogonal de v
sobre S) tal que v−u ∈ S ⊥ . De hecho, si {u1 , u2, . . . , ur } es una base ortogonal de S, entonces
la proyección ortogonal de v sobre S es
v · ur
v · u1
ur .
u := proy S (v) =
2 u1 + · · · +
||u1 ||
||ur ||2
y la proyección ortogonal de v sobre S ⊥ es
w = v − u.
Notemos que:
Matemáticas I.
Ingenierı́a Civil
5.4.- La proyección ortogonal.
133
Si v ∈ S, entonces proy S (v) = v y proy S ⊥ (v) = 0.
Notemos que proy S ⊥ (v) = v − u = v − proy S (v), esto es
proy S (v) + proy S⊥ (v) = v.
Cada sumando de la expresión
v · ur
v · u1
ur
2 u1 + · · · +
||u1 ||
||ur ||2
nos da la proyección ortogonal del vector v sobre el subespacio generado por el correspondiente vector uk .
El vector u = proy S (v) verifica que ||u||2 ≤ ||v||2 y expresando ||u||2 en términos de
la base ortogonal dada esta desigualdad es la desigualdad de Bessel considerada en la
siguiente proposición.
Corolario. Sea {u1 , u2 , . . . , ur } una base ortogonal de un subespacio S de Rn . Entonces
u · uk
, es decir,
las coordenadas de un vector u ∈ S respecto de dicha base vienen dadas por
||uk ||2
se verifica que
u · u1
u · ur
u=
ur .
2 u1 + · · · +
||u1 ||
||ur ||2
La expresión anterior se suele denominar desarrollo de Fourier de v respecto a la base
{u1 , u2, . . . , ur }.
Corolario. (Matriz de una proyección ortogonal) Sea S un subespacio vectorial de Rn .
(a) Si {u1 , u2 , . . . , ur } es una base ortonormal de S, la proyeción ortogonal de un vector
v ∈ Rn sobre S es
u := proy S (v) = (v · u1 ) u1 + · · · + (v · ur ) ur .
(b) Siendo U una matriz cuyas columnas forman una base ortonormal de S, la matriz de la
proyección ortogonal sobre S es PS = UU T , es decir
proy S (v) = UU T v,
∀v ∈ Rn .
Aunque puedan considerarse distintas matrices U como en el enunciado, la matriz PS =
UU T que representa a la proyección ortogonal, respecto a la base canónica, es única. Las
propiedades caracterı́sticas de las matrices de proyección ortogonal son:
PS2 = PS ,
UU T
2
= U(U T U)U T = UIU T = UU T ,
PS
UU T
T
= (U T )T U T = UU T .
es simétrica,
Matemáticas I.
y
2012-2013
134
Tema 5.- Ortogonalidad y mejor aproximación.
5.4.2.- El teorema de la mejor aproximación.
El teorema de la mejor aproximación resuelve el problema de la mı́nma distancia de
un punto a un subespacio vectorial. Dado un subespacio vectorial S de Rn y un punto/vector x ∈ Rn , se trata de minimizar la distancia de x a un punto/vector genérico w ∈ S,
min {kx − wk : w ∈ S}, y de obtener el punto/vector donde se alcanza dicho mı́nimo. Este
problema se puede plantear como un problema de optimización en varias variables (cálculo
diferencial de varias variables) sin más que expresar un vector genérico w ∈ S como combinación lineal arbitraria de los vectores de un base de S. El teorema de la mejor aproximación
nos dirá que es equivalente resolver el problema de mı́nima distancia (la mejor aproximación
a x desde S) que el problema de la proyección ortogonal sobre S. La mı́nima distancia de x
a S se alcanza en proyS (x) (y en ningún otro punto).
Teorema (de la mejor aproximación). Sea S un subespacio vectorial de Rn y consideremos un vector x ∈ Rn y un vector y ∈ S. Son equivalentes:
(a) y es la proyección ortogonal de x sobre S, es decir,
y ∈ S,
x − y ∈ S ⊥.
(b) y es la mejor aproximación de x desde S, es decir,
y ∈ S,
||x − y|| ≤ ||x − w||
para todo w ∈ S.
S⊥
x
Sea y = proy S (x) y sea w ∈ S. Puesto que
x−w = (x−y)+(y−w),
y
O
S
w
x−y ∈ S ⊥ , y−w ∈ S,
aplicando el Teorema de Pitágoras
tenemos
||x − w||2 = ||x − y||2 +||y − w||2 ≥ ||x − y||2 .
5.5.- Problemas de mı́nimos cuadrados. Ecuaciones normales de
Gauss
En términos generales, resolver un problema en el sentido de los mı́nimos cuadrados es
sustituir un problema en el que hay que resolver un sistema de ecuaciones (que no tiene
solución) por el problema de minimizar una suma de cuadrados.
Ejemplo. El problema de la regresión lineal. Si consideramos dos magnitudes, x e
y, de las que suponemos que están relacionadas mediante una igualdad del tipo y = ax + b,
donde tenemos que determinar a y b mediante la obtención de resultados experimentales, y
dichos resultados son
Matemáticas I.
Ingenierı́a Civil
5.5.- Problemas de mı́nimos cuadrados. Ecuaciones normales de Gauss
135
x x1 x2 · · · xn
y y1 y2 · · · yn
los valores a y b los obtendremos de la resolución del sistema de ecuaciones lineales



 
x1 1
y1
ax1 + b = y1 

  x2 1   y2 
ax2 + b = y2


 a

≡  .. .. 
=  ..  .
···
b

 . . 
 . 


axn + b = yn
xn 1
yn
Lo habitual es que un sistema de ecuaciones como el anterior no tenga solución. Resolver el
sistema anterior en el sentido de los mı́nimos cuadrados consiste en determinar los valores a
y b para los cuales la suma de cuadrados
(ax1 + b − y1 )2 + (ax2 + b − y2 )2 + · · · + (axn + b − yn )2
es mı́nima (si hubiera solución dicho
cuadrados es el cuadrado de la norma

x1
 x2

 ..
 .
xn
valor mı́nimo serı́a cero). Puesto que esta suma de
del vector



1
y1


1 
 y2 
 a
−


..
. 
 .. 
.  b
1
yn
y los vectores de la forma






x1 1
x2 1 
 a
.. ..  b
. . 
xn 1
∀ a, b ∈ R
forman el espacio columna S de la matriz considerada, resolver el sistema en mı́nimos cuadrados es determinar el vector de S más cercano al término independiente considerado y
resolver el sistema (que será compatible) con ese nuevo término independiente.
Para un sistema genérico de ecuaciones lineales Ax = b, resolverlo en el sentido de los
mı́nimos cuadrados es determinar el vector (o vectores) x ∈ Rn para los cuales
||Ax − b||
es mı́nima.
Puesto que los vectores Ax recorren el espacio columna de A (cuando x recorre Rn ), ||Ax − b||
será mı́nima para los vectores x ∈ Rn tales que Ax es igual a la proyección ortogonal de b
sobre el espacio Col (A).
A
Rm
b
Rn
x
O
Matemáticas I.
O
proyS (b)
Ax
Col (A)
2012-2013
136
Tema 5.- Ortogonalidad y mejor aproximación.
Teorema. Consideremos un sistema de ecuaciones Ax = b, A matriz real m × n, b ∈ Rm ,
S = Col (A) y sea x̂ ∈ Rn . Son equivalentes:
(a) x̂ es solución en mı́nimos cuadrados del sistema Ax = b, es decir,
||Ax̂ − b|| ≤ ||Ax − b|| ,
∀x ∈ Rn .
(b) x̂ verifica Ax̂ = proy S (b).
(c) x̂ verifica las ecuaciones normales de Gauss AT Ax̂ = AT b.
Observaciones.
(a) El sistema de ecuaciones Ax = proy S (b) (sistema m × n) y el sistema AT Ax = AT b
(sistema n × n) son siempre compatibles y tienen el mismo conjunto de soluciones.
(b) El sistema Ax = proy S (b) será compatible determinado (es decir el problema en mı́nimos
cuadrados tendrá solución única) si y sólo si el sistema homogéneo asociado Ax = 0
tiene solución única. Por tanto,
las columnas de A son linealmente
el sistema Ax = b tiene solución
⇐⇒
independientes (rango(A) = n).
única en mı́nimos cuadrados
Matemáticas I.
Ingenierı́a Civil
5.6.- Ejercicios.
137
5.6.- Ejercicios.
5.6.1.- Enunciados.
Ejercicio 1. Sea u = [1, 2, 3]T .
(1) Describe geométricamente el conjunto de vectores v ∈ R3 que verifican, respectivamente,
v · u =√2
v·u=4
v·u=2
v·u =0
.
, (d)
, (c)
, (b)
(a)
||v|| = 1
||v|| = 1
||v|| = 1
||v|| = 2/ 14.
(2) Calcula el radio y el centro de la circunferencia dada por las siguientes ecuaciones
v·u =3
.
||v|| = 1
Ejercicio 2. Halla una base y unas ecuaciones implı́citas de E ⊥ y de F ⊥ siendo E y F los
subespacios
    



0 
2
1



2x
+
y
+
3z
−
t
=
0



    
0   1   1 


3x
+
2y
−
2t
=
0
yF ≡
.
E = Gen   ,   , 
−2 
2
2





3x + y + 9z − t = 0


1
3
1
Ejercicio 3. Expresa el vector (1, 3, −1, 4)T como suma de dos vectores u + v siendo u
proporcional a (2, 1, 0, 1)T y v ⊥ u.
Ejercicio 4. Halla la proyección ortogonal de los siguientes vectores sobre los subespacios
que se indican:
(1) (4, 1, 3, −2)T sobre el subespacio definido por x1 + x2 + x3 + x4 = 0.
(2) (1, 1, 1, 1)T sobre el subespacio de R4 dado por:
x − y + z − 2t = 0,
E≡
y + z = 0.
(3) (3, −4, 5)T sobre el subespacio f (E) siendo f

1
A =  −1
0
la aplicación lineal dada por la matriz

0 1
1 0 
1 −1
y E el subespacio de R3 dado por x − y − z = 0.
Matemáticas I.
2012-2013
138
Tema 5.- Ortogonalidad y mejor aproximación.
Ejercicio 5. Demuestra:
(1) El producto de matrices ortogonales es ortogonal.
(2) La suma de matrices ortogonales puede no ser ortogonal.
Ejercicio 6. Dadas las bases ortonormales de R2
√
√ T
√ T
√
B1 =
u1 = 1/ 2, 1/ 2 , u2 = −1/ 2, 1/ 2
T √
√ T
B2 =
w1 = 1/2, 3/2 , w2 = − 3/2, 1/2
y
halla la matriz correspondiente al cambio de una de esas bases a la otra. Comprueba que la
matriz de paso es ortogonal.
Ejercicio 7. Halla el vector perteneciente al subespacio de R4 generado por los vectores
(2, 0, −1, 2)T , (1, 2, −2, 0)T y(−1, 2, 0, −2)T
que está más cerca del vector (1, 1, 1, 1)T .
Ejercicio 8. Halla la matriz de la proyección ortogonal sobre cada uno de los siguientes
subespacios de R4 :
(1) el subespacio generado por (0, 2, 1, 0)T y (1, 1, 0, 1)T .
(2) el subespacio generado por (0, 0, 2, 1)T y (1, 1, −1, 0)T .
x − 3y + z + t = 0
⊥
(3) Sobre E y sobre E , siendo E ≡
Comprueba que, como debe
2x − 5y + z + 2t = 0
ser, la suma de ambas matrices vale I.
Ejercicio 9. Dado el subespacio S ⊂ R3 definido por x1 − 2x2 + 2x3 = 0, se pide:
(a) Halla la matriz de la proyección ortogonal sobre S. ¿Cuál es la matriz de la proyección
ortogonal sobre S ⊥ ?
(b) Determina una base de S ⊥ .


2 0
(c) Demuestra que Col (A) = S, siendo A =  0 1  .
−1 1
(d) Halla el vector de S que dista menos de v = (1, 1, 1)T .
Matemáticas I.
Ingenierı́a Civil
5.6.- Ejercicios.
139
Ejercicio 10. Aplica el método de Gram-Schmidt a:
(a) La base de R4 , (1, 0, 1, 0)T , (1, 1, 0, 0)T , (0, 1, 1, 1)T , (0, 1, 1, 0)T .
(b) Las columnas de las matrices


1 1
A =  0 1 ,
1 0


1 1
B =  1 2 .
2 1
Ejercicio 11. La proyección ortogonal del vector v = (5, −2, 3)T sobre la recta x = y, y = z
es:
(−1, −1, −1)T .
(3, 3, 3)T .
(2, 2, 2)T .
Ejercicio 12. Halla una base ortonormal de Col (A) y otra de Nul (A) siendo


1
1
0
 0 −1
1 
.
A=
 1
1 −1 
1
1
1
Ejercicio 13. Consideremos el subespacio E definido mediante
E = Gen (a, 0, 0, 0)T , (a, a, b, 0)T , (a, b, −a, 1)T , a, b ∈ R.
(a) Hallar una base ortonormal del subespacio E según los valores de a y b.
(b) Hallar la matriz de la proyección ortogonal sobre E, cuando a = 0.
(c) Calcular los valores de los parámetros a y b tales que el subespacio dado por las ecuaciones

 x1 = 0
5x1 + x2 + 3x3 = 0

−2x1 + 3x2 − x3 + x4 = 0
sea ortogonal a E.
Ejercicio 14. Consideremos los vectores y el subespacio vectorial dados por






−1
2α
α
v1 =  1  , v2 =  α  , u =  0  ;
S ≡ x1 + x2 + αx3 = 0.
−3
3
−1
Determina α sabiendo que proy S (v1 ) = proy S (v2 ) = u. (un dibujo puede ayudar)
Matemáticas I.
2012-2013
140
Tema 5.- Ortogonalidad y mejor aproximación.
Ejercicio 15. Sean S1 y S2 los subespacios vectoriales de R4 definidos mediante
S1 ≡ x1 + x2 + x3 + x4 = 0,
y S2 ≡ x1 + x2 − x3 − x4 = 0.
Determina el vector v ∈ R4 cuyas proyecciones ortogonales sobre S1 y S2 son, respectivamente,




7
3


 −5 
 , u2 = proy S (v) =  −1 
u1 = proy S1 (v) = 
2
 7 
 5 
−1
−3
Ejercicio 16. Sea A una matriz 4 × 3 tal que


 −3 
Nul (A) = Gen  5  ,


1




2
1






−1 
 −1
Col (A)⊥ = Gen v1 = 
 1  , v2 =  0



1
0




 .



(a) Calcula la proyección ortogonal del vector v = [1 1 1 1]T ∈ R4 sobre el subespacio
Col (A).


1 0 ∗
 2 1 ∗ 

(b) Determina la matriz A sabiendo que es de la forma A = 
 ∗ ∗ ∗ .
∗ ∗ ∗
Ejercicio 17. Resolver en el sentido de los mı́nimos cuadrados los siguientes sistemas de
ecuaciones
(1) x = 1, x = 7, x = −3, x = 12.
(2) x = a1 , x = a2 , ..., x = an , siendo a1 , a2 , ..., an números reales. ¿Qué se obtiene cuando
alguno de los valores ak aparece repetido?
2
1 1
.
yb=
(3) Ax = b siendo A =
4
1 1
Ejercicio 18. Resuelve en el sentido de los mı́nimos cuadrados los dos sistemas equivalentes
siguientes (que tendrı́an las mismas soluciones exactas si fueran compatibles)
Matemáticas I.
x1 + x2 = 3
2x1 + 2x2 = 4
y
x1 + x2 = 3
x1 + x2 = 1
.
Ingenierı́a Civil
5.6.- Ejercicios.
141
n
o
Ejercicio 19. Dados el subespacio E = Gen [1, 0, 0, 1]T , [0, 1, 0, 2]T , [0, 0, 1, 1]T y la matriz


a1 b1
 a2 2 

A=
 a3 b2  .
−2 b3
(a) Calcular una base de E ⊥ .
(b) Hallar la matriz de la proyección ortogonal sobre E.
(c) Calcular A sabiendo que Col (A)) está contenido en E ⊥ .
(d) Resolver en el sentido de los mı́nimos cuadrados, el sistema Ax = b con b = (1, −1, 0, 0)t .
Ejercicio 20. Por el método de los mı́nimos cuadrados, ajustar una parábola, y = ax2 +
bx + c, a los puntos (1, −3), (1, 1), (−1, 2) y (−1, −1).
Ejercicio 21. Resolviendo el sistema sobredeterminado que se obtiene de la ecuación general
de la circunferencia x2 + y 2 + ax + by + c = 0, calcular la circunferencia que mejor se ajuste,
en el sentido de los mı́nimos cuadrados a los puntos (0, 0), (1, 0), (0, 1) y (1, 1), indicando
las coordenadas del centro y el radio de la misma.
Ejercicio 22. Consideremos el sistema



1
0 1  1
 1 1  x


=
 3
 −1 1  y
3
2 1


.

Sus ecuaciones
de Gauss son:
normales
4
x
6 1
.
=
8
y
1 4
6 2
2 4
x
y
6 2
2 4
x
y
Ejercicio 23. Considera los vectores v1 , v2 , v3 y v4 de R4 y




 

−1
1
0
1
 −8
 −1 
 1 
 −1 




 
v1 = 
 2  , v2 =  2  , v3 =  2  , v4 =  1
2
3
2
0
=
2
4
.
=
4
8
.
la matriz C dados por




;
C =  v1 v2  .

(a) Calcular la matriz de la proyección ortogonal sobre S = Gen {v1 , v2 , v3 }, el vector de S
más cercano a v4 y la distancia de v4 a S.
(b) Resolver, en el sentido de los mı́nimos cuadrados, el sistema Cx = v3 .
Matemáticas I.
2012-2013
142
Tema 5.- Ortogonalidad y mejor aproximación.
5.6.2.- Soluciones.
Ejercicio
1. (1)
v·u=0
•
||v|| = 1
Corte de la esfera de centro el origen y radio 1 con el plano
x + 2y + 3z = 0. Circunferencia de centro el origen y radio 1.
•
v·u=2
||v|| = 1
Corte de la esfera de centro el origen y radio 1 con el plano
•
v·u=4
||v|| = 1
Corte de la esfera de centro el origen y radio 1 con el plano
x + 2y + 3z = 4. Nada.
x + 2y + 3z = 2. Circunferencia de centro C =
2 4 6
( 14
, 14 , 14 )
y radio
√
v·u =2
Corte de la esfera de centro el origen y radio 2/ 14
•
||v|| = √214 .
con el plano x + 2y + 3z = 2. Un punto.
q
5
3 6 9
(2) Radio r = 14
, Centro C = ( 14
, 14 , 14 ).
Ejercicio 2.
E⊥
F⊥


 
−1
−2





  −1 
2
x1 + 2x3 + x4 = 0,




,
, Ecuaciones implı́citas
Base 


0 
1
x2 − 2x3 + x4 = 0.





1
0






Base v1 = 






3
2


2
1 
,v = 
3  2  0
−2
−1




−6x + 9y + z = 0,
 , Ecuaciones implı́citas

y+t
= 0.


Ejercicio 3.

1
 3 


 −1  = u + v,
4



−2
2

 3
3
1
, v =  2
u= 
 −1
2 0 
5
1
2

Ejercicio 4. (1) Para el vector v dado, tenemos


4
 1 

v=
 3  ⇒ proy(v) =
−2
Matemáticas I.


.


5


1  −1 
.
2 
3 
−7

Ingenierı́a Civil
q
10
.
14
5.6.- Ejercicios.
143
(2) Para el vector dado tenemos,

8
1  −1 
.
proy(v) = 
7 1 
5

(3) En este caso la proyección viene dada por




3
47
1 
−2  .
proy( −4 ) =
11
5
41
Ejercicio 5. (1) Si tomamos dos matrices ortgonales Q1 y Q2 de orden n, se verifica que
T
Q−1
1 = Q1
T
y Q−1
2 = Q2
y, por tanto, la matriz producto Q = Q1 Q2 es ortogonal pues se verifica que
QQT = (Q1 Q2 ) (Q1 Q2 )T = (Q1 Q2 ) QT2 QT1 = Q1 Q2 QT2 QT1 = Q1 QT1 = I.
(2) Las matrices Q1 = I y Q2 = −I son ortogonales, pero su suma Q1 + Q2 = 0 no lo es.
Ejercicio 6. Una de las matrices de cambio de base es
√
√ 1
1 + √3 −1 +√ 3
P
= √
B2 ← B1
2 2 1− 3 1+ 3
que es una matriz ortogonal porque los vectores columna forman una base ortonormal de
R2 . La otra matriz de cambio de base es la inversa (o traspuesta) de la matriz anterior
P
=
B1 ← B2
P
B2 ← B1
−1
=
P
B2 ← B1
T
1
= √
2 2
√
√ 1 + √3 1 − √3
.
−1 + 3 1 + 3
Ejercicio 7. Teniendo en cuenta el Teorema de la mejor aproximación, de los vectores
de un subespacio vectorial S, el que está más cerca de un vector dado b es el vector proyección
ortogonal de b sobre S, es decir, el vector pedido es


11
1 8 
.
proyS (b) = 
9 9 
7
Matemáticas I.
2012-2013
144
Tema 5.- Ortogonalidad y mejor aproximación.
Ejercicio 8. (1) La matriz de la proyección ortogonal sobre el subespacio es


5 1 −2
5
1 
9
4
1 
.

PS =
3 −2 
11 
5
(Los elementos que faltan en la matriz anterior no son nulos, ¿quiénes tienen que ser?)
(2) La matriz de la proyección ortogonal sobre el subespacio generado


5
∗ ∗ ∗
1 
5 ∗ ∗ 
.
 5
P =
11  −1 −1 9 ∗ 
2
2 4 3
(Completa las posiciones donde aparece (∗))
(3) La matriz de la proyección ortogonal sobre

3
1
∗
PE = 
4 ∗
∗
E,
1
1
∗
∗

1 −1
1
1 
.
1
1 
∗
3
(Completa las posiciones donde aparece (∗)). La matriz de la proyección ortogonal
sobre E ⊥


1 −1 −1
1
1 ∗
3 −1 −1 
 = I − PE .
PE ⊥ = 
∗
3 −1 
4 ∗
∗
∗
∗
1
(Completar las posiciones donde aparece (∗))
Ejercicio 9. (a) La matriz de la proyección ortogonal sobre S es


8 2 −2
1
4 .
PS =  ∗ 5
9
∗ ∗
5
La matriz de la proyección ortogonal sobre S ⊥ es


1 −2
2
1
4 −4  .
PS ⊥ = I − PS =  ∗
9
∗
∗
4


1 

(b) Una base de S ⊥ es  −2  .


2
Matemáticas I.
Ingenierı́a Civil
5.6.- Ejercicios.
145
(c) Tenemos Col (A) = S puesto que cada columna de A está en S y ambos subespacios
tienen dimensión 2.
(d) El vector u de S más cercano a v es el vector
decir,


8 2 −2
1
4 
PS v =  ∗ 5
9
∗ ∗
5
proyección ortogonal de v sobre S, es



1
8
1
1  =  11  .
9
1
7
La distancia de v a S es


1 1
1 ||v − PS v|| = ||PS ⊥ v|| =  −2  = .
9 3
2 Ejercicio 10. (a)
(b)
A: Ortogonalizamos los vectores columna v1 y v2 de A,
 


1
1
1
v2 · u1
2 .
u1 = v1 =  0  , u2 = v2 −
2 u1 =
2
||u
||
1
1
−1
B: Ortogonalizamos los vectores columna v1 y v2 de B,


 
1
1
v2 · u1
1
7 .
u1 = v1 =  1  , u2 = v2 −
2 u1 =
6
||u
||
1
2
−4
Ejercicio 11. La proyección ortogonal del vector v = (5, −2, 3)T sobre la recta x = y, y = z
es: (2, 2, 2)T .
Ejercicio 12.
Col (A) Una base ortonormal de Col (A) es






0
1

 −1
1 
0
 , q2 = 
q1 = √ 

 0

1

3


0
1


0 




 , q3 = √1  0  .

2  −1 


1


Nul (A) Como el rango de A es 3 el espacio nulo tiene dimensión cero, luego sólo
puede ser Nul (A) = {0}.
Ejercicio 13. (a) Si a = 0 los vectores son ortogonales dos a dos y tenemos los siguientes
casos:
Matemáticas I.
2012-2013
146
Tema 5.- Ortogonalidad y mejor aproximación.
a = 0, b = 0. En este caso v1 = v2 = 0 y {v3 } es una base ortonormal de E.
a = 0, b 6= 0. En este caso,





0
 0 
 , u3 = √ 1
E = Gen u2 = 

1 

1 + b2


0

deonde {u2 , u3} es una base ortonormal de E.

0 

 b 
  ,
 0 


1

a 6= 0. Los tres vectores {v1 , v2 , v3 } son no nulos y no ortogonales entre sı́. Ortoganalizamos, normalizamos los vectores obtenidos y tenemos una base ortonormal
de E,

 

 

1
0
0





 0 
 a 
 b 
1
1






u1 =   , u2 = √
.
, u3 = √
2 + b2  b 
2 + b2  −a 
0

a
1
+
a




0
0
1
(b) Para a = 0 tenemos los siguientes casos:
a = 0, b = 0. La matriz de la proyección ortogonal sobre E es


0 0 0 0
 0 0 0 0 

P =
 0 0 0 0 .
0 0 0 1
a = 0, b 6= 0. La matriz de la proyección ortogonal sobre E es
0
 0
P =
 0
0

0
b2
1+b2
0
b
1+b2
0
0
1
0
0
b
1+b2
0
1
1+b2


.

(c) Se obtiene a = 1, b = 1.
Ejercicio 14. se obtiene α = −2.

6
 −2 

Ejercicio 15. Se obtiene v = 
 8 .
0

Matemáticas I.
Ingenierı́a Civil
5.6.- Ejercicios.
147
Ejercicio 16. (a) La proyección del vector v sobre
por

1
1
4
u= 

3 3
2
el subespacio Col (A) es el vector dado


.

(b) La matriz A completa es:

1
 2
A=
 1
0

0
3
1
1 
.
1 −2 
1 −5
1 + 7 − 3 + 12
17
= .
4
4
a1 + a2 + · · · + an
. Cuando alguno de los valores ak aparece repetido, la expresión
(2) x =
n
anterior es válida y se trata de una media aritmética ponderada donde cada uno de los
distintos valores pesa según el número de veces que aparece repetido.
Ejercicio 17. (1) x =
(3) Mediante las ecuaciones normales de Gauss
3−α
x=
,α ∈ R .
α
Ejercicio 18. (a)
x1
x2
x1
x2
=
=
0
2
0
11
5
−1
1
−1
1
+α
, α ∈ R.
(b)
+β
, β ∈ R.
Es decir, las soluciones en mı́nimos cuadrados de cada uno de los sistemas es una recta
y ambas rectas son paralelas. Notemos que si en el sistema (a) a la segunda ecuación le
restamos la primera, se obtiene el sistema (b).

−1 

 −2 
⊥


.
Ejercicio 19. (a) E = w = 
−1 





1





(b) La matriz de la proyección ortogonal sobre E es


6 −2 −1 1
1  −2
3 −2 2 
.
PE = 

6 1 
7 −1 −2
1
2
1 6
Matemáticas I.
2012-2013
148
Tema 5.- Ortogonalidad y mejor aproximación.
(c) Obtenemos

2
1
 4
2 
.
A=
 2
1 
−2 −1

(d)
x1
x2
=
1
− 14
0
x2
+
2
−1
2
.
Ejercicio 20. Para cualquier valor de c ∈ R, todas las parábolas
1
3
y=−
+ c x2 − x + c
4
4
se ajustan igual de bien, en el sentido de los mı́nimos cuadrados, a los puntos dados y se
ajustan mejor que todas las demás. Siendo estrictos en la lectura del enunciado quizá habrı́a
que suprimir una de las curvas que se obtiene mediante la ecuación anterior, ¿cuál?
Ejercicio 21. La circunferencia que mejor se ajusta, en el sentido de los mı́nimos cuadrados,
a los puntos dados es
2 2
1
1
1
2
2
+ y−
= ,
x +y −x−y = 0
≡
x−
2
2
2
√
es decir, se trata de la circunferencia de centro 12 , 21 y radio 22 . Notemos que, de hecho, los
puntos dados están en la ciecunferencia obtenida es decir, la solución en mı́nimos cuadrados
es solución (en el sentido estricto) del sistema original.
Ejercicio 22. Sus ecuaciones normales de Gauss son:
6 2
x
4
=
.
2 4
y
8
Ejercicio 23. (a)
Matriz de la proyección ortogonal sobre S:


5 −8 4 0

1 
 −8 17 2 0  .
PS =
2 20 0 
21  4
0
0 0 21


3
 −6 

Vector de S más cercano a v4 : PS v4 = 
 0 .
2
√
Distancia de v4 a S: La distancia de v4 a S es 21.
(b)
Matemáticas I.
x1
x2
1
=
5
3
4
Ingenierı́a Civil