14 Ortonormal diagonalisering

Vi vil nu betragte lineære operatorer $L : V \rightarrow V$ på indre produkt rum $V$ af endelig dimension $>0$ . Vektorrummet $V$ er dermed nødvendigvis defineret over et legeme $\mathbb{K}$ , der enten er $\mathbb{R}$ eller $\mathbb{C}$ . Det indre produkt på $V$ betegnes, som sædvanlig, med $\langle{\cdot},{\cdot}\rangle$ . Denne opsætningen gør det muligt at tale om ortonormale og ortogonale mængder i $V$ , og det er derfor naturligt at definere:

[Ortonormal diagonalisering] En lineær operator $L : V \rightarrow V$ kaldes ortonormalt diagonaliserbar, såfremt der eksisterer en ortonormal basis $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_n)$ for $V$ bestående af egenvektorer for $L$ . Såfremt $A \in \mathrm{Mat}_n(\mathbb{K})$ , så siger vi yderligere, at $A$ er ortonormalt diagonaliserbar, hvis det tilsvarende er gældende for operatoren $L_A$ på $\mathbb{K}^n$ , når vi opfatter $\mathbb{K}^n$ som et indre produkt rum via skalarproduktet.

Lad $A \in \mathrm{Mat}_3(\mathbb{R})$ betegne matricen

$A = \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{pmatrix} .$ Så $A$ ortonormalt diagonaliserbar, idet $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2,{\bm{v}}_3)$ med $\\ {\bm{v}}_1=$

, ${\bm{v}}_2=$

og ${\bm{v}}_3 =$

$\\$ er en ortonormal basis for $\mathbb{R}^3$ (mht. skalarproduktet) bestående af egenvektorer for operatoren $L_A$ .

$\frac{1}{\sqrt 2}\begin{pmatrix} 1 \\ -1 \\ 0 \end{pmatrix}$

$\frac{1}{\sqrt 2}\begin{pmatrix} 0 \\ 1 \\ -1 \end{pmatrix}$

$\frac{1}{\sqrt 2}\begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix}$

$\frac{1}{\sqrt 6}\begin{pmatrix} 1 \\ 1 \\ -2 \end{pmatrix}$

$\frac{1}{\sqrt 3}\begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}$

$\frac{1}{\sqrt{4}}\begin{pmatrix} 1 \\ -2 \\ 1 \end{pmatrix}$

At være ortonormalt diagonaliserbar er en stærkere betingelse end blot at være diagonaliserbar, idet basen $\mathcal{V}$ ikke blot skal bestå af egenvektorer, men også skal være ortonormal. En ortonormalt diagonaliserbar operator er derfor specielt diagonaliserbar, og matricen ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er derfor diagonal.

Bemærk, at en operator $L : V \rightarrow V$ er ortonormalt diagonaliserbar, såfremt der blot eksisterer en ortogonal basis for $V$ bestående af egenvektorer (idet ortogonale baser kan skalares til ortonormale baser).

Betragt den reelle matrix
$A= \begin{pmatrix} 1 & 2 \\ 2 & 1 \\ \end{pmatrix} ,$ med karakteristisk polynomium
$p_A(t) = t^2 - 2 t -3 = (t-3)(t+1).$ Egenværdierne for $A$ er dermed $\lambda_1=3$ og $\lambda_2=-1$ , mens de tilsvarende egenrum beregnes til
$E_A(\lambda_1) = \mathrm{Span} \begin{pmatrix} 1 \\ 1 \end{pmatrix} , \quad E_A(\lambda_2) = \mathrm{Span} \begin{pmatrix} 1 \\ -1 \end{pmatrix} .$ Ifølge Proposition 13.9 så udgør vektorerne ${\bm{v}}_1= (1,1)^T$ og ${\bm{v}}_2=(1, - 1)^T$ da en basis for $V$ bestående af egenvektorer. Faktisk er ${\bm{v}}_1,{\bm{v}}_2$ en ortogonal mængde mht. skalarproduktet på $\mathbb{R}^2$ . Vi konkluderer derfor, at operatoren $L_A : \mathbb{R}^2 \rightarrow \mathbb{R}^2$ er ortonormalt diagonaliserbar, hvis vi opfatter $\mathbb{R}^2$ som et indre produkt rum via skalarproduktet. Med andre ord har vi fundet, at $A$ er ortonormalt diagonaliserbar.
Betragt den reelle matrix
$A= \begin{pmatrix} 1 & 1 \\ 0 & 2 \\ \end{pmatrix} ,$ med karakteristisk polynomium
$p_A(t) = (t-1) (t-2).$ Egenværdierne for $A$ er dermed $\lambda_1=1$ og $\lambda_2=2$ , mens de tilsvarende egenrum beregnes til
$E_A(\lambda_1) = \mathrm{Span} \begin{pmatrix} 1 \\ 0 \end{pmatrix} , \quad E_A(\lambda_2) = \mathrm{Span} \begin{pmatrix} 1 \\ 1 \end{pmatrix} .$ Betragt $L_A : \mathbb{R}^2 \rightarrow \mathbb{R}^2$ som en lineær operator på $\mathbb{R}^2$ , og opfat $\mathbb{R}^2$ som indre produkt rum via skalarproduktet. Vi påstår, at $L_A$ ikke er ortonormalt diagonaliserbar. Antag nemlig, at $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2)$ er en ortonormal basis for $\mathbb{R}^2$ bestående af egenvektorer for $L_A$ . Egenvektorerne ${\bm{v}}_1$ og ${\bm{v}}_2$ er lineært uafhængige, og kan derfor ikke være indeholdt i det samme egenrum (idet alle egenrum har dimension lig $1$ ). Specielt kan vi (efter evt. ombytning af ${\bm{v}}_1$ og ${\bm{v}}_2$ ) antage, at ${\bm{v}}_1$ er et multiplum af $(1,0)^T$ , mens ${\bm{v}}_2$ er et multiplum af $(1,1)^T$ . Dvs
${\bm{v}}_1= \begin{pmatrix} a \\ 0 \end{pmatrix} , \quad {\bm{v}}_1= \begin{pmatrix} b \\ b \end{pmatrix} ,$ for passende skalarer $a,b \in \mathbb{R} \setminus \left\{ 0 \right\}$ . Men da vil
$0=\langle{{\bm{v}}_1},{{\bm{v}}_2}\rangle = a \cdot b,$ som er umuligt. Vi konkluderer, at $A$ ikke er ortonormal diagonaliserbar.

Quiz

Betragt følgende matricer som elementer i $\mathrm{Mat}_2(\mathbb{R})$ . Markér de matricer $A$ , der er ortonormalt diagonaliserbare.

$\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}$

$\begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix}$

$\begin{pmatrix} 2 & 2 \\ 0 & 3 \end{pmatrix}$

$\begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$

Lad $L : V \rightarrow V$ betegne en ortonormalt diagonaliserbar operator på et indre produkt rum $V$ af endelig dimension $>0$ . Lad yderligere $\lambda$ og $\mu$ betegne forskellige egenværdier for $L$ . Så er egenrummene $E_L(\lambda)$ og $E_L(\mu)$ ortogonale.

Bevis

Lad $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2,\ldots,{\bm{v}}_n)$ betegne en ortonormal basis for $V$ bestående af egenvektorer for $L$ . Vi lader $\lambda_i$ betegne egenværdien for ${\bm{v}}_i$ , for $i=1,2,\ldots,n$ . For ethvert element ${\bm{v}}$ i egenrummet $E_L(\lambda)$ der eksisterer der da skalarer $\alpha_i \in \mathbb{F}$ , $i=1,2,\ldots,n$ , så

${\bm{v}} = \sum_{i=1}^n \alpha_i {\bm{v}}_i. \tag{14.1}$ Vi kan nu anvende $L$ på begge sider af (14.1) og opnå

$L({\bm{v}}) = \sum_{i=1}^n \alpha_i L({\bm{v}}_i) = \sum_{i=1}^n \alpha_i \lambda_i {\bm{v}}_i, \tag{14.2}$ hvor vi undervejs har udnyttet, at ${\bm{v}}_i$ 'erne er egenvektorer. Idet $L({\bm{v}}) = \lambda {\bm{v}}$ , så implicerer (14.1) og (14.2) samlet, at

$\sum_{i=1}^n \alpha_i \lambda {\bm{v}}_i = \sum_{i=1}^n \alpha_i \lambda_i {\bm{v}}_i,$ hvilket idet $\mathcal{V}$ er en basis betyder, at $\lambda \alpha_i = \lambda_i \alpha_i$ , for alle $i=1,2,\ldots,n$ . Specielt vil der for ethvert $i$ gælde, at enten så er $\alpha_i=0$ eller også så er $\lambda = \lambda_i$ . Vi konkluderer dermed, at ${\bm{v}}$ er en linearkombination af de elementer i $\mathcal{V}$ , der har samme egenværdi $\lambda$ som ${\bm{v}}$ .

Lad nu $\bm{u}$ betegne et arbitrært element i $E_L(\mu)$ . Så er $\bm{u}$ på tilsvarende måde en linearkombination af de elementer i $\mathcal{V}$ , der har egenværdi $\mu$ . Idet $\lambda \neq \mu$ , så er ${\bm{v}}$ og $\bm{u}$ dermed linearkombination af disjunkte delmængder af elementerne i $\mathcal{V}$ . Da $\mathcal{V}$ er en ortonormal basis, så er $\bm{u}$ og ${\bm{v}}$ dermed ortogonale.

Ovenstående resultat giver anledning til et kriterium til at tjekke, om en given operator er ortonormalt diagonaliserbar. Kriteriet kræver, at man kender alle egenværdier for operatoren og siger:

Lad $\lambda_1,\lambda_2,\ldots,\lambda_k$ betegne samtlige egenværdier for $L$ . Så er $L$ ortonormalt diagonaliserbar hvis og kun hvis egenrummene $E_L(\lambda_i)$ er parvist ortogonale og

$\sum_{i=1}^k \mathrm{Geo}_L(\lambda_i) = \mathrm{dim}(V). \tag{14.3}$ I givet fald så kan man konstruere en ortonormal basis for $V$ bestående af egenvektorer for $L$ på følgende vis: sæt $d_i=\mathrm{Geo}_L(\lambda_i)$ , for $i=1,2,\ldots,k$ , og lad

$\mathcal{V}_i=({\bm{v}}_{i1},{\bm{v}}_{i2},\ldots,{\bm{v}}_{i d_i})$ betegne en ortonormal basis for egenrummet $E_L(\lambda_i)$ . Samlingen (ordnet i vilkårlig rækkefølge)

$\mathcal{V}=({\bm{v}}_{ij})_{1 \leq i \leq k, 1 \leq j \leq d_i}$ er da en ortonormal basis for $V$ bestående af egenvektorer for $L$ .

Bevis

Hvis $L$ er ortonormalt diagonaliserbar, så er egenrummene $E_L(\lambda_i)$ parvist ortogonale ifølge Proposition 14.4. Herudover implicerer Proposition 13.9, at (14.3) er opfyldt, idet $L$ specielt er diagonaliserbar.

Antag omvendt, at egenrummene $E_L(\lambda_i)$ er parvist ortogonale, og at (14.3) er opfyldt. Så er $L$ diagonaliserbar ifølge Proposition 13.9. Herudover implicerer Proposition 13.9, at $\mathcal{V}$ er en basis for $V$ bestående af egenvektorer for $L$ . Men da $E_L(\lambda_i)$ er parvist ortogonale, så er $\mathcal{V}$ en ortonormal basis per konstruktion. Specielt er $L$ ortonormalt diagonaliserbar.

Quiz

Lad $L$ betegne en lineær operator på et indre produkt rum $V$ af endelig dimension $>0$ . Lad yderligere $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2,\ldots,{\bm{v}}_n)$ betegne en basis for $L$ bestående af egenvektorer for $L$ . Angiv, hvornår man med sikkerhed kan konkludere, at $L$ er ortonormalt diagonaliserbar.

Når $\mathcal{V}$ er en ortogonal basis.

Når normen af alle vektorerne ${\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_n$ er lig $1$ .

Når egenvektorer for $L$ hørende til forskellige egenværdier er ortogonale.

Når ethvert egenrum for $L$ er udspændt af en delmængde af $\mathcal{V}$ .

Som det fremgår af Eksempel 14.2 (2.) så er det ikke alle operatorer, der er ortonormalt diagonaliserbare. Med andre ord så kan man ikke altid finde en ortonormal basis $\mathcal{V}$ for $V$ , så ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er diagonal. Resultatet nedenfor, der omtales som Schurs sætning, viser dog, at vi i det komplekse tilfælde altid kan opnå, at ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er øvre triangulær.

[Schurs sætning] Lad $L : V \rightarrow V$ betegne en lineær operator på et indre produkt rum $V$ af endelig dimension $>0$ over legemet $\mathbb{C}$ . Så eksisterer der en ortonormal basis $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_n)$ for $V$ , så matrixrepræsentationen ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er øvre triangulær.

Bevis

Start med at bemærke, at der for en given basis $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_n)$ for $V$ gælder, at ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er øvre triangulær hvis og kun hvis der for alle $i=1,2,\ldots,n$ gælder, at

$L({\bm{v}}_i) \in \mathrm{Span}({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_i). \tag{14.4}$ Denne bemærkning er en direkte konsekvens af definitionen på ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ .

Beviset kører via induktion i $n=\mathrm{dim}(V)$ . Tilfældet $n=1$ er oplagt, og overlades til læseren. Antag derfor, at $n>1$ , og at resultatet er vist for vektorrum af dimension $n-1$ . Jf. Korollar 12.36, så kan vi vælge en egenvektor ${\bm{v}}$ for $L$ . Sæt nu

${\bm{v}}_1= \frac{1}{\left\lVert {\bm{v}} \right\rVert } {\bm{v}}, \tag{14.5}$ og lad $W = \mathrm{Span}({\bm{v}}_1)^\perp$ . Da er $\mathrm{dim}(W)=n-1$ , jf. Korollar 10.22. Lad $P_W : V \rightarrow W$ betegne den ortogonale projektionsafbildning på $W$ , jf. Definition 10.19, og lad $L_W : W \rightarrow V$ betegne restriktionen af $L$ til $W$ . Så er sammensætningen $P_W \circ L_W$ en lineær operator på $W$ , og pr. induktion vil der derfor eksistere en ortonormal basis $\mathcal{W} =({\bm{v}}_2,{\bm{v}}_3,\ldots,{\bm{v}}_{n})$ for $W$ , så ${_{\mathcal{W}}}[{P_W \circ L_W}]_{\mathcal{W}}$ er øvre triangulær. Specielt vil der for $i=2,3,\ldots,n$ gælde, at

$(P_W \circ L_W)({\bm{v}}_i) \in \mathrm{Span}({\bm{v}}_2,{\bm{v}}_3,\ldots,{\bm{v}}_i). \tag{14.6}$ Idet ${\bm{v}}_i \in W$ , for $i=2,3,\ldots,n$ , så vil ${\bm{v}}_1$ være ortogonal på ${\bm{v}}_i$ . Vi konkluderer, at $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_n)$ er en ortonormal samling af elementer i $V$ . Specielt er $\mathcal{V}$ lineært uafhængig og dermed en ortonormal basis for $V$ .

Vi påstår, at ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er øvre triangulær. I første omgang er det klart, at $L({\bm{v}}_1)$ er et element i $\mathrm{Span}({\bm{v}}_1)$ , idet ${\bm{v}}_1$ er en egenvektor for $L$ . For $2 \leq i \leq n$ der gælder der yderligere, at

$P_W\big(L({\bm{v}}_i)\big) \in \mathrm{Span}({\bm{v}}_2,{\bm{v}}_3,\ldots,{\bm{v}}_i), \tag{14.7}$ jf. (14.6). Men pr. definition af $P_W$ , så vil

$L({\bm{v}}_i) - P_W\big(L({\bm{v}}_i)\big) \in W^\perp. \tag{14.8}$ Anvend nu, at $W^\perp= \mathrm{Span}({\bm{v}}_1)$ , jf. Korollar 10.22, og konkluder, at der eksisterer en skalar $\alpha_i$ , så

$L({\bm{v}}_i) = P_W\big(L({\bm{v}}_i)\big) + \alpha_i \cdot {\bm{v}}_1 \in \mathrm{Span}({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_i).$ Dette afslutter induktionsskridtet og dermed beviset.

Lad $A \in \mathrm{Mat}_n(\mathbb{C})$ betegne en kvadratisk matrix, og lad $L=L_A : \mathbb{C}^n \rightarrow \mathbb{C}^n$ betegne den tilsvarende lineære operator. Vi opfatter $\mathbb{C}^n$ som et indre produkt rum via det komplekse skalarprodukt. Som konsekvens af Schurs sætning så eksisterer der en ortonormal basis $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2,\ldots,{\bm{v}}_n)$ for $V$ , så matrixrepræsentationen ${_{\mathcal{V}}}[{L_A}]_{\mathcal{V}}$ er øvre triangulær. Men, jf. Korollar 8.18, så er

$\begin{aligned} {_{\mathcal{V}}}[{L_A}]_{\mathcal{V}}&= {_{\mathcal{V}}}[{\square}]_{\mathcal{E}} \cdot {_{\mathcal{E}}}[{L_A}]_{\mathcal{E}} \cdot {_{\mathcal{E}}}[{\square}]_{\mathcal{V}} \\ & = {_{\mathcal{V}}}[{\square}]_{\mathcal{E}} \cdot A \cdot {_{\mathcal{E}}}[{\square}]_{\mathcal{V}} \end{aligned}\tag{14.9}$ hvor $\mathcal{E}$ betegner standardbasen for $\mathbb{C}^n$ . Koordinattransformationsmatricen $U={_{\mathcal{E}}}[{\square}]_{\mathcal{V}}$ er ydermere, jf. Eksempel 8.10 (1.), lig matricen

$U = \begin{pmatrix} {\bm{v}}_1 | {\bm{v}}_2 | \cdots | {\bm{v}}_n \end{pmatrix} \in \mathrm{Mat}_n(\mathbb{C}),$ med søjler lig elementerne i basen $\mathcal{V}$ . Specielt er $U$ en unitær matrix. Ved anvendelse af Proposition 8.8 og (14.9) så konkluderer vi, at matricen

$U^{-1} \cdot A \cdot U$ er øvre triangulær.

Konklusionen i ovenstående eksempel er vigtig, og vi formulerer det derfor som en sætning.

Lad $A \in \mathrm{Mat}_n(\mathbb{C})$ . Så eksisterer der en unitær matrix $U \in \mathrm{Mat}_n(\mathbb{C})$ , så produktet

$U^{-1} \cdot A \cdot U$ er øvre triangulær.

Quiz

Konklusionen i Korollar 14.9 betyder specielt, at enhver kompleks $2 \times 2$ er similær til en øvre triangulær matrix. Et tilsvarende resultat gælder ikke i det reelle tilfælde. Angiv en matrix $A \in \mathrm{Mat}_2(\mathbb{R})$ , der ikke er similær til en øvre triangulær matrix.

Dit svar: Det er en

14.1 Selvadjungerede operatorer

Vi skal nu studere de såkaldte selvadjungerede operatorer. Disse operatorer udmærker sig bl.a. ved, at de altid er ortonormalt diagonaliserbare. I det reelle (men ikke i det komplekse) tilfælde er alle ortonormalt diagonaliserbare operatorer desuden selvadjungeret.

[Selvadjungeret operator] Lad $L : V \rightarrow V$ betegne en lineær operator på et indre produkt rum $V$ over et legeme $\mathbb{K}$ . Hvis der for alle elementer ${\bm{v}}, \bm{w} \in V$ gælder, at

$\langle{{\bm{v}}},{L(\bm{w})}\rangle=\langle{L({\bm{v}})},{\bm{w}}\rangle, \tag{14.10}$ så siger vi, at $L$ er selvadjungeret.

Lad $L$ betegne en selvadjungeret operator på et komplekst vektorrum $V$ . Angiv hvilke af nedenstående udsagn, der er sande.

$L - \lambda \cdot {\rm Id}_V$ er selvadjungeret når $\lambda \in \mathbb{R}$

$L - \lambda \cdot {\rm Id}_V$ er selvadjungeret når $\lambda \in \mathbb{C}$

Sammensætningen $L \circ L$ er selvadjungeret

$L$ er invertibel

Vi vil i det følgende antage, at $\mathrm{dim}(V)>0$ er endelig.

Betragt en matrix $A \in \mathrm{Mat}_n(\mathbb{K})$ og den tilsvarende lineære operator $L=L_A : \mathbb{K}^n \rightarrow \mathbb{K}^n$ . Vi opfatter $\mathbb{K}^n$ som et indre produkt rum via skalarproduktet. Betingelsen (14.10) er i dette tilfælde identisk med kravet
$L(\bm{w})^H {\bm{v}} = \bm{w}^H L({\bm{v}}),$ for alle ${\bm{v}}, \bm{w} \in \mathbb{K}^n$ . Formuleret ved hjælp af matricen $A$ , så betyder dette, at
$\bm{w}^H A^H {\bm{v}} = \bm{w}^H A {\bm{v}}. \tag{14.11}$ Såfremt identiteten (14.11) anvendes på standardbasiselementerne $\bm{w}=\bm{e}_i$ og ${\bm{v}}=\bm{e}_j$ , så finder vi, at $L$ er selvadjungeret hvis og kun hvis $A=A^H$ . Hvis $A$ er en reel matrix, så er dette ækvivalent med, at $A$ er symmetrisk.
Lad $L : V \rightarrow V$ betegne en operator på $V$ , og lad $W$ betegne et underrum i $V$ . Hvis $L(W)\subseteq W$ , så siges $W$ at være stabil overfor $L$ . I givet fald så kan man betragte $L$ som en operator på $W$ . Denne restringerede operator betegnes i det følgende med $L_W : W \rightarrow W$ . Bemærk, at $L_W(\bm{w})$ , for $\bm{w} \in W$ , blot er lig $L(\bm{w})$ . Hvis nu $L$ er selvadjungeret, så er det tilsvarende gældende om $L_W$ . For at indse dette så skal vi blot tjekke, at identiteten
$\langle{{\bm{v}}},{L_W(\bm{w})}\rangle = \langle{L_W({\bm{v}})},{\bm{w}}\rangle \tag{14.12}$ er opfyldt for alle ${\bm{v}},\bm{w} \in W$ . Men (14.12) er klart opfyldt, da $L$ er selvadjungeret, og idet $L_W({\bm{v}}) = L({\bm{v}})$ og $L_W(\bm{w}) = L(\bm{w})$ .

Inspireret af første del af ovenstående eksempel så definerer vi:

[Hermitisk matrix] En matrix $A \in \mathrm{Mat}_n(\mathbb{C})$ kaldes hermitisk, såfremt $A=A^H$ .

Hvilke af følgende komplekse matricer er hermistiske.

$\begin{pmatrix} 2 & 1 \\ 1 & 3\end{pmatrix}$

$\begin{pmatrix} 2+i & 1 \\ 1 & 3\end{pmatrix}$

$\begin{pmatrix} 2 & 1+i \\ 1+i & 3\end{pmatrix}$

$\begin{pmatrix} 2 & 1+i \\ 1-i & 3\end{pmatrix}$

Quiz

Antag, at $A \in \mathrm{Mat}_n(\mathbb{C})$ er hermitisk, altså at $A = A^H$ . Hvilke af følgende udsagn kan man med sikkerhed konkludere?

Indgangene på diagonalen i $A$ er alle 0.

Indgangene på diagonalen i $A$ er alle elementer i $\mathbb{R}$ .

Hvis alle indgange i $A$ er elementer i $\mathbb{R}$ , så er $A$ symmetrisk.

Hvis alle indgange i $A$ er elementer i $\mathbb{R}$ , så er $A$ diagonal.

Lad $L : V \rightarrow V$ betegne en lineær operator, og lad $\mathcal{V}$ betegne en ortonormal basis for $V$ . Så er $L$ selvadjungeret hvis og kun hvis matrixrepræsentationen ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ er hhv. hermitisk, hvis $\mathbb{K}=\mathbb{C}$ , eller symmetrisk, hvis $\mathbb{K}=\mathbb{R}$ .

Bevis

Lad $A$ betegne matrixrepræsentationen ${_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ for $L$ mht. $\mathcal{V}$ . Idet vi opfatter $\mathbb{K}^n$ som et indre produkt rum via skalarproduktet, så er (for alle ${\bm{v}}, \bm{w} \in V$ )

$\begin{aligned} \langle{A \cdot [{\bm{v}}]_{\mathcal{V}} },{ [\bm{w}]_{\mathcal{V}} }\rangle & =\langle{ [L({\bm{v}})]_{\mathcal{V}} },{ [\bm{w}]_{\mathcal{V}} }\rangle & & \text{(jf. egenskab ved matr. repr.)} \\ & =\langle{L({\bm{v}})},{\bm{w}}\rangle, & & \text{(jf. Prop. \href{kap10.html#prop:morfiindreprod}{10.30})} \end{aligned}$ mens

$\begin{aligned} \langle{[{\bm{v}}]_{\mathcal{V}} },{ A \cdot [\bm{w}]_{\mathcal{V}} }\rangle & =\langle{ [{\bm{v}}]_{\mathcal{V}} },{ [L(\bm{w})]_{\mathcal{V}} }\rangle & & \text{(jf. egenskab ved matr. repr.)} \\ & =\langle{{\bm{v}}},{L(\bm{w})}\rangle. & & \text{(jf. Prop. \href{kap10.html#prop:morfiindreprod}{10.30})} \end{aligned}$ Vi konkluderer, at $L$ er selvadjungeret hvis og kun hvis det tilsvarende er gældende om $L_A: \mathbb{K}^n \rightarrow \mathbb{K}^n$ . Påstanden følger nu af Eksempel 14.12 (1.).

Egenværdier og egenvektorer for selvadjungerede operatorer opfører sig specielt pænt:

Lad $L : V \rightarrow V$ betegne en selvadjungeret operator. Så gælder der:

Alle egenværdier for $L$ er reelle.
Såfremt ${\bm{v}}$ og $\bm{w}$ er egenvektorer for $L$ hørende til forskellige egenværdier, så er ${\bm{v}}$ og $\bm{w}$ ortogonale.

Bevis

Lad ${\bm{v}}$ og $\bm{u}$ betegne egenvektorer for $L$ med egenværdier hhv. $\lambda$ og $\mu$ . Så gælder der både, at

$\begin{aligned} \langle{\bm{u}},{L ({\bm{v}})}\rangle & =\langle{\bm{u}},{\lambda \cdot {\bm{v}}}\rangle \\ & = \overline{\lambda} \cdot\langle{\bm{u}},{{\bm{v}}}\rangle, \end{aligned} \tag{14.13}$ men også, da $L$ er selvadjungeret, at

$\begin{aligned} \langle{\bm{u}},{L ({\bm{v}})}\rangle & =\langle{L(\bm{u})},{{\bm{v}}}\rangle \\ & =\langle{\mu \cdot \bm{u}},{{\bm{v}}}\rangle \\ & = \mu \cdot\langle{\bm{u}},{{\bm{v}}}\rangle. \end{aligned}\tag{14.14}$ I tilfældet hvor ${\bm{v}}=\bm{u}$ (og dermed specielt $\mu=\lambda$ ), betyder (14.13) og (14.14) samlet, at

$\overline{\lambda} \cdot\langle{{\bm{v}}},{{\bm{v}}}\rangle = \lambda \cdot\langle{{\bm{v}}},{{\bm{v}}}\rangle,$ hvilket (idet ${\bm{v}}$ er en egenvektor og dermed ${\bm{v}} \neq \bm{0}$ ) kun er muligt, hvis $\overline{\lambda}=\lambda$ . Dermed er $\lambda$ nødvendigvis et reelt tal.

Betragt nu tilfældet, hvor $\bm{w}=\bm{u}$ er en egenvektor med egenværdi $\mu \neq \lambda$ . Da implicerer (14.13), (14.14) og vores just opnåede viden om at egenværdier er reelle, at

$\lambda \cdot\langle{\bm{w}},{{\bm{v}}}\rangle = \mu \cdot\langle{\bm{w}},{{\bm{v}}}\rangle.$ Heraf

$(\lambda-\mu) \cdot\langle{\bm{w}},{{\bm{v}}}\rangle=0,$ hvilket kun er muligt, hvis

$\langle{\bm{w}},{{\bm{v}}}\rangle=0.$ Dermed er ${\bm{v}}$ og $\bm{w}$ ortogonale som ønsket.

Enhver selvadjungeret operator har en egenværdi. Dette følger af nedenstående sætning.

Lad $L : V \rightarrow V$ betegne en selvadjungeret operator. Så har $L$ en reel egenværdi.

Bevis

Såfremt $\mathbb{K}=\mathbb{C}$ , så vil $L$ have en kompleks egenværdi $\lambda$ , jf. Korollar 12.36. Men alle egenværdier, og dermed også $\lambda$ , er ifølge Sætning 14.16 reelle. Dette viser udsagnet i tilfældet $\mathbb{K}=\mathbb{C}$ .

Betragt dernæst tilfældet $\mathbb{K}=\mathbb{R}$ . Lad $\mathcal{V}$ betegne en ortonormal basis for $V$ bestående af $n$ elementer, og lad $A = {_{\mathcal{V}}}[{L}]_{\mathcal{V}} \in \mathrm{Mat}_n(\mathbb{R})$ være matrixrepræsentationen for $L$ mht. $\mathcal{V}$ . Det er, jf. Proposition 12.12, tilstrækkeligt at vise, at $A$ har en reel egenværdi.

Start med at bemærke, at $A$ er en reel symmetrisk matrix ifølge Lemma 14.15. Vi lader nu $\widehat A$ betegne matricen $A$ opfattet som kompleks matrix. Så er $\widehat A$ en hermitisk matrix, og den tilsvarende operator $L_{\widehat A}$ er derfor selvadjungeret, jf. Eksempel 14.12 (1.). Ifølge det allerede viste så har $\widehat A$ en reel egenværdi $\lambda$ , og dermed er $\widehat B = \widehat A - \lambda \cdot \mathrm{I}$ en singulær kompleks matrix. Indgangene i $\widehat B$ er alle reelle, og vi lader nu $B$ betegne $\widehat B$ opfattet som reel matrix. Så gælder der oplagt, at

$B = A - \lambda \cdot \mathrm{I}.$ Vi påstår, at $B$ er en singulær reel matrix. I modsat fald ville der eksistere en reel matrix $C \in \mathrm{Mat}_n(\mathbb{R})$ , så $C \cdot B = \mathrm{I}$ . Men så ville også $\widehat C \cdot \widehat B = \mathrm{I}$ , hvor $\widehat C$ betegner $C$ opfattet som kompleks matrix. Specielt er $\widehat B$ invertibel, hvilket er en modstrid.

Vi konkluderer, at $B$ er en singulær reel matrix, og dermed er $\lambda$ en egenværdi for $A$ . Dette afslutter beviset.

Vi kan nu bevise hovedsætningen i dette afsnit.

[Spektralsætningen] Lad $L : V \rightarrow V$ betegne en selvadjungeret operator. Så eksisterer der en ortonormal basis for $V$ bestående af egenvektorer for $L$ med reelle egenværdier. Specielt er $L$ ortonormalt diagonaliserbar.

Bevis

Idet vi allerede ved, jf. Sætning 14.16, at alle egenværdier for $L$ er reelle, så skal vi blot vise, at $V$ har en ortonormal basis bestående af egenvektorer for $L$ . Beviset for dette forløber via induktion i $n=\mathrm{dim}(V)$ . Hvis $\mathrm{dim}(V)=1$ , så lader vi $\mathcal{V}= ({\bm{v}})$ betegne en arbitrær ortonormal basis for $V$ . I givet fald er $L({\bm{v}}) \in \mathrm{Span}({\bm{v}})$ , dvs. $L({\bm{v}}) = \lambda {\bm{v}}$ for en passende skalar $\lambda \in \mathbb{K}$ , og ${\bm{v}}$ er dermed også en egenvektor for $L$ .

Antag nu, at $n>1$ , og at resultatet er vist for selvadjungerede operatorer på vektorrum af dimension $n-1$ . Vælg da, jf. Sætning 14.17, en egenvektor ${\bm{v}}$ for $L$ , og sæt $W= \mathrm{Span}({\bm{v}})^\perp$ . Vi påstår, at $W$ er stabil overfor $L$ (se evt. definition på stabil i Eksempel 14.12 (2.)): hvis $\bm{w} \in W$ , så følger det, idet $L$ er selvadjungeret, at

$\langle{{\bm{v}}},{L(\bm{w})}\rangle= \langle{L({\bm{v}})},{\bm{w}}\rangle = \langle{\lambda \cdot {\bm{v}}},{\bm{w}}\rangle = 0,$ og dermed er $L(\bm{w}) \in W$ . Lad nu $L_W : W \rightarrow W$ betegne restriktionen af $L$ til $W$ . Så er $L_W$ selvadjungeret ifølge Eksempel 14.12 (2.), og idet $\mathrm{dim}(W) =n-1$ , jf. Korollar 10.22, så implicerer induktionsantagelsen, at $W$ har en ortonormal basis $\mathcal{W}=(\bm{w}_1, \bm{w}_2, \ldots, \bm{w}_{n-1})$ bestående af egenvektorer for $L_W$ (og dermed for $L$ ). Sæt nu

$\bm{w}_n = \frac{1}{\left\lVert {\bm{v}} \right\rVert } \cdot {\bm{v}}.$ Så er elementerne i $\mathcal{V} =(\bm{w}_1, \bm{w}_2, \ldots, \bm{w}_{n})$ en ortonormal mængde: $\bm{w}_1,\bm{w}_2,\ldots,\bm{w}_{n-1}$ er ortonormal pr. valg af $\mathcal{W}$ , og ${\bm{v}}$ (og dermed $\bm{w}_n$ ) er ortogonal på $\bm{w}_1,\bm{w}_2,\ldots,\bm{w}_{n-1}$ , idet $W= \mathrm{Span}({\bm{v}})^\perp$ . Specielt er $\mathcal{V}$ lineært uafhængig og dermed en ortonormal basis for $V$ . Til sidst bemærkes, at $\mathcal{V}$ består af egenvektorer for $L$ .

Vi opfatter i det følgende $\mathbb{R}^3$ som et indre produkt rum via skalarproduktet. Lad $L_A$ betegne den lineære operator på $\mathbb{R}^3$ defineret ved matricen

$A = \begin{pmatrix} 2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2 \end{pmatrix} .$ Idet $A$ er symmetrisk, så er $L_A$ selvadjungeret ifølge Eksempel 14.12 (1.), og $\mathbb{R}^3$ har derfor en ortonormal basis bestående af egenvektorer for $A$ . Faktisk fandt vi allerede i Eksempel 13.14 (2.), at vektorerne

${\bm{v}}_1 = \begin{pmatrix} 1 \\ -1 \\ 0 \end{pmatrix} , \qquad {\bm{v}}_2 = \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix} , \qquad {\bm{v}}_3 = \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix},$ udgør en basis for $\mathbb{R}^3$ bestående af egenvektorer for $A$ . I dette tilfælde er $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2,{\bm{v}}_3)$ ikke ortogonal, men ved at erstatte ${\bm{v}}_2$ med $2 {\bm{v}}_2-{\bm{v}}_1$ så opnår man en ortogonal basis

$\bm{u}_1 = \begin{pmatrix} 1 \\ -1 \\ 0 \end{pmatrix} , \qquad \bm{u}_2 = \begin{pmatrix} 1 \\ 1 \\ -2 \end{pmatrix} , \qquad \bm{u}_3 = \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix},$ for $\mathbb{R}^3$ . En ortonormal basis bestående af egenvektorer kan herefter opnås ved en passende skalering af $\mathcal{U}=(\bm{u}_1, \bm{u}_2,\bm{u}_3)$ .

I specialtilfældet hvor $V = \mathbb{K}^n$ (indre produkt rum via skalarproduktet) og $L=L_A$ , for en matrix $A \in \mathrm{Mat}_n(\mathbb{K})$ , der kan spektralsætningen også formuleres på følgende måde:

Lad $A \in \mathrm{Mat}_n(\mathbb{K})$ .

Hvis $\mathbb{K}=\mathbb{C}$ og $A$ er hermitisk, så eksisterer der en unitær matrix $U \in \mathrm{Mat}_n(\mathbb{C})$ , så
$U^{-1} \cdot A \cdot U \tag{14.15}$ er en diagonal matrix med reelle indgange.
Hvis $\mathbb{K}=\mathbb{R}$ og $A$ er symmetrisk, så eksisterer der en ortogonal matrix $Q \in \mathrm{Mat}_n(\mathbb{R})$ , så
$Q^{-1} \cdot A \cdot Q \tag{14.16}$ er en diagonal matrix.

Bevis

Vi betragter alene tilfældet $\mathbb{K}=\mathbb{C}$ , og overlader det næsten identiske argument i tilfældet $\mathbb{K}=\mathbb{R}$ til læseren.

Betragt $V=\mathbb{C}^n$ som indre produkt rum via skalarproduktet. Da er $L_A$ en selvadjungeret operator, jf. Eksempel 14.12 (1.). Vi anvender nu Sætning 14.18, og konkluderer, at der eksisterer en ortonormal basis $({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_{n})$ for $V$ bestående af egenvektorer for $A$ med reelle egenværdier. Lad $U \in \mathrm{Mat}_n(\mathbb{C})$ betegne matricen hvis $i$ 'te søjle er lig ${\bm{v}}_i$ , for $i=1,2,\ldots,n$ . Så er $U$ unitær ifølge Proposition 10.34. Herudover så implicerer Lemma 13.5, at $U^{-1}AU$ er en diagonalmatrix med de reelle egenværdier for ${\bm{v}}_i$ 'erne på diagonalen. Dette afslutter beviset.

Vi kan præcisere spektralsætningen og påstår:

Lad $L : V \rightarrow V$ betegne en lineær operator på et indre produkt rum $V$ , og lad $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2, \ldots, {\bm{v}}_n)$ betegne en ortonormal basis for $V$ bestående af egenvektorer for $L$ . Så er $L$ selvadjungeret hvis og kun hvis egenværdierne for ${\bm{v}}_1,{\bm{v}}_2,\ldots,{\bm{v}}_{n}$ er reelle.

Bevis

Kun hvis-delen er en direkte konsekvens af Sætning 14.16. Lad $\lambda_i$ betegne egenværdien for ${\bm{v}}_i$ , for $i=1,2,\ldots,n$ , og antag nu, at $\lambda_1,\lambda_2,\ldots,\lambda_n$ er reelle tal. Så er $A={_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ en diagonalmatrix med $i$ 'te diagonalindgang lig $\lambda_i$ , for $i=1,2,\ldots, n$ . Specielt er $A$ hhv. hermitisk (hvis $\mathbb{K}=\mathbb{C}$ ) eller symmetrisk (hvis $\mathbb{K}=\mathbb{R}$ ). Dermed er $L$ selvadjungeret, jf. Lemma 14.15.

I tilfældet $\mathbb{K}=\mathbb{R}$ kan vi dermed beskrive samtlige ortonormalt diagonaliserbare operatorer.

Lad $L : V \rightarrow V$ betegne en lineær operator på et reelt indre produkt rum $V$ af endelig dimension $n>0$ . Så er $L$ ortonormalt diagonaliserbar hvis og kun hvis $L$ er selvadjungeret.

Bevis

Hvis-delen er en direkte konsekvens af Spektralsætningen (Sætning 14.18). Antag omvendt, at $L$ er ortonormalt diagonaliserbar. Så har $V$ en basis af bestående af egenvektorer for $L$ med reelle egenværdier. Resultatet følger da af Proposition 14.21.

14.2 Normale operatorer

Vi vil nu give en fuldstændig beskrivelse af de ortonormalt diagonaliserbare operatorer i tilfældet $\mathbb{K}=\mathbb{C}$ . Vi definerer:

[Normal matrix] Lad $A \in \mathrm{Mat}_n(\mathbb{C})$ betegne en kvadratisk kompleks matrix. Så kaldes $A$ normal hvis

$A^H \cdot A = A \cdot A^H. \tag{14.17}$

Hvilke af følgende komplekse matricer er normale.

$\begin{pmatrix} 2 & 1 \\ 1 & 3\end{pmatrix}$

$\begin{pmatrix} 2+i & 1 \\ 1 & 3\end{pmatrix}$

$\begin{pmatrix} 0 & -1 \\ 1 & 0\end{pmatrix}$

$\begin{pmatrix} 2 & 1+i \\ 1+i & 3\end{pmatrix}$

$\begin{pmatrix} 2 & 1+i \\ 1-i & 3\end{pmatrix}$

$\begin{pmatrix} 2 & 1+i \\ 1+i & 2\end{pmatrix}$

Quiz

Angiv en $3 \times 3$ matrix $A \in \mathrm{Mat}_3(\mathbb{C})$ med reelle indgange, der er normal.

Dit svar: Det er en

En matrix $A \in \mathrm{Mat}_n(\mathbb{C})$ er normal i følgende tilfælde:

Hvis $A^H=A$ svarende til, at $A$ er hermitisk.
Hvis $A^H=A^{-1}$ svarende til, at $A$ er unitær.
Hvis $A$ er diagonal.

Quiz

Angiv en $3 \times 3$ matrix $A \in \mathrm{Mat}_3(\mathbb{C})$ med reelle indgange, der er normal, men som ikke er symmetrisk.

Dit svar: Det er en

Lad $A \in \mathrm{Mat}_n(\mathbb{C})$ betegne en kompleks matrix, og lad $U \in \mathrm{Mat}_n(\mathbb{C})$ betegne en unitær matrix. Så er $A$ normal hvis og kun hvis $U^{-1}AU$ er normal.

Bevis

Sæt $B=U^{-1}AU$ . Idet $V=U^{-1}$ er unitær og $A=V^{-1} B V$ , så er det tilstrækkeligt at vise ``kun hvis''-delen. Så antag, at $A$ er normal. Idet $U$ er unitær, så er $U^{-1}=U^H$ , og dermed er

$\begin{aligned} B B^H & = U^{H} A U (U^H A U)^H \\ & = U^H A U U^H A^H U \\ & = U^H A A^H U \\ & = U^H A^H A U \\ & = U^H A^H U U^H A U \\ & = (U^{H} A U)^H U^H A U \\ & = B^H B. \end{aligned}$ Vi konkluderer, at $B$ er normal, og beviset er dermed afsluttet.

Lad $A \in \mathrm{Mat}_n(\mathbb{C})$ . Så er $A$ normal hvis og kun hvis der eksisterer en unitær matrix $U \in \mathrm{Mat}_n(\mathbb{C})$ så $U^{-1}AU$ er diagonal.

Bevis

Antag, at der eksisterer en unitær matrix $U \in \mathrm{Mat}_n(\mathbb{C})$ , så $U^{-1}AU$ er diagonal. Så er $U^{-1}AU$ normal ifølge Eksempel 14.25 (3.), og dermed er $A$ normal, jf. Lemma 14.27.

Antag omvendt, at $A$ er normal, og vælg jf. Korollar 14.9, en unitær matrix $U$ , så $B=U^{-1}AU$ er øvre triangulær. Ifølge Lemma 14.27 er $B$ normal, og dermed er $B^H B = B B^H$ . Vi påstår, at $B$ nødvendigvis er diagonal, hvilket vil afslutte beviset. Lad $b_{ij}$ betegne den $(i,j)$ 'te indgang i $B$ , for $i,j=1,2,\ldots,n$ . Idet $B$ er øvre triangulær, så er $b_{ij}=0$ , hvis $j <i$ .

Antag, at $B$ ikke er diagonal. Så eksisterer der heltal $1 \leq s < t \leq n$ så $b_{st} \neq 0$ . Lad $k$ betegne det mindste sådanne $s$ . Dvs. $k$ betegner det mindste tal, så den $k$ 'te række i $B$ indeholder en indgang forskellig fra $0$ udenfor diagonalen.

Vi vil nu beregne den $(k,k)$ 'te indgang af produkterne $B B^H$ og $B^H B$ . I første omgang er

$\begin{aligned} (B^H B)_{kk} & = \sum_{r=1}^n \overline{b_{rk}} b_{rk} \\ & = \sum_{r=1}^k \lvert b_{rk} \rvert^2 \\ & = \lvert b_{kk} \rvert^2 , \end{aligned}$ hvor vi ved det sidste lighedstegn har anvendt, at $b_{rk}=0$ , for $r<k$ , pr. minimalitet af $k$ . Undervejs har vi også brugt, at $b_{rk}=0$ , for $r>k$ , idet $B$ er øvre triangulær.

Vi udregner også

$\begin{aligned} (B B^H)_{kk} & = \sum_{r=1}^n b_{kr} \overline{b_{kr}} \\ & = \sum_{r=1}^n \lvert b_{kr} \rvert^2 \\ & = \sum_{r=k}^n \lvert b_{kr} \rvert^2, \end{aligned}$ hvor vi ved det sidste lighedstegn har anvendt, at $B$ er øvre triangulær.

Idet $B^HB= B B^H$ , så må vi dermed have, at

$\lvert b_{kk} \rvert^2 = (B^H B)_{kk} = (B B^H)_{kk}= \sum_{r=k}^n \lvert b_{kr} \rvert^2,$ hvilket kun er muligt, hvis

$b_{kr}=0. \tag{14.18}$ for $r>k$ . Den sidste konklusion er i modstrid med antagelse om, at den $k$ 'te række i $B$ indeholder et element udenfor diagonalen, der er forskellig fra $0$ . Dette afslutter beviset.

Lad $T: V \rightarrow V'$ betegne en lineær isomorfi mellem to komplekse indre produkt rum $V$ og $V'$ af endelig dimension $>0$ . Lad $L$ betegne en operator på $V$ , og lad $L'= T \circ L \circ T^{-1}$ betegne den inducerede operator på $V'$ . Antag, at $T$ er en lineær isometri. Så er $L$ ortonormalt diagonaliserbar hvis og kun hvis $L'$ er ortonormalt diagonaliserbar.

Bevis

Vi starter med at vise ``kun hvis''-delen. Så antag, at $L$ er ortonormalt diagonaliserbar. Lad $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2,\ldots,{\bm{v}}_n)$ betegne en ortonormal basis for $V$ bestående af egenvektorer for $L$ . Lad $\lambda_i$ betegne egenværdien for ${\bm{v}}_i$ , for $i=1,2,\ldots,n$ . Definer da

${\bm{v}}_i' = T({\bm{v}}_i)$ for $i=1,2,\ldots,n$ , og sæt $\mathcal{V}'=({\bm{v}}_1',{\bm{v}}_2',\ldots,{\bm{v}}_n')$ . Idet $\mathcal{V}$ er en basis for $V$ , og $T$ er en isomorfi, så er $\mathcal{V}'$ en basis for $V'$ . Herudover så gælder der, at

$\begin{aligned} L'({\bm{v}}_i') & = (T \circ L \circ T^{-1}) \big(T({\bm{v}}_i)\big) \\ & = T \big( L({\bm{v}}_i)\big) \\ & = T(\lambda_i {\bm{v}}_i) \\ & = \lambda_i T({\bm{v}}_i) \\ & = \lambda_i {\bm{v}}_i', \end{aligned}$ og dermed består $\mathcal{V}'$ af egenvektorer for $L'$ . Slutteligt bemærkes, at idet $T$ er en lineær isometri, så er

$\langle{{\bm{v}}_i'},{{\bm{v}}_j'}\rangle= \langle{T({\bm{v}}_i)},{T({\bm{v}}_j)}\rangle = \langle{{\bm{v}}_i},{{\bm{v}}_j}\rangle, \tag{14.19}$ og dermed er $\mathcal{V}'$ en ortonormal samling af elementer. Vi har hermed samlet vist, at $L'$ er ortonormalt diagonaliserbar.

``Hvis''-delen følger ved at anvende den allerede viste ``kun hvis''-del på isomorfien $T^{-1}$ og operatoren $L'$ . Dette afslutter beviset.

Lad $L : V \rightarrow V$ betegne en lineær operator på et endelig dimensionalt komplekst indre produkt rum $V$ af dimension $>0$ . Lad yderligere $\mathcal{V}=({\bm{v}}_1, {\bm{v}}_2,\ldots,{\bm{v}}_n)$ betegne en ortonormal basis for $V$ , og lad $A={_{\mathcal{V}}}[{L}]_{\mathcal{V}}$ betegne den tilsvarende matrixrepræsentation. Så er $L$ ortonormalt diagonaliserbar hvis og kun hvis $A$ er normal.

Bevis

Vi argumenterer ved brug af koordinatiseringsafbildningen

$\begin{aligned} [\cdot]_{\mathcal{V}} : V & \rightarrow \mathbb{K}^n, \\ {\bm{v}} & \mapsto [{\bm{v}}]_{\mathcal{V}}, \end{aligned}$ der, som bekendt, er en lineær isomorfi mellem $V$ og $\mathbb{K}^n$ . Hvis $\mathbb{K}^n$ opfattes som indre produkt rum via skalarproduktet, så er $[\cdot]_{\mathcal{V}}$ yderligere en lineær isometri, jf. Proposition 10.30. Lemma 14.29 implicerer da, at $L$ er ortonormalt diagonaliserbar hvis og kun hvis det tilsvarende er gældende om operatoren

$L' = [\cdot]_{\mathcal{V}} \circ L \circ [\cdot]_{\mathcal{V}}^{-1}$ på $\mathbb{K}^n$ . Bemærk nu, at der for ${\bm{v}} \in V$ gælder, at

$\begin{aligned} L'([{\bm{v}}]_{\mathcal{V}}) & = [L({\bm{v}})]_{\mathcal{V}} \\ & = {_{\mathcal{V}}}[{L}]_{\mathcal{V}} \cdot [{\bm{v}}]_{\mathcal{V}} \\ & = A \cdot [{\bm{v}}]_{\mathcal{V}}, \end{aligned}$ og $L'$ er derfor lig operatoren $L_A$ , der multiplicerer med $A$ . Men $L_A$ er ortonormalt diagonaliserbar hvis og kun hvis der eksisterer en unitær matrix $U$ , så $U^{-1} A U$ er diagonal, hvilket er ækvivalent med, at $A$ er normal, jf. Proposition 14.28. Dette afslutter beviset.

Quiz

Lad $L$ betegne en lineær operator på et komplekst indre produkt rum $V$ af endelig dimension $>0$ . Vha. Proposition 14.30 kan man beskrive en algoritme, der afgør, om $L$ er ortonormalt diagonaliserbar. Angiv skridtene i den rækkefølge, som man skal udføre dem.

Vælg en ortonormal basis, $\mathcal{V}$ , for $V$ .

Bestem determinanten af $A$ .

Beregn $AA^H$ og $A^HA$ . Sammenlign resultaterne.

Beregn $A :=_\mathcal{V}[L]_\mathcal{V}$ .

Quiz

Hvis $A \in \mathrm{Mat}_n(\mathbb{C})$ er

eller

, så er $A$

unitær

ortonormalt diagonaliserbar

hermitisk

14.3 Singulær værdi dekompositionen

Lad $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne en reel matrix. I dette afsnit vil vi se, at vi kan skrive $A$ som et produkt af tre matricer

$A = P \cdot \Sigma \cdot Q^T, \tag{14.20}$ der opfylder

$P \in \mathrm{Mat}_m(\mathbb{R})$ er en ortogonal reel matrix.
$Q \in \mathrm{Mat}_n(\mathbb{R})$ er en ortogonal reel matrix.
$\Sigma=(\sigma_{ij}) \in \mathrm{Mat}_{m,n}(\mathbb{R})$ er en reel matrix opfyldende, at $\sigma_{ij}=0$ , når $i \neq j$ , mens
$\sigma_{11} \geq \sigma_{22} \geq \cdots \geq \sigma_{rr} >0 \quad \text{ og } \quad \sigma_{ii}=0$ for $i >r$ , hvor $r \leq m,n$ , er et passende heltal.

Vi lader $\sigma_i$ betegne $\sigma_{ii}$ , for $i=1,2,\ldots,r$ , og omtaler $\sigma_1,\sigma_2, \ldots,\sigma_r$ som de singulære værdier for $A$ . Faktoriseringen (14.20) omtales derudover, som en singulær værdi dekomposition (eller blot SVD) af $A$ .

Såfremt $A \in \mathrm{Mat}_n(\mathbb{R})$ er en reel symmetrisk matrix, så implicerer Spektralsætningen, jf. Korollar 14.20, at der eksisterer en ortogonal matrix $Q \in \mathrm{Mat}_n(\mathbb{R})$ og en diagonal matrix $D \in \mathrm{Mat}_n(\mathbb{R})$ , så $A = Q D Q^T$ . Elementerne $d_{11},d_{22},\ldots,d_{nn}$ på diagonalen i $D$ er i dette tilfælde identiske med egenværdierne for $A$ (medtaget med algebraisk multiplicitet), og ved evt. at ombytte søjlerne i $Q$ , så kan vi antage, at

$\lvert d_{11} \rvert \geq \lvert d_{22} \rvert \geq \lvert d_{33} \rvert \geq \ldots \geq \lvert d_{nn} \rvert. \tag{14.21}$ Lad $D^+$ betegne matricen, der fremkommer ved at erstatte alle indgange i $D$ med deres absolutte værdi. Det er nu en let øvelse at indse, at vi kan multiplicere passende søjler i $Q$ med $-1$ , og på den måde opnå en ortogonal matrix $P \in \mathrm{Mat}_n(\mathbb{R})$ , så $P D^+ = Q D$ . Specielt er $A= P D^+ Q^T$ en SVD af $A$ . De singulære værdier for $A$ er i dette tilfælde lig absolutværdierne $\lvert \lambda \rvert$ , hvor $\lambda$ gennemløber egenværdierne for $A$ , der er forskellige fra $0$ (medtaget med algebraisk multiplicitet).

Såfremt $A=P\Sigma Q^T$ er en SVD af en matrix $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ , så er antallet af singulære værdier $r$ identisk med rangen af $A$ . Dette følger af nedenstående resultat samt idet $\Sigma$ har rang $r$ .

Lad $\mathbb{F}$ betegne et legeme, og lad $A \in \mathrm{Mat}_{m,n}(\mathbb{F})$ betegne en matrix. Hvis $B \in \mathrm{Mat}_{n}(\mathbb{F})$ er en invertibel matrix, så er rangen af $A$ og $AB$ identiske. Tilsvarende så er rangen af $A$ og $CA$ identiske, hvis $C \in \mathrm{Mat}_m(\mathbb{F})$ er en invertibel matrix.

Bevis

Idet søjlerummet $R(A)$ for $A$ er lig mængden af elementer på formen $A {\bm{v}}$ , for ${\bm{v}} \in \mathbb{F}^n$ , så vil $R(A)$ indeholde alle elementer af formen $(AB) {\bm{v}} = A(B{\bm{v}})$ , for ${\bm{v}} \in \mathbb{F}^n$ . Specielt indeholder $R(A)$ søjlerummet $R(AB)$ for $AB$ , og dermed er $\mathrm{rang}(A) \geq \mathrm{rang}(AB)$ . Den modsatte ulighed følger ved at anvende dette resultat på $AB$ og $B^{-1}$ , hvorved vi konkluderer, at

$\mathrm{rang}(AB) \geq \mathrm{rang}\big((AB)B^{-1}\big) = \mathrm{rang}(A). \tag{14.22}$ Hvis $C \in \mathrm{Mat}_m(\mathbb{F})$ er invertibel, så opnår vi dermed også, at

$\mathrm{rang}(A) = \mathrm{rang}(A^T) = \mathrm{rang}(A^T C^T) = \mathrm{rang}\big((CA)^T\big) = \mathrm{rang}(CA), \tag{14.23}$ som ønsket.

Lad $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne en reel matrix. Så er $A^TA$ en symmetrisk matrix, hvis egenværdier alle er $\geq 0$ . Herudover så gælder der følgende identiteter af nulrum og rang

$N(A)=N(A^T A) \quad \text{ og } \quad \mathrm{rang}(A)=\mathrm{rang}(A^TA).$

Bevis

Vi arbejder i det følgende med skalarproduktet (og tilhørende norm) på $\mathbb{R}^n$ . At $A^TA$ er symmetrisk følger af beregningen

$(A^T A)^T = A^T (A^T)^T = A^T A.$ Lad nu ${\bm{v}}$ betegne en egenvektor for $A^TA$ med egenværdi $\lambda$ . Så er

$\begin{aligned} \left\lVert A {\bm{v}} \right\rVert ^2 & = (A {\bm{v}})^T (A {\bm{v}}) \\ & = {\bm{v}}^T ( A^T A {\bm{v}}) \\ & = {\bm{v}}^T( \lambda {\bm{v}}) \\ & = \lambda \left\lVert {\bm{v}} \right\rVert ^2. \end{aligned} \tag{14.24}$ Da egenvektorer altid er forskellige fra nulvektoren, så konkluderer vi dermed, at

$\lambda = \frac{\left\lVert A {\bm{v}} \right\rVert ^2}{\left\lVert {\bm{v}} \right\rVert ^2} \geq 0,$ som ønsket.

At nulrummet $N(A)=N(A^TA)$ kan indses på følgende måde: hvis ${\bm{v}} \in \mathbb{R}^n$ er et element i nulrummet for $A$ , så er $A{\bm{v}}=\bm{0}$ . Specielt er

$(A^TA){\bm{v}}=A^T(A {\bm{v}}) = A^T \bm{0}= \bm{0}, \tag{14.25}$ og ${\bm{v}}$ er derfor også et element i $N(A^TA)$ . Antag omvendt, at ${\bm{v}} \neq \bm{0}$ er et element i $N(A^T A)$ . Så er ${\bm{v}}$ en egenvektor for $A^T A$ med egenværdi $0$ , og identiteten (14.24) implicerer da, at

$\left\lVert A {\bm{v}} \right\rVert ^2 = 0 \cdot \left\lVert {\bm{v}} \right\rVert ^2=0, \tag{14.26}$ og dermed er $A {\bm{v}}=\bm{0}$ , som ønsket. Udsagnet om $\mathrm{rang}(A)=\mathrm{rang}(A^TA)$ følger nu af Korollar 7.36 (2.), og beviset er hermed afsluttet.

Vi har hermed alle ingredienser til at vise, at der altid eksisterer en singulær værdi dekomposition.

Lad $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne en reel matrix. Så eksisterer der en SVD for $A$ .

Bevis

Idet $A^TA \in \mathrm{Mat}_n(\mathbb{R})$ er en symmetrisk matrix, så eksisterer der, jf. Korollar 14.20, en ortogonal matrix $Q \in \mathrm{Mat}_{n}(\mathbb{R})$ , så

$D= Q^{-1} (A^T A) Q \tag{14.27}$ er diagonal med diagonalindgange $\lambda_1,\lambda_2, \ldots, \lambda_n$ . Ved evt. at ombytte søjlerne i $Q$ , så kan vi desuden antage, at

$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n.$ Lad nu $r$ betegne antallet af $\lambda_i$ 'ere der er forskellige fra $0$ . Så er $r$ identisk med rangen af $D$ . Men $D$ og $A^TA$ har samme rang, jf. Lemma 14.34, og dermed er $r$ lig rangen af $A$ , jf. Lemma 14.35. Specielt er $r \leq m,n$ .

Bemærk nu, at idet $A^TA$ er similær til $D$ , så er $\lambda_1,\lambda_2, \ldots, \lambda_n$ netop egenværdierne til $A^T A$ , og vi konkluderer derfor, jf. Lemma 14.35, at $\lambda_i \geq 0$ , for alle $i=1,2,\ldots,n$ . Vi kan derfor vælge reelle tal $\sigma_i > 0$ , så $\sigma_i^2 = \lambda_i$ , for $i=1,2,\ldots,r$ . Specielt er

$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0.$ Lad nu $\Sigma \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne matricen, hvis $(i,i)$ 'te indgang er lig $\sigma_i$ , for $i=1,2,\ldots,r$ , mens de resterende indgange er lig $0$ . Så er

$D = \Sigma^T \Sigma, \tag{14.28}$ og vi har hermed opnået identiteten

$A^T A = Q \Sigma^T \Sigma Q^{-1}. \tag{14.29}$ Lad ${\bm{v}}_1, {\bm{v}}_2,\ldots,{\bm{v}}_n$ betegne søjlerne i $Q$ . Så er ${\bm{v}}_i$ en egenvektor for $A^TA$ med egenværdi $\lambda_i$ . Sæt da

$\bm{w}_i = \frac{1}{\sigma_i} (A \cdot {\bm{v}}_i), \tag{14.30}$ for $i=1,2,\ldots,r$ . Idet søjlerne i $Q$ udgør en ortonormal mængde, så vil der for $i,j=1,2,\ldots,r$ gælde, at

$\begin{aligned} \bm{w}_j^T \bm{w}_i & = \frac{1}{\sigma_i \sigma_j} ({\bm{v}}_j^T A^T A {\bm{v}}_i) = \frac{1}{\sigma_i \sigma_j} \big({\bm{v}}_j^T (\lambda_i {\bm{v}}_i) \big) = \frac{\lambda_i}{\sigma_i \sigma_j} ({\bm{v}}_j^T {\bm{v}}_i) = \delta_{ij}, \end{aligned}$ hvor $\delta_{ij}$ betegner Kroneckers delta. Vi konkluderer, at $(\bm{w}_1,\bm{w}_2,\ldots,\bm{w}_r)$ er en ortonormal mængde i $\mathbb{R}^m$ . Lad nu $\mathcal{W}=(\bm{w}_1,\bm{w}_2,\ldots,\bm{w}_m)$ være en udvidelse af $(\bm{w}_1,\bm{w}_2,\ldots,\bm{w}_r)$ til en ortonormal basis for $\mathbb{R}^m$ , jf. Bemærkning 10.27, og lad $P \in \mathrm{Mat}_m(\mathbb{R})$ betegne den ortogonale matrix med søjler $\bm{w}_1,\bm{w}_2,\ldots,\bm{w}_m$ . Vi påstår da, at

$A \cdot Q = P \cdot \Sigma, \tag{14.31}$ hvilket er ækvivalent med det ønskede (idet $Q$ er invertibel med invers $Q^T$ ). Påstanden følger ved at sammenligne de enkelte søjler på højre- og venstresiden af (14.31). Lad i første omgang $1 \leq i \leq r$ betegne et heltal. Så er den $i$ 'te søjle på venstresiden af (14.31) lig $A \cdot {\bm{v}}_i$ , mens den $i$ 'te søjle på højresiden af (14.31) er lig $\sigma_i \cdot \bm{w}_i$ . Disse søjler er ens pr. definition af $\bm{w}_i$ . Lad nu $r <i \leq n$ . Idet den $i$ 'te søjle ${\bm{v}}_i$ i $Q$ er en egenvektor for $A^TA$ med egenværdi $0$ , så er ${\bm{v}}_i$ indeholdt i nulrummet for både $A^TA$ og $A$ , jf. Lemma 14.35. Det følger, at den $i$ 'te søjle på venstresiden af (14.31) er lig $\bm{0}$ . Den $i$ 'te søjle på højresiden af (14.31) er tilsvarende lig $\bf0$ , idet den $i$ 'te søjle i $\Sigma$ er $\bm{0}$ . Dette afslutter beviset.

Ved grundig gennemlæsning af beviset for Sætning 14.36 så opnår man faktisk en metode til at bestemme en singulær værdi dekomposition af en given matrix $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ . Metoden er som følger:

Bestem egenværdierne (med algebraiske multipliciteter)
$\lambda_1 \geq \lambda_2 \geq \ldots \geq \lambda_n, \tag{14.32}$ for den symmetriske matrix $A^T A$ .
Bestem en ortonormal basis $\mathcal{V}=({\bm{v}}_1,{\bm{v}}_2, \ldots,{\bm{v}}_n)$ for $\mathbb{R}^n$ bestående af egenvektorer for $A^TA$ , så ${\bm{v}}_i$ har egenværdi $\lambda_i$ , for $i=1,2,\ldots,n$ .
Lad $r$ betegne antallet af $\lambda_i$ 'ere der er forskellige fra $0$ , og sæt $\sigma_i = \sqrt{\lambda_i}$ , for $i=1,2,\ldots,r$ .
Sæt $\bm{w}_i = \sigma_i^{-1} \cdot (A {\bm{v}}_i)$ for $i=1,2,\ldots,r$ , og lad $\mathcal{W}=(\bm{w}_1,\bm{w}_2,\ldots, \bm{w}_m)$ betegne en udvidelse af $(\bm{w}_1,\bm{w}_2, \ldots,\bm{w}_r)$ til en ortonormal basis for $\mathbb{R}^m$ .
Sæt $Q \in \mathrm{Mat}_n(\mathbb{R})$ lig matricen med søjler ${\bm{v}}_1,{\bm{v}}_2,\ldots,{\bm{v}}_n$ , og $P \in \mathrm{Mat}_m(\mathbb{R})$ lig matricen med søjler $\bm{w}_1,\bm{w}_2, \ldots, \bm{w}_m$ . Sæt yderligere $\Sigma \in \mathrm{Mat}_{m,n}(\mathbb{R})$ lig matricen, hvis $(i,i)$ 'te indgang er lig $\sigma_i$ , for $i=1,2,\ldots,r$ , mens de resterende indgange er nul.
Så er $A= P \Sigma Q^T$ .

En SVD af en given matrix er ikke entydigt bestemt. Hvis f.eks. $A \in \mathrm{Mat}_2(\mathbb{R})$ er nulmatricen, så kan man sætte $\Sigma=A$ og vælge $Q$ og $P$ vilkårlig blandt mængden af ortogonale matricer. De singulære værdier $\sigma_1, \sigma_2, \ldots, \sigma_r$ er dog altid entydigt bestemte:

Lad $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ , og lad $A=P \Sigma Q^T$ betegne en SVD af $A$ . De singulære værdier

$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r>0 \tag{14.33}$ er da identiske med kvadratrødderne af egenværdierne for $A^TA$ der er forskellige fra $0$ (medtaget med algebraisk multiplicitet). Specielt er de singulære værdier entydigt bestemte.

Bevis

Idet $P$ og $Q$ er ortogonale, så er

$A^T A = Q \Sigma^T P^T P \Sigma Q^T = Q (\Sigma^T \Sigma) Q^{-1}.$ Matricen $A^T A$ er dermed similær til den diagonale matrix $D=\Sigma^T \Sigma \in \mathrm{Mat}_n(\mathbb{R})$ . Lad $\lambda_1, \lambda_2,\ldots,\lambda_n$ betegne diagonalindgangene i $D$ . Så er

$\lambda_i = \sigma_i^2 \tag{14.34}$ for $i=1,2,\ldots, r$ , mens $\lambda_i=0$ , for $i>r$ . Det karakteristiske polynomium for $D$ er dermed lig

$p_D(t) = (-1)^n t^{n-r} \prod_{i=1}^r (t-\lambda_i), \tag{14.35}$ for $t \in \mathbb{R}$ . Idet $A^T A$ og $D$ er similære, så er de karakteristiske polynomier for $D$ og $A^TA$ ydermere ens, og det karakteristiske polynomium for $A^T A$ er derfor også beskrevet ved (14.35).

Vi konkluderer, at

$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_r > \lambda_{r+1} = \lambda_{r+2} = \cdots = \lambda_n =0 \tag{14.36}$ er samtlige egenværdier for $A^T A$ medtaget med algebraisk multiplicitet. Dette afslutter beviset.

Vi ønsker nu at skrive produktet $P \Sigma Q^T$ i en singulær værdi dekomposition på en simplere måde. Til det formål starter vi med at bemærke:

Lad $\mathbb{F}$ betegne et legeme, og lad $A=(a_{ij}) \in \mathrm{Mat}_{m,n}(\mathbb{F})$ og $B =(b_{ij}) \in \mathrm{Mat}_{n,r}(\mathbb{F})$ betegne matricer. Lad $\bm{a}_1, \bm{a}_2, \ldots, \bm{a}_n \in \mathbb{F}^m$ betegne søjlerne i $A$ , og lad $\check \bm{b}_1,\check \bm{b}_2,\ldots, \check \bm{b}_n \in \check \mathbb{F}^r$ betegne rækkerne i $B$ . Så er

$A \cdot B = \bm{a}_1 \cdot \check \bm{b}_1 + \bm{a}_2 \cdot \check \bm{b}_2 + \cdots + \bm{a}_n \cdot \check \bm{b}_n. \tag{14.37}$

Bevis

Vi skal blot tjekke, at indgangene på venstre- og højresiden af (14.37) er parvis identiske. Så lad $1 \leq i \leq m$ og $1 \leq j \leq r$ betegne heltal. Så er den $(i,j)$ 'te indgang på venstresiden af (14.37) lig

$(A \cdot B)_{ij} = \sum_{k=1}^n a_{ik} b_{k_j}. \tag{14.38}$ Den $(i,j)$ 'te indgang af højresiden er derimod lig

$\sum_{k=1}^n (\bm{a}_k \cdot \check \bm{b}_k)_{ij} = \sum_{k=1}^n a_{ik} b_{kj}, \tag{14.39}$ hvilket viser det ønskede.

Lad $A= P \Sigma Q^T$ være en SVD for en matrix $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ . Lad ${\bm{v}}_1,{\bm{v}}_2,\allowbreak\ldots,\allowbreak {\bm{v}}_n$ betegne søjlerne i $Q$ , mens $\bm{w}_1,\bm{w}_2,\allowbreak \ldots,\allowbreak \bm{w}_m$ betegner søjlerne i $P$ . Lad yderligere

$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r >0 \tag{14.40}$ betegne de singulære værdier for $A$ . Så er

$A = \sigma_1 (\bm{w}_1 \cdot {\bm{v}}_1^T) + \sigma_2 (\bm{w}_2 \cdot {\bm{v}}_2^T) + \cdots + \sigma_r (\bm{w}_r \cdot {\bm{v}}_r^T). \tag{14.41}$

Bevis

Start med at bemærke, at $P \cdot \Sigma \in \mathrm{Mat}_{m,n}(\mathbb{R})$ er en matrix, hvis $i$ 'te søjle er lig $\sigma_i \cdot \bm{w}_i$ , for $i=1,2,\ldots,r$ , mens de resterende søjler alle er lig $\bm{0}$ . Udsagnet følger nu ved at anvende Lemma 14.38 på matricerne $P \cdot \Sigma$ og $Q^T$ .

En opskrivning af formen (14.41) indeholder alt vigtig information omkring en SVD af en matrix $A$ . Bemærk, at (14.41) kan opskrives alene ud fra kendskabet til de singulære værdier $\sigma_i$ , for $i=1,2,\ldots,r$ , samt de første $r$ søjler i hhv. $Q$ og $P$ . De resterende søjler i $Q$ og $P$ har altså ingen betydning, hvis man kun er interesseret i formen (14.41).

Lad os bestemme en SVD af den reelle matrix

$A=\begin{pmatrix} 1 & 3 \\ 2 & 1 \\ 3 & 2 \end{pmatrix}.$ Vi beregner i første omgang den symmetriske matrix

$A^T A = \begin{pmatrix} 14 & 11 \\ 11 & 14 \end{pmatrix},$ og det tilsvarende karakteristiske polynomium

$p_{A^TA}(t) = t^2 - 28 t + 75,$ med rødder $\lambda_1=25$ og $\lambda_2=3$ . Herudover så bestemmer man egenvektorer

${\bm{v}}_1=\frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}, \qquad {\bm{v}}_2=\frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ -1 \end{pmatrix}$ hørende til hhv. $\lambda_1$ og $\lambda_2$ . Sæt nu

$\sigma_1 = 5, \qquad \sigma_2= \sqrt{3}, \tag{14.42}$ samt

$Q= \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & - \frac{1}{\sqrt{2}} \end{pmatrix}, \qquad \Sigma= \begin{pmatrix} 5 & 0 \\ 0 & \sqrt{3} \\ 0 & 0 \end{pmatrix}.$ Vi mangler nu alene at bestemme matricen $P$ med søjler $\bm{w}_1$ , $\bm{w}_2$ og $\bm{w}_3$ . I første omgang er

$\bm{w}_1 = \frac{1}{\sigma_1} A {\bm{v}}_1 = \frac{1}{5 \sqrt{2}} \begin{pmatrix} 4 \\ 3 \\ 5 \end{pmatrix}, \qquad \bm{w}_2 = \frac{1}{\sigma_2} A {\bm{v}}_2 = \frac{1}{\sqrt{6}} \begin{pmatrix} -2 \\ 1 \\ 1 \end{pmatrix}. \tag{14.43}$ Vektoren $\bm{w}_3$ skal bestemmes som en vektor af længde $1$ , der er ortogonal på $\bm{w}_1$ og $\bm{w}_2$ . En lille udregning viser, at man kan anvende

$\bm{w}_3= \frac{1}{5\sqrt{3}} \begin{pmatrix} 1 \\ 7 \\ -5 \end{pmatrix},$ og dermed er

$P = \begin{pmatrix} \frac{4}{5 \sqrt{2}} & \frac{-2}{\sqrt{6}} & \frac{1}{5\sqrt{3}} \\ \frac{3}{5 \sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{7}{5\sqrt{3}} \\ \frac{5}{5 \sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{-5}{5\sqrt{3}} \end{pmatrix}.$ Vi har hermed, at $A=P \Sigma Q^T$ , samt den alternative form

$\begin{aligned} A & = \sigma_1 \bm{w}_1 {\bm{v}}_1^T + \sigma_2 \bm{w}_2 {\bm{v}}_2^T \\ & = 5 \cdot \frac{1}{10} \begin{pmatrix} 4 & 4 \\ 3 & 3 \\ 5 & 5 \end{pmatrix} + \sqrt{3} \cdot \frac{1}{2 \sqrt{3}} \begin{pmatrix} -2 & 2 \\ 1 & -1 \\ 1 &-1 \end{pmatrix}. \end{aligned}\tag{14.44}$

En af de store pointer ved singulær værdi dekompositioner er, at hvis

$A = \sigma_1 (\bm{w}_1 \cdot {\bm{v}}_1^T) + \sigma_2 (\bm{w}_2 \cdot {\bm{v}}_2^T) + \cdots + \sigma_r (\bm{w}_r \cdot {\bm{v}}_r^T), \tag{14.45}$ som i (14.41), så vil matricerne

$A_k = \sigma_1 (\bm{w}_1 \cdot {\bm{v}}_1^T) + \sigma_2 (\bm{w}_2 \cdot {\bm{v}}_2^T) + \cdots + \sigma_k (\bm{w}_k \cdot {\bm{v}}_k^T), \tag{14.46}$ for heltal $1 \leq k \leq r$ , være gode approksimationer til $A$ (se evt. diskussionen i det kommende afsnit). Approksimationerne $A_k$ er specielt gode, hvis $\sigma_i$ er små for $i>k$ . Denne pointe er specielt vigtig i praktiske anvendelser af lineær algebra. Hvis $A$ f.eks. repræsenterer en samling af data, der er fremkommet ved en række målinger, så vil indgangene i $A$ ofte være forstyrret af måleusikkerheder. Så hvis $\sigma_i$ er små for $i>k$ , så kan man måske argumentere for, at $A_k$ giver et mere retvisende billede af det system man måler på. Dvs. et billede hvor man har elimineret måleusikkerheder. I andre sammenhænge kan det være for omfattende at arbejde med al den information, der er gemt i $A$ , og man kan derfor vælge at erstatte $A$ med $A_k$ for et passende $k$ . Dette anvendes f.eks. i forbindelse med komprimering af billeder: hvis et billede er opløst i pixels, og man til hver pixel har knyttet en farvekode, så kan man samle informationen i en matrix $A$ . Hvis der er $m$ pixels i den lodrette retning og $n$ pixels i den vandrette, så vil $A$ være et element i $\mathrm{Mat}_{m,n}(\mathbb{R})$ , og den samlede mængde af information i $A$ vil derfor bestå af $mn$ reelle tal. Informationen der skal bruges for at repræsentere $A_k$ er $k(m+n+1)$ , så hvis $k$ er lille ift. $m$ og $n$ , så skal der bruges mindre hukommelse for at gemme $A_k$ fremfor $A$ . At $A_k$ på denne måde repræsenterer et billede, der er en fornuftig approksimation til $A$ , er dog en helt anden sag.

I det kommende afsnit vil vi studere, hvad der menes, når vi skriver, at $A_k$ er en god approksimation til $A$ .

14.3.1 Approksimationer og SVD

Lad os nu vende tilbage til en SVD af en reel matrix $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ , givet ved

$A = \sigma_1 (\bm{w}_1 \cdot {\bm{v}}_1^T) + \sigma_2 (\bm{w}_2 \cdot {\bm{v}}_2^T) + \cdots + \sigma_r (\bm{w}_r \cdot {\bm{v}}_r^T), \tag{14.47}$ som i (14.41). Definer hertil hørende matricer

$A_k = \sigma_1 (\bm{w}_1 \cdot {\bm{v}}_1^T) + \sigma_2 (\bm{w}_2 \cdot {\bm{v}}_2^T) + \cdots + \sigma_k (\bm{w}_k \cdot {\bm{v}}_k^T), \tag{14.48}$ for $1 \leq k \leq r$ . Ifølge Proposition 14.39, så er $A_k$ en matrix af rang $k$ , og vi viser nedenfor, at $A_k$ er den bedste approksimation til $A$ med en matrix af rang $\leq k$ .

For at vurdere hvor god en given approksimation er, så indfører vi en norm på mængden $\mathrm{Mat}_{m,n}(\mathbb{R})$ . Mere præcist så definerer vi for en given matrix $B =(b_{ij}) \in \mathrm{Mat}_{m,n}(\mathbb{R})$ den tilhørende norm

$\left\lVert B \right\rVert = \sqrt{\sum_{i=1}^m \sum_{j=1}^n b_{ij}^2}. \tag{14.49}$ Bemærk, at hvis man tog søjlerne $\bm{b}_1,\bm{b}_2,\ldots, \bm{b}_n$ i $B$ og satte dem ovenpå hinanden, så ville man opnå en vektor $\bm{b} \in \mathbb{R}^{mn}$ . Normen af $B$ er da lig længden af vektoren $\bm{b}$ (her arbejder vi med skalarproduktet på $\mathbb{R}^{mn}$ ). Vi bemærker også, at

$\left\lVert B \right\rVert ^2= \sum_{j=1}^n \left\lVert \bm{b}_j \right\rVert ^2, \tag{14.50}$ hvor vi på højresiden måler længderne via skalarproduktet på $\mathbb{R}^n$ . Vi har derfor, at:

Hvis $U \in \mathrm{Mat}_m(\mathbb{R})$ er en ortogonal matrix, og $B \in \mathrm{Mat}_{m,n}(\mathbb{R})$ , så er

$\left\lVert U \cdot B \right\rVert = \left\lVert B \right\rVert . \tag{14.51}$ Tilsvarende vil

$\left\lVert B \cdot V \right\rVert = \left\lVert B \right\rVert , \tag{14.52}$ hvis $V \in \mathrm{Mat}_n(\mathbb{R})$ er en ortogonal matrix.

Bevis

Idet $U$ er en ortogonal matrix, så vil $\left\lVert U{\bm{v}} \right\rVert =\left\lVert {\bm{v}} \right\rVert$ for enhver vektor ${\bm{v}} \in \mathbb{R}^n$ , jf. Proposition 10.34. Specielt vil $\left\lVert U\bm{b}_i \right\rVert =\left\lVert \bm{b}_i \right\rVert$ , for enhver søjle $\bm{b}_i$ i $B$ . Men søjlerne i produktet $UB$ er netop af formen $U\bm{b}_i$ , og identiteten (14.51) er dermed en konsekvens af (14.50) idet

$\begin{aligned} \left\lVert U \cdot B \right\rVert ^2 & = \sum_{i=1}^n \left\lVert U \bm{b}_i \right\rVert ^2 \\ & = \sum_{i=1}^n \left\lVert \bm{b}_i \right\rVert ^2 \\ & = \left\lVert B \right\rVert ^2. \end{aligned}$

Bemærk nu, at definitionen (14.49) på normen af en matrix kun afhænger af værdierne af indgangene i $B$ og ikke af deres placering. Derfor er $\left\lVert C \right\rVert =\left\lVert C^T \right\rVert$ , for enhver matrix $C \in \mathrm{Mat}_{m,n}(\mathbb{R})$ . Heraf fås, at

$\begin{aligned} \left\lVert B V \right\rVert & = \left\lVert (BV)^T \right\rVert \\ & = \left\lVert V^T B^T \right\rVert \\ & = \left\lVert B^T \right\rVert \\ & = \left\lVert B \right\rVert , \end{aligned}$ hvor vi ved det næstsidste lighedstegn har anvendt, at $V^T$ er en ortogonal matrix og at vi allerede har vist identiteten (14.51). Dette afslutter beviset.

Lad $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne en matrix af rang $r$ med singulære værdier

$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r >0.$ Så er

$\left\lVert A \right\rVert ^2 = \sum_{i=1}^r \sigma_i^2. \tag{14.53}$ Hvis $A=P\Sigma Q^T$ betegner en SVD af $A$ , og $\bm{w}_i$ , for $i=1,2,\ldots,m$ , betegner den $i$ 'te søjle i $P$ , og ${\bm{v}}_j$ , for $j=1,2,\ldots, n$ , betegner den $j$ 'te søjle i $Q$ , så er

$\left\lVert A-A_k \right\rVert ^2 = \sum_{i=k+1}^r \sigma_i^2, \tag{14.54}$ hvor $1 \leq k \leq r$ betegner et heltal og

$A_k = \sigma_1 (\bm{w}_1 \cdot {\bm{v}}_1^T) + \sigma_2 (\bm{w}_2 \cdot {\bm{v}}_2^T) + \cdots + \sigma_k (\bm{w}_k \cdot {\bm{v}}_k^T).$

Bevis

Lad $1 \leq k \leq r$ betegne et heltal, og lad $\Sigma_k \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne matricen, hvis $(i,i)$ 'te indgang er lig $\sigma_i$ , hvis $i=1,2,\ldots,k$ , mens de resterende indgange er lig $0$ . Da er $A_k=P\Sigma_k Q^T$ , jf. Proposition 14.39. Specielt er

$\begin{aligned} \left\lVert A-A_k \right\rVert & = \left\lVert P(\Sigma-\Sigma_k)Q^T \right\rVert \\ & = \left\lVert \Sigma-\Sigma_k \right\rVert \\ & = \sqrt{\sum_{i=k+1}^r \sigma_i^2}, \end{aligned}$ hvor vi undervejs har anvendt Lemma 14.41. Tilsvarende kan vi beregne, at

$\begin{aligned} \left\lVert A \right\rVert & = \left\lVert P \Sigma Q^T \right\rVert \\ & = \left\lVert \Sigma \right\rVert \\ & = \sqrt{\sum_{i=1}^r \sigma_i^2}, \end{aligned}$ som ønsket.

For to givne matricer $B,C \in \mathrm{Mat}_{m,n}(\mathbb{R})$ der definerer vi nu afstanden mellem $B$ og $C$ som normen $\left\lVert B-C \right\rVert$ af differencen $B-C$ . Vi kan nu formulere, hvad der menes med, at $A_k$ er en god approksimation til $A$ . I Proposition 14.42 har vi vist, at afstanden $\left\lVert A-A_k \right\rVert$ opfylder, at

$\left\lVert A-A_k \right\rVert = \sqrt{\sum_{i=k+1}^r \sigma_i^2}. \tag{14.55}$ Nedenfor viser vi, at højresiden af (14.55) er den mindst mulige afstand mellem $A$ og en matrix af rang $\leq k$ . Med andre ord så er $A_k$ en optimal approksimation til $A$ med en matrix af rang $\leq k$ .

Lad $A \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne en matrix af rang $r$ , og lad

$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r >0,$ betegne de singulære værdier for $A$ . Lad yderligere $0 \leq k \leq r$ betegne et heltal, og $C \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne en matrix af rang $\leq k$ . Så er

$\left\lVert A-C \right\rVert ^2 \geq \sum_{i=k+1}^r \sigma_i^2. \tag{14.56}$

Bevis

I nedenstående bevis vil vi bruge, at der eksisterer en matrix $M \in \mathrm{Mat}_{m,n}(\mathbb{R})$ af rang $\leq k$ , så

$\left\lVert A-X \right\rVert \geq \left\lVert A-M \right\rVert , \tag{14.57}$ for alle $X \in \mathrm{Mat}_{m,n}(\mathbb{R})$ af rang $\leq k$ . Dette resultat hører til i et kursus i matematisk analyse, og vi vil derfor ikke bevise det her, men alene benytte os af det.

Lad $M=P \Sigma Q^T$ betegne en SVD af $M$ , og lad

$\mu_1 \geq \mu_2 \geq \cdots \geq \mu_{s} >0 \tag{14.58}$ betegne de singulære værdier for $M$ . Da er rangen af $M$ lig $s \leq k$ . Sæt nu $B=P^T A Q$ , og opdel $B$ på følgende form

$B= \begin{pmatrix} \begin{array}{c | c } B_{1,1} & B_{1,2} \\ \hline B_{2,1} & B_{2,2} \end{array} \end{pmatrix}$ hvor $B_{1,1} \in \mathrm{Mat}_{s}(\mathbb{R})$ , $B_{2,1} \in \mathrm{Mat}_{m-s,s}(\mathbb{R})$ , $B_{1,2} \in \mathrm{Mat}_{s,n-s}(\mathbb{R})$ og $B_{2,2} \in \mathrm{Mat}_{m-s,n-s}(\mathbb{R})$ . Tilsvarende opdeler vi $\Sigma$

$\Sigma= \begin{pmatrix} \begin{array}{c | c } \Sigma' & \bm{O} \\ \hline \bm{O} & \bm{O} \end{array} \end{pmatrix},$ hvor $\Sigma' \in \mathrm{Mat}_{s}(\mathbb{R})$ , mens notationen $\bm{O}$ betegner nulmatricer af forskellige størrelser. Vi bemærker nu, at $A=PBQ^T$ , og at der dermed gælder, at

$\begin{aligned} \left\lVert A-M \right\rVert ^2 & = \left\lVert P(B-\Sigma)Q^T \right\rVert ^2 \\ & = \left\lVert B-\Sigma \right\rVert ^2 \\ & = \left\lVert B_{1,1} - \Sigma' \right\rVert ^2+ \left\lVert B_{1,2} \right\rVert ^2+ \left\lVert B_{2,1} \right\rVert ^2+ \left\lVert B_{2,2} \right\rVert ^2, \end{aligned}\tag{14.59}$ hvor vi undervejs har anvendt Lemma 14.41.

Lad nu $C \in \mathrm{Mat}_{m,n}(\mathbb{R})$ betegne matricen

$C=\begin{pmatrix} \begin{array}{c | c } B_{1,1} & B_{1,2} \\ \hline \bm{O} & \bm{O} \end{array} \end{pmatrix}.$ Da er $C$ af rang $\leq k$ idet rækkerummet er udspændt af $s \leq k$ vektorer. Specielt har $\tilde M= P C Q^T$ også rang $\leq k$ , jf. Lemma 14.34, og derudover så gælder der, at

$\begin{aligned} \left\lVert A-\tilde M \right\rVert ^2 & = \left\lVert P(B-C)Q^T \right\rVert ^2 \\ & = \left\lVert B-C \right\rVert ^2 \\ & = \left\lVert B_{2,1} \right\rVert ^2+ \left\lVert B_{2,2} \right\rVert ^2. \end{aligned}\tag{14.60}$ Vi kan nu kombinere (14.57), (14.60) og (14.59), og konkludere, at

$\left\lVert B_{2,1} \right\rVert ^2+ \left\lVert B_{2,2} \right\rVert ^2 \geq \left\lVert B_{1,1} - \Sigma' \right\rVert ^2+ \left\lVert B_{1,2} \right\rVert ^2+ \left\lVert B_{2,1} \right\rVert ^2+ \left\lVert B_{2,2} \right\rVert ^2,$ hvilket er ækvivalent med, at $B_{1,1} =\Sigma'$ og at $B_{1,2}= \bm{O}$ . Tilsvarende vises, at $B_{2,1}=\bm{O}$ .

Alt i alt er vi kommet frem til, at

$B=\begin{pmatrix} \begin{array}{c | c } \Sigma' & \bm{O} \\ \hline \bm{O} & B_{2,2} \end{array} \end{pmatrix} \quad \text{ og } \quad \left\lVert A-M \right\rVert ^2 = \left\lVert B_{2,2} \right\rVert ^2, \tag{14.61}$ og dermed er

$\begin{aligned} A^T A & = (PBQ^T)^T (PBQ^T) \\ & = QB^T P^T P B Q^T \\ & = Q (B^T B) Q^T, \end{aligned}$ hvor

$B^T B = \begin{pmatrix} \begin{array}{c | c } (\Sigma')^2 & \bm{O} \\ \hline \bm{O} & B_{2,2}^T B_{2,2} \end{array} \end{pmatrix}. \tag{14.62}$ Det bemærkes, at $B^TB$ og $A^TA$ er similære, og at standardbasisvektoren $\bm{e}_i$ , for $i=1,2,\ldots,s$ , er en egenvektor for $B^TB$ med egenværdien $\mu_i^2$ . Specielt er $\mu_1, \mu_2, \ldots,\mu_s$ en delmængde af de singulær værdier for $A$ , jf. Proposition 14.37. Vi konkluderer, at

$\begin{aligned} \left\lVert A \right\rVert ^2 & = \left\lVert P B Q^T \right\rVert ^2 \\ & = \left\lVert B \right\rVert ^2 \\ & = \left\lVert \Sigma' \right\rVert ^2 + \left\lVert B_{2,2} \right\rVert ^2 \\ & = \sum_{i=1}^{s} \mu_i^2 + \left\lVert B_{2,2} \right\rVert ^2, \end{aligned}$ hvilket er ækvivalent med, at

$\left\lVert B_{2,2} \right\rVert ^2 = \left\lVert A \right\rVert ^2 - \sum_{i=1}^{s} \mu_i^2. \tag{14.63}$ Vi indsætter nu dette udtryk i (14.61) og opnår, at

$\begin{aligned} \left\lVert A-M \right\rVert ^2 & = \left\lVert B_{2,2} \right\rVert ^2 \\ & = \left\lVert A \right\rVert ^2 - \sum_{i=1}^{s} \mu_i^2 \\ & \geq \left\lVert A \right\rVert ^2 - \sum_{i=1}^{s} \sigma_{i}^2 \\ & \geq \left\lVert A \right\rVert ^2 - \sum_{i=1}^{k} \sigma_{i}^2 \\ & = \sum_{i=k+1}^r \sigma_i^2, \end{aligned}$ hvor den første ulighed følger, idet $\sigma_1,\sigma_2, \ldots,\sigma_{s}$ er de $s$ største singulære værdier for $A$ , og hvor vi ved det sidste lighedstegn har anvendt Proposition 14.42.

En bedste approksimation til matricen

$A=\begin{pmatrix} 1 & 3 \\ 2 & 1 \\ 3 & 2 \end{pmatrix}$ fra Eksempel 14.40, med en matrix af rang $\leq 1$ er givet ved

$A_1= 5 \cdot \frac{1}{10} \begin{pmatrix} 4 & 4 \\ 3 & 3 \\ 5 & 5 \end{pmatrix} = \frac{1}{2}\begin{pmatrix} 4 & 4 \\ 3 & 3 \\ 5 & 5 \end{pmatrix}, \tag{14.64}$ jf. (14.44). Afstanden er $\left\lVert A-A_1 \right\rVert$ er givet ved

$\begin{aligned} \left\lVert A-A_1 \right\rVert ^2 & = \left\lVert { \begin{pmatrix} 1 & 3 \\ 2 & 1 \\ 3 & 2 \end{pmatrix}- \frac{1}{2}\begin{pmatrix} 4 & 4 \\ 3 & 3 \\ 5 & 5 \end{pmatrix} } \right\rVert ^2 \\ & = \left\lVert { \frac{1}{2} \begin{pmatrix} -2 & 2 \\ 1 & -1 \\ 1 & -1 \end{pmatrix} } \right\rVert ^2 \\ & = (-1)^2 + (1)^2 + (\tfrac{1}{2})^2+ (-\tfrac{1}{2})^2 +(\tfrac{1}{2})^2+ (-\tfrac{1}{2})^2 \\ & = 3 \\ & = (\sqrt{3})^2, \end{aligned}$ hvilket stemmer med, at $\sqrt{3}$ er den mindste af de to singulære værdier.

En bedste approksimation som omtalt ovenfor behøver ikke nødvendigvis at være entydig. Hvis f.eks. $A=\mathrm{I} \in \mathrm{Mat}_2(\mathbb{R})$ er identitetsmatricen af størrelse $2$ , så er de singulære værdier givet ved

$\sigma_1=1 \quad \text{ og } \quad \sigma_2=1.$ I dette tilfælde vil både

$M_1= \begin{pmatrix} 1 & 0 \\ 0 & 0 \\ \end{pmatrix} \quad \text{ og } \quad M_2= \begin{pmatrix} 0 & 0 \\ 0 & 1 \\ \end{pmatrix}$ være bedst mulige approksimationer til $A$ med matricer af rang $\leq 1$ . Der gælder nemlig, at

$\left\lVert A-M_1 \right\rVert =\left\lVert A-M_2 \right\rVert = 1 = \sigma_2^2.$