12Singulær værdi dekomposition

Vi så i forrige kapitel hvordan spektralsætningen viser, at enhver hermitesk matrix kan diagonaliseres, ved at lave basisskifte med en ONB bestående af egenvektorer. Nu skal vi se at et næsten tilsvarende resultat holder for alle matricer, også rektangulære matricer.

Vi skal nemlig se på kulminationen af kurset: Den meget vigtige Singulær Værdi Dekomposition (SVD). Her laves basisskifte med to (måske forskellige) ONB'er for at opnå en diagonalmatrix. Mere specifikt kommer baserne til at være valgt ud fra de fire fundamentale underrum $C(A)$ , $N(A)$ , $C(A^*)$ og $N(A^*)$ som vi studerede i slutningen af Kapitel 9.

Illustration af indvirkningen af de fire fundamentale underrum ved matrix-vektor produkter.

Enhver $m\times n$ matrix $A$ kan skrives

$A = U\Sigma V^*, \tag{12.1}$ hvor $U$ er en $m\times m$ unitær matrix, $V$ er en $n\times n$ unitær matrix og $\Sigma$ er en $m\times n$ diagonalmatrix.

Hvis $r = \mathrm{rang}(A)$ , så har matricerne følgende struktur:

$\Sigma$ har formen
$\Sigma = \left(\begin{array}{c|c} \begin{matrix} \sigma_1 & & & \\ & \sigma_2 & & \\ & & \ddots & \\ & & & \sigma_r \end{matrix} & \Large 0 \\ \hline \Large 0\rule{0pt}{2.6ex} & \Large 0 \end{array}\right)$ hvor de positive tal $\sigma_1\geq \sigma_2 \geq \dots \geq \sigma_r > 0$ kaldes de singulære værdier. De store nuller betyder at der udfyldes med $0$ indtil $\Sigma$ er $m\times n$ .
Søjlerne i $U = (\mathbf u_1,\dots,\mathbf u_m)$ kaldes de venstre singulære vektorer.
Søjlerne i $V = (\mathbf v_1,\dots,\mathbf v_n)$ kaldes de højre singulære vektorer.
Der er følgende sammenhæng mellem de første $r$ venstre og højre singulære vektorer:
$A\mathbf v_i = \sigma_i \mathbf u_i, \enskip i = 1,\dots,r.$
$\{\mathbf u_1,\dots,\mathbf u_r\}$ er en ONB for $C(A)$ .
$\{\mathbf u_{r+1},\dots,\mathbf u_m\}$ er en ONB for $N(A^*)$ .
$\{\mathbf v_1,\dots,\mathbf v_r\}$ er en ONB for $C(A^*)$ .
$\{\mathbf v_{r+1},\dots,\mathbf v_n\}$ er en ONB for $N(A)$ .

Hvis $A$ er en reel matrix, så kan $U$ og $V$ bestemmes som ortogonal matricer.

SVD er et af de vigtigste resultater der bruges i både anvendelser (til effektive beregninger og lavdimensionel approksimation) og i teori for f.eks. numeriske metoder. Vi skal se lidt mere til dette i de sidste afsnit af kapitlet.

Beviset af Sætning 12.2 gennemgåes i de følgende afsnit, både da det på fin vis gør brug af meget af teorien som er gennemgået i kurset, men også fordi det præcis viser hvordan de forskellige matricer bestemmes i praksis.

12.1 De singulære værdier

Vi tager udgangspunkt i en $m\times n$ matrix $A$ , og bemærker at hvis vi ganger $A^*$ fra venstre, så får vi en $n\times n$ matrix $A^* A$ .

Denne nye kvadratiske matrix har nogle pæne egenskaber:

$A^* A$ er hermitesk og har derfor reelle egenværdier af Sætning 11.3.
Alle egenværdier for $A^* A$ er ikke-negative.

Den anden egenskab vises således: Lad $A^* A\mathbf v = \lambda \mathbf v$ for en egenvektor $\mathbf v\neq \mathbf 0$ og en egenværdi $\lambda$ . Nu kan vi lave følgende udregning hvor vi anvender at $\lambda$ er reel samt Sætning 9.21:

$\lambda|\mathbf v|^2 = \lambda(\mathbf v\cdot \mathbf v) = \mathbf v\cdot(A^*A\mathbf v) = (A\mathbf v)\cdot(A\mathbf v) = |A\mathbf v|^2.$ Vi ser altså at enhver egenværdi for $A^* A$ opfylder:

$\lambda = \frac{|A\mathbf v|^2}{|\mathbf v|^2} \geq 0. \tag{12.2}$ Vi kan nu sortere egenværdierne for $A^* A$ i aftagende rækkefølge,

$\lambda_1\geq \dots \geq \lambda_r > 0 \quad\text{og}\quad \lambda_{r+1}=\dots=\lambda_n = 0,$ hvor vi husker at gentage dem efter deres algebraiske multiplicitet.

De singulære værdier er kvadratroden af de positive egenværdier for $A^*A$ :

$\sigma_i = \sqrt{\lambda_i}, \enskip i=1,\dots,r. \tag{12.3}$

12.2 De højre singulære vektorer

Da $A^* A$ er en hermitesk matrix, ved vi fra spektralsætningen (Sætning 11.9) at der findes en $n\times n$ unitær matrix $V = (\mathbf v_1,\dots,\mathbf v_n)$ , bestående af egenvektorer for $A^* A$ , således at

$A^*A = V\begin{pmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{pmatrix}V^* = V\begin{pmatrix} \sigma_1^2 & & \\ & \ddots & \\ & & \sigma_r^2 \\ & & & 0 \\ & & & & \ddots \\ & & & & & 0 \end{pmatrix}V^*.$ Fra (12.2) ved vi at $A\mathbf v_i \neq \mathbf 0$ for $i = 1,\dots,r$ og $A\mathbf v_i = \mathbf 0$ for $i>r$ . Samtidig ved vi også at $\{\mathbf v_1,\dots,\mathbf v_n\}$ udgør en ONB for hele $\mathbb{C}^n$ , hvori $C(A^*)$ og $N(A)$ udgør ortogonale komplementer (Sætning 9.34). Samlet set har vi at $\{\mathbf v_1,\dots,\mathbf v_r\}$ er en ONB for $C(A^*)$ og $\{\mathbf v_{r+1},\dots,\mathbf v_n\}$ er en ONB for $N(A)$ .

12.3 De venstre singulære vektorer

Vi starter med at definere de første $r$ venstre singulære vektorer ud fra de tilsvarende højre singulære vektorer:

$\mathbf u_i = \frac{1}{\sigma_i}A\mathbf v_i, \enskip i=1,\dots,r. \tag{12.4}$

Vi skal nu overbevise os selv om, at disse vektorer er ortonormale. Dette gøres ved følgende udregning

$\mathbf u_i\cdot \mathbf u_j = \frac{1}{\sigma_i\sigma_j}(A\mathbf v_i)\cdot(A\mathbf v_j) = \frac{1}{\sigma_i\sigma_j}\mathbf v_i\cdot(A^*A\mathbf v_j),$ og vi husker at $\mathbf v_j$ er egenvektor for $A^* A$ med egenværdi $\sigma_j^2$ , samt $\mathbf v$ -vektorerne er ortonormale. Vi har derfor

$\mathbf u_i\cdot \mathbf u_j = \frac{\sigma_j^2}{\sigma_i\sigma_j}(\mathbf v_i\cdot \mathbf v_j) = \begin{cases} 0 & \text{for } i\neq j, \\ 1 & \text{for } i = j. \end{cases}$ I forrige afsnit så vi at $\{\mathbf v_1,\dots,\mathbf v_r\}$ er ONB for $C(A^*) = N(A)^\perp$ , så en afbildning af $A$ på denne basis (se f.eks. Figur 12.1) må altså udspænde hele søjlerummet for $A$ . Det vil sige, fra (12.4) ved vi nu at $\{\mathbf u_1,\dots,\mathbf u_r\}$ er en ONB for $C(A)$ .

Men hvad så med de resterende venstre singulære vektorer $\{\mathbf u_{r+1},\dots,\mathbf u_{m}\}$ ? De kan udregnes som en vilkårlig ONB for $N(A^*)$ ved brug af f.eks. Gram-Schmidt algoritmen. Bemærk at der er mange forskellige ONB for et vektorrum, så der er en vis valgfrihed her, tilsvarende som der er ved bestemmelse af de sidste højre singulære vektorer, som kan vælges som en vilkårlig ONB for $N(A)$ .

12.4 Sammensætning af delresultaterne til SVD

Vi kan nu sætte alle delresultaterne sammen, for at få SVD'en i Sætning 12.2. Da $\{\mathbf v_1,\dots,\mathbf v_n\}$ er en ONB for $\mathbb{C}^n$ , så er ligheden $A = U\Sigma V^*$ det samme som

$A\mathbf v_i = (U\Sigma V^*)\mathbf v_i \tag{12.5}$ for alle $i=1,\dots,n$ . Vi vil altså vise ligheden (12.5).

Det første vi bemærker er, at fra ortonormaliteten af $\mathbf v$ -vektorerne gælder

$V^*\mathbf v_i = \begin{pmatrix} \mathbf v_i\cdot \mathbf v_1 \\ \mathbf v_i\cdot \mathbf v_2 \\ \vdots \\ \mathbf v_i\cdot \mathbf v_n \end{pmatrix} = \mathbf e_i,$ altså den $i$ 'te standard basis vektor i $\mathbb{C}^n$ .

Dernæst, ved at gange med diagonalmatricen $\Sigma$ får vi udtrukket den $i$ 'te søjle af $\Sigma$ :

$\Sigma V^* \mathbf v_i = \Sigma\mathbf e_i = \begin{cases} \sigma_i \widetilde{\mathbf e}_i & \text{for } i=1,\dots,r, \\ \mathbf 0 & \text{for } j=r+1,\dots,n. \end{cases}$ Her er $\widetilde{\mathbf e}_i$ også den $i$ 'te standard basis vektor, men denne gang for $\mathbb{C}^m$ (da $\Sigma$ er en $m\times n$ matrix).

For $i>r$ har vi derfor at $U\Sigma V^*\mathbf v_i = \mathbf 0$ , men dette er netop lig med $A\mathbf v_i$ da $\{\mathbf v_{r+1},\dots,\mathbf v_n\}$ er vektorer i $N(A)$ .

Nu mangler vi kun at vise (12.5) for $i = 1,\dots,r$ , og her skal vi bruge sammenhængen mellem de venstre og højre singulære vektorer i (12.4):

$U\Sigma V^*\mathbf v_i = \sigma_i U\widetilde{\mathbf e}_i = \sigma_i\mathbf u_i = A\mathbf v_i.$

12.5 Eksempel på udregning af SVD

Lad os grundigt gennemgå et eksempel på udregning af SVD for matricen

$A = \begin{pmatrix} 1 & i \\ 1 & i \\ -i & -1 \end{pmatrix}.$ Først skal de singulære værdier og de højre singulære vektorer bestemmes ud fra diagonalisering af den hermiteske matrix

$A^* A = \begin{pmatrix} 3 & i \\ -i & 3 \end{pmatrix}.$ Vi får det karakteristiske polynomium

$\det(A^* A - \lambda I) = (3-\lambda)^2-(-i)i = \lambda^2-6\lambda+8,$ som har rødderne $\lambda_1 = 4$ og $\lambda_2 = 2$ . Dermed er $\sigma_1 = \sqrt{\lambda_1} = 2$ og $\sigma_2 = \sqrt{\lambda_2} = \sqrt{2}$ de singulære værdier for $A$ , og vi har

$\Sigma = \begin{pmatrix} 2 & 0 \\ 0 & \sqrt{2} \\ 0 & 0 \end{pmatrix}.$ Da egenværdier for $A^* A$ begge har algebraisk multiplicitet $1$ , så vil deres geometriske multipliciteter tilsvarende være $1$ af Proposition 8.13. Ved at se på matricerne

$A^*A-4I = \begin{pmatrix} -1 & i \\ -i & -1 \end{pmatrix}, \qquad A^*A-2I = \begin{pmatrix} 1 & i \\ -i & 1 \end{pmatrix}$ kan vi forholdsvist let indse at vektorerne

$\mathbf v_1 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -i \end{pmatrix}, \qquad \mathbf v_2 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ i \end{pmatrix}$ udgør ONB'er for egenrummene hørende til henholdsvis $\lambda_1$ og $\lambda_2$ . Dermed er

$V = (\mathbf v_1,\mathbf v_2) = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \\ -i & i \end{pmatrix}$ og derfor

$V^* = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & i \\ 1 & -i \end{pmatrix}.$ Nu anvendes (12.4) til at finde de første to venstre singulære vektorer:

$\begin{aligned} \mathbf u_1 &= \frac{1}{\sigma_1}A\mathbf v_1 = \frac{1}{2}\begin{pmatrix} 1 & i \\ 1 & i \\ -i & -1 \end{pmatrix}\frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -i \end{pmatrix} = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \\ 0 \end{pmatrix}, \\ \mathbf u_2 &= \frac{1}{\sigma_2}A\mathbf v_2 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & i \\ 1 & i \\ -i & -1 \end{pmatrix}\frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ i \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ -i \end{pmatrix}. \end{aligned}$ Til slut skal vi finde $\mathbf u_3$ som ONB for $N(A^*)$ , hvilket også svarer til nulrummet for matricen $(\mathbf u_1,\mathbf u_2)^*$ da $N(A^*) = C(A)^\perp$ . Ved at inspicere $\mathbf u_1$ og $\mathbf u_2$ , ser vi at

$\mathbf u_3 = \frac{1}{\sqrt{2}}\begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix}$ er en enhedsvektor ortogonal med $\mathbf u_1$ og $\mathbf u_2$ . Derfor er

$U = (\mathbf u_1,\mathbf u_2,\mathbf u_3) = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 0 & -1 \\ 1 & 0 & 1 \\ 0 & -\sqrt{2}i & 0 \end{pmatrix},$ og vi har $A = U\Sigma V^*$ .

12.6 Approksimation med lav-rang matricer

En mere kompakt måde at opskrive en SVD på, som tager højde for at de sidste $\mathbf u$ -vektorer og $\mathbf v$ -vektorer ikke har betydning for matrixproduktet, er ved kun at se på de første $r$ søjler i $U$ og $V$ ; disse forkortede matricer kaldes $U_r = (\mathbf u_1,\dots,\mathbf u_r)$ og $V_r = (\mathbf v_1,\dots,\mathbf v_r)$ . Tilsvarende kalder vi $\Sigma_r$ for $r\times r$ diagonalmatricen med de singulære værdier i diagonalen. Vi har nu helt tilsvarende at

$A = U\Sigma V^* = U_r\Sigma_rV_r^* = \sigma_1 \mathbf u_1\mathbf v_1^* + \sigma_2 \mathbf u_2\mathbf v_2^* + \dots + \sigma_r \mathbf u_r\mathbf v_r^*. \tag{12.6}$ Den sidste lighed i (12.6) kommer af at $\Sigma_r$ er en diagonalmatrix, og det viser hvordan en rang- $r$ matrix altid kan skrives som en sum af $r$ rang- $1$ matricer.

En fordel ved den kompakte SVD er, at matricerne $U_r$ og $V_r$ kan være betydeligt mindre end for den ''fulde'' SVD. Dog skal man passe lidt på, da $U_r$ og $V_r$ generelt ikke er kvadratiske matricer, og er derfor ikke unitære. Deres søjler er dog stadig ortonormale, så der gælder derfor

$U_r^*U_r = V_r^*V_r = I_r, \tag{12.7}$ men i den omvendte rækkefølge $U_rU_r^*$ og $V_rV_r^*$ vil disse ikke være identitetsmatricer, medmindre at matricerne er kvadratiske (dvs. hvis $r = m$ eller $r = n$ ).

En måde at anvende (12.6), er til lave såkaldt lav-rang approksimation til en matrix, hvilket vil sige at man eksempelvis vil finde en matrix $A_{100}$ som kun har en rang på $100$ , men som er så tæt som muligt på den oprindelige matrix $A$ som eksempelvis kan have en rang på $10^6$ .

Ideen ved en rang- $k$ approksimation, hvor $k < r$ , er kun at medtage de led der svarer til de største $k$ singulære værdier:

$A_k = \sigma_1 \mathbf u_1\mathbf v_1^* + \dots + \sigma_k \mathbf u_k\mathbf v_k^* + \sout{\sigma_{k+1} \mathbf u_{k+1}\mathbf v_{k+1}^* + \dots + \sigma_r \mathbf u_r\mathbf v_r^*} \tag{12.8}$

Dette princip bliver blandt andet brugt til at udvælge det mest relevante data inden for statistik og går også under navnet Principal Component Analysis (PCA). Dog har man ofte at gøre med symmetriske matricer i PCA, så her kan man også bruge spektralsætningen til at lave en egenværdidekomposition.

En anvendelse som er let at visualisere er til komprimering af billeder, hvor man ofte ikke ønsker at gemme hver eneste pixel i et stort billede, men i stedet vil anvende nogle ganske få komponenter af en SVD til at lave en lav-rang approksimation. I et gråtone billede svarer farven i en pixel til et tal i en stor matrix (for farvebilleder: tre matricer).

Overvej følgende billede, hvor matricen har en rang på $r=1536$ .

Originalt billede med matrix af rang $r = 1536$

Herefter approksimeres matricen for billedet ud fra (12.8) med forskellige værdier af $k < 1536$ .

Approksimation med $k = 6$

Approksimation med $k = 15$

Approksimation med $k = 177$

Ud fra kun lidt over $11,5$ procent af de singulære værdier kan man allerede sagtens se hvad billede forestiller, dog med en lidt synlig grynet struktur som svarer til komprimeringen af billedet.

For at forstå hvorfor dette er en fornuftig måde at approksimere $A$ på med matricer af lav rang, skal vi kigge på hvilken fejl der bliver begået i approksimationen, altså hvad er forskellen $A - A_k$ . Ved at se på (12.6) og (12.8) har vi:

$A-A_k = \sigma_{k+1} \mathbf u_{k+1}\mathbf v_{k+1}^* + \dots + \sigma_r \mathbf u_r\mathbf v_r^*. \tag{12.9}$ Fejlen kommer altså fra leddene med de mindste singulære værdier. Men for at kunne give et konkret tal der beskriver den procentvise fejl, så skal vi først introducere en måde at beskrive størrelsen af en matrix; en matrixnorm.

12.6.1 Matrixnormer

En matrixnorm skal opfylde tilsvarende krav som andre vektornormer; forklaringen for dette er at man udstyrer et vektorrum $\mathbb{C}^{m\times n}$ bestående af de komplekse $m\times n$ matricer med en norm, altså er vektorerne i disse vektorrum matricer.

Nogle af de mest almindelige matrixnormer kan opskrives ved brug af matricens singulære værdier:

$\begin{aligned} ||A||_2 &= \sigma_1, \\ ||A||_* &= \sigma_1 + \dots + \sigma_r, \\ ||A||_\textup{F} &= \sqrt{\sigma_1^2 + \dots + \sigma_r^2}. \end{aligned}\tag{12.10}$

Disse normer har nogle særlige navne. $||A||_2$ kaldes den spektrale norm, matrix $2$ -normen eller Schatten $\infty$ -normen, $||A||_*$ kaldes enten spornormen, nuklearnormen eller Schatten $1$ -normen, og til sidst har vi $||A||_\textup{F}$ som kaldes enten Frobeniusnormen, Hilbert-Schmidt normen eller Schatten $2$ -normen.

Der er flere matrixnormer som kan defineres ud fra singulære værdier, eksempelvis for ethvert $p\geq 1$ kan defineres Schatten $p$ -normen:
$||A||_{\textup{S},p} = \Bigl(\sigma_1^p + \dots + \sigma_r^p\Bigr)^{1/p}.$ Her har vi dog været forsigtige med notationen, da der også er andre $p$ -normer der normalt skrives $||A||_p$ , men som generelt ikke kan opskrives fra de singulære værdier (bortset fra den spektrale norm).
Et resultat som ikke bliver gennemgået i disse noter er, at alle normer på et endelig dimensionelt vektorrum er ækvivalente. Det betyder at hvis man har to normer $||\cdot||_a$ og $||\cdot||_b$ , så findes der nogle positive konstanter $c_1$ og $c_2$ så der gælder
$c_1||A||_a \leq ||A||_b \leq c_2||A||_a,$ for alle $A$ . Derfor er forskellen på de enkelte normer ofte ikke så vigtig som man skulle tro. Dog kan nogle anvendelser have brug for specifikke egenskaber af en norm, f.eks. om normen er relateret til et indre produkt, hvilket ofte bruges til at simplificere optimeringsalgoritmer.

Der er også nogle andre formler for den spektrale norm og Frobeniusnormen (nogle gange bruges disse som definitioner), som i nogle sammenhænge er lettere at bruge til udregninger, og som er lettere at vise norm-egenskaberne ud fra. I formlen for Frobeniusnormen kan man tænke på det som at stable søjlerne i matricen til en meget lang vektor, for derefter at finde dens Euklidiske norm.

For enhver $m\times n$ matrix $A = (a_{ij})$ , gælder følgende formler:

$||A||_2 = \max_{\mathbf x\neq\mathbf 0} \frac{|A\mathbf x|}{|\mathbf x|}, \qquad ||A||_\textup{F} = \sqrt{\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2}.$

Bevis*

Vi bruger matricens SVD $A = U\Sigma V^*$ , og vi kommer til at udnytte at unitære matricer bevarer den Euklidiske norm:

$|U\mathbf x|^2 = (U\mathbf x)\cdot(U\mathbf x) = \mathbf x\cdot(U^*U\mathbf x) = \mathbf x\cdot\mathbf x = |\mathbf x|^2, \enskip \mathbf x\in \mathbb{C}^m.$ Tilsvarende gælder at $|V^*\mathbf x| = |\mathbf x|$ for alle $\mathbf x\in\mathbb{C}^n$ .

Nu viser vi formlen for den spektrale norm,

$\max_{\mathbf x\neq\mathbf 0}\frac{|A\mathbf x|}{|\mathbf x|} = \max_{\mathbf x\neq\mathbf 0}\frac{|U\Sigma V^*\mathbf x|}{|\mathbf x|} = \max_{\mathbf x\neq\mathbf 0}\frac{|\Sigma V^*\mathbf x|}{|V^*\mathbf x|}. \tag{12.11}$ Her brugte vi både at vi kunne fjerne $U$ i tælleren da den bevarer normen, og tilsvarende at vi kunne introducere $V^*$ i nævneren.

Nu skal vi bruge at $V^*$ er en invertibel matrix, hvilket betyder at for en vektor $\mathbf y\in\mathbb{C}^n$ gælder at $\mathbf y\neq \mathbf 0$ hvis og kun hvis $\mathbf y = V^*\mathbf x$ for et $\mathbf x\neq \mathbf 0$ . Mere specifikt kan vi erstatte maksimum over $\mathbf x\neq \mathbf 0$ med et maksimum over $\mathbf y\neq \mathbf 0$ og indsætte $\mathbf y = V^*\mathbf x$ i (12.11):

$\max_{\mathbf x\neq\mathbf 0}\frac{|A\mathbf x|}{|\mathbf x|} = \max_{\mathbf y\neq\mathbf 0}\frac{|\Sigma \mathbf y|}{|\mathbf y|} = \max_{\mathbf y\neq\mathbf 0}\frac{\sqrt{\sigma_1^2|y_1|^2+\dots\sigma_r^2|y_r|^2}}{|\mathbf y|}. \tag{12.12}$ Ved at udnytte at $\sigma_1$ er den største af de singulære værdier har vi derfor

$\max_{\mathbf x\neq\mathbf 0}\frac{|A\mathbf x|}{|\mathbf x|} \leq \sigma_1\frac{\sqrt{|y_1|^2+\dots+|y_r|^2}}{|\mathbf y|} \leq \sigma_1. \tag{12.13}$ Vi kan nu kombinere (12.12) og (12.13) for at få slutresultatet

$\sigma_1 = \frac{|\Sigma \mathbf e_1|}{|\mathbf e_1|} \leq \max_{\mathbf y\neq\mathbf 0}\frac{|\Sigma \mathbf y|}{|\mathbf y|} = \max_{\mathbf x\neq\mathbf 0}\frac{|A\mathbf x|}{|\mathbf x|} \leq \sigma_1,$ hvilket viser at $\max_{\mathbf x\neq\mathbf 0}|A\mathbf x|/|\mathbf x| = ||A||_2$ .

Nu skal vi vise formlen for Frobeniusnormen, og hertil bruger vi notationen at $\mathbf a_i$ betegner den $i$ 'te række i matricen $A$ . Vi har derfor at

$\sum_{i=1}^m\sum_{j=1}^n |a_{ij}|^2 = \sum_{i=1}^m |\mathbf a_i|^2 = \sum_{i=1}^m |\mathbf a_i^*|^2. \tag{12.14}$ Vi skal nu udnytte at $\mathbf a_i^*$ er den $i$ 'te søjle i $A^*$ og derfor ligger i $C(A^*)$ , samt at $\{\mathbf v_1,\dots,\mathbf v_r\}$ netop er en ONB for $C(A^*)$ . I Proposition 9.11 så vi netop hvordan man bruger en ONB til at finde normen af en vektor:

$\sum_{i=1}^m |\mathbf a_i^*|^2 = \sum_{i=1}^m\sum_{j=1}^r|\mathbf a_i^*\cdot \mathbf v_j|^2 = \sum_{j=1}^r\sum_{i=1}^m|\mathbf v_j\cdot \mathbf a_i^*|^2.$ Da $\mathbf a_i$ er den $i$ 'te række i $A$ , så har vi derfor at det indre produkt $\mathbf v_j\cdot \mathbf a_i^*$ lige præcis er det $i$ 'te element af matrix-vektor produktet $A\mathbf v_j$ . Samtidig ved vi også at $A\mathbf v_j = \sigma_j\mathbf u_j$ fra Sætning 12.2, hvilket giver

$\sum_{i=1}^m |\mathbf a_i^*|^2 = \sum_{j=1}^r |\sigma_j\mathbf u_j|^2 = \sum_{j=1}^r \sigma_j^2, \tag{12.15}$ hvor vi til sidst brugte at $\mathbf u$ -vektorerne er enhedsvektorer. Samlet set giver (12.14) og (12.15) at $||A||_\textup{F}^2 = \sum_{i=1}^m\sum_{j=1}^n |a_{ij}|^2$ .

I relation til den nævnte ækvivalens af normer, så kan vi udlede ækvivalenskonstanterne der hører til normerne i (12.10), og samtidig også vise en vigtig ulighed, som senere bruges til at vise stabilitet for numeriske beregninger med lineære ligningssystemer.

Der gælder følgende resultater for normerne i (12.10), hvor $A$ er en matrix med rang $r$ :

$||A||_2 \leq ||A||_* \leq r||A||_2$ ,
$||A||_2 \leq ||A||_\textup{F} \leq \sqrt{r}||A||_2$ ,
$||A||_\textup{F} \leq ||A||_* \leq \sqrt{r}||A||_\textup{F}$ .

Desuden gælder følgende ulighed, hvor $||\cdot||$ angiver en af de tre matrixnormer ovenfor,

$|A\mathbf x| \leq ||A||\,|\mathbf x|. \tag{12.16}$

Bevis

Vi gør brug af (12.10) til at vise (i), (ii) og (iii).

(i): Da de singulære værdier er positive, og $\sigma_1$ er den største, har vi:

$\underbrace{\sigma_1}_{||A||_2} \leq \underbrace{\sigma_1+\sigma_2+\dots+\sigma_r}_{||A||_*} \leq \sigma_1+\sigma_1+\dots+\sigma_1 = r\underbrace{\sigma_1}_{||A||_2}.$ (ii): Tilsvarende vurderinger, hvor det anvendes at kvadratrodfunktionen er en voksende funktion, giver:

$\underbrace{\sigma_1}_{||A||_2} = \sqrt{\sigma_1^2} \leq \underbrace{\sqrt{\sigma_1^2+\sigma_2^2+\dots+\sigma_r^2}}_{||A||_\textup{F}} \leq \sqrt{\sigma_1^2+\sigma_1^2+\dots+\sigma_1^2} = \sqrt{r}\underbrace{\sigma_1}_{||A||_2}.$ (iii): Vi anvender nu at de singulære værdier er positive, til at vise første ulighed:

$||A||_\textup{F}^2 = \sum_{i=1}^r \sigma_i^2 \leq \sum_{i=1}^r \sigma_i^2 + \sum_{i\neq j} \sigma_i\sigma_j = \Bigl(\sum_{i=1}^r\sigma_i\Bigr)^2 = ||A||_*^2.$ Til den anden ulighed bruger vi Cauchy-Schwarz ulighed (Sætning 9.5) på vektorerne $\boldsymbol{\sigma} = (\sigma_1,\dots,\sigma_r)$ og $\mathbf{1} = (1,\dots,1)$ i $\mathbb{R}^r$ :

$||A||_* = |\mathbf{1}\cdot \boldsymbol{\sigma}| \leq |\mathbf{1}|\, |\boldsymbol{\sigma}| = \sqrt{r}||A||_\textup{F}.$

Til at bevise (12.16) for de tre matrixnormer, er det nok at vise det for den spektrale norm, da den er den mindste af (i) og (ii). Det er klart at uligheden gælder hvis $\mathbf x = \mathbf 0$ , fordi så er begge sider lig 0. Antag nu at $\mathbf x\neq \mathbf 0$ . Her bruger vi formlen fra Proposition 12.7:

$|A\mathbf x| = \frac{|A\mathbf x|}{|\mathbf x|}|\mathbf x| \leq \max_{\mathbf y\neq \mathbf 0}\frac{|A\mathbf y|}{|\mathbf y|}|\mathbf x| = ||A||_2|\mathbf x|.$

Nu kan vi beskrive den relative fejl for en lav-rang approksimation. Hvis $||\cdot||$ er en matrixnorm (f.eks. en af dem fra (12.10)), så er den relative fejl på approksimationen $A_k$ fra (12.8) givet ved

$\frac{||A-A_k||}{||A||}. \tag{12.17}$ Ved at bruge SVD for $A$ , så får vi følgende formler som kun afhænger af de singulære værdier:

$\begin{aligned} \frac{||A-A_k||_2}{||A||_2} &= \frac{\sigma_{k+1}}{\sigma_1}, \\ \frac{||A-A_k||_*}{||A||_*} &= \frac{\sigma_{k+1}+\dots+\sigma_r}{\sigma_1+\dots+\sigma_r}, \\ \frac{||A-A_k||_\textup{F}}{||A||_\textup{F}} &= \sqrt{\frac{\sigma_{k+1}^2+\dots+\sigma_r^2}{\sigma_1^2+\dots+\sigma_r^2}}. \end{aligned}\tag{12.18}$

Det oplyses at følgende rang-3 matrix har de nedenfor angivne SVD og kompakt SVD:

$\begin{aligned} A &= \begin{pmatrix} 4 & i & 0 & -1 & 4 \\ 0 & 1 & 4 & -i & 0 \\ 4 & -i & 0 & 1 & 4 \\ 0 & -i & -4i & -1 & 0 \end{pmatrix} \\ &= \underbrace{\frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 0 & -1 & 0 \\ 0 & 1 & 0 & -i \\ 1 & 0 & 1 & 0 \\ 0 & -i & 0 & 1 \end{pmatrix}}_{U}\underbrace{\begin{pmatrix} 8 & & & 0 & 0 \\ & 6 & & 0 & 0 \\ & & 2 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{pmatrix}}_{\Sigma}\underbrace{\frac{1}{3\sqrt{2}}\begin{pmatrix} 3 & 0 & 0 & 0 & 3 \\ 0 & 1 & 4 & -i & 0 \\ 0 & -3i & 0 & 3 & 0 \\ -3 & 0 & 0 & 0 & 3 \\ 0 & 2\sqrt{2} & -2\sqrt{2} & -2\sqrt{2}i & 0 \end{pmatrix}}_{V^*} \\ &= \underbrace{\frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 0 & -1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \\ 0 & -i & 0 \end{pmatrix}}_{U_r}\underbrace{\begin{pmatrix} 8 & & \\ & 6 & \\ & & 2 \end{pmatrix}}_{\Sigma_r}\underbrace{\frac{1}{3\sqrt{2}}\begin{pmatrix} 3 & 0 & 0 & 0 & 3 \\ 0 & 1 & 4 & -i & 0 \\ 0 & -3i & 0 & 3 & 0 \end{pmatrix}}_{V_r^*}. \end{aligned}$ Vi kan nu bestemme approksimationerne $A_1$ og $A_2$ ved

$\begin{aligned} A_1 &= \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 0 \\ 1 \\ 0 \end{pmatrix}8\frac{1}{3\sqrt{2}}\begin{pmatrix} 3 & 0 & 0 & 0 & 3 \end{pmatrix} = \begin{pmatrix} 4 & 0 & 0 & 0 & 4 \\ 0 & 0 & 0 & 0 & 0 \\ 4 & 0 & 0 & 0 & 4 \\ 0 & 0 & 0 & 0 & 0 \end{pmatrix}\\ A_2 &= \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 0 \\ 0 & -i \end{pmatrix}\begin{pmatrix} 8 & \\ & 6 \\ \end{pmatrix}\frac{1}{3\sqrt{2}}\begin{pmatrix} 3 & 0 & 0 & 0 & 3 \\ 0 & 1 & 4 & -i & 0 \end{pmatrix} = \begin{pmatrix} 4 & 0 & 0 & 0 & 4 \\ 0 & 1 & 4 & -i & 0 \\ 4 & 0 & 0 & 0 & 4 \\ 0 & -i & -4i & -1 & 0 \end{pmatrix}. \end{aligned}\tag{12.19}$ Disse lav-rang approksimationer til $A$ har via (12.18) følgende relative fejl:

$\begin{aligned} \frac{||A-A_1||_2}{||A||_2} &= \frac{6}{8} = \frac{3}{4}, \\ \frac{||A-A_1||_*}{||A||_*} &= \frac{6+2}{8+6+2} = \frac{1}{2}, \\ \frac{||A-A_1||_\textup{F}}{||A||_\textup{F}} &= \sqrt{\frac{6^2+2^2}{8^2+6^2+2^2}} = \sqrt{\frac{5}{13}}, \end{aligned}$ og

$\begin{aligned} \frac{||A-A_2||_2}{||A||_2} &= \frac{2}{8} = \frac{1}{4}, \\ \frac{||A-A_2||_*}{||A||_*} &= \frac{2}{8+6+2} = \frac{1}{8}, \\ \frac{||A-A_2||_\textup{F}}{||A||_\textup{F}} &= \sqrt{\frac{2^2}{8^2+6^2+2^2}} = \frac{1}{\sqrt{26}}. \end{aligned}$ Hvis vi holder os til den spektrale norm, så svarer det til at $A_1$ har en relativ fejl på 75 procent, mens $A_2$ har en relativ fejl på 25 procent.

12.7 Numerisk teori og anvendelser

12.7.1 Pseudoinvers og mindste kvadraters løsning

I løbet af kurset har vi gang på gang stødt på singulære matricer, om det så er kvadratiske matricer der ikke er invertible eller om det er rektangulære matricer. På den anden side, ved vi at det altid er muligt at finde (mindst én) mindste kvadraters løsning til et ligningssystem.

Nu skal vi se hvordan vi ud fra en $m\times n$ matrix $A$ kan bruge dens SVD til at opskrive en såkaldt Moore-Penrose pseudoinvers $A^{+}$ .

Lad $A = U\Sigma V^*$ være SVD af en $m\times n$ matrix. Vi definerer nu en $n\times m$ (bemærk: omvendte dimensioner) diagonalmatrix

$\Sigma^{+} = \left(\begin{array}{c|c} \begin{matrix} 1/\sigma_1 & & \\ & \ddots & \\ & & 1/\sigma_r \end{matrix} & \Large 0\rule[-0.9ex]{0pt}{0pt} \\ \hline \Large 0\rule{0pt}{2.6ex} & \Large 0 \end{array}\right).$ Følgende $n\times m$ matrix kaldes (Moore-Penrose) pseudoinvers af $A$ :

$A^{+} = V\Sigma^{+} U^* = V_r\Sigma_r^{-1}U_r^*. \tag{12.20}$

Selv om man har en vis frihedsgrad til valgene af $U$ og $V$ i SVD'en, så viser det sig at den pseudoinverse $A^{+}$ er entydigt bestemt ud fra $A$ (ligesom at $A = U\Sigma V^*$ uanset hvilken SVD man har af $A$ ). Dette er dog ikke noget vi beviser i dette kursus.

Det viser sig at $A^{+} \mathbf b$ giver en mindste kvadraters løsning til ligningssystemet $A\mathbf x = \mathbf b$ . Matricen $A^+$ opfører sig altså som en ''næsten-invers'' til $A$ (deraf navnet pseudoinvers).

Vektoren

$\mathbf x_0 = A^{+}\mathbf b = V\Sigma^{+} U^*\mathbf b = V_r\Sigma_r^{-1}U_r^*\mathbf b$ er en mindste kvadraters løsning til ligningssystemet $A\mathbf x=\mathbf b$ .

Bevis

Beviset er en direkte udregning, hvor vi indsætter kompakt SVD udtryk for $A$ , $A^*$ og $\mathbf x_0$ , samt gør brug af (12.7):

$\begin{aligned} A^*A\mathbf x_0 &= (U_r\Sigma_r V_r^*)^*(U_r\Sigma_r V_r^*)V_r\Sigma_r^{-1} U_r^*\mathbf b \\ &= V_r\Sigma_r (U_r^*U_r) \Sigma_r (V_r^*V_r)\Sigma_r^{-1} U_r^*\mathbf b \\ &= V_r\Sigma_rU_r^*\mathbf b \\ &= A^*\mathbf b. \end{aligned}$ Vi har altså at $\mathbf x_0$ er en løsning til $A^*A\mathbf x=A^*\mathbf b$ .

Resultatet i Sætning 12.11 viser også, at hvis $A$ rent faktisk er invertibel så gælder det at $A^{-1} = A^{+}$ . Udover at det er en praktisk formel, så kan man også tænke på Sætning 12.11 som et alternativt bevis på at der altid findes mindst én mindste kvadraters løsning.

Men der kan jo sagtens være flere mindste kvadraters løsninger, helt præcist ved vi fra Kapitel 10 at

$\mathbf x_0 + \mathbf y$ er en mindste kvadraters løsning for ethvert $\mathbf y\in N(A)$ . Så hvad er så specielt ved formlen i Sætning 12.11?

Svaret på dette bliver lidt mere tydeligt når vi omskriver formlen:

$\mathbf x_0 = \Bigl(\frac{\mathbf u_1^*\mathbf b}{\sigma_1}\Bigr)\mathbf v_1 + \Bigl(\frac{\mathbf u_2^*\mathbf b}{\sigma_2}\Bigr)\mathbf v_2 + \dots + \Bigl(\frac{\mathbf u_r^*\mathbf b}{\sigma_r}\Bigr)\mathbf v_r. \tag{12.21}$

Her indser vi at $\mathbf x_0$ er en linearkombination af de første $r$ af $\mathbf v$ -vektorerne, som vi fra Sætning 12.2 ved er en ONB til $C(A^*) = N(A)^\perp$ . Det vil altså sige, at $\mathbf x_0$ er ortogonal på enhver vektor $\mathbf y\in N(A)$ , og derfor giver Pythagoras sætning at

$|\mathbf x_0 + \mathbf y|^2 = |\mathbf x_0|^2 + |\mathbf y|^2 \geq |\mathbf x_0|^2$ for alle $\mathbf y\in N(A)$ , og der er kun lighed til sidst hvis $\mathbf y = \mathbf 0$ . Vi har vist følgende resultat.

Til et lineært ligningssystem eksisterer en entydig mindste kvadraters løsning som har minimal norm, og den kan findes med formlen i Sætning 12.11.

Vi fortsætter fra Eksempel 12.9, og finder den pseudoinverse til

$A = \begin{pmatrix} 4 & i & 0 & -1 & 4 \\ 0 & 1 & 4 & -i & 0 \\ 4 & -i & 0 & 1 & 4 \\ 0 & -i & -4i & -1 & 0 \end{pmatrix},$ hvilket fra Definition 12.10 er

$A^+ = \underbrace{\frac{1}{3\sqrt{2}}\begin{pmatrix} 3 & 0 & 0 \\ 0 & 1 & 3i \\ 0 & 4 & 0 \\ 0 & i & 3 \\ 3 & 0 & 0 \end{pmatrix}}_{V_r}\underbrace{\begin{pmatrix} \frac{1}{8} & & \\ & \frac{1}{6} & \\ & & \frac{1}{2} \end{pmatrix}}_{\Sigma_r^{-1}}\underbrace{\frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & i \\ -1 & 0 & 1 & 0 \end{pmatrix}}_{U_r^*} = \frac{1}{144}\begin{pmatrix} 9 & 0 & 9 & 0 \\ -36i & 4 & 36i & 4i \\ 0 & 16 & 0 & 16i \\ -36 & 4i & 36 & -4 \\ 9 & 0 & 9 & 0 \end{pmatrix}.$ Hvis vi overvejer ligningssystemet $A\mathbf x=\mathbf b$ med $\mathbf b = (1, 0, 1, -1)^T$ , så vil den entydige mindste kvadraters løsning med minimal norm være givet ved

$A^+\mathbf b = \frac{1}{144}\begin{pmatrix} 9 & 0 & 9 & 0 \\ -36i & 4 & 36i & 4i \\ 0 & 16 & 0 & 16i \\ -36 & 4i & 36 & -4 \\ 9 & 0 & 9 & 0 \end{pmatrix}\begin{pmatrix} 1 \\ 0 \\ 1 \\ -1 \end{pmatrix} = \frac{1}{72}\begin{pmatrix} 9 \\ -2i \\ -8i \\ 2 \\ 9 \end{pmatrix}.$

12.7.2 Konditionstal og numerisk stabilitet

Vi starter nu med at fokusere på et ligningssystem

$A\mathbf x = \mathbf b$ hvor $A$ er en generel $m\times n$ matrix. Her kan man tænke på $A$ som en matematisk model for et system i f.eks. fysik eller kemi, og $\mathbf b$ betegner måledata. I en praktisk situation vil der typisk være små målefejl og tilsvarende vil en computerudregning have afrundingsfejl, så i virkeligheden løser man måske et andet problem

$A\mathbf x_\epsilon = \mathbf b + \boldsymbol{\epsilon},$ hvor vektoren $\boldsymbol{\epsilon}$ betegner en ukendt målefejl.

Spørgsmålet er nu, hvor stor påvirkning kan en sådan målefejl have på vores slutresultat $\mathbf x_\epsilon$ i forhold til resultatet $\mathbf x$ uden målefejl? Altså hvor stor er den relative fejl:

$\frac{|\mathbf x_\epsilon-\mathbf x|}{|\mathbf x|}$ i forhold til den relative målefejl:

$\frac{|\boldsymbol{\epsilon}|}{|\mathbf b|}.$

Lad $A$ være en matrix med rang $r$ . Overvej mindste kvadraters løsningerne $\mathbf x = A^{+}\mathbf b$ og $\mathbf x_\epsilon = A^{+}(\mathbf b+\boldsymbol{\epsilon})$ . Så gælder

$\frac{|\mathbf x_\epsilon-\mathbf x|}{|\mathbf x|} \leq \frac{\sigma_1}{\sigma_r}\frac{|\boldsymbol{\epsilon}|}{|\mathbf b|}.$ Her er antaget at $\mathbf x\neq\mathbf 0$ og $\mathbf b\neq\mathbf 0$ .

Bevis

Bemærk at $\mathbf x_\epsilon = A^{+}(\mathbf b+\boldsymbol{\epsilon}) = \mathbf x + A^{+}\boldsymbol{\epsilon}$ .

Nu bruger vi vores matrixnorm ulighed i (12.16) til at indse

$|\mathbf x_\epsilon-\mathbf x| = |A^{+}\boldsymbol{\epsilon}| \leq ||A^{+}||_2|\boldsymbol{\epsilon}| = \frac{1}{\sigma_r}|\boldsymbol{\epsilon}|, \tag{12.22}$ hvor $1/\sigma_r$ (reciprok til mindste singulære værdi for $A$ ) svarer til den største singulære værdi for $A^{+}$ . Tilsvarende har vi

$|\mathbf b| = |A\mathbf x| \leq ||A||_2|\mathbf x| = \sigma_1|\mathbf x|,$ hvilket omskrevet giver

$\frac{1}{|\mathbf x|} \leq \sigma_1\frac{1}{|\mathbf b|}. \tag{12.23}$ Produktet af (12.22) og (12.23) giver nu slutresultatet.

Forholdet mellem den største og mindste singulære værdi beskriver (i værste tilfælde) hvor meget målestøj påvirker en løsning til et lineært ligningssystem. Dette forhold kaldes også konditionstallet for matricen $A$ :

$\operatorname{\kappa}(A) = \frac{\sigma_1}{\sigma_r} = ||A||_2||A^{+}||_2. \tag{12.24}$

Eksempelvis vil en matrix med konditionstal på $10^6$ kunne forøge en lille relativ målefejl på $10^{-3}$ til en ganske stor relativ fejl på (mindste kvadraters) løsningen, svarende til $10^3$ .

I mange praktiske sammenhænge, og især med meget store matricer, er det ikke ualmindeligt at man ser så store konditionstal, og i særligt ustabile problemer vil det være meget større. Men som man kan se nedenfor, kan dette også forekomme for helt små matricer.

Lad os overveje et ligningssystem med matricen

$A = \begin{pmatrix} 1 & 0 \\ 0 & \mu \end{pmatrix}$ for et tal $0 < \mu < 1$ . Matricen har konditionstal på $\operatorname{\kappa}(A) = \mu^{-1}$ , så hvis f.eks. $\mu = 10^{-10}$ fås et meget stort konditionstal på $10^{10}$ . I en praktisk situation kunne $A$ være et resultat af nogle numeriske beregninger, hvor der på grund af afrundingsfejl står $\mu$ i stedet for 0.

Lad nu $\mathbf b = (1,0)^T$ og $\boldsymbol{\epsilon} = (0, \nu)^T$ hvor $\nu>0$ svarer til en lille fejl på andet koordinat. Løsningen til systemerne $A\mathbf x = \mathbf b$ og $A\mathbf x_\epsilon = \mathbf b+\boldsymbol{\epsilon}$ opfylder

$\mathbf x = \begin{pmatrix} 1 \\ 0 \end{pmatrix} \quad \text{og}\quad \mathbf x_\epsilon = \begin{pmatrix} 1 \\ \nu/\mu \end{pmatrix}.$ Det ses tydeligt at selv for en lille målefejl $\nu$ kan $\nu/\mu$ blive stort hvis $\mu$ er meget mindre end $\nu$ .

Hvis man sætter $\mu = 0$ sker der noget besynderligt: Matricen får det mere overskuelige konditionstal på $\operatorname{\kappa}(A) = 1$ , altså systemet er pludselig blevet numerisk stabilt. Nu er matricen ikke længere invertibel, så i stedet skal den pseudoinverse bestemmes, hvilket er

$\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}.$ I lige dette tilfælde vil fejl på andetkoordinatet af $\mathbf b$ -vektoren slet ikke have nogen påvirkning af mindste kvadraters løsningen med minimal norm. Specifikt kan man ikke vælge nogen vektor $\boldsymbol{\epsilon}$ så den relative fejl bliver større end $|\boldsymbol{\epsilon}|/|\mathbf b|$ .

12.7.3 Trunkeret SVD og Tikhonov regularisering

Ud fra konditionstallet $\operatorname{\kappa}(A) = \frac{\sigma_1}{\sigma_r}$ er det i anvendelser typisk ikke størrelsen af $\sigma_1$ der bliver problematisk. Derimod er det ofte at nogle af de singulære værdier, og derfor blandt andet $\sigma_r$ , kommer meget tæt på nul.

Et stort konditionstal er konsekvensen, hvilket gør løsning af $A\mathbf x=\mathbf b$ numerisk ustabilt (se Sætning 12.14) i forhold til små ''tilfældige'' fejl eksempelvis fra målinger i anvendelser, numeriske approksimationer eller afrundingsfejl i computerberegninger.

I dette afsnit skal vi undersøge hvordan man ofte i praksis tilnærmelsesvist løser numerisk ustabile lineære ligningssystemer.

Den første tilgang er den simpleste: Vi erstatter $A$ med en lav-rang approksimation $A_k$ hvor $k$ typisk er meget mindre end rangen af $A$ . Vi har netop at

$\operatorname{\kappa}(A_k) = \frac{\sigma_1}{\sigma_k},$ svarende til at vi har fjernet bidrag fra de mindste singulære værdier af $A$ . Vi kalder nu

$\mathbf x_{\textup{TSVD}} = A_k^+ \mathbf b \tag{12.25}$

for en trunkeret SVD (TSVD) regularisering af $A\mathbf x=\mathbf b$ .

Hvis vi kigger nærmere på (12.21) svarer TSVD til at fjerne bidrag med store værdier af $1/\sigma_j$ , som ganges på $\mathbf b$ der kan være ''forstyrret'' af tilfældig støj:

$\mathbf x_{\textup{TSVD}} = \Bigl(\frac{\mathbf u_1^*\mathbf b}{\sigma_1}\Bigr)\mathbf v_1 + \dots + \Bigl(\frac{\mathbf u_k^*\mathbf b}{\sigma_k}\Bigr)\mathbf v_k + \sout{\Bigl(\frac{\mathbf u_{k+1}^*\mathbf b}{\sigma_{k+1}}\Bigr)\mathbf v_{k+1} + \dots + \Bigl(\frac{\mathbf u_r^*\mathbf b}{\sigma_r}\Bigr)\mathbf v_r}.$ Antal led $k$ i beregningen af TSVD kaldes også en regulariseringsparameter, og valget af $k$ er en afvægtning af to faktorer:

Desto mindre $k$ er, desto dårligere approksimation er $A_k$ til $A$ , hvilket afspejler sig i $\mathbf x_{\textup{TSVD}}$ som approksimativ løsning til $A\mathbf x=\mathbf b$ .
Tilgengæld er stabiliteten for beregningen af $\mathbf x_{\textup{TSVD}}$ bedre desto mindre $k$ er.

I en praktisk sammenhæng er det nødvendigt at lave et kompromis, og vælge $k$ således at både approksimationsfejlen og beregningsfejlen er lav. Dette er ikke let at gøre generelt, og det afhænger blandt andet af statistiske ''støjmodeller'' for hvilke fejl der kan indgå i $\mathbf b$ . En metode til dette kaldes Discrepancy Principle. En anden metode, som dog er heurestisk men stadig meget populær, er L-kurve metoden som endda er opfundet af danske Per Christian Hansen.

I stedet for i TSVD at smide al informationen væk der kommer fra bidragene af de mindste singulære værdier, kan man i stedet lave en vægtning. Denne vægtning skal forsøge at bibeholde bidraget fra de største singulære værdier, men dæmpe bidragene fra de mindste singulære værdier.

For et $\alpha > 0$ definerer vi

$\sigma_{\alpha,j} = \frac{\sigma_j^2 + \alpha}{\sigma_j}. \tag{12.26}$ Kigger vi på $1/\sigma_{\alpha,j}$ ser vi nu

$\frac{1}{\sigma_{\alpha,j}} \simeq \begin{cases} 0 & \text{for lille } \sigma_j, \\ \frac{1}{\sigma_j} & \text{for stort } \sigma_j. \end{cases}$ Her er betydningen af ''lille'' og ''stort'' ret vag, men skal ses i forholdet mellem $\alpha$ og $\sigma_j$ . Figuren nedenfor giver et bedre indtryk, hvor denne dæmpning kan ses sammenlignet med trunkeringen i TSVD.

Plot over reciprokke singulære værdier, $1/\sigma_j$ , for en typisk matrix til sløring af billeder, samt tilsvarende værdier i TSVD og Tikhonov regularisering for et valg af regulariseringsparametre.

Hvis vi kalder $A_\alpha$ for matricen svarende til $A$ , men hvor $\sigma_j$ er erstattet af $\sigma_{\alpha,j}$ i dens SVD, så kan vi nu løse et nyt system:

$\mathbf x_\textup{Tikh} = A_\alpha^+\mathbf b. \tag{12.27}$

Dette kaldes en Tikhonov regularisering af $A\mathbf x = \mathbf b$ . Metoden er navngivet efter russisk matematiker Andrey Nikolayevich Tikhonov som har været en meget markant indflydelse på moderne metoder i numerisk analyse.

Rollen af $\alpha$ i Tikhonov regularisering svarer til den reciprokke rolle af $k$ i TSVD. For lille $\alpha$ fås lille approksimationsfejl men stor beregningsfejl, og omvendt for stort $\alpha$ .

En traditionel måde at karakterisere Tikhonov regularisering på, er som et minimeringsproblem der generaliserer mindste kvadraters metoden ( $\alpha = 0$ er mindste kvadraters metode):

For $\alpha>0$ er $\mathbf x_\textup{Tikh}$ den entydige løsning til minimeringsproblemet

$|A\mathbf x_\textup{Tikh}-\mathbf b|^2 + \alpha|\mathbf x_\textup{Tikh}|^2 = \min_{\mathbf x}\bigl(|A\mathbf x-\mathbf b|^2 + \alpha|\mathbf x|^2\bigr).$

Bevis *

Vi starter med at indse at

$|A\mathbf x-\mathbf b|^2 + \alpha|\mathbf x|^2 = |M\mathbf x - \mathbf c|^2 \tag{12.28}$ hvor

$M = \begin{pmatrix} A \\ \sqrt{\alpha}I_n \end{pmatrix} = \begin{pmatrix} U_r\Sigma_r V_r^* \\ \sqrt{\alpha}I_n \end{pmatrix}, \qquad \mathbf c = \begin{pmatrix} \mathbf b \\ \mathbf 0 \end{pmatrix}.$ Dermed er minimering af (12.28) svarende til mindste kvadraters løsning for $M\mathbf x = \mathbf c$ (Sætning 10.6). Derudover, da $\alpha > 0$ , gør identitetsmatricen i $M$ at samtlige søjler for RREF af $M$ er pivotsøjler, så $N(M) = \{\mathbf 0\}$ . Af Sætning 10.4 er der en entydig mindste kvadraters løsning til $M\mathbf x = \mathbf c$ .

Vi bestemmer nu komponenterne til normalligningerne. Vi begynder med $M^* M$ :

$M^* M = \begin{pmatrix} V_r\Sigma_rU_r^* & \sqrt{\alpha}I_n \end{pmatrix}\begin{pmatrix} U_r\Sigma_r V_r^* \\ \sqrt{\alpha}I_n \end{pmatrix} = V_r\Sigma_r^2 V_r^* + \alpha I_n.$ Ved at udvide $\Sigma_r^2$ til en $n\times n$ diagonalmatrix, hvor $\Sigma_r^2$ er i øverste venstre hjørne, samt anvende at $I_n = VV^*$ har vi samlet set

$M^* M = V\begin{pmatrix} \sigma_1^2 + \alpha & \\ & \ddots \\ & & \sigma_r^2 + \alpha \\ & & & \alpha \\ & & & & \ddots \\ & & & & & \alpha \end{pmatrix} V^*.$ Dens inverse bliver dermed

$(M^* M)^{-1} = V\underbrace{\begin{pmatrix} \frac{1}{\sigma_1^2 + \alpha} & \\ & \ddots \\ & & \frac{1}{\sigma_r^2 + \alpha} \\ & & & \frac{1}{\alpha} \\ & & & & \ddots \\ & & & & & \frac{1}{\alpha} \end{pmatrix}}_{D} V^* = VDV^*.$ Tilsvarende har vi

$M^*\mathbf c = \begin{pmatrix} V_r\Sigma_rU_r^* & \sqrt{\alpha}I_n \end{pmatrix}\begin{pmatrix} \mathbf b \\ \mathbf 0 \end{pmatrix} = V_r\Sigma_rU_r^*\mathbf b = V\Sigma^T U^*\mathbf b.$ Vi kan nu skrive mindste kvadraters løsningen til $M\mathbf x=\mathbf c$ som

$\begin{aligned} (M^* M)^{-1} M^*\mathbf c &= VDV^*V\Sigma^T U^* \mathbf b = VD\Sigma^T U^*\mathbf b \\ &= V \left(\begin{array}{c|c} \begin{matrix} \frac{\sigma_1}{\sigma_1^2 + \alpha} \\ & \ddots \\ & & \frac{\sigma_r}{\sigma_r^2 + \alpha} \end{matrix} & \Large 0 \\ \hline \Large 0\rule{0pt}{2.6ex} & \Large 0 \end{array}\right) U^*\mathbf b \\ &= A_\alpha^+\mathbf b = \mathbf x_\textup{Tikh}. \end{aligned}$ I udregningen af produktet $D\Sigma^T$ blev anvendt strukturen af $\Sigma$ kendt fra Sætning 12.2.

Det er værd at bemærke at for $\alpha>0$ har minimeringsproblemet i Sætning 12.17 en entydig løsning. For $\alpha = 0$ har det tilsvarende minimeringsproblem ikke nødvendigvis en entydig løsning (mængden af løsninger afhænger af $N(A)$ ), fordi dette svarer nemlig til mindste kvadraters problemet (Sætning 10.6).

Her skal bemærkes at $A_\alpha = A$ når $\alpha = 0$ , og så er $A^+\mathbf b$ som sagt den entydige mindste kvadraters løsning som har minimal norm (Proposition 12.12). Hvis man lader $\alpha\to 0$ i løsningen af minimeringsproblemet i Sætning 12.17, er det netop denne mindste kvadraters løsning som $\mathbf x_\textup{Tikh}$ konvergerer mod.

Det kan være kompliceret at illustrere disse metoder generelt med et simpelt visuelt eksempel. Et oplagt problem til dette kan være at fjerne sløring (deblurring) fra et billede taget med et kamera ude af fokus. I sådanne billeder vil der også være støj i det slørede billede, svarende til at der er en tilfældighed omkring antallet af fotoner der rammer de forskellige pixels i et billede, samt elektronisk støj når billede lagres. Dette er nok til at det inverse problem med at fjerne sløringen bliver numerisk ustabil.

Fjernelse af sløring af et billede af Andrey Nikolayevich Tikhonov med Tikhonov regularisering. Forskellige valg af regulariseringsparameteren $\alpha$ er anvendt. Oprindeligt skarpt billede er fra Wikipedia.

Et eksempel på dette kan ses i Figur 12.19 med Tikhonov regularisering, hvor det ses at det ''optimale'' billede kræver at $\alpha$ er hverken for stor eller lille. En tilsvarende situation gør sig gældende med TSVD.

12.8 Opgaver

Ud fra en SVD $A = U\Sigma V^*$ af matrix $A$ , hvad er SVD af $A^*$ ?

Ud fra en SVD $A = U\Sigma V^*$ af matrix $A$ , hvad er egenværdierne af $AA^*$ ? Hvad er nogle tilhørende egenvektorer?

Hint

Brug resultatet fra Opgave 12.20, og indsæt SVD for $A$ og $A^*$ i produktet.

Det oplyses at $|\det(W)| = 1$ for enhver unitær matrix $W$ . På baggrund af dette, vis at for enhver kvadratisk matrix $A$ med fuld rang, er $|\det(A)|$ lig produktet af de singulære værdier for $A$ .

Find de singulære værdier for matricen

$\begin{pmatrix} \sqrt{2} & 1 \\ 0 & \sqrt{2} \end{pmatrix}.$ Summen af de singulære værdier skal give $3$ .

Det oplyses at den reelle matrix

$A = \begin{pmatrix} 1 & -5 & 5 & 1 \\ 2 & 0 & 0 & -2 \\ -1 & -5 & 5 & -1 \\ 2 & 0 & 0 & -2 \end{pmatrix}$ har en SVD $U\Sigma V^T$ med matricerne

$U = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 \\ 1 & 0 & -1 & 0 \\ 0 & 1 & 0 & -1 \end{pmatrix},\quad \Sigma = \begin{pmatrix} 10 \\ & 4 \\ & & 2 \\ & & & 0 \end{pmatrix},\quad V = \frac{1}{\sqrt{2}}\begin{pmatrix} 0 & 1 & 1 & 0 \\ -1 & 0 & 0 & 1 \\ 1 & 0 & 0 & 1 \\ 0 & -1 & 1 & 0 \end{pmatrix}.$

Udregn lav-rang approksimationerne $A_1$ (rang 1) og $A_2$ (rang 2) til $A$ . (Husk den transponerede af $V$ i SVD'en).
Udregn de relative fejl $\frac{||A-A_1||}{||A||}$ og $\frac{||A-A_2||}{||A||}$ i din favorit matrixnorm.

Find kompakt SVD $U_r\Sigma_r V_r^*$ for matricen

$\begin{pmatrix} 1 & i \\ 0 & 0 \\ 0 & 0 \end{pmatrix}.$

I forlængelse af Opgave 12.25, find den entydige mindste kvadraters løsning med minimal norm for ligningssystemet

$\begin{pmatrix} 1 & i \\ 0 & 0 \\ 0 & 0 \end{pmatrix}\mathbf x = \begin{pmatrix} 1 \\ 2 \end{pmatrix}.$