9 Anvendelser af lineær algebra

9.1 Differentialligninger

Rutherfords og Soddys lov for radioaktivt henfald siger at en bestemt brøkdel $\lambda$ af et grundstof vil henfalde per tidsenhed. Hvis vi med $N(t)$ betegner antallet af atomer til tiden $t$ af grundstoffet, så kan loven skrives

$N(t+\Delta) - N(t) = -\lambda \Delta N(t). \tag{9.1}$ Ved at tidsintervallet $\Delta$ går mod $0$ fås derfor differentialligningen

$N'(t) = -\lambda N(t),$ som har løsningerne $N(t) = C e^{-\lambda t}$ , hvor $C$ er en konstant, som er givet ved antallet af atomer til tiden $t=0$ i.e., $C = N(0)$ . I mange anvendelser støder man på systemer af differentialligninger som

$\begin{aligned} x_1'(t) &= a_{11} x_1(t) + \cdots + a_{1n} x_n(t)\\ &\vdots\\ x_n'(t) &= a_{n1} x_1(t) + \cdots + a_{nn} x_n(t), \end{aligned}\tag{9.2}$ hvor opgaven så går ud på at at finde funktioner $x_1(t), \ldots, x_n(t)$ , som opfylder (9.2). I (9.2) er koefficienterne $a_{ij}$ konstanter (reelle tal).

Følgende eksempel er lånt fra Leons bog om anvendt lineær algebra. Vi har to forbundne kar hver indeholdende $200$ L vand. Til at begynde med indeholder det første kar $60$ gram salt og det andet $0$ gram salt. Når hanerne tændes løber der vand gennem systemet som indikeret nedenfor (per minut). Hanen, som tilfører $15$ L per minut, indeholder ferskvand.

Hvad er indholdet af salt i de to beholdere til tiden $t$ ? Her opstiller vi to funktioner $x_1(t)$ og $x_2(t)$ , som angiver saltindhold (i gram) i hver beholder til tiden $t$ . Lad os sige at $x_1(t)$ angiver saltindhold i beholderen, som indeholder $60$ gram til at starte med. Ved at betrage et lille tidsrum $\Delta$ får vi ved almindelig købmandsregning:

$\begin{aligned} x_1(t+\Delta) - x_1(t) &= -0.1\, \Delta\, x_1(t) + 0.025\, \Delta\, x_2(t)\\ x_2(t+\Delta) - x_2(t) &= 0.1\, \Delta\, x_1(t) - 0.1\, \Delta\, x_2(t), \end{aligned}$ som giver systemet

$\begin{aligned} x_1'(t) &= -0.1\, x_1(t) + 0.025\, x_2(t)\\ x_2'(t) &= 0.1\, x_1(t) - 0.1\, x_2(t) \end{aligned}$ af differentialligninger med begyndelsesbetingelserne $x_1(0)=60$ og $x_2(0)=0$ .

9.1.1 Løsning via egenværdier og egenvektorer

Lad os kalde $\mathbf x(t) = (x_1(t), \ldots, x_n(t))^T$ for en løsningsvektor til (9.2), hvis $x_1(t), \ldots, x_n(t)$ tilfredsstiller (9.2). Nedenstående siger at løsningsvektorerne minder om (er) et vektorrum.

Hvis $\mathbf x(t)$ og $\mathbf y(t)$ er løsningsvektorer til (9.2) og $\lambda, \mu\in \mathbb{R}$ , så er

$\lambda \mathbf x(t) + \mu \mathbf y(t)$ også en løsningsvektor til (9.2).

Bevis

Beviset følger ved direkte indsætning under brug af

$(\lambda \mathbf x(t) + \mu \mathbf y(t))' = \lambda \mathbf x'(t) + \lambda \mathbf y'(t).$

Differentialligningssystemet (9.2) kan skrives via matrixmultiplikation som

$\begin{pmatrix} x_1'(t)\\ \vdots\\ x_n'(t) \end{pmatrix} = A \begin{pmatrix} x_1(t)\\ \vdots\\ x_n(t) \end{pmatrix}, \tag{9.3}$ hvor

$A = \begin{pmatrix} a_{11} & \cdots & a_{1n}\\ \vdots & \ddots & \vdots\\ a_{n1} & \cdots & a_{nn} \end{pmatrix}.$ Egenværdier og egenvektorer for $A$ indgår overraskende i løsningen af (9.2). Essensen er følgende resultat, som følger ved en ret enkel udregning.

Hvis $\lambda$ er en egenværdi for $A$ og $\mathbf v$ en egenvektor hørende til $\lambda$ , så er

$\mathbf x(t) = e^{\lambda t} \mathbf v$ en løsningsvektor til (9.2).

Bevis

For $\mathbf x(t)$ har vi via (9.3) at

$\mathbf x'(t) = \lambda e^{\lambda t} \mathbf v = e^{\lambda t} A \mathbf v,$ som ved division med $e^{\lambda t}$ netop giver det ønskede.

Vi har ikke defineret vektorrum generelt, men man kan vise at løsningsvektorerne til (9.2) udgør et $n$ -dimensionalt underrum i vektorrummet af alle vektorfunktioner med passende egenskaber.

Hvis man i tilknytning til problemet om at løse (9.2) forlanger at begyndelsesbetingelserne

$\begin{aligned} x_1(0) &= y_1\\ &\vdots\\ x_n(0) &= y_n \end{aligned}$ skal være opfyldt, så findes kun en løsning med disse egenskaber for en given vektor

$\mathbf y = \begin{pmatrix} y_1\\ \vdots\\ y_n \end{pmatrix}.$ Hvis $A$ har $n$ forskellige egenværdier $\lambda_1, \ldots, \lambda_n$ med tilhørende egenvektorer $\mathbf v_1, \ldots, \mathbf v_n$ kan denne løsning findes ved at bestemme konstanter $C_1, \ldots, C_n$ så

$\mathbf x(t) = C_1 e^{\lambda_1 t} \mathbf v_1 + \cdots + C_n e^{\lambda_n t} \mathbf v_n.$ Disse konstanter bestemmes ved at løse ligningssystemet

$C_1 \mathbf v_1 + \cdots + C_n \mathbf v_n = \begin{pmatrix} y_1\\ \vdots\\ y_n \end{pmatrix},$ som skrevet ud bliver et ligningssystem med $n$ ligninger og $n$ ubekendte: $C_1, \ldots, C_n$ . Dette ligningssystem har en entydig løsning, da $\mathbf v_1, \ldots, \mathbf v_n$ udgør en basis.

Lad os nu afprøve vores observationer på Eksempel 9.1. Matricen

$\begin{pmatrix} -0.1 & 0.025\\ 0.1 & -0.1 \end{pmatrix}$ har egenværdierne $-0.15$ og $-0.05$ med tilhørende egenvektorer

$\begin{pmatrix} -1\\ 2 \end{pmatrix}\qquad\mathrm{og}\qquad \begin{pmatrix} 1\\ 2 \end{pmatrix}$ Via Proposition 9.3 og Proposition 9.2 er

$\begin{pmatrix} x_1(t)\\ x_2(t) \end{pmatrix} = C_1 e^{-0.15 t} \begin{pmatrix} -1\\ 2 \end{pmatrix} + C_2 e^{0.05 t} \begin{pmatrix} 1\\ 2 \end{pmatrix}$ derfor en løsningsvektor for vilkårlige $C_1, C_2\in \mathbb{R}$ . Med begyndelsesbetingelserne $x_1(0) = 60$ og $x_2(0) = 0$ kan vi derfor bestemme konstanterne $C_1$ og $C_2$ ud fra ligningssystemet

$\begin{pmatrix} 60\\ 0 \end{pmatrix} = C_1 \begin{pmatrix} -1\\ 2 \end{pmatrix} + C_2 \begin{pmatrix} 1\\ 2 \end{pmatrix},$ som har løsningerne $C_1 = -30$ og $C_2 = 30$ . De endelige løsninger bliver derfor

$\begin{aligned} x_1(t) &= 30 e^{-0.15 t} + 30 e^{-0.05 t}\\ x_2(t) &= -60 e^{-0.15 t} + 60 e^{-0.05 t}. \end{aligned}$ Efter en time er der kun $1.49731$ gram salt i den første beholder ( $(x_1(t)$ ) og $2.97982$ gram salt i den anden beholder ( $(x_2(t)$ ).

9.1.2 Oscillerende løsninger

Hvordan fortolkes en kompleks egenværdi $\lambda\in \mathbb{C}$ og en tilhørende egenvektor $\mathbf v\in \mathbb{C}^n$ for $A$ med hensyn til løsningen af differentialligningssystemet

$\mathbf x'(t) = A \mathbf x(t)? \tag{9.4}$ Det giver stadig god mening matematisk at sætte $\mathbf x(t) = e^{\lambda t} \mathbf v$ ind i (9.4) og se at ligningen er opfyldt, men her er $\mathbf x(t)$ en løsningsvektor med komplekse koordinater for $t$ . Lad os antage at $\lambda = a + i b$ og skrive $\mathbf v = \mathbf v_1 + i \mathbf v_2$ med $\mathbf v_1, \mathbf v_2\in \mathbb{R}^n$ . Da $A$ har reelle indgange er $A$ invariant med hensyn til kompleks konjugering det vil sige $\bar{A} = A$ . Derfor er $\bar{\lambda} = a - i b$ også en egenværdi for $A$ med egenvektor $\bar{\mathbf v} = \mathbf v_1 - i \mathbf v_2$ , da

$\bar{\lambda} \bar{\mathbf v} = \overline{\lambda \mathbf v} = \overline{A \mathbf v} = \bar{A} \bar{\mathbf v} = A \bar{\mathbf v}.$ Opdagelsen er at realdelen og imaginærdelen

$\mathrm{Re\,}\, e^{\lambda t} \mathbf v\qquad\mathrm{og}\qquad \mathrm{Im}\, e^{\lambda t} \mathbf v$ er løsninger til $\mathbf x'(t) = A \mathbf x(t)$ . Dette følger nemlig ud fra identiteterne

$\begin{aligned} \mathrm{Re\,}\, e^{\lambda t} \mathbf v = \frac{1}{2} \left(e^{\lambda t} \mathbf v + e^{\bar{\lambda} t} \bar{\mathbf v}\right)\\ \mathrm{Im}\, e^{\lambda t} \mathbf v = \frac{1}{2} \left(e^{\lambda t} \mathbf v - e^{\bar{\lambda} t} \bar{\mathbf v}\right) \end{aligned}$ ved at benytte Proposition 9.2. Real- og imaginærdelene kan udregnes via almindelig multiplikation af komplekse tal ud fra opspaltningen

$e^{\lambda t} \mathbf v = e^{ a t} (\cos(b t) + i \sin(b t)) (\mathbf v_1 + i \mathbf v_2)$ Her får man

$\begin{aligned} \mathrm{Re\,}\, e^{\lambda t} \mathbf v &= e^{a t}\left(\cos(b\, t) \mathbf v_1 - \sin(b\, t) \mathbf v_2\right)\\ \mathrm{Im}\, e^{\lambda t} \mathbf v &= e^{a t}\left(\cos(b\, t) \mathbf v_2 + \sin(b\, t) \mathbf v_1\right) \end{aligned}\tag{9.5}$

Differentialligningen $y'' = -k y$ , hvor $k > 0$ er en konstant, kan ved et klassisk trick omskrives til

$\begin{aligned} y' &= x\\ x' &= -k y. \end{aligned}$ Her er differentialligningsystemet

$\begin{pmatrix} y'\\ x' \end{pmatrix} = \begin{pmatrix} 0 & 1\\ -k & 0 \end{pmatrix} \begin{pmatrix} y\\ x \end{pmatrix}$ og dermed er

$A = \begin{pmatrix} 0 & 1\\ -k & 0 \end{pmatrix}$ med egenværdien $\lambda = \sqrt{k}\, i$ og tilhørende egenvektor

$\mathbf v = \begin{pmatrix} 1 \\ \sqrt{k}\, i \end{pmatrix} = \begin{pmatrix} 1 \\ 0 \end{pmatrix} + i\, \begin{pmatrix} 0 \\ \sqrt{k} \end{pmatrix}.$ Nu kan en løsning til den oprindelige differentialligning udregnes via (9.5) til

$y(t) = C_1 \cos(\sqrt{k}\, t) + C_2 \sin(\sqrt{k} t)$ for passende konstanter $C_1, C_2$ .

9.2 Principal component analysis

Nedenstående anvendelse kommer fra kemi og er skrevet af Frank Jensen. Principal Component Analysis (PCA) er en hyppigt anvendt metode til at uddrage information fra store datamængder. Et eksempel er en computer simulering på et microsekund af et protein indeholdende $10^4$ atomer, hvor den rå datamængde er $10^5$ tidsmæssige adskilte positioner af $10^4$ atom koordinater. Langt størstedelen af denne information er tilfældige termiske bevægelser, som ikke er interessante, mens koordinerede atombevægelser, der ændrer proteinets struktur er interessante. Et andet eksempel er korrelationen mellem molekylers struktur og deres biologiske virkning, hvor et molekyles vekselvirkninger med det biologiske target kan kvantificeres ved dets egenskaber i f.eks. $10^4$ punkter i det $3$ -dimensionale rum omkring molekylet. I en Quantitative Structure Activity Relationship (QSAR) forsøger man at finde hvilke områder omkring et molekyle, der er vigtig for den biologiske virkning, ud fra informationen om hvordan de $10^4$ beskrivende variable for f.eks. $50$ molekyler korrelerer med deres biologiske aktivitet. Den rå information kan arrangeres i en rektangulær matrix $M$ , og vi er interesseret i korrelationen mellem elementerne i matricen. Dette kan vi finde ud fra en analyse af $A = M^t M$ , som er en symmetrisk kvadratisk matrix. En sådan matrix kan ifølge noterne altid diagonaliseres ved en unitær transformation, hvor $U$ -matricen indeholder egenvektorerne.

$A = M^t M, \qquad \Lambda = U^t A U. \tag{9.6}$

Den omvendte transformation betyder at den originale matrix kan konstrueres ud fra egenværdierne og egenvektorerne.

$A = U \Lambda U^t \tag{9.7}$

Ideen i PCA er at repræsentere informationen i $A$ matricen som en approksimation ved kun nogle få egenvektorer. Egenværdierne fra diagonalisering af A matricen, relativt til summen af alle egenværdier, giver et mål for, hvor stor en brøkdel af den originale information et given antal egenvektorer kan repræsentere. Egenvektorerne kaldes Principal Components, og egenvektoren svarende til den største egenværdi beskriver den største variation af de originale variable, egenvektoren med den næst-største egenværdi beskriver den næst-største variation af de original variable, etc. Ofte kan man repræsentere 80-90% af informationen i en matrix med dimension ~ $10^4$ med kun nogle få ( $1$ - $5$ ) Principal Components.

9.3 Spin

Kvantefysik er en ekstremt nøjagtig matematisk model. Den beskriver verden på partikel (eller felt) niveau, så vi er altså nede i det mest submikroskopiske. Teorien strider mod al sund fornuft, og den sunde fornuft taber altid kampen. I denne teori beskrives et fysisk systems tilstand som en vektor $\mathbf v$ af længde 1 i et vektorrum med prikprodukt over de komplekse tal. Teorien kan forudsige hvad resultat af forskellige målinger kan give. De egenskaber som vi kan måle kaldes observable. Systemets position, hastighed, momentum, energi og så videre er alle eksempler på observable. Opskriften er at alle målinger vi kan udføre, altså alle observable, er repræsenterede af hermiteske matricer. Resultatet af en måling er en egenværdi af denne matrix. Hvis $V$ er et endeligt dimensionelt vektorrum er der altså kun endelig mange mulige resultater (hvorfor?)! Hvis vi i praksis udfører en måling på systemet forudsiger teorien ikke hvad for en egenværdi vi får ud af målingen, men giver kun sandsynligheder. Hvis tilstandsvektoren $\mathbf v=c_1\psi_1+c_2\psi_2$ er en linearkombination af to egenvektorer $\psi_1$ og $\psi_2$ hørende til to forskellige egenværdier $E_1$ og $E_2$ for den hermiteske energioperator kunne teorien for eksempel forudsige ``med 33 procents sandsynlighed giver målingen af energien $E_1$ , og med 67 procents sandsynlighed giver målingen af energien $E_2$ ''. Disse sandsynligheder $p_1$ og $p_2$ kan beregnes med en simpel formel:

$p_i=|c_i|^2|\psi_i| ^2$ For at gøre formlen endnu mere simpel plejer man at vælge eigenvektorer af længde 1, det vil sige så at de også er tilstandsfunktioner, og så at $|\psi_i|=1$ . Hvis man gør det er altså $p_i=|c_i|^2$ .

Opgave

Vis at $p_1+p_2=1$ ! Der skal helt sikkert bruges at $|\mathbf v| =1$ .

Dette lyder selvfølgelig som det rene nonsens, og I skal ikke have nogle illusioner om at det senere vil blive mindre underligt bare fordi man lærer mere om det, men det som teorien forudsiger er faktisk det man får ud af at gentage målingen mange gange og tælle op.

$\phantom{phantom}$ En beroligende bemærkning er at selv om de Hermiteske matricer har komplekse indgange, så giver disse målinger altid reelle tal, fordi vi har jo set at hvis $A$ er en hermitesk matrix, så er dens egenværdier relle. Det ville jo føles lidt uhyggeligt at sidde i et fly hvis piloten fortalte i speakeren at vi nu flyver i en højde af $10+3i$ kilometer. Nu kan man spørge: Hvis en partikels position er en observabel, hvordan kan det være at der kun er endeligt mange muligheder for en partikels position? Kan vi ikke flytte den $x$ meter i en bestemt retning, hvor $x$ er et vilkårligt reelt tal? Det fulde svar på dette spørgsmål er ret indviklet, men den korte version er at i dette tilfælde skal man betragte Hermiteske operatorer på vektorrum som ikke er af endelig dimension, det vil sige, der findes ikke en basis for vektorrummet der består af endeligt mange vektorer.

$\phantom{phantom}$ Nu til et konkret eksempel. Spin er en observabel som vi ikke kender fra den makroskopiske verden. Vi kan udføre følgende type måling. Den minder dog en del om impulsmoment, der fortæller noget om hvor hurtig noget roterer omkring en akse. Givet en enhedsvektor $\mathbf u$ i rummet kan vi måle en partikels spin i denne retning ved at sende den gennem et passende magnetfelt, og se hvor meget den bliver afledet af magnetfeltet. Den sunde fornuft siger nu at denne afledning kan ske med et vinkel der variere kontinuert. Man det er ikke det der sker. Partiklen bliver afledet, enten opad eller nedad, med en bestemt konstant vinkel. Denne vinkel er given af partiklens ``spin'', som kan opfattes som en form for impulsmoment (angulært moment). Dette var et af de tidlige eksperimenter (Stern-Gerlach, 1922) som viste nødvændigheden af at betragte kvantisering, i dette tilfælde en kvantisering af ``magnetisk impulsmoment'', som altså kun kan antage to værdier. I beskrivelsen af eksperimentet har jeg tilladt mig nogle hvide løgne og udeladelser for at koncentrere på det væsentlige.

$\phantom{phantom}$ Her er en model for dette fenomen. Lad os sige at vi betragter en elektron. Vi vil lave en måling af elektronens spin. For det første skal vi vælge enhedsvektoren $\mathbf u=(u_x,u_y,u_z)^T\in \mathbb{R}^3$ , $| \mathbf u| =1$ . For at beregne partiklens spin i retning $\mathbf u$ , skal vi bruge en hermitesk operator. Elektronen har en indre struktur som er givet som en tilstandsvektor $\mathbf y=(z_1,z_2)\in \mathbb{C}^2$ . Denne vektor betegnes som elektronens spin. Observablen ``spin'' svarer til en bestemt hermitesk operator, men hvad for en? Vi indfører de tre berømte Paulimatricer. De er komplekse $2\times 2$ matricer

$\sigma_x= \begin{pmatrix} 0 & 1\\ 1 & 0 \end{pmatrix} \quad \sigma_y= \begin{pmatrix} 0 & -i\\ i & 0 \end{pmatrix} \quad \sigma_z= \begin{pmatrix} 1 & 0\\ 0 & -1 \end{pmatrix}.$

Opgave

Vis at de tre Paulimatricer er hermiteske matricer. Vis at enhver hermitesk $2\times 2$ matrix $M$ kan skrives på en og kun en måde som

$H=u_x\sigma_x+u_y\sigma_y+u_z\sigma_z+\lambda I_2$ hvor $u_x,u_u,u_z,\lambda$ er relle tal og $I_2=\begin{pmatrix} 1 & 0\\ 0 & 1 \end{pmatrix}.$ Overvej om Paulimatricerne kommuterer, det vil sige hvorvidt $P_iP_j=P_jP_i$ for forskellige $i,j$ .

Det viser sig at den hermiteske operator som beregner det spin vi observerer i retningen $\mathbf u=(u_x,u_y,u_z)^T\in \mathbb{R}^3$ er

$H=u_x\sigma_x+u_y\sigma_y+u_z\sigma_z.$

Antag at $\mathbf u=\begin{pmatrix}4/9\\4/9\\7/9\end{pmatrix}$ . Vi antager at en elektronen er i en tilstand som beskrives ved vektoren $\mathbf v=(\frac{1+i}2,\frac{1-i}2)^T$ . Vi ønsker at beregne det forventede udfald af at måle elektronens spin i retning $\mathbf u$ . Ved et rent held er begge de to vektorer enhedsvektorer. Målingen vil altså resultere i en egenvektor til matricen

$H=\frac 49\sigma_x+\frac 49\sigma_y+\frac 79\sigma_z= \begin{pmatrix} \frac 79&\frac 49 - \frac 49 i\\ \frac 49 +\frac 49 i & -\frac 79 \end{pmatrix}$ Det karakteristiske polynomium for $H$ er

$\det(H-\lambda I_2)= \det \begin{pmatrix} \frac 79-\lambda&\frac 49 - \frac 49 i\\ \frac 49 +\frac 49 i & -\frac 79-\lambda \end{pmatrix} =\lambda^2-1.$ Rødderne i det karakteristiske polynomium er $\lambda=1$ og $\lambda=-1$ . Der er altså kun to mulige resultater af målingen, nemlig $\pm 1$ . Lad os vedtage at $\lambda =1$ svarer til at spinnet er rettet langs $\mathbf u$ , og $\lambda=-1$ til at spinnet er rettet modsat $\mathbf u$ . Denne vedtægt er i al væsentlighed et spørgsmål om notation. Vi finder tilhørende egenvektorer ved at løse ligninger:

$\begin{aligned} \psi_1&=(4,1+i)^T\\ \psi_2&=(1,-2-2i)^T \end{aligned}$ $\psi_1$ er en egenvektor tilhørende egenværdi 1, og $\psi_2$ er en egenvektor hørende til egenværdi -1. For en sikkerheds skyld laver vi prøve, som man altid skal.

$\begin{aligned} \begin{pmatrix} \frac 79&\frac 49 - \frac 49 i \\ \frac 49 +\frac 49 i & -\frac 79 \end{pmatrix} \begin{pmatrix} 4\\ 1+i \end{pmatrix} &= \frac 19 \begin{pmatrix} 7\cdot4 +(4 - 4i)(1+i)\\ (4 +4 i)\cdot 4+(-7)(1+i) \end{pmatrix}\\ &= \frac 19 \begin{pmatrix} 28 +(8)\\ 16 +16 i+(-7-7i) \end{pmatrix}\\ &= \begin{pmatrix} 4\\ 1+i \end{pmatrix}, \end{aligned}$ og

$\begin{aligned} \begin{pmatrix} \frac 79&\frac 49 - \frac 49 i\\ \frac 49 +\frac 49 i & -\frac 79 \end{pmatrix} \begin{pmatrix} 1\\ -2-2i \end{pmatrix} &= \frac 19 \begin{pmatrix} 7 +(4 - 4i)(-2-2i)\\ 4 +4 i+(-7)(-2-2i) \end{pmatrix}\\ &= \frac 19 \begin{pmatrix} 7 +(-16)\\ 4 +4 i+(14+14i) \end{pmatrix}\\ &= \begin{pmatrix} -1\\ 2+2i \end{pmatrix}. \end{aligned}$ Vi udtrykker nu $\mathbf v$ i den ortogonale basis for $\mathbb{C}^2$ der består af $\psi_1$ og $\psi_2$ .

$\begin{pmatrix} \frac{1+i}2\\ \frac{1-i}2 \end{pmatrix}= c_1 \begin{pmatrix} 4\\ 1+i \end{pmatrix} + c_2 \begin{pmatrix} 1 \\ -2-2i \end{pmatrix}$ Vektorerne $\psi_i$ er ikke enhedsvektorer, og kvadraterne på deres normer er $|\psi_1|^2=16+2=18$ , $|\psi_2|^2=1+8=9$ . Ved at løse ligninger finder vi at $c_1=\frac 1{18}(2+i)$ , $|c_1|^2=5/324$ og $c_2=\frac 1{18}(1+5i)$ , $|c_2|^2=26/324$ Vi laver selvfølgelig prøve, fordi det gør man:

$\begin{aligned} \frac 1{18}(2+i) \begin{pmatrix} 4\\ 1+i \end{pmatrix} &+ \frac 1{18}(1+5i) \begin{pmatrix} 1 \\ -2-2i \end{pmatrix} \\ &= \frac 1{18}\left[ \begin{pmatrix} (2+i)\cdot 4\\ (2+i)(1+i) \end{pmatrix} + \begin{pmatrix} 1+5i\\ (1+5i)(-2-2i) \end{pmatrix} \right]\\ &= \frac 1{18}\left[ \begin{pmatrix} 8+4i\\ 2-1+2i+i \end{pmatrix} + \begin{pmatrix} 1+5i\\ -2+10-2i-10i \end{pmatrix} \right]\\ &= \frac 1{18} \begin{pmatrix} 9+9i\\ 9-9i \end{pmatrix}\\ &= \begin{pmatrix} \frac{1+i}2\\ \frac{1-i}2 \end{pmatrix} \end{aligned}$ Modellen siger nu at sandsynligheden for at elektronens spin bliver målt til at være rettet langs $\mathbf u$ er $|c_1|^2|\psi_1|^2=\frac {5}{364} \cdot 18=5/18$ og at sandsynligheden for at spinnet bliver modsat mod $\mathbf u$ er $|c_2|^2|\psi_2|^2=\frac {26}{364} \cdot 9=13/18$ . Dem der synes at dette er alt for intuitivt og indlysende og har brug for noget mere hjernefrysende anbefales at fortsætte studiet med Bells ulighed.

9.4 En støtte vektor maskine

Artificiell intelligens er et stort område som bruger mange forskellige metoder. Nogle af de mest effektive af disse er inspireret fra biologi og neurologi, men vi vil ikke gå ind på den side af sagen. En almindelig forudsætning er at man har adgang til en meget stor database, og at hver enkelt element i denne database kan beskrives som en vektor i et vektorrum $F^N$ af meget høj dimension. Det er altså tale om en stor mængde af vektorer $v_i\in F^N$ . Et eksempel ville for eksempel være en samling af billeder, repræsenterede ved farven i hver enkelt pixel. Opgaven er at foretage sig noget intelligent med denne meget store datamængde. Fordi data er givet ved vektorer er det ikke så forbavsende at lineær algebra næsten altid spiller en stor rolle. Som et eksempel som er blevet brugt i seriøse anvendelser, vil vi diskutere en ``support vector machine''. For en mere udførlig beskrivelse af matematikken bag dette anbefaler vi en forelæsning på MIT af Patrick Winston. Selv om man ikke er interesseret i matematikken er historien spændende, Winston fortæller den fra ca 46:19.

$\phantom{phantom}$ For at forklare metoden vil vi arbejde med et konkret men lidt kunstigt eksempel. Antag at vi har en liste af byer, og at vi for hver by på listen kender dens longitud og lattitud $(u_1,u_2)$ og desuden ved hvad land byen ligger i. Opgaven er at skrive et program som helt automatisk kan placere en by som ikke er på vores liste i det rigtige land. For at gøre det simpelt antager vi at vi kun betragter to lande. I nogle situationer kunne det være nemt. For eksempel følger en stor del af grænsen mellem USA og Canada den 49ende parallel, så hvis vi kun interessere os for byer i dette område, kunne vi bruge funktionen $f(u_1,u_2)=u_2-49$ . Hvis for en by med kordinater $\mathbf u=(u_1,u_2)^T$ gælder at $f(u_1,u_2)<0$ så ligger byen i USA, og hvis $f(u_1,u_2)>0$ så er den i Canada. Mere generelt kunne man forestille sig lande med snorlige grænser som ikke nødvendigvis er longitud storcirkle eller latitud paraleller. Så kunne man finde en lineær funktion (med konstantterm $b$ ) $f(u_1,u_2)=a_1u_1+a_2u_2+b$ så at betingelsen $f(u_1,u_2)>0$ afgjorde en bys tilhørighedsforhold. Vi kan bruge vores liste af kendte byer til at finde gode vurderinger af $a_1,a_2,b$ .

$\phantom{phantom}$ Som et lidt vanskeligere eksempel kan vi prøve at skelne byer i Danmark fra byer i Norge. Der er ikke en oplagt grænse mellem Danmark og Norge, men vi kan stadig lægge en linje gennem Skagerak der har Danmark på den ene side og Norge på den anden. Det kan vi også fortolke som en lineær funktion $f(u_1,u_2)=a_1u_1+a_2u_2+b$ . Vi vil gerne vælge denne funktion så at den skelner mellem de to muligheder så godt som det er muligt. Vi vil ikke gå i detaljer med hvordan man finder denne funktion, men der eksisterer gode algoritmer som kan gøre det. De hører under noget der kaldes konveks optimering, som sådan set også bygger ovenpå lineær algebra. Man kan altså give listen med byer til en computer, og den producerer helt af sig selv en funktion $f$ sådan at hvis $\mathbf u_i$ er koordinater for en af byerne på vores liste så er $f(\mathbf u_i)>0$ hvis og kun hvis den tilsvarende by er en by i Danmark. Og når vi har funktionen $f$ kan vi bruge den til at lave et rimeligt gæt på om en by med koordinater $(u_1,u_2)$ er i Danmark eller Norge. Dette gæt er nemlig afgjort af fortegnet af $f(\mathbf u)$ , og det virker lige så fint hvis vi har to mængder $D$ og $N$ i et Euklidisk run $\mathbb{R}^n$ . Men forudsætningen er at de to mængder $D$ og $N$ rent faktisk kan skelnes ad ved en lineær afbildning Hvis det ikke kan lade sig gøre bliver algoritmen ved i det uendelige med at prøve på at løse et uløseligt problem.

$\phantom{phantom}$ Men antag nu at vi er interesserede i byer der ligger enten i Sverige eller i Danmark. Selv om de to lande er skilt fra hinanden af Øresunds og Kattegats vande er det umuligt at skelne dem ad med en lineær funktion $f$ . Specielt er Bornholm problematisk. Vi kan altså ikke bruge den gode algoritme. Men vi kan gøre noget andet. Vi finder en ikke-lineær afbinding $\phi:\mathbb{R}^2\to \mathbb{R}^k$ . For eksempel kunne vi vælge $\phi(u_1,u_2)=(u_1u_1,u_1u_2,u_2u_1,u_2u_2)$ , eller skrevet på matrix form $\phi(\mathbf u)=\mathbf u \mathbf u^T$ .

Opgave

Vis at med det $\phi$ vi har valgt ovenfor er $\phi(\mathbf u)\cdot \phi(\mathbf v)=(\mathbf u\cdot \mathbf v)^2$ .

Selv om vi ikke kan skelne mængden $D$ fra $S$ med en lineær afbildning, så kan vi måske skelne deres billeder $\phi(D)\subset \mathbb{R}^k$ og $\phi(S)\subset \mathbb{R}^k$ fra hinanden med en lineær afbildning. En pointe er nu at det væsentlige input i den fine algoritme som kan finde en lineær afbildning der skelner $D$ fra $S$ er netop de indre produkter $\mathbf u_i\cdot \mathbf u_j$ . Så hvis vi kan skelne $\phi(D)$ fra $\phi(S)$ med en lineær afbildning, og hvis kan angive en formel for de indre produkter $\phi(\mathbf u_i)\cdot \phi(\mathbf u_j)$ så kan algoritmen fortælle os nøjagtig hvad for et $f:\mathbb{R}^k\to \mathbb{R}$ vi skal bruge. Det vil sige, hvis $\mathbf u_i$ er en af vores byer så er $\mathbf u_i$ i Danmark hvis $f(\phi(\mathbf u_i))>0$ og i Sverige hvis $f(\phi(\mathbf u_i))<0$ .

$\phantom{phantom}$ Antag nu at $\mathbf u$ for eksempel er koordinaterne for Hesselø. Selv om Hesselø (Hesselö) ikke er på vores liste af kendte byer $\mathbf u_i$ , kan vi lave det rimelige gæt at hvis $f(\phi(\mathbf u))>0$ så hører Hesselø til Danmark. Vi kan selvfølgelig ikke vide det helt sikkert.

Opgave

Lad $D=\{(0,1),(1,0)\in \mathbb{R}^2\}$ og $S=\{(0,0),(1,1)\}\in \mathbb{R}^2\}$ . Overvej at man ikke kan finde reelle tal $a_1,a_2,b$ så at hvis $(u_1,u_2)\in D$ så er $a_1u_1+a_2u_2+b>0$ og hvis $(u_1,u_2)\in S$ så er $a_1u_2+a_2u_2+b<0$ . Find reelle tal $a_{11},a_{12},a_{21},a_{22},b$ sådanne at hvis $(u_1,u_2)\in D$ så er

$a_{11}u_1u_1+a_{12}u_1u_2+a_{21}u_2u_1+a_{22}u_2u_2+b>0$ men hvis $(u_1,u_2)\in S$ så er

$a_{11}u_1u_1+a_{12}u_1u_2+a_{21}u_2u_1+a_{22}u_2u_2+b<0$

9.5 Opgaver

Vi vil illustrere principperne ved følgende $A$ matrix.

$A = \begin{pmatrix} 38.5 & 28.5 & 33.0\\ 28.5 & 38.5 & 33.0\\ 33.0 & 33.0 & 34.0 \end{pmatrix}$

9.5.1

Diagonaliser $A$ matricen og vis at den originale $A$ matrix kan rekonstrueres ud fra dens egenværdier og egenvektorer fra (9.7).

9.5.2

Udregn matricen $A_1$ ved den omvendte transformation (9.7) af kun egenvektoren med den største egenværdi (dvs. sæt de to andre egenværdier = $0$ ). Beregn %-fejlen ud fra en sammenligning af alle elementerne af $A$ og $A_1$ matricen.

9.5.3

Beregn %-fejlen ud fra en sammenligning af alle elementerne af $A$ og matricen $A_2$ , svarende til den omvendte transformation (9.7) med egenvektorer hørende til de to største egenværdier.