Mindste kvadraters metode

Hvad er den bedste rette linje?

Figuren herover viser et punktplot. Vi kan se, at punkterne tilnærmelsesvist ligger på en ret linje, så vi vil opstille en lineær model, der kan beskrive dataene. Vi vil altså bestemme den rette linje, der bedst beskriver punkterne. Spørgsmålet er nu, hvad det vil sige, at en linje er den, der bedst beskriver dataene?

Herunder har vi indtegnet nogle linjer, som vi vurderer, "passer godt" på dataene:

Når vi beslutter, hvilken linje der passer bedst på dataene, så benytter vi mindste kvadraters metode. Idéen bag mindste kvadraters metode er, at den bedste linje er den linje, hvor den samlede lodrette afstand mellem punkterne og linjen er mindst.

Observeret og estimeret y-værdi

Udgangspunktet for lineær regression er et datasæt, der består af n punkter: (x1,y1), (x2,y2), ..., (xn,yn).

Vi ønsker, at bestemme den bedste rette linje. Den bedste rette linje er givet ved ligningen y = ax + b. Vi skal bestemme a og b.

Til hver x-værdi xi hører der en observeret y-værdi, yi, og en estimeret y-værdi, \hat{y}_i. Den estimerede y-værdi bestemmes ud fra linjens ligning:

\hat{y}_i = a\cdot x_i + b

Da (x_i,\hat{y}_i) opfylder linjens ligning, så ligger punktet (x_i, \hat{y}_i) på linjen. Hvis (xi,yi) ikke ligger på linjen, så er

y_i \neq \hat{y}_i

Eksempel: Bestem den estimerede y-værdi

Herover ses et punktplot, hvor vi har tilføjet en ret linje. Linjen er givet ved ligningen

y = 2,7x + 4,7

Vi vil bestemme den estimerede y-værdi, når x = 1,86:

\begin{align*} \hat{y} &= 2,7\cdot 1,86 + 4,7 \\[1em] &\approx 9,72 \end{align}

Den estimerede y-værdi, når x = 1,86 er \hat{y} = 9,72. Punktet (1.86,9.72) ligger derfor på linjen:

Residual

Forskellen mellem den observerede y-...

Teksten herover er et uddrag fra webbogen. Kun medlemmer kan læse hele indholdet.

Få adgang til hele Webbogen.

Som medlem på Studienet.dk får du adgang til alt indhold.

Køb medlemskab nu

Allerede medlem? Log ind