Regresjon

Hans-Petter Ulven

Stikkord:

Webstart av siste versjon av GeoGebra:


Sammenhengen mellom storker og barnefødsler

Alle vet at det er storken som kommer med babyer, men i og med at noen trekker denne påstanden i tvil er det på sin plass å dokumentere dette med vitenskapelige, ugjendrivelige bevis! Vi bruker statistisk lineær regresjon til dette.

Den hvite storken, Ciconia Cicionia, er en vanlig fugl i mange land i Europa, så vi har gode tellinger på bestanden.
Fra Teaching Statistics, volume 22, number 2, Summer 2000, har jeg sakset disse dataene:

Land: Storkepar: Barnefødsler: (103/år)
Albania 100 83
Østerrike 300 87
Belgia 1 118
Bulgaria 5000 117
Danmark 9 59
Frankrike 140 774
Tyskland 3300 901
Hellas 2500 106
Nederland 4 188
Ungarn 5000 124
Italia 5 551
Polen 30000 610
Portugal 1500 120
Romania 5000 367
Spania 8000 439
Sveits 150 82
Tyrkia 25000 1576

Veiledning

Start GeoGebra med knappen:

Vis regnearket i GeoGebra med: Vis, Regneark.

Kopier disse dataene med Rediger, Kopier (eller Ctrl-C):

100	83
300	87
  1	118
5000	117
  9	59
140	774
3300	901
2500	106
4	188
5000	124
5	551
30000	610
1500	120
5000	367
8000	439
150	82
25000	1576
---

Lim deretter inn i regnearket ved å klikke i cellen A1, høyreklikk og velge: Lim inn.

Merk deretter tallene i regnearket med musen, høyreklikk og velg: Lag liste med punkter.

Kjøre en lineær regresjon med: f(x)=RegPoly[L_1,1].

Vi ønsker også en korrelasjonskoeffisient, og regner derfor ut:

r=Korrelasjonskoeffisient[L_1]

I et tekstfelt kan vi vise resultatet ved å legge inn: "Korrelasjonskoeffisient = "+r

Da får vi noe slikt:

Ganske overbevisende, ikke sant?

(Det kan faktisk vises med en Students T-test at p-verdien her er 0.008, altså et meget signifikant resultat, selv om korrelasjonskoeffisienten kunne vært bedre.)

Egenskaper ved korrelasjonslinjen
Sammenhenger med statistiske parametere

GeoGebra inneholder en rekke liste-kommandoer som kan regne ut diverse prametere:

Mean[<liste>], MeanX[<punkt-liste>], MeanY[<punkt-liste>], Median[<liste>], Mode[<liste>]
og alle summene som dukker opp i slike forbindelser:
SigmaXX, SigmaYY, SigmaXY, Sxx, Syy, Sxy,...

Vurdering av regresjonslinjen

Summen av kvarderte avvik mellom modellen og dataene kan regnes ut som SSE=Sum[(f(x(L_1))-y(L_1))^2]

For andre kurvetilpasninger enn rette linjer er SSE en bedre vurderingsparameter enn korrelasjonskoeffisienten,
som egentlig sier noe om statistisk sammenheng mellom to variabler, ikke noe om kurven!
(Legg merke til at kommandoen Korrelasjonskoeffisient[<liste>] ikke bruker funksjonen for den rette linjen, bare dataene!)

For et gitt datamaeriale kan korrelasjonskoeffisienten være 0.95, selvom en andregradskurve gir mindre SSE enn en rett linje!
Andregradskurven er da åpenbart en bedre modell og kurvetilpasning enn en rett linje!

(Hvis leseren ikke tror dette, så er det en fin oppgave å legge ut noen punkter, få GeoGebra til å lage både en lineær og
kvadratisk kurvetilpasning, regne ut korrelasjonskoeffisienten og sse for begge kurvene, og deretter flytte punktene
til dere ser at dette er mulig.

Så, selvom ordet "regresjon" brukes om kurvetilpasning, så er egentlig regresjon ordet for statistisk sammenheng
mellom to variabler, med korrelasjonskoeffisienten (kvadrert) som en statistisk parameter, mens kurvetilpasning
er å lage den kurven som passer best med datamaterialet i den forstand at sse er minst mulig.

Så, selv om dataprogrammer og lommeregnere gir korrelasjonskoeffisient for annet enn rette linjer, så har denne
parameteren egentlig liten verdi og liten mening for ren kurvetilpasning.

Oppgaver:

Det er flere måter å sjekke om en lineær regresjon gir en modell som har noen statistisk verdi:

Her har vi et datamateriale fra 2001 som viser sammenhengen mellom tilgjengelighet av skytevåpen og mord utført med skytevåpen for 18 land:

4.7	0.8
4.7	1.1
8.4	21.3
1.9	2.7
8.9	2
27.2	4
16.6	8.7
22.6	5.5
23.2	7.4
32	3
48	44.6
29.1	8.4
19.6	6.6
13.1	3.8
5.2	2.6
16	13.1
22.3	4.7
15.1	2

(Venstre kolonne er prosenten av private hjem som har skytevåpen, og kolonnen til høyre er antall drap med skytevåen per. 100000 innbyggere per. år.)

Vurder om disse tallene indikerer noen sammenheng. Er det noen svakheter her?

Lenker