Is er een stappenplan voor het opstellen van een regressielijn?

Question

Lees de 2 antwoorden op deze vraag en bekijk vele andere vragen over wiskunde op Goeievraag.

 · Answer

Stappenplan lineaire regressie.
Voor het systematisch uitwerken van een toetsingsprocedure voor de lineaire regressie is het
volgende schema van toepassing:
1.
Formuleer het probleem in woorden, bv.
(a)
Ik verwacht dat y groter is bij grotere x.
(b)
Ik verwacht dat er een niet gespecificeerde samenhang is tussen x en y.
(c)
Ik verwacht dat er een positieve asafsnede is bij de samenhang tussen x en y
2.
Formuleer de nulhypothese en de alternatieve hypothese in woorden. Op grond van de
nulhypothese en de alternatieve hypothese bepaal je of je eenzijdig of tweezijdig gaat toetsen.
(a)
nulhypothese: er is geen verband tussen y en x: b = 0; alternatieve hypothese: er is een
positief verband tussen y en x: b > 0 (nu ga je eenzijdig toetsen)
(b)
nulhypothese: er is geen verband tussen y en x: b = 0; alternatieve hypothese: er is een
verband tussen y en x: b 0 (nu ga je tweezijdig toetsen)
(c)
nulhypothese: de as-afsnede is nul: a = 0; alternatieve hypothese: er is een positieve as-afsnede: a > 0 (nu ga je eenzijdig toetsen)
3.
Bepaal de toetsingsgrootheid T.
Geef aan of je verwacht dat T grote of kleine waarden aanneemt als de alternatieve hypothese waar is. Bij een tweezijdige toets verwacht je dat T ofwel grotere
ofwel kleinere waarden aanneemt onder de alternatieve hypothese. In dat laatste geval betekenen middelmatige waarden van T een ondersteuning van de nulhypothese.
4.
Kies voor de onbetrouwbaarheidsdrempel een waarde waarmee je de toets gaat uitvoeren (veelal 0,05 of 0,10).
5.
Lees in de tabel aan het einde van deze les brief de kritieke waarde(n) af en bepaal het kritieke gebied. Hierbij is het aantal vrijheidsgraden (afgekort d.f. van “degrees of freedom”) het aantal x-waarden –2 als je a en b schat en het aantal x-waarden –1 als je a op nul zet en b schat.
6.
Voer de regressie-analyse met Excel uit.
7.
Bepaal de waarde van de toetsingsgrootheid T, met behulp van de output van Excel.
8.
Trek op een statistische verantwoorde manier een conclusie en vertel het resultaat vervolgens in je eigen woorden. Als bovenstaande procedure stap voor stap
wordt gevolgd kan voor elk probleem waarbij samenhang tussen twee grootheden wordt bekeken een verantwoorde conclusie worden getrokken.

 · Answer

Er is een stappenplan voor, maar het wordt niet zo heel veel meer gebruikt, omdat de computerprogramma's de lineaire regressie al ingebakken hebben, maar het is eigenlijk nog best een complexe procedure.

Voor regressie in het algemeen zijn drie zaken van belang. De data (meetgegevens), het model (je wilt ze zo goed mogelijk met een rechte lijn verklaren, je model is dus een willekeurige rechte lijn) en de Penalty Functie. Stel dat je gewoon een lijn door de punten trekt, dan kun je alle verschillen tussen de lijn en de punten optellen. Bij de gebruikelijke methode neem je van elk verschil met de lijn in de y-richting het kwadraat en dan tel je allle kwadraten op. Bij een andere willekeurige lijn kun je dat ook doen, en  hoe kleiner die som van kwadraten hoe beter de lijn op de gegevens past. Op zich kun je ook andere penalty functies gebruiken, maar de kleinste kwadratenmethode is veruit het meest gebruikelijk.

Nu is dat erg omslachtig om dat voor elke willekeurige lijn uit te proberen en daarom gebruik je twee afgeleides van de penalty functie, die stel je 0 en dan zit je op een minimum.

In de praktijk maak je lijstjes van je data in bijvoorbeeld excel. eerst alle x, dan alle y,   dan normaliseer je door de gemiddeldes van de waardes af te trekken X genormaliseerd is Xm. Dan kwadrateren en met elkaar vermenigvuldigen je krijgt dan een lijstje met Xm^2, Ym^2 en XmYm, de optelling van XmYm/de optelling van Xm^2 geeft je de helling van de lijn (b). De hoogte bepaal je door Ygem-b*Xgem.

http://i61.tinypic.com/xq9si1.jpg

Toegevoegd na 8 uur:
Op die manier heb je de regressie lijn, meestal geef je ook nog een r^2, dat is een algemeen gebruikte maat voor de regressie. r is bij lineaire regressie met de kleinste kwadratenmethode de covariantie/gedeeld door het product van de standaardafwijkingen.  In het getallenvoorbeeld in tinypic:  r^2 = 250^2/450*141 = 0.985  (rkwadraat is makkelijker, geen worteltrekken nodig.)
Bij een r^2 van 1 is alle variantie verklaard door het model, bij 0.985 is het model erg goed. Het is ook nog zinvol om te kijken of de afwijkingen van de lijn puur toevallig zijn verdeeld, dus niet  aan de rechterkant overschat midden onderschat en linkerkant weer overschat. Je kunt dan nog wel een goede r^2 hebben, maar er is dan  toch een afwijking van de rechte lijn.

Is er een stappenplan voor het opstellen van een regressielijn?

Antwoorden (2)

Bekijk alle vragen in deze categorieën: