Kuidas lugeda regressioonitabelit

Mis on taandareng?

Regressioon on üks olulisemaid ja sagedamini kasutatavaid andmeanalüüsi protsesse. Lihtsamalt öeldes on see statistiline meetod, mis selgitab sõltuva muutuja ja ühe või mitme sõltumatu muutuja vahelise seose tugevust.

Sõltuv muutuja võib olla muutuja või väli, mida proovite ennustada või mõista. Sõltumatu muutuja võib olla väljad või andmepunktid, mis teie arvates võivad mõjutada sõltuvat muutujat.

Seejuures vastab see paarile olulisele küsimusele -

  • Millised muutujad on olulised?
  • Mil määral on need muutujad olulised?
  • Kui kindlad me nende muutujate suhtes oleme?

Võtame näite ...

Regressioonitabeli numbrite paremaks selgitamiseks arvasin, et oleks kasulik kasutada näidisandmekogumit ning käia läbi numbrid ja nende olulisus.

Ma kasutan väikest andmekogumit, mis sisaldab GRE-i (test, mida õpilased võtavad arvesse USA Gradi koolidesse lubamisel) hinded 500 õpilasest ja nende võimalus ülikooli astuda.

Kuna chance of admittancesõltub GRE score, chance of admittanceon sõltuv muutuja ja GRE scoreon sõltumatu muutuja.

Regressioonijoon

Sirge joone joonistamine, mis kirjeldab kõige paremini õpilaste GRE-skooride ja nende sisseastumisvõimaluste suhet, annab meile lineaarse regressioonijoone . Seda tuntakse erinevates BI-tööriistades trendijoonena . Selle joone joonistamise põhiidee on minimeerida antud x-koordinaadi ja y-koordinaadi andmepunktide vaheline kaugus, mida regressioonijoon läbib.

Regressioonijoon muudab meil suhte esindamise lihtsamaks. See põhineb matemaatilisel võrrandil, mis seob x-koefitsiendi ja y-lõikepunkti.

Y-lõikepunkt on punkt, kus sirge lõikub y-teljega punktis x = 0. See on ka väärtus, mille mudel võtaks või ennustaks, kui x on 0.

Koefitsiendid annavad muutuja mõju või kaalu kogu mudeli suhtes. Teisisõnu, see annab sõltuva muutuja muutuse suuruse sõltumatu muutuja ühiku muutuse jaoks.

Regressioonijoone võrrandi arvutamine

Mudeli y-lõikepunkti väljaselgitamiseks pikendame regressioonijoont piisavalt kaugele, kuni see lõikub y-teljega punktis x = 0. See on meie y-lõikepunkt ja see on umbes -2,5. Numbril ei pruugi töötava andmekogumi jaoks tegelikult mõtet olla, kuid kavatsetakse näidata ainult y-lõikepunkti arvutamist.

Selle mudeli koefitsient on lihtsalt regressioonijoone kalle ja selle saab arvutada, kui saada GRE-skooride muutuse muutus vastuvõetavuses.

Ülaltoodud näites oleks koefitsient lihtsalt

m = (y2-y1) / (x2-x1)

Ja sel juhul oleks see lähedal 0,01-le.

Valem y = m * x + b aitab meil arvutada meie regressioonijoone matemaatilist võrrandit. Asendades regressioonijoone laiendamisel saadud y-lõikepunkti ja kalle väärtused, saame formuleerida võrrandi -

y = 0,01x - 2,48

-2,48 on täpsem y-lõikepunktiväärtus, mille sain regressioonitabelist, nagu hiljem selles postituses näidatud.

See võrrand võimaldab meil prognoosida ja ennustada õpilase vastuvõtu võimalust, kui tema GRE-skoor on teada.

Nüüd, kui meil on põhitõed, jätkame regressioonitabeli lugemist ja tõlgendamist.

Regressioonitabeli lugemine

Regressioonitabeli võib jagada umbes kolmeks komponendiks -

  • Dispersioonanalüüs (ANOVA): pakub mudeli dispersiooni analüüsi, nagu nimigi ütleb.
  • regressioonistatistika: esitage arvuline teave variatsiooni kohta ja selle kohta, kui hästi mudel selgitab antud andmete / vaatluste variatsiooni.
  • jääkväljund: annab mudeli järgi ennustatud väärtuse ja sõltuvuse muutuja tegeliku vaadeldava väärtuse ja iga andmepunkti regressioonimudeli ennustatud väärtuse vahe.

Dispersioonanalüüs (ANOVA)

Vabadusastmed (df)

Regressioon df on sõltumatute muutujate arv meie regressioonimudelis. Kuna selles näites arvestame ainult GRE-skooridega, on see 1.

Jääk df on andmekogumi vaatluste (ridade) koguarv, millest lahutatakse hinnatavate muutujate arv. Selles näites hinnatakse nii GRE skoori koefitsienti kui ka konstandi.

Jääk df = 500 - 2 = 498

Df - on regressiooni ja jääkvabadusastmete summa, mis võrdub andmekogumi suurusega miinus 1.

Ruutude summa (SS)

Regressioon SS on sõltuva muutuja kogu variatsioon, mida seletatakse regressioonimudeliga. See on kõigi andmepunktide väärtuse prognoositava väärtuse ja keskmise erinevuse ruudu summa.

∑ (ŷ - ӯ) ²

ANOVA tabelist on regressiooni SS 6,5 ja kogu SS 9,9, mis tähendab, et regressioonimudel selgitab umbes 6,5 / 9,9 (umbes 65%) kogu andmekogumi varieeruvusest.

Jääk SS - on sõltuva muutuja summaarne variatsioon, mille regressioonimudel seletamata jätab. Seda nimetatakse ka ruutude vea summaks ja see on kõigi andmepunktide tegeliku ja ennustatud väärtuse vahe ruudu summa.

∑ (y - ŷ) ²

ANOVA tabelist on jääk-SS umbes 3,4. Üldiselt, mida väiksem on viga, seda paremini seletab regressioonimudel andmekogumi variatsiooni ja seetõttu tahaksime tavaliselt selle vea minimeerida.

Üldine SS - on mõlema, regressiooni ja jääk-SS summa või selle võrra, kui palju muutuks sissepääsuvõimalus, kui GRE-skoore EI arvestata.

Keskmised ruutvead (MS) - ruutude summa või ruutude summa jagatud vabadusastmetega nii regressiooni kui ka jääkide keskmisena.

Regressioon MS = ∑ (ŷ - ӯ) ² / reg. dfJääk MS = ∑ (y - ŷ) 2 / Res. df

F - kasutatakse hüpoteesi kontrollimiseks, et sõltumatu muutuja kalle on null. Matemaatiliselt saab seda arvutada ka järgmiselt

F = regressioon MS / jääk MS

See arvutatakse muul viisil, võrreldes F-statistikat F-jaotusega regressiooniga df lugeja kraadides ja jääk df nimetaja kraadides.

Olulisus F - pole midagi muud kui nullhüpoteesi p-väärtus, mille kohaselt sõltumatu muutuja koefitsient on null ja nagu iga p-väärtuse puhul, näitab madal p-väärtus, et sõltuvate ja sõltumatute muutujate vahel on oluline seos.

Standardviga - esitab koefitsientide jaotuse hinnangulise standardhälbe. See on summa, mille võrra koefitsient varieerub erinevatel juhtudel. Selle standardveast palju suurem koefitsient tähendab tõenäosust, et koefitsient ei ole 0.

t-Stat - on testi t-statistika või t-väärtus ja selle väärtus on võrdne koefitsiendi jagatud standardveaga.

t-Stat = koefitsiendid / standardviga

Jällegi, mida suurem on koefitsient standardvea suhtes, seda suurem on t-Stat ja suurem tõenäosus, et koefitsient on 0-st eemal.

p-väärtus - p-väärtuse määramiseks võrreldakse t-statistikat t-jaotusega. Tavaliselt arvestame sõltumatu muutuja p-väärtust, mis annab valimi saamise tõenäosuse, regressioonivõrrandi tuletamiseks kasutatud väärtusele lähedaseks ja kontrollime, kas regressioonijoone kalle on tegelikult null või koefitsient on lähedal saadud koefitsient.

P-väärtus alla 0,05 näitab 95% kindlust, et regressioonijoone kalle ei ole null ja seetõttu on sõltuvate ja sõltumatute muutujate vahel märkimisväärne lineaarne seos.

P-väärtus, mis on suurem kui 0,05, näitab, et regressioonijoone kalle võib olla null ja 95% -lise usaldusnivoo juures pole piisavalt tõendeid selle kohta, et sõltuvate ja sõltumatute muutujate vahel on oluline lineaarne seos.

Kuna sõltumatu muutuja GRE skoori p-väärtus on väga lähedal 0-le, võime olla äärmiselt kindlad, et GRE-skooride ja sissepääsuvõimaluste vahel on märkimisväärne lineaarne seos.

Alumine ja ülemine 95% - kuna regressioonijoone ja selle koefitsientide hindamiseks kasutame enamasti andmete valimit, on need enamasti tegelike koefitsientide ligikaudsed ja omakorda tõelised regressioonijooned. Alumine ja ülemine 95% piir annab iga koefitsiendi alumise ja ülemise piiri 95. usaldusvahemiku.

Kuna GRE skooride 95% usaldusvahemik on 0,009 ja 0,01, ei sisalda piirid nulli ja seega võime olla 95% kindlad, et GRE skooride ja sissepääsuvõimaluste vahel on märkimisväärne lineaarne seos.

Pange tähele, et 95% usaldustase on laialt levinud, kuid lisaks 95% -le on võimalik ka see tase, mille saab seadistada regressioonanalüüsi käigus.

Regressioonistatistika

R² (R ruut) - tähistab mudeli jõudu. See näitab sõltuva muutuja varieerumise suurust, mida sõltumatu muutuja seletab, ja jääb alati väärtuste 0 ja 1 vahele. Kui R² suureneb, seletatakse mudeliga andmete suuremat varieerumist ja mudel saab paremini prognoosi. Madal R² näitab, et mudel ei sobi andmetega hästi ja et sõltumatu muutuja ei seleta sõltuva muutuja variatsiooni hästi.

R² = ruutude regressioonisumma / ruutude summa

R-ruut ei suuda siiski kindlaks teha, kas koefitsiendi hinnangud ja ennustused on kallutatud, mistõttu peate hindama jääkdiagramme, mida käsitletakse edaspidi selles artiklis.

R-ruut ei näita ka seda, kas regressioonimudel on piisav. Hea mudeli R-ruudu väärtus või andmetele mittevastava mudeli R-ruudu väärtus võib olla kõrge.

R² on sel juhul 65%, mis tähendab, et GRE skoorid võivad seletada 65% sissepääsuvõimaluste varieerumisest.

Korrigeeritud R² - korrutatakse R² korrigeerimisteguriga. Seda kasutatakse erinevate regressioonimudelite võrdlemisel erinevate sõltumatute muutujatega. See arv tuleb kasuks, kui otsustatakse mitme regressioonimudeli õigete sõltumatute muutujate üle.

Mitu R - on R² positiivne ruutjuur

Standardviga - erineb koefitsientide standardveast. See on regressioonivõrrandi vea hinnanguline standardhälve ja see on hea regressioonijoone täpsuse mõõtmiseks. See on ruutjuur keskmistest ruutjääkidest.

Std. Viga = √ (Res.MS)

Jääkväljund

Jääkideks on regressioonimudeli tegeliku väärtuse ja prognoositava väärtuse vahe ning jääkväljund on regressioonimudeli poolt sõltuva muutuja ennustatud väärtus ja iga andmepunkti jääk.

Ja nagu nimigi ütleb, on jääkdiagramm hajumisgraafik jäägi ja sõltumatu muutuja vahel, mis on antud juhul iga õpilase GRE-skoor.

Jääkjoonis on oluline selliste asjade tuvastamisel nagu heteroskedastilisus , mittelineaarsus ja kõrvalekalded . Nende tuvastamise protsessi ei arutata selle artikli osana, kuid asjaolu, et meie näite jääkdiagrammil on juhuslikult hajutatud andmeid, aitab meil kindlaks teha, et selle mudeli muutujate suhe on lineaarne.

Kavatsus

Selle artikli eesmärk ei ole koostada töötavat regressioonimudelit, vaid pakkuda regressioonitabelis olevate näidisandmetega vajadusel ülevaade kõikidest regressioonimuutujatest ja nende olulisusest.

Kuigi selles artiklis on toodud selgitus ühe muutuja lineaarse regressiooniga, pidage meeles, et mõnel neist muutujatest võib olla suurem tähtsus mitme muutujaga või muude olukordade korral.

Viited

  • Lõpetajate vastuvõtu andmekogum
  • 10 asja regressioonitabeli lugemise kohta
  • Regressioonianalüüsi täiendus