Miks korrelatsioon ei tähenda põhjuslikku seost - selle levinud ütluse tähendus statistikas

Võite oma statistikaklassist meelde jätta selle lihtsa mantra:

"Seos ei tähenda põhjuslikku seost."

Ehk siis arvate, et teate, mida see fraas tähendab.

Nagu see, kui õppisite statistikas väga kõvasti, saite hea hinde ja seejärel õppisite kõrgkooli, peab see tähendama, et sattusite ülikooli seetõttu, et astusite statistika klassi.

Kuigi see hinne koos õpitud oskustega aitasid tõenäoliselt, ei saa te ignoreerida muid mängus olevaid tegureid - ja ei saa tõenäoliselt väita, et teie statistika hinne oli põhjus, miks teie ülikooli võeti.

Esiteks - miks me eksime korrelatsiooni põhjusliku seosega?

On lihtne mõelda, et lihtsalt sellepärast, et kaks asja tunduvad omavahel seotud, peab see üks olema teise põhjus. Kuid see võib olla rumal ja mõnikord ohtlik oletus.

Oletame näiteks, et proovite välja mõelda, mis muudab inimesed vähem pahuraks. Teete uuringu, milles leitakse, et kui inimesed magavad öösel vähemalt x tundi, on nad vähem pahurad.

Kuid kas olete siin kõiki tegureid arvesse võtnud? Võib-olla hakkasid nad ka rohkem välja töötama hea puhkeoleku tagajärjel ja see muutis nende meeleolu.

Kõik näited pole nii heatahtlikud - ja mõned neist on lausa mõttetud.

Selleks, et illustreerida, kui eksitav võib olla eeldus, et korrelatsioon tähendab põhjuslikku seost, vaadake järgmist graafikut Tyler Vigeni valest korrelatsioonist:

Kuigi juhtub, et nende kahe teguri vahel on tugev seos, kahtlen, kas saaksite tõhusalt väita, et üks põhjustas teise. Võib-olla on see inimestele väljakutse proovida ja tõestada.

Siin on veel üks pärl Tyleri kollektsioonist:

Vaadake seda ilusat korrelatsiooni. Kuid teil oleks raske väita, et lihtsalt sellepärast, et keegi sõi rohkem juustu, takerdub ta suurema tõenäosusega end oma voodilinadesse surmavalt.

Mis on korrelatsioon statistikas?

Sõnaraamatu järgi on korrelatsioon vastastikune suhe või seos kahe või enama asja (või muutuja) vahel - eriti see, mida ei oodata üksnes juhuse põhjal.

Kasutagem seda lauses: Tundub, et minu kodumaiste tomatite tohutu suurus korreleerub selle suve lisavihmaga.

Nüüd eeldan siin, et kuna vihma sadas tavapärasest veidi rohkem, läksid mu tomatitaimed pähkliteks ja tootsid koletist tomateid.

Kuid kas see on ainus tegur? Aga toitaineterikas kompost, mida kasutasin oma kõrgendatud voodites? Aga puukoolist ostetud taimede kvaliteet? Aga minu hoolikas pügamine ja hooldamine?

Nagu näete, kuigi minu suurte tomatite ja meie vihmase suve vahel on seos, ei tähenda see tingimata põhjuslikku seost.

Mis on statistikas põhjuslik seos?

Aeg teise määratluse jaoks. Põhjus on sõnaraamatu järgi tegu või toiming, mis tekitab efekti.

Läheme natuke täpsemaks. Põhjuslikkus tähendab, et kahe sündmuse vahel on seos, kus üks sündmus mõjutab teist. Statistikas võime öelda, et kui sündmuse - või muutuja - väärtus mõne teise sündmuse või muutuja tõttu üles või alla läheb, võib olla põhjuslik seos. A põhjustas B juhtumise.

Kuidas oleks selle näitega? Võib-olla olete vabakutseline ajakirja jaoks, mis maksab sõna eest. Mida pikem lugu (ja mida rohkem sõnu see sisaldab), seda rohkem saate palka.

Seega on otsene seos selle vahel, kui palju sõnu sa kirjutad ja kui palju sulle palka makstakse. Kuid seal on ka põhjuslik seos (kuna kirjutasite rohkem, maksti rohkem).

Miks on seda valesti saada nii lihtne?

Miks on nii lihtne arvata, et korrelatsioon tähendab põhjuslikku seost? Noh, kui kaks asja näivad olevat seotud, kipume neid seostama ja eeldama, et need mõjutavad üksteist. Kui ilm on külm, veedavad inimesed rohkem aega siseruumides. Pühade paiku on kaubanduskeskused täis. Kui võtate mõnda ibuprofeeni, kaob teie peavalu.

Ehkki need asjaolud on kindlasti seotud - ja mõned neist võivad viidata isegi põhjuslikkusele - ei pruugi need teadusliku analüüsi vastu olla.

On mõned põhjused, miks võime korrelatsioonist ekslikult järeldada põhjuslikke seoseid.

Mis on segane muutuja?

Esiteks võib teil segus olla segane muutuja . See on muutuja, mis mõjutab nii sõltumatuid kui ka sõltuvaid muutujaid teie suhetes - ja seega segab teie võimet määrata selle suhte olemus.

Näiteks kui uus pere kolib naabruskonda ja kuritegevus suureneb, võivad selle piirkonna elanikud eeldada, et see on selle uue pere tõttu. Aga mis siis, kui samal ajal avaneks lähedal arestimaja? See on suurema kuritegevuse tõenäolisem põhjus.

Mis on pöördpõhjus?

Teiseks võite tegeleda vastupidise põhjusliku seosega . See juhtub siis, kui selle asemel, et eeldada õigesti, et A põhjustab B, segatakse need kokku ja eeldatakse, et B põhjustab A-d.

Võib juhtuda, et on raske ette kujutada, kuidas see juhtub, kuid mõelge, kuidas päikesepaneelid töötavad. Nad toodavad rohkem energiat, kui päike on taevas kauem.

Kuid päikest pole taevas kauem, sest paneelid toodavad rohkem energiat. Paneelid toodavad rohkem energiat, sest päike paistab pikemaks ajaks.

Mis on juhus?

Kolmandaks, me ei tohi unustada juhuste jõudu . Kui korraga juhtub juhtuma kaks asja, on kiusatus näha põhjuslikku seost. Kuid nagu see ülalolev rumal graafik koos arkaadide ja CS-kraadidega, on paljud lihtsalt kokkusattumused.

Lõpuks - miks see meid huvitab?

Võib-olla proovite välja mõelda, kas teatud uus ravim muudab patsiendi enesetunde paremaks. Või soovite teada, mis paneb inimesi teatud toodet ostma.

Mis iganes on teie motivatsioon, on sageli väga kasulik välja mõelda, kas A põhjustab B, koos sellega, kuidas ja miks.

Kuid nagu nägime, pole see nii lihtne. Peate kontrollima nii palju tegureid kui võimalik, vähendama muutujate ja kokkusattumuste segiajamise tõenäosust ning muutma andmed asjakohaseks.

Me ei süvene sügavamasse filosoofilisse küsimusse, kuidas saaksime kahtluseta tegelikult põhjuslikku seost tuvastada. Seda veel teiseks korraks.

Vähemalt nüüd teate, et kuigi kaks sündmust või muutujat võivad tunduda olevat seotud, ei tähenda see, et ühel oleks otsene põhjuslik mõju teisele.