-
Články
- Časopisy
- Kurzy
- Témy
- Kongresy
- Videa
- Podcasty
Analýza dat v neurologii LXXIII. Problematika interpretace Pearsonova korelačního koeficientu
Autoři: L. Dušek; T. Pavlík; Jiří Jarkovský
; J. Koptíková
Působiště autorů: Institut biostatistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2019; 82(1): 113-117
Kategorie: Okénko statistika
Pearsonova korelačního koeficientu
Tímto dílem našeho seriálu zakončíme výklad parametrické korelační analýzy, jejímž primárním cílem je odhadnout hodnotu kovariance či Pearsonova korelačního koeficientu. Pearsonův korelační koeficient (značíme r nebo R) jsme v minulých dvou dílech hodnotili jako míru obecněji lépe využitelnou než kovariance, zejména proto, že jde o statistiku standardizovanou, nabývající hodnoty pouze v intervalu od – 1 do +1. Krajní hodnoty přitom značí absolutní korelaci, kdy hodnoty spojitých proměnných leží přesně na přímce (ukázku této situace mezi proměnnými X a Y znázorňují příklady 1a – b). Takovou extrémní závislost samozřejmě při běžných korelačních analýzách na vzorku subjektů nenajdeme, v důsledku variability hodnot se body proměnných X a Y přímkovému vztahu pouze blíží, jak ukazují příklady 1d – f. Lineární vztah obou veličin, tedy přímka popisující závislost, je zde obdobou míry polohy a výstupem korelační analýzy pak je jistá míra ,,těsnosti” hodnot proměnných vzhledem k této přímce. Je-li výskyt hodnot jedné proměnné náhodný vůči proměnné druhé, hovoříme o jejich nezávislosti, resp. o nulové korelaci (ukázka na příkladu 1c).
Příklad 1. Příklady korelační analýzy s různou hodnotou Pearsonova korelačního koefi cientu a jejich grafi cké znázornění.
Hodnoty Pearsonova korelačního koeficientu rovné – 1 nebo +1 ukazují na deterministický vztah obou proměnných, kdy z hodnoty X lze přesně vypočítat odpovídající hodnotu Y. Typickým příkladem jsou např. kalibrační křivky laboratorních úloh, kdy z hodnoty absorbance vzorku počítáme hodnotu koncentrace látky apod. Obecně však vždy platí, že jak korelace, tak kalibrace hodnotí vztah dvou spojitých proměnných. V případě Pearsonovy korelace jde o vztah přímkový, lineární. Rozdíl je pouze v interpretaci, neboť u korelace hodnotíme pouze obecný vztah a jeho sílu, přičemž k oběma proměnným přistupujeme interpretačně stejně a nepředjímáme jejich příčinný vztah. U kalibrace naopak směr vztahu proměnných předjímáme a také rozlišujeme pozici proměnných X a Y, tedy že jedna proměnná závisí na druhé.
Výše uvedeným textem a příkladem 1 nechceme pouze opakovat základy korelační analýzy vysvětlené v předchozích dílech. Chceme tím zdůraznit, že smysluplná interpretace Pearsonovy korelace se týká pouze přímkových vztahů mezi dvěma spojitými veličinami. To je velmi podstatné omezení, neboť zejména v biologii a medicíně jsou nelineární vztahy proměnných velmi časté. Jak dokládá příklad 2, v těchto situacích může standardní korelační analýza vést k nízkým hodnotám korelačního koeficientu a k chybnému potvrzení nezávislosti obou proměnných. Zatímco analýza znázorněná na příkladu 2a je správným potvrzením neexistence lineárního vztahu X a Y, příklad 2b ukazuje silný parabolický vztah obou proměnných, kde hodnota korelačního koeficientu nevede ke smysluplné interpretaci. Přitom číselně hodnotu korelace u takových závislosti spočítat lze, ale jen z publikované hodnoty R nelze nelineární vztah rozpoznat. Problémem není samotný výpočet, ale interpretace výsledku. Proto je tak zásadní doplnit odhad hodnoty korelace grafickým znázorněním výsledku.
Příklad 2. Příklady korelační analýzy vedoucí k nízké hodnotě Pearsonova korelačního koefi cientu.
Grafická inspekce vztahu X a Y by při korelační analýze měla být povinná ještě z jednoho velmi závažného důvodu. Lze tak snadno odhalit problémy a anomálie v rozdělení hodnot korelovaných proměnných. Připomeňme, že Pearsonova korelace je parametrickou analýzou vyžadující normální rozdělení u obou proměnných vstupujících do analýzy. Silná asymetrie v rozdělení hodnot X nebo Y, vícemodální rozdělení či výskyt odlehlých hodnot vždy závažným způsobem ovlivňují hodnotu korelačního koeficientu a mohou vést k nesmyslným závěrům analýzy. Tyto skutečnosti jsme se pokusili znázornit na příkladech 3 – 5.
Znázornění rozdělení hodnot dvou korelovaných proměnných.
Obr. 1. Ukázka bimodálního rozdělení hodnot proměnných vstupujících do korelační analýzy.
Příklad 5. Přítomnost odlehlých hodnot v datech vstupujících do korelační analýzy.
Příklad 3 znázorňuje korelaci proměnných X a Y, přičemž obě proměnné mají téměř učebnicové normální rozdělení hodnot (znázorněné jako histogramy na boku korelačního diagramu). Odhad hodnoty korelačního koeficientu v tomto případě nebude rozdělením hodnot zkreslený.
Příklad 4 ukazuje situaci, kdy vstupní data X a Y vykazují silné bimodální rozdělení (rozdělení s dvěma frekvenčními vrcholy – modusy) v důsledku výskytu dvou vzájemně separovaných shluků objektů. Je patrné, že pokud by korelační analýza byla provedena pro jednotlivé shluky objektů odděleně, vedla by k závěru o neexistenci vztahu mezi X a Y. Celková analýza spojených dat avšak povede k relativně vysoké kladné hodnotě korelačního koeficientu, která tak bude odrážet pouze existenci shluků objektů. Graf na příkladu 4 dokládá, že existence přímky mezi hodnotami X a Y není reálným obrazem jejich závislosti. Spíše než na odhad R by se analýza měla zaměřit na objasnění důvodu existence shluků hodnot. Objekty náležející různým shlukům mohou mít řadu rozdílných charakteristik, jejichž poznání bude pro analýzu podstatné. Avšak takto výrazné bimodální rozdělení hodnot může být i důsledkem chybného vzorkovacího plánu (výběr objektů nepokryl reprezentativně oblast středních hodnot X a Y) nebo může být způsobeno nějakým pozaďovým faktorem, jehož vliv subjekty významně odlišuje.
Příklad 5 znázorňuje nejextrémnější situaci, při které míra zkreslení odhadu korelačního koeficientu dělá jeho interpretaci velmi problematickou. Je patrné, že rozdělení hodnot proměnných X a Y zahrnuje několik silně odlehlých hodnot; předpoklad normality rozdělení veličin je zde nepochybně silně porušen. Výsledkem bude vysoká, avšak obtížně interpretovatelná hodnota korelačního koeficientu. Takový vliv může mít dokonce i jedna odlehlá hodnota, která je způsobena např. překlepem při zadávání vstupních dat do souboru.
Je zřejmé, že hodnota korelačního koeficientu je silně závislá na rozdělení hodnot vstupujících proměnných, a odhad korelace by proto měl být vždy založen na poctivé kontrole vstupních dat. Čtenáři si jistě nyní kladou otázku, jak může jedna odlehlá hodnota proměnné X nebo Y zkreslit odhad korelace tak, že bude nesmyslná. Vysvětlením je samotný vztah pro výpočet R, který zde připomínáme:
Příklad 6. Vliv rozdělení hodnot korelovaných proměnných na statistickou významnost Pearsonova korelačního koefi cientu.
Extrémně vysoká hodnota xi nebo yi nutně zvýší hodnotu čitatele, a tedy i hodnotu výsledného R. Skutečně se tak může stát, že v důsledku jedné nereálné hodnoty budeme publikovat vysokou korelaci mezi proměnnými, a ona přitom vůbec nebude v datech existovat (viz dokumentace na příkladech 6 a 7, zejména ukázka na příkladu 6c. I proto bývá korelační koeficient v odborné literatuře často označován za nejvíce zneužívanou statistiku či za statistiku „zranitelnou“ vstupními daty.
Tab. 1. Příklad 7. Vliv odlehlých hodnot korelovaných proměnných na hodnotu Pearsonova korelačního koefi cientu.
Tímto bohužel výčet úskalí korelační analýzy nekončí. Výklad uzavřeme komentářem, jak výsledek korelace ovlivňuje i sama velikost vzorku. Již v minulém díle seriálu jsme dokládali, že statistickou významnost korelačního koeficientu ovlivňuje nejen jeho absolutní hodnota, ale i velikost vzorku N, na kterém byl koeficient odhadnut. To vyplývá ze vztahu pro výpočet testové statistiky pro posouzení statistické významnosti R, která má Studentovo rozdělení t a N – 2 stupně volnosti:
Je zřejmé, že vysoká hodnota N numericky zvýší hodnotu statistiky t, a tím povede k průkazu statistické významnosti R, tj. k zamítnutí nulové hypotézy R = 0. U velmi velkých vzorků tak může být za statisticky významný prokázán i korelační koeficient s nízkou hodnotou, tedy numericky blízký nule. Tuto skutečnost ilustruje příklad 8, ze kterého je patrné, že i velmi nízká hodnota R může dosáhnout prokazatelné statistické významnosti, je-li získána analýzou velkého vzorku hodnot (příklad 8d: R = 0,078; N = 1000; p = 0,015). A naopak relativně vysoká hodnota R nemusí být prokázána jako statisticky významná, pokud jde o malý vzorek hodnot (příklad 8a: R = 0,699; N = 7; p = 0,081). K interpretaci statistické významnosti R je tedy nutné přistupovat i s ohledem na absolutní hodnotu R. Samotné konstatování, že hodnota R je statisticky významná, nemusí nutně znamenat, že jde o vysokou korelaci prokazující jasný přímkový vztah X a Y.
Příklad 8. Vliv velikosti vzorku na statistickou významnost Pearsonova korelačního koefi cientu.
prof. RNDr. Ladislav Dušek, Ph.D.
Institut biostatistiky a analýz, LF MU, Brno
e‑mail: dusek@iba.muni.cz
Štítky
Detská neurológia Neurochirurgia Neurológia
Článok vyšiel v časopiseČeská a slovenská neurologie a neurochirurgie
Najčítanejšie tento týždeň
2019 Číslo 1- Metamizol jako analgetikum první volby: kdy, pro koho, jak a proč?
- Naděje budí časná diagnostika Parkinsonovy choroby založená na pachu kůže
- Fixní kombinace paracetamol/kodein nabízí synergické analgetické účinky
- Neuromultivit v terapii neuropatií, neuritid a neuralgií u dospělých pacientů
- Antidepresivní efekt kombinovaného analgetika tramadolu s paracetamolem
-
Všetky články tohto čísla
- Genetika neurodegenerativních demencí v deseti bodech – co může neurolog očekávat od molekulárního genetika?
- Lehká mozková poranění – konsenzuální odborné stanovisko České neurologické společnosti ČLS JEP
- Analýza dat v neurologii LXXIII. Problematika interpretace Pearsonova korelačního koeficientu
- Vieme dobre diagnostikovať dyskinetickú formu DMO? ÁNO
- Umíme dobře diagnostikovat dyskinetickou formu DMO? NE
- Umíme dobře diagnostikovat dyskinetickou formu DMO?
- Sub signum coma – súčasný pohľad na chronické poruchy vedomia
- Chronický subdurální hematom
- Editorial
- Iatrogenizácia pacientov so psychogénnymi neepileptickými záchvatmi – možné východiská
- Praktické užití a indikace transkraniální stimulace stejnosměrným proudem
- Poděkování recenzentům
- Transkraniální magnetická stimulace u hraniční poruchy osobnosti – série kazuistik
- Změny v expresi TNFα a microRNA-15b u experimentálního modelu subarachnoidálního krvácení
- Raschova analýza dotazníku Q-LES-Q-SF na podkladě odpovědí pacientů s neuropatickou bolestí
- Oligoklonální IgG a volné lehké řetězce – srovnání izoelektrické fokusace v agarózovém a polyakrylamidovém gelu
- Evokované potenciály vyvolané kontaktním teplem – vliv fyziologických proměnných
- Ketogenní dieta – účinná nefarmakologická léčba dětské a adolescentní epilepsie
- Laboratorní účinnost kyseliny acetylsalicylové v sekundární prevenci ischemických cévních mozkových příhod
- Parietální atrofie na magnetické rezonanci mozku u Alzheimerovy nemoci s pozdním začátkem
- Nové možnosti ultrazvuku v predikci výskytu bolesti dolní části zad u dospívajících mužů – pilotní studie
- Česká a slovenská neurologie a neurochirurgie
- Archív čísel
- Aktuálne číslo
- Informácie o časopise
Najčítanejšie v tomto čísle- Lehká mozková poranění – konsenzuální odborné stanovisko České neurologické společnosti ČLS JEP
- Chronický subdurální hematom
- Oligoklonální IgG a volné lehké řetězce – srovnání izoelektrické fokusace v agarózovém a polyakrylamidovém gelu
- Ketogenní dieta – účinná nefarmakologická léčba dětské a adolescentní epilepsie
Prihlásenie#ADS_BOTTOM_SCRIPTS#Zabudnuté hesloZadajte e-mailovú adresu, s ktorou ste vytvárali účet. Budú Vám na ňu zasielané informácie k nastaveniu nového hesla.
- Časopisy