Analýza dat v neurologii - LXX. Kovariance

Česká verzia

Autoři: L. Dušek; T. Pavlík; J. Jarkovský ; J. Koptíková
Působiště autorů: Institut biostatistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2018; 81(4): 487-490
Kategorie: Okénko statistika

Minulý díl seriálu jsme věnovali úvodu do analýzy kovariance, kterou jsme představili jako jeden ze základních ukazatelů vztahu dvou kvantitativních proměnných. Označíme-li tyto proměnné X a Y, pak kovarianci značíme cov(X, Y).

Připomeňme z minulého dílu, že odhad kovariance kalkulujeme podle následujícího vztahu:

x_i, y_i jsou jednotlivé hodnoty proměnných X a Y naměřené párově u i = 1 až i = N jedinců v analyzovaném souboru,
x– , y– jsou aritmetické průměry proměnných X a Y.

V tomto díle se dále zaměříme na vybrané vlastnosti kovariance jako statistického ukazatele, představíme postupy pro testování její statistické významnosti a doplníme užitečné informace k jejímu využití. Zamysleme se nejprve v několika následujících poznámkách nad výpočtem hodnoty kovariance dle výše uvedeného vztahu, neboť již z něj lze odvodit interpretační význam kovariance, ale také její limity.

Hodnota kovariance je jednoznačně závislá na rozložení hodnot proměnných X a Y kolem jejich aritmetického průměru, neboť čitatel je součtem násobků vzdáleností každé jednotlivé hodnoty x_i a y_i od průměru x– , respektive y– . Pokud hodnoty X a Y vykazují na měřených subjektech stejný trend (vztah), pak rostou stejným směrem od průměru a kovariance nabývá kladných hodnot, tím větších, čím je tento vztah průkaznější. Naopak, pokud hodnoty X a Y jdou v pozici vůči svým průměrům opačným směrem, je kovariance číselně záporná a vyjadřuje záporný vztah obou proměnných. Nulová či nule blízká hodnota kovariance potom dokládá neexistenci vztahu X a Y, jejichž hodnoty na sobě nijak nezávisí a vyskytují se v pozici vůči svým průměrným hodnotám zcela náhodně.

Čím jsou tedy hodnoty proměnných X a Y více „rozptýleny“ kolem jejich průměru, tím je hodnota kovariance numericky vyšší, ať již v záporných nebo kladných číslech. Proto se o kovarianci v odborné literatuře někdy píše jako o společném rozptylu proměnných X a Y, jejichž závislost studujeme. Její výpočet totiž skutečně vychází z výpočtu pro rozptyl, který jednoduše definujeme jako průměrný čtverec vzdálenosti od průměru. Pokud tedy dosadíme do vztahu pro výpočet kovariance místo hodnoty Y hodnotu X, dostaneme vztah pro výpočet rozptylu proměnné X, který označme var(X):

A obdobně by samozřejmě platilo, že cov(Y, Y) = var(Y). Příklad 1 dokládá na konkrétním souboru dat platnost tohoto vztahu mezi kovariancí a rozptylem. Mnohé čtenáře nyní jistě napadá legitimní otázka, zda jsme zde ve výkladu již nepřešli k příliš detailním matematickým podrobnostem a zda tyto informace mají prakticky využitelný výstup. Odpověď zní jednoznačně ano, neboť z výše uvedeného vyplývají zásadní interpretační omezení odhadu kovariance. Absolutní hodnoty kovariance totiž nejsou určovány pouze silou vztahu proměnných X a Y, ale zejména jejich jednotkami a tedy i velikostí jejich rozptylu, který je číselně rovněž určen jednotkami X a Y. Budeme-li např. zkoumat vztah mezi výškou a hmotností lidské postavy, vyjde kovariance v absolutních hodnotách zcela jinak při měření výšky v metrech nebo v centimetrech. V tomto smyslu je kovariance číselně nestandardizovaný ukazatel a velikost kovariance není nijak omezena. Tento fakt dokládá příklad 2 tohoto dílu seriálu.

**Příklad 1. Výpočet kovariance vychází z hodnot rozptylu proměnných, jejichž vztah studujeme.**

**Příklad 2. Hodnoty kovariance jsou určovány rozptylem, a tedy jednotkami proměnných, jejichž vztah zkoumáme.**

Pro odhad kovariance tedy není definována maximální hodnota, která by vyjadřovala nejsilnější možný vztah zkoumaných proměnných (jejich hodnoty by v takovém případě ležely přesně na přímce). Naopak, situaci ještě komplikuje fakt, že kovariance je statistika tzv. parametrická, což znamená, že předpokladem pro její výpočet je smysluplná výpovědní hodnota aritmetického průměru jako středu normálního (Gaussova) rozdělení hodnot. Předpokládáme tedy, že proměnné X a Y naplňují definici normálního rozdělení, které známe jako rozdělení symetrické, bez odlehlých hodnot a s hodnotou aritmetického průměru rovnou mediánu. Významně odlehlé hodnoty jedné nebo obou zkoumaných proměnných silně ovlivňují číselnou hodnotu kovariance, neboť v čitateli pro její výpočet se objeví velká číselná hodnota rozdílů x_i – x– nebo y_i – y– . V extrémním případě tak může jedna jediná hodnota vést k vysoké hodnotě kovariance, která by po jejím vyloučení z výpočtu byla nulová nebo blízká nule. Z tohoto důvodu nesmí být kontrola rozdělení hodnot zkoumaných proměnných podceněna.

Z výše uvedeného vyplývá, že z absolutních hodnot kovariance nelze prvoplánově usuzovat sílu vztahu zkoumaných proměnných a dále že hodnoty kovariance odhadnuté v různých studiích jsou jen obtížně srovnatelné. O to větší význam má testování statistické významnosti kovariance, které by mělo být téměř povinným doplňkem publikovaných hodnot. Kovariance je stochastický ukazatel a o jejích hodnotách lze tedy formulovat různé hypotézy a jejich platnost ověřovat statistickými testy. Standardní hypotézou je nulová hypotéza, že kovariance je rovna nule a mezi proměnnými X a Y tedy není žádný prokazatelný vztah. Zamítnutím této hypotézy statistickým testem na dané hladině významnosti potvrzujeme statisticky významný vztah mezi zkoumanými proměnnými.

Připomeňme, že statistické testy pracují s tzv. testovou statistikou, kterou počítáme dle definovaného vztahu a výsledek vyhodnocujeme pomocí pravděpodobnosti. Testová statistika odhadu kovariance má Studentovo rozdělení pro N –⁠ 2 stupňů volnosti a její výpočet zde dokládá příklad 3. Ze vztahu pro testovou statistiku je zřejmé, že čím větší je hodnota kovariance, ať již kladná nebo záporná, tím větší absolutní hodnoty dosahuje hodnota statistiky t a tím větší je pravděpodobnost zamítnutí nulové hypotézy cov(X, Y) = 0.

**Příklad 3. Testování statistické významnosti kovariance.**

Fakt, že pro kovarianci není definována maximální možná hodnota a číselná hodnota odhadu kovariance závisí na jednotkách a rozptylu zkoumaných proměnných, nemusí být vždy nevýhodou. Například zkoumáme -⁠ li vztah dvou proměnných, které mají finanční význam (X: investice v Kč; Y: výnosy v Kč), je absolutní číselná hodnota kovariance přímo využitelná pro posouzení síly vztahu. Obecně při posuzování vztahu dvou proměnných, které si vzájemně odpovídají jednotkami i číselným rozsahem, může mít absolutní hodnota kovariance přímou interpretaci.

Tento díl seriálu uzavřeme příkladem 4, který znázorňuje situaci, kdy potřebujeme posoudit hodnotu kovariance pro více než 2 proměnné. Potřeba vyjádřit se současně o větším počtu proměnných je v praxi velmi častá a vede k vícerozměrnému přístupu v korelační analýze. Při současném zpracování K proměnných hodnotíme kovarianci pro K * (K –⁠ 1)/ 2 dvojic proměnných, které sestavujeme do tzv. kovarianční matice, jejíž řádky i sloupce jsou věnovány postupně první až K-té proměnné. Na průsečíku i-tého řádku a j-tého sloupce je uvedena kovariance i-té a j-té proměnné. Kovarianční matice je čtvercová (symetrická podle hlavní diagonály) a na diagonále obsahuje rozptyly zkoumaných proměnných, neboť platí výše zdůvodněný vztah cov(X, X) = var(X).