Analýza dat v neurologii
XVII. Neparametrické testy jako alternativa t‑testu

Česká verzia

Autoři: L. Dušek; T. Pavlík; J. Koptíková
Působiště autorů: Institut biostatistiky a analýz, Masarykova univerzita, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2009; 72/105(5): 482-485
Kategorie: Okénko statistika

Minulý díl seriálu jsme věnovali t‑testu, který jsme označili za „zlatý standard statistického testování“. A tím také skutečně je, alespoň viděno očima biologů a lékařů, kteří do analýzy dat pronikli. Málokoho t‑test minul, je součástí úvodní výuky biostatistiky, najdete jej v každé učebnici. Méně zkušené kolegy jsme možná překvapili tím, že t‑test má tři základní formy, které nelze zaměnit (pro dva nezávislé výběry, pro párové uspořádání experimentu a pro jeden náhodný výběr). Již samotný výběr správného t‑testu tedy vyžaduje jistou znalost problematiky a bohužel nevystačíme pouze s hledáním vhodného příkazu v menu statistického software. Ještě závažnějším problémem ale mohou být předpoklady pro správnou aplikaci t‑testu, které jsou nekompromisní. T-test pracuje s výběry ze základního normálního rozdělení, a tedy vyžaduje splnění předpokladu normálního rozdělení u sledované proměnné. Výrazně odlehlé hodnoty nebo asymetrické výběrové rozdělení znehodnotí práci, a aplikace t‑testu vede k nesmyslným výstupům.

Řešení je jednoduché a v zásadě existují dvě možnosti. Jednak můžeme ověřit splnění předpokladů t‑testu a v případě problémů s normalitou hodnot rozdělení normalizovat (např. vhodnou transformací) nebo zdůvodněně vylučovat odlehlé hodnoty. Tento postup může být pro laika velmi pracný a hlavně u malých vzorků o n < 20 až nesmyslný, neboť každá vyloučená hodnota představuje nezanedbatelné procento z velikosti vzorku. Nadto –⁠ budeme‑li dostatečně přísní –⁠ předpoklad normálního rozdělení není skoro nikdy přesně splněn, což opět platí především pro malé vzorky. Druhou možností je aplikace neparametrických testů, které nemají žádné nebo velmi minimální předpoklady na rozdělení hodnot náhodné proměnné. Pojmem neparametrický zde rozumíme nezávislý na rozdělení. Aplikací takového testu se tedy zbavíme trápení, o rozdělení náhodné proměnné nemusíme mít větší vědomosti. Je pouze nutné vědět, který typ testu je vhodný pro jakou situaci.

Obecně rozlišujeme tři základní typy neparametrických testů, takže někdy používané tvrzení, že jsou zcela univerzální, není úplně pravda. Jedním typem, tzv. permutačními testy jsme se již zabývali v díle 14 a 15 našeho seriálu. Připomeňme zde, že jde o testy skutečně velmi robustní, neboť nemají žádné předpoklady o rozdělení v populaci, a dokonce ani nevyžadují náhodný výběr. Tyto testy jsou postaveny na randomizaci získaných hodnot a jako takové mohou pracovat i s velmi malými vzorky. Jako učebnicový příklad jsme rozebírali např. Fisherův exaktní test (díl 14 seriálu).

V tomto díle se více zaměříme na další dva typy neparametrických testů, které se velmi často využívají právě v přírodních vědách jako alternativa t‑testu. Postupy výpočtu všech zmíněných testů jsou demonstrovány na příkladech 1–5. Nikoli náhodou jsme příklady výpočtů připravili na experimentech, v nichž se hodnotí počty buněk. Právě počty („counts“), ať již buněk, nebo jevů, impulzů či událostí, velmi často vykazují nestandardní rozdělení četností a neparametrické testy se na ně velmi dobře aplikují.

Prvním typem jsou testy, které pracují s pořadím hodnot neboli s ordinálními škálami. Ordinální data mohou být přímo výstupem měření nebo mohou být na pořadí převedena data kvantitativní, spojitá. Tím, že je převedeme na pořadí, děláme ovšem jakýsi krok zpět a hodnoty již nebudou vystupovat jako kvantitativní míra. Něco ztrácíme (informaci o kvantitě) a něco získáváme (svobodu od předpokladů testu). Převádíme‑li takto např. řadu deseti hodnot, pak nejvyšší číslo bude mít vždy pořadí 10 a bude jedno, zda je za ním hodnota ve stovkách nebo v milionech. Takto je zcela odstraněn vliv odlehlých hodnot. Tyto, někdy také nazývané pořadové testy („rank tests“), reprezentuje Mann‑Whitney U test a Wilcoxonův test (příklady 1 a 2).
Druhý typ neparametrických testů vede k postupům, které pracují pouze s odchylkami od určité hodnoty a těmto přiřazují znaménko + nebo –, podle směru. Dále pracují s četnostmi odchylek, např. sledují, zda jsou kladné odchylky stejně četné jako záporné apod. Tento typ testu reprezentuje tzv. znaménkový test anebo mediánový test (příklady 3 a 4).

**Příklad 1. Wilcoxonův test pro dva nezávislé výběry*.**

**Příklad 2. Wilcoxonův párový test pro dva závislé výběry.**

**Příklad 3. Mediánový test pro dva nezávislé výběry.**

**Příklad 4. Znaménkový test pro dva závislé výběry.**

Čtenář se nyní může zeptat, jak je to tedy s onou slibovanou alternativou t‑testu. Již z uvedených příkladů vyplývá odpověď. Mann‑Whitney U test a mediánový test jsou alternativou t‑testu pro dva nezávislé výběry; znaménkový test („sign test“) a Wilcoxonův test pro dva závislé výběry zastoupí párový t‑test. Jelikož jsou tyto testy opravdu často využívány, věříme, že uvedené příklady nejsou zbytečné. Každý z testů má svůj specifický postup výpočtu, který určuje jeho využitelnost pro různé experimentální situace. Vlastní výpočet dnes samozřejmě provede statistický software, od uživatele se ale vyžaduje vědomá volba konkrétního testu.

Jestliže jde na stejná data použít dva rozdílné testy nebo i více testů, jistě to svádí k pokusům. Zvláště, když to ve věku výkonných osobních počítačů nestojí mnoho námahy. Uživatel ale nesmí být překvapen, když mu různé testy nabídnou poněkud různé výstupy. Často se může stát, že na stejných datech parametrický test povede k zamítnutí nulové hypotézy, ale neparametrický test ji potvrdí. Neparametrické testy mají totiž vždy o něco menší sílu než příslušné testy parametrické, hovoříme tedy o jejich nižší schopnosti rozpoznat neplatnou nulovou hypotézu. Tato skutečnost znamená, že pro prokázání statistické významnosti stejného rozdílu vyžadují větší velikost vzorku. Nižší síle neparametrických testů je nutné přizpůsobit plánování experimentů, které bude náplní některého z dalších dílů našeho seriálu. Zde pouze konstatujme, že u řady neparametrických testů nejde o velkou ztrátu a lze ji snadno kompenzovat zvýšením velikosti vzorku o 10–15 %.

S pojmem neparametrické testování je často spojován fakt, že netestujeme žádnou hypotézu o parametru nějakého modelového pravděpodobnostního rozdělení. Obecně tomu tak jistě je, nicméně při splnění určitých předpokladů se neparametrické testy používají k odhadům parametrů rozdělení nebo dokonce k hledání intervalů spolehlivosti těchto odhadů. Řada neparametrických testů také testuje hypotézy související s hodnotou mediánu. Jako typickou ukázku jsme zde zařadili aplikaci znaménkového testu pro hodnotu mediánu (příklad 5).

**Příklad 5. Znaménkový test hodnoty mediánu.**

Pevně věříme, že po přečtení tohoto dílu se čtenáři nebudou obávat opustit t‑test, zvláště při problémech se splněním jeho předpokladů. Znalost podstaty neparametrických testů umožní správný výběr pro správná data. Pouze doporučujeme jistou konzistentnost při psaní publikací. Jedna práce by měla používat na stejných datech buď parametrické, nebo neparametrické testy; jejich různé náhodné kombinace nesvědčí o promyšlené strategii a odpovědném plánování experimentu.

Na závěr bohužel vneseme do označení testů trochu zmatku. Již v legendě k příkladu 1 je uvedeno, že pro Wilcoxonův test pro dva nezávislé výběry existuje ekvivalentní Mann‑Whitney U test. Významný matematik Frank Wilcoxon (1892–1965) je autorem dvou neparametrických testů, pro párové uspořádání (Wilcoxon Signed-Rank Test; Wilcoxon Matched-Pairs Ranks test) i pro dva nezávislé výběry (Wilcoxon Rank-Sum Test). Oba testy popsal v jediné práci z roku 1945. Mann‑Whitney U test je modifikace výpočtu vzniklá dva roky poté v roce 1947 a je výsledkovým ekvivalentem Wilcoxonova testu pro dva nezávislé výběry. Zmatku často nelze zabránit. Zvláště nebezpečné je, že nepoučenému uživateli mohou splývat dvě varianty Wilcoxonova testu, a tudíž by si mohl splést test pro dva závislé a dva nezávislé výběry. Proto je především u nového software dobré se přesvědčit, jaký test se pod názvem skutečně skrývá.

Tímto závěrem jsme zabrousili hluboko do historie, která je ale, jak vidno, stále vlivná. Přes všechny komplikace je právě toto na výpočetních vědách krásné, tedy že nestárnou tak rychle jako my ϑ.

doc. RNDr. Ladislav Dušek, Dr.
Institut biostatistiky a analýz
Masarykova univerzita, Brno
e-mail: dusek@cba.muni.cz