Statistika

Výpočet a využití směrodatné odchylky ve statistice

14 dubna, 2023
Štěpán Ficík

Co je směrodatná odchylka a jak se vypočítává

Směrodatná odchylka je statistickým ukazatelem, který nám umožňuje vyjádřit rozptýlení dat v náhodnému výběru. V tomto článku se podíváme na to, jak se vypočítává směrodatná odchylka v programu Excel a jak se využívá v oblasti statistiky.

Výpočet směrodatné odchylky a její využití v statistice

Směrodatná odchylka se v programu Excel vypočítává pomocí funkce STDEVP pro celý soubor dat nebo pomocí funkce STDEV.S pro výběr ze souboru dat. V obou případech se jedná o standardní směrodatnou odchylku pro celou populaci nebo pro výběrovou množinu dat.

Matematický vzorec pro výpočet směrodatné odchylky pro celou populaci:

σ = sqrt [ Σ ( xi - μ )^2 / N ]

kde: σ = směrodatná odchylka Σ = součet xi = hodnota i-tého prvku souboru dat μ = průměrná hodnota souboru dat N = počet prvků v souboru dat

Matematický vzorec pro výpočet směrodatné odchylky pro výběrovou množinu:

s = sqrt [ Σ ( xi - x̄ )^2 / ( n - 1 ) ]

kde: s = směrodatná odchylka pro výběrovou množinu Σ = součet xi = hodnota i-tého prvku výběrové množiny x̄ = průměrná hodnota výběrové množiny n = velikost výběru

Je důležité si uvědomit, že směrodatná odchylka se používá společně s průměrem pro popis distribuce dat a ne jako samostatný ukazatel. Zatímco průměr nám říká, kde jsou data koncentrována, směrodatná odchylka nám ukazuje, jak moc jsou data rozptýlena okolo průměru.

Využití směrodatné odchylky spočívá například v testování hypotéz, kde nám umožňuje stanovit interval spolehlivosti pro průměrnou hodnotu v populaci na základě výběrových dat.

Ovšem existuje i několik jiných vzorců pro výpočet směrodatné odchylky, které se mohou v určitých případech ukázat jako výhodnější. Například pro velké vzorky se často používá asymptotický vzorec, kterým lze směrodatnou odchylku aproximovat za předpokladu, že počet pozorování je dostatečně velký:

s = sqrt(sum((xi - x)^2)/(n-1)) * sqrt(n/(n-k))

Kde s je směrodatná odchylka, xi jsou jednotlivé pozorování, x je průměr výběru, n je počet pozorování a k je počet odhadovaných parametrů.

Pro malé vzorky s nízkým počtem pozorování může být výhodné použít tzv. souborovou směrodatnou odchylku, která se liší od standardní směrodatné odchylky tím, že se místo rozptylu používá souborový rozptyl, což může vést ke konzervativnějším výsledkům (tj. menší pravděpodobnost zamítnutí nulové hypotézy). Souborová směrodatná odchylka se vypočítá pomocí následujícího vzorce:

s = sqrt(sum((xi - x)^2)/(n-1))

Porovnání výsledků vypočtených pomocí různých vzorců může být užitečné pro posouzení robustnosti a přesnosti výsledků. V praxi se nejčastěji používá standardní směrodatná odchylka, zejména při testování hypotéz a v inferenční statistice.

Využití směrodatné odchylky je však mnohem širší, než jen v oblasti testování hypotéz. Směrodatná odchylka je například důležitým ukazatelem variability dat v různých oborech vědy a průmyslu, jako je například medicína, psychologie, ekonomie, inženýrství nebo informatika. Pomocí směrodatné odchylky lze posoudit, jak velká je rozmanitost dat v dané souboru a jak se liší od průměru.

Ověření přesnosti odhadu směrodatné odchylky se provádí testováním hypotézy, která má nulovou hypotézu, že skutečná hodnota směrodatné odchylky je rovna odhadu z výběru, a alternativní hypotézu, že skutečná hodnota je odhadem různá. Při testování hypotéz se používá t-distribuce a vypočítává se t-testová statistika. Kritická hodnota t-testové statistiky se určuje na základě zvolené hladiny významnosti a počtu stupňů volnosti. Pokud je hodnota t-testové statistiky menší než kritická hodnota, nezamítneme nulovou hypotézu a můžeme říci, že odhad směrodatné odchylky z výběru je přesný. Pokud je hodnota t-testové statistiky větší než kritická hodnota, zamítneme nulovou hypotézu a můžeme říci, že odhad směrodatné odchylky z výběru není přesný.

Vzorec pro výpočet t-testu:

t = (s - σ) / (s / √n)

Kde:

s je směrodatná odchylka výběru σ je skutečná hodnota směrodatné odchylky (nulová hypotéza) n je počet pozorování

Pro porovnání, ekvivalentní vzorec pro výpočet standardní směrodatné odchylky je:

s = √(Σ(xi - x̄)² / (n - 1))

Kde:

Σ je sumace hodnot od i = 1 do i = n xi je i-tá hodnota výběru x̄ je průměr výběru n je počet pozorování

Při porovnání těchto dvou vzorců si všimneme, že vzorec pro výpočet směrodatné odchylky z výběru (s) má v jmenovateli (n – 1) namísto n, což se nazývá Besselova korekce. Besselova korekce se používá pro výpočet směrodatné odchylky ze vzorku, aby se minimalizovalo zkreslení odhadu směrodatné odchylky. Na druhé straně t-testová statistika obsahuje koeficient √n v jmenovateli, aby byla tato statistika nezávislá na velikosti vzorku.

Využití směrodatné odchylky se vyskytuje v mnoha oblastech statistiky, jako jsou regresní analýzy, testování hypotéz, či v analýze dat. V praxi se také často používá v oblasti průmyslu a ekonomie, například k měření variability výroby nebo k analýze finančních trhů.

Je však třeba si uvědomit, že směrodatná odchylka může být ovlivněna extrémními hodnotami (tzv. outliery), které se v datech vyskytují. V takovém případě se může hodit použití jiných mír měření variability, jako je například mediánová absolutní odchylka (MAD).

Výpočet směrodatné odchylky v Excelu se provádí pomocí funkce STDEV.P, která počítá směrodatnou odchylku pro celou populaci, nebo pomocí funkce STDEV.S, která počítá směrodatnou odchylku pro výběrovou souboru. Obě funkce mají podobný matematický vzorec:

σ = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - x̅)^{2}}

Kde σ je směrodatná odchylka, n je počet pozorování, xi jsou jednotlivá pozorování, x̅ je průměr pozorování.

Je také možné použít alternativní vzorec pro výpočet směrodatné odchylky, který bere v úvahu, že s rostoucím počtem pozorování se rozptyl pravděpodobně blíží skutečné hodnotě rozptylu v populaci. Tento vzorec se nazývá zkorigovaná směrodatná odchylka a je definován jako:

s = \sqrt{\frac{1}{n-1} \sum_{i = 1}^{n} (x_{i} - x̅)^{2}}

Kde s je zkorigovaná směrodatná odchylka, n je počet pozorování, xi jsou jednotlivá pozorování, x̅ je průměr pozorování.

Porovnání výpočtů standardní směrodatné odchylky proti ekvivalentnímu vzorci (zkorigované směrodatné odchylky) ukazuje, že se oba vzorce používají k vypočítání hodnoty rozptylu. Rozdíl je pouze v tom, že vzorec pro standardní směrodatnou odchylku používá průměr celého souboru, zatímco vzorec pro zkorigovanou směrodatnou odchylku používá průměr souboru odhadů. V praxi je často používán vzorec pro standardní směrodatnou odchylku, protože poskytuje dobrý odhad rozptylu pro celý soubor dat.

Využití směrodatné odchylky se vyskytuje v mnoha oblastech statistiky, jako jsou regresní analýzy, testování hypotéz, analýza časových řad a mnoho dalších. Směrodatná odchylka je užitečným nástrojem pro posouzení rozptýlení dat v souboru a může nám pomoci identifikovat odlehlé hodnoty a zdroje variability.

Výhody a nevýhody použití směrodatné odchylky v praxi

Výpočet směrodatné odchylky je relativně jednoduchý, ale je důležité si být vědom toho, že standardní směrodatná odchylka je citlivá na extrémní hodnoty. Proto je vhodné používat i další statistické ukazatele, jako jsou kvantily nebo interkvartilové rozpětí, které jsou méně citlivé na extrémní hodnoty.

Výpočet směrodatné odchylky je často dostupný v mnoha softwarových programech, včetně Microsoft Excel, R nebo Python. Celkově je směrodatná odchylka užitečným nástrojem pro posouzení variability dat v souboru. Je důležité vypočítat ji správně a vzít v úvahu citlivost na extrémní hodnoty. Při analýze dat bychom měli používat více statistických ukazatelů a využívat je k podrobnějšímu porozumění datům a jejich vlastnostem.

Sdílet tento článek