Svět statistik je plný nástrah, ale je také plný příležitostí. Ať už jste uživatel statistik nebo někdo, kdo je musí interpretovat, je možné, že se dostanete do úskalí. Dá se kolem nich také projít. Zde je deset tipů a pastí z oblasti testování hypotéz, regrese, korelace a grafu.
Významné nemusí vždy znamenat důležité
Význam je v mnoha ohledech špatně zvolený termín. Když statistický test přinese významný výsledek a rozhodnutí je zamítnout H0, nezaručuje to, že studie za daty je důležitá. Statistiky mohou pouze pomoci při rozhodování o číslech a závěrech o procesech, které je vytvořily. Nemohou učinit tyto procesy důležitými nebo otřesnými. Důležitost je něco, co musíte posoudit sami – a to za vás žádný statistický test neudělá.
Regrese není vždy lineární
Při pokusu o přizpůsobení regresního modelu bodovému grafu je pokušení okamžitě použít čáru. Toto je nejlépe srozumitelný regresní model, a když to pochopíte, sklony a průsečíky nejsou tak skličující.
Ale lineární regrese není jediným druhem regrese. Je možné proložit křivku bodovým grafem. Nenechte se zmást: Statistické pojmy za křivočarou regresí jsou obtížnější na pochopení než pojmy za lineární regresí.
Nicméně stojí za to věnovat čas zvládnutí těchto konceptů. Někdy se křivka hodí mnohem lépe než čára.
Extrapolovat mimo vzorový bodový graf je špatný nápad
Ať už pracujete s lineární regresí nebo křivočarou regresí, mějte na paměti, že je nevhodné zobecňovat za hranice bodového grafu.
Předpokládejme, že jste vytvořili pevný prediktivní vztah mezi testem matematických schopností a výkonem v matematických kurzech a váš bodový graf pokrývá pouze úzký rozsah matematických schopností. Nemáte žádný způsob, jak zjistit, zda vztah překračuje tento rozsah. Předpovědi mimo tento rozsah nejsou platné.
Nejlepším řešením je rozšířit bodový plán testováním více lidí. Možná zjistíte, že původní vztah vypráví jen část příběhu.
Prozkoumejte variabilitu kolem regresní přímky
Pečlivá analýza reziduí (rozdílů mezi pozorovanými a předpokládanými hodnotami) vám může hodně napovědět, jak dobře čára odpovídá datům. Základním předpokladem je, že variabilita kolem regresní přímky je stejná nahoru i dolů po přímce. Pokud tomu tak není, model nemusí být tak prediktivní, jak si myslíte. Pokud je variabilita systematická (větší variabilita na jednom konci než na druhém), může být křivočará regrese vhodnější než lineární. Standardní chyba odhadu nebude vždy ukazatelem.
Vzorek může být příliš velký
Věřte nebo ne, ale u korelačních koeficientů se to někdy stává. Velmi velký vzorek může způsobit, že malý korelační koeficient bude statisticky významný.
Ale co ten korelační koeficient skutečně znamená? Koeficient determinace —r2 — je právě 0,038, což znamená, že SSRegrese je menší než 4 procenta SSTotal. To je velmi malá asociace.
Sečteno a podtrženo: Při pohledu na korelační koeficient si uvědomte velikost vzorku. Pokud je dostatečně velký, může se triviální asociace ukázat jako statisticky významná. (Hmmm... význam – je to tu znovu!)
Spotřebitelé: Poznejte své osy
Když se podíváte na graf, ujistěte se, že víte, co je na každé ose. Ujistěte se, že rozumíte měrným jednotkám. Rozumíte nezávislé proměnné? Rozumíte závislé proměnné? Můžete každou z nich popsat vlastními slovy? Pokud je odpověď na kteroukoli z těchto otázek „Ne“, nerozumíte grafu, na který se díváte.
Když se díváte na graf v televizní reklamě, buďte velmi opatrní, pokud zmizí příliš rychle, než uvidíte, co je na osách. Inzerent se možná snaží vytvořit přetrvávající falešný dojem o falešném vztahu uvnitř grafu. Vztah v grafu může být stejně platný jako ten další základ televizní reklamy – vědecký důkaz prostřednictvím animovaného filmu: Drobné animované kartáčky na čištění zubů v kreslených filmech vám nemusí nutně zaručit bělejší zuby, pokud si produkt koupíte.
Graf kategorické proměnné, jako by to byla kvantitativní proměnná, je prostě špatně
Takže jste téměř připraveni soutěžit ve světové sérii Kámen-Papír-Nůžky. V rámci přípravy na tento mezinárodní turnaj jste sečetli všechny své zápasy za posledních deset let a uvedli jste procento vítězství, když jste hráli každou roli.
Chcete-li shrnout všechny výsledky, použijte grafické možnosti aplikace Excel k vytvoření grafu.
Tolik lidí vytváří tyto druhy grafů – lidí, kteří by to měli vědět lépe. Čára v grafu naznačuje spojitost z jednoho bodu do druhého. S těmito údaji je to samozřejmě nemožné. Co je mezi kamenem a papírem? Proč jsou od sebe stejné jednotky? Proč jsou tři kategorie v tomto pořadí?
Jednoduše řečeno, spojnicový graf není správný graf, pokud alespoň jedna z vašich proměnných je sada kategorií. Místo toho vytvořte sloupcový graf. Výsečový graf funguje i zde, protože data jsou procenta a máte jen pár řezů.
Kdykoli je to vhodné, zahrňte do grafu variabilitu
Když body v grafu představují průměry, ujistěte se, že graf obsahuje standardní chybu každého průměru. To dává divákovi představu o variabilitě dat – což je důležitý aspekt dat.
Prostředky samy o sobě vám vždy neřeknou celý příběh. Využijte každou příležitost ke zkoumání rozptylů a směrodatných odchylek. Možná najdete nějaké skryté nugety. Systematické variace – například vysoké hodnoty rozptylu spojené s velkými prostředky – mohou být vodítkem o vztahu, který jste předtím neviděli.
Buďte opatrní při spojování pojmů z učebnice statistiky s Excelem
Pokud to se statistickou prací myslíte vážně, pravděpodobně budete mít příležitost nahlédnout do jednoho nebo dvou statistických textů. Mějte na paměti, že symboly v některých oblastech statistiky nejsou standardní.
Propojení učebnicových konceptů se statistickými funkcemi Excelu může být problém kvůli textům a kvůli Excelu. Zprávy v dialogových oknech a v souborech nápovědy mohou obsahovat jiné symboly, než o kterých jste četli, nebo mohou používat stejné symboly, ale jiným způsobem. Tato nesrovnalost může vést k nesprávnému zadání parametru v dialogovém okně, což má za následek chybu, kterou je těžké vysledovat.