Svet statistike je poln pasti, vendar je poln tudi priložnosti. Ne glede na to, ali ste uporabnik statistik ali nekdo, ki jih mora razlagati, se lahko zapletete v pasti. Prav tako se je mogoče sprehoditi okoli njih. Tukaj je deset nasvetov in pasti s področij testiranja hipotez, regresije, korelacije in grafa.
Pomembno ne pomeni vedno pomembno
Pomen je v mnogih pogledih slabo izbran izraz. Ko statistični test prinese pomemben rezultat in je odločitev, da se H0 zavrne, to ne zagotavlja, da je študija, ki stoji za podatki, pomembna. Statistika lahko le pomaga pri odločanju o številkah in sklepih o procesih, ki so jih ustvarili. Ne morejo narediti teh procesov pomembnih ali pretresljivih. Pomembnost je nekaj, o čemer morate presoditi sami - in noben statistični test tega ne more storiti namesto vas.
Regresija ni vedno linearna
Ko poskušate regresijski model prilagoditi razpršenemu diagramu, je skušnjava, da takoj uporabite črto. To je najbolje razumljen regresijski model, in ko se ga navadite, naklona in prestrezanja niso tako zastrašujoči.
Toda linearna regresija ni edina vrsta regresije. Možno je prilagoditi krivuljo prek razpršenega grafikona. Naj vas ne zavede: statistične koncepte krivuljne regresije je težje razumeti kot koncepte linearne regresije.
Vendar si je vredno vzeti čas za obvladovanje teh konceptov. Včasih se krivulja veliko bolje prilega kot črta.
Ekstrapoliranje izven vzorčne razpršene grafike je slaba ideja
Ne glede na to, ali delate z linearno regresijo ali krivolinijsko regresijo, ne pozabite, da je neprimerno posploševati onkraj meja razpršenega grafikona.
Recimo, da ste vzpostavili trdno napovedno razmerje med preizkusom matematične sposobnosti in uspešnostjo pri matematičnih tečajih in vaš razpršeni diagram pokriva le ozek obseg matematičnih sposobnosti. Ne morete vedeti, ali razmerje vzdrži zunaj tega območja. Napovedi izven tega razpona niso veljavne.
Najbolje je, da razširite razpršeno shemo s testiranjem več ljudi. Morda boste ugotovili, da izvirno razmerje pove le del zgodbe.
Preučite variabilnost okoli regresijske črte
Natančna analiza ostankov (razlik med opazovanimi in predvidenimi vrednostmi) vam lahko veliko pove o tem, kako dobro se črta prilega podatkom. Temeljna predpostavka je, da je variabilnost okoli regresijske črte enaka navzgor in navzdol. Če ni, model morda ni tako napovedan, kot si mislite. Če je variabilnost sistematična (večja variabilnost na enem koncu kot na drugem), je morda bolj primerna krivolinijska regresija kot linearna. Standardna napaka ocene ne bo vedno kazalnik.
Vzorec je lahko prevelik
Verjeli ali ne, to se včasih zgodi s korelacijskimi koeficienti. Zelo velik vzorec lahko naredi majhen korelacijski koeficient statistično pomemben.
Toda kaj ta korelacijski koeficient v resnici pomeni? Koeficient determinacije —r2 — je samo 0,038, kar pomeni, da je SSRegresija manjša od 4 odstotkov skupne vrednosti SST. To je zelo majhna asociacija.
Zaključek: Ko gledate korelacijski koeficient, bodite pozorni na velikost vzorca. Če je dovolj velik, se lahko zaradi tega trivialna povezava izkaže za statistično pomembno. (Hmmm ... pomen - spet je tukaj!)
Potrošniki: Poznajte svoje osi
Ko pogledate graf, se prepričajte, da veste, kaj je na vsaki osi. Prepričajte se, da razumete merske enote. Ali razumete neodvisno spremenljivko? Ali razumete odvisno spremenljivko? Lahko vsakega opišeš s svojimi besedami? Če je odgovor na katero koli od teh vprašanj »Ne«, ne razumete grafa, ki ga gledate.
Ko gledate graf v televizijskem oglasu, bodite zelo previdni, če prehitro izgine, preden lahko vidite, kaj je na oseh. Oglaševalec morda poskuša ustvariti dolgotrajen napačen vtis o lažnem razmerju znotraj grafa. Grafično razmerje je lahko enako veljavno kot tisti drugi osnovni element televizijskega oglaševanja – znanstveni dokaz prek animirane risanke: drobne animirane ščetke za čiščenje zob iz risank morda ne zagotavljajo nujno bolj belih zob za vas, če kupite izdelek.
Grafiranje kategorične spremenljivke, kot da je kvantitativna spremenljivka, je napačno
Torej ste skoraj pripravljeni na tekmovanje v svetovni seriji Rock-Paper-Scissors. V pripravah na ta mednarodni turnir ste prešteli vse svoje tekme v zadnjih desetih letih in navedli odstotek zmag, ko ste igrali vsako vlogo.
Če želite povzeti vse rezultate, uporabite Excelove grafične zmogljivosti, da ustvarite graf.
Toliko ljudi ustvarja tovrstne grafe – ljudi, ki bi morali vedeti bolje. Črta na grafu pomeni kontinuiteto od ene točke do druge. S temi podatki je to seveda nemogoče. Kaj je med kamnom in papirjem? Zakaj so enake enote narazen? Zakaj so tri kategorije v tem vrstnem redu?
Preprosto povedano, črtni graf ni ustrezen graf, če je vsaj ena od vaših spremenljivk niz kategorij. Namesto tega ustvarite stolpčni graf. Tudi tukaj deluje tortni grafikon, ker so podatki v odstotkih in imate le nekaj rezin.
Kadar koli je primerno, v svoj graf vključite variabilnost
Ko točke v vašem grafu predstavljajo povprečje, se prepričajte, da graf vključuje standardno napako vsakega povprečja. To daje gledalcu predstavo o variabilnosti podatkov – kar je pomemben vidik podatkov.
Sredstva sama po sebi ne povejo vedno celotne zgodbe. Izkoristite vsako priložnost, da preučite odstopanja in standardna odstopanja. Morda boste našli nekaj skritih kepic. Sistematične variacije – na primer visoke vrednosti variance, povezane z velikimi povprečji – so lahko namig o razmerju, ki ga prej niste videli.
Bodite previdni pri povezovanju konceptov učbenikov statistike z Excelom
Če se resno ukvarjate s statističnim delom, boste verjetno imeli priložnost pogledati kakšno statistično besedilo ali dva. Upoštevajte, da simboli na nekaterih področjih statistike niso standardni.
Povezovanje konceptov učbenikov s statističnimi funkcijami Excela je lahko izziv zaradi besedil in Excela. Sporočila v pogovornih oknih in datotekah pomoči lahko vsebujejo simbole, ki niso tisti, o katerih ste prebrali, ali pa uporabljajo iste simbole, vendar na drugačen način. To neskladje vas lahko privede do napačnega vnosa parametra v pogovornem oknu, kar povzroči napako, ki ji je težko izslediti.