Svijet statistike pun je zamki, ali je pun i prilika. Bilo da ste korisnik statistike ili netko tko ih mora tumačiti, moguće je upasti u zamke. Također je moguće prošetati oko njih. Evo deset savjeta i zamki iz područja testiranja hipoteza, regresije, korelacije i grafikona.
Značajno ne znači uvijek važno
Značaj je, na mnogo načina, loše odabran izraz. Kada statistički test daje značajan rezultat, a odluka je da se H0 odbije, to ne jamči da je studija koja stoji iza podataka važna. Statistika može samo pomoći u donošenju odluka o brojevima i zaključcima o procesima koji su ih proizveli. Oni ne mogu učiniti te procese važnim ili potresnim. Važnost je nešto što morate sami procijeniti - a nijedan statistički test to ne može učiniti umjesto vas.
Regresija nije uvijek linearna
Kada pokušavate uklopiti model regresije u dijagram raspršenja, dolazi u iskušenje da odmah upotrijebite liniju. Ovo je najbolje shvaćeni model regresije, a kada se svladate, nagibi i presjeci nisu toliko zastrašujući.
Ali linearna regresija nije jedina vrsta regresije. Moguće je uklopiti krivulju kroz dijagram raspršenja. Nemojte se zavaravati: statističke koncepte koji stoje iza krivolinijske regresije teže je razumjeti nego koncepte koji stoje iza linearne regresije.
Međutim, vrijedi odvojiti vrijeme da svladate te koncepte. Ponekad se krivulja puno bolje uklapa od linije.
Ekstrapoliranje izvan dijagrama uzorka je loša ideja
Bez obzira radite li s linearnom ili krivolinijskom regresijom, imajte na umu da je neprikladno generalizirati izvan granica dijagrama raspršenja.
Pretpostavimo da ste uspostavili solidan prediktivni odnos između testa matematičke sposobnosti i uspješnosti na tečajevima matematike, a vaš dijagram raspršenja pokriva samo uski raspon matematičkih sposobnosti. Nemate načina da znate održava li se odnos izvan tog raspona. Predviđanja izvan tog raspona nisu valjana.
Najbolje je proširiti dijagram raspršivanja testiranjem više ljudi. Možda ćete otkriti da izvorni odnos govori samo dio priče.
Ispitajte varijabilnost oko regresijske linije
Pažljiva analiza reziduala (razlike između promatranih i predviđenih vrijednosti) može vam puno reći o tome koliko dobro linija odgovara podacima. Temeljna je pretpostavka da je varijabilnost oko regresijske linije ista gore i dolje. Ako nije, model možda neće biti tako predvidljiv kao što mislite. Ako je varijabilnost sustavna (veća varijabilnost na jednom kraju nego na drugom), krivolinijska regresija bi mogla biti prikladnija od linearne. Standardna pogreška procjene neće uvijek biti pokazatelj.
Uzorak može biti prevelik
Vjerovali ili ne, to se ponekad događa s koeficijentima korelacije. Vrlo velik uzorak može mali koeficijent korelacije učiniti statistički značajnim.
Ali što taj koeficijent korelacije zapravo znači? Koeficijent determinacije —r2 — je samo 0,038, što znači da je SSRegresija manja od 4 posto ukupnog SST-a. To je vrlo mala udruga.
Zaključak: kada gledate koeficijent korelacije, budite svjesni veličine uzorka. Ako je dovoljno velik, može učiniti da trivijalna asocijacija postane statistički značajna. (Hmmm... značaj — evo ga opet!)
Potrošači: Poznajte svoje sjekire
Kada gledate grafikon, provjerite znate li što je na svakoj osi. Provjerite jeste li razumjeli mjerne jedinice. Razumijete li nezavisnu varijablu? Razumijete li zavisnu varijablu? Možete li svaki opisati svojim riječima? Ako je odgovor na bilo koje od ovih pitanja "Ne", ne razumijete grafikon koji gledate.
Kada gledate grafikon u TV oglasu, budite vrlo oprezni ako prebrzo nestane, prije nego što vidite što je na osi. Oglašivač možda pokušava stvoriti dugotrajan lažni dojam o lažnom odnosu unutar grafikona. Grafički odnos mogao bi biti jednako valjan kao i ona druga glavna komponenta TV oglašavanja — znanstveni dokaz putem animiranog crtića: malene animirane četkice za čišćenje zuba iz crtića ne moraju nužno jamčiti bjelje zube za vas ako kupite proizvod.
Grafički prikaz kategoričke varijable kao da je kvantitativna varijabla jednostavno je pogrešno
Dakle, samo što ste spremni za natjecanje u Svjetskoj seriji Kamen-papir-škare. Pripremajući se za ovaj međunarodni turnir, zbrojili ste sve svoje mečeve iz posljednjih deset godina, navodeći postotak pobjede kada ste igrali svaku ulogu.
Da biste sumirali sve rezultate, upotrijebite grafičke mogućnosti programa Excel za izradu grafikona.
Toliko ljudi stvara ovakve grafikone - ljudi koji bi trebali znati bolje. Linija na grafikonu implicira kontinuitet od jedne točke do druge. Uz ove podatke, naravno, to je nemoguće. Što je između kamena i papira? Zašto su jednake jedinice? Zašto su tri kategorije u tom redoslijedu?
Jednostavno rečeno, linijski grafikon nije pravi grafikon kada je barem jedna od vaših varijabli skup kategorija. Umjesto toga, napravite grafikon stupaca. I ovdje radi tortni grafikon jer su podaci postoci i imate samo nekoliko kriški.
Kad god je prikladno, uključite varijabilnost u svoj grafikon
Kada točke na vašem grafikonu predstavljaju srednje vrijednosti, provjerite uključuje li graf standardnu pogrešku svake sredine. To gledatelju daje ideju o varijabilnosti podataka — što je važan aspekt podataka.
Sredstva sama po sebi ne govore vam uvijek cijelu priču. Iskoristite svaku priliku da ispitate varijacije i standardne devijacije. Možda ćete pronaći neke skrivene grumene. Sustavne varijacije - na primjer, visoke vrijednosti varijance povezane s velikim srednjim vrijednostima - mogu biti trag o odnosu koji prije niste vidjeli.
Budite oprezni kada povezujete koncepte udžbenika statistike s Excelom
Ako se ozbiljno bavite statističkim radom, vjerojatno ćete imati prilike pogledati tekst ili dva statistike. Imajte na umu da simboli u nekim područjima statistike nisu standardni.
Povezivanje pojmova udžbenika s Excelovim statističkim funkcijama može biti izazov zbog tekstova i zbog Excela. Poruke u dijaloškim okvirima i datotekama pomoći mogu sadržavati druge simbole od onih o kojima ste čitali, ili mogu koristiti iste simbole, ali na drugačiji način. Ovo odstupanje može vas dovesti do pogrešnog unosa parametra u dijaloškom okviru, što rezultira pogreškom kojoj je teško ući u trag.