Statistikos pasaulis yra pilnas spąstų, tačiau jis taip pat pilnas galimybių. Nesvarbu, ar esate statistikos vartotojas, ar kažkas, kas turi ją interpretuoti, galite pakliūti į spąstus. Aplink juos taip pat galima pasivaikščioti. Čia yra dešimt patarimų ir spąstų iš hipotezių tikrinimo, regresijos, koreliacijos ir grafiko.
Reikšmingas ne visada reiškia svarbų
Reikšmė daugeliu atžvilgių yra prastai pasirinktas terminas. Kai statistinis testas duoda reikšmingą rezultatą, o sprendimas yra atmesti H0, tai negarantuoja, kad duomenų tyrimas yra svarbus. Statistika gali tik padėti priimti sprendimus dėl skaičių ir išvadas apie procesus, kurie juos sukūrė. Jie negali padaryti tų procesų svarbių ar žemės drebinamų. Svarbumą turite įvertinti patys – joks statistinis testas to negali padaryti už jus.
Regresija ne visada yra tiesinė
Bandant regresijos modelį pritaikyti sklaidos diagramai, kyla pagunda nedelsiant panaudoti liniją. Tai yra geriausiai suprantamas regresijos modelis, o kai supranti, nuolydžiai ir pertraukos nėra tokie bauginantys.
Tačiau tiesinė regresija nėra vienintelė regresijos rūšis. Galima pritaikyti kreivę per sklaidos diagramą. Neapsigaukite: statistines kreivinės regresijos sąvokas suprasti sunkiau nei tiesinės regresijos sąvokas.
Tačiau verta skirti laiko šioms sąvokoms įsisavinti. Kartais kreivė daug geriau tinka nei linija.
Ekstrapoliacija už imties sklaidos diagramos ribų yra bloga idėja
Nesvarbu, ar dirbate su tiesine ar kreivine regresija, atminkite, kad nedera apibendrinti už sklaidos diagramos ribų.
Tarkime, kad nustatėte tvirtą nuspėjamąjį ryšį tarp matematikos gabumų testo ir rezultatų matematikos kursuose, o jūsų sklaidos diagrama apima tik siaurą matematikos gabumų diapazoną. Jūs negalite žinoti, ar santykiai tęsiasi už šio diapazono ribų. Prognozės už šio diapazono negalioja.
Geriausias pasirinkimas yra išplėsti sklaidos diagramą išbandant daugiau žmonių. Galbūt pastebėsite, kad pirminiai santykiai pasakoja tik dalį istorijos.
Ištirkite kintamumą aplink regresijos tiesę
Kruopšti likučių analizė (skirtumai tarp stebimų ir numatytų verčių) gali daug pasakyti apie tai, kaip linija atitinka duomenis. Pagrindinė prielaida yra ta, kad kintamumas aplink regresijos liniją yra toks pat aukštyn ir žemyn. Jei ne, modelis gali būti ne toks nuspėjamas, kaip manote. Jei kintamumas yra sistemingas (viename gale didesnis kintamumas nei kitame), kreivinė regresija gali būti tinkamesnė nei tiesinė. Standartinė įvertinimo paklaida ne visada bus rodiklis.
Mėginys gali būti per didelis
Tikėkite ar ne, kartais tai atsitinka naudojant koreliacijos koeficientus. Labai didelė imtis gali padaryti mažą koreliacijos koeficientą statistiškai reikšmingą.
Bet ką tas koreliacijos koeficientas iš tikrųjų reiškia? Determinacijos koeficientas –r2 – yra tik 0,038, o tai reiškia, kad SSRegresija yra mažesnė nei 4 procentai SSTotal. Tai labai maža asociacija.
Apatinė eilutė: žiūrėdami į koreliacijos koeficientą, atkreipkite dėmesį į imties dydį. Jei jis pakankamai didelis, trivialus ryšys gali pasirodyti statistiškai reikšmingas. (Hmmm... reikšmė – tai vėlgi!)
Vartotojai: žinokite savo ašis
Kai žiūrite į grafiką, įsitikinkite, kad žinote, kas yra ant kiekvienos ašies. Įsitikinkite, kad suprantate matavimo vienetus. Ar suprantate nepriklausomą kintamąjį? Ar suprantate priklausomą kintamąjį? Ar galite apibūdinti kiekvieną savais žodžiais? Jei atsakymas į bet kurį iš šių klausimų yra „Ne“, jūs nesuprantate diagramos, į kurią žiūrite.
Žiūrėdami į TV reklamos grafiką, būkite labai atsargūs, jei ji išnyksta per greitai, kol pamatysite, kas yra ant ašių. Reklamuotojas gali bandyti sukurti klaidingą įspūdį apie fiktyvius santykius diagramoje. Diagramoje pavaizduotas ryšys gali būti toks pat pagrįstas, kaip ir kitas televizijos reklamos elementas – mokslinis animacinio filmo įrodymas: maži animaciniai šveitimo šepetėliai, valantys animacinių filmų dantis, nebūtinai garantuoja baltesnius dantis, jei perkate produktą.
Grafikuoti kategorinį kintamąjį taip, lyg tai būtų kiekybinis kintamasis, yra neteisinga
Taigi jūs beveik pasiruošę varžytis „Rock-Paper-Scissors World Series“ varžybose. Ruošdamiesi šiam tarptautiniam turnyrui, suskaičiavote visas pastarųjų dešimties metų rungtynes, nurodydami, kiek kartų laimėjote kiekvieną vaidmenį.
Norėdami apibendrinti visus rezultatus, naudokite „Excel“ grafikos galimybes, kad sukurtumėte diagramą.
Tiek daug žmonių kuria tokius grafikus – žmonės, kurie turėtų žinoti geriau. Linija grafike reiškia tęstinumą nuo vieno taško iki kito. Su šiais duomenimis, žinoma, tai neįmanoma. Kas yra tarp roko ir popieriaus? Kodėl jie yra vienodais vienetais? Kodėl trys kategorijos yra tokia tvarka?
Paprasčiau tariant, linijinis grafikas nėra tinkamas grafikas, kai bent vienas iš jūsų kintamųjų yra kategorijų rinkinys. Vietoj to sukurkite stulpelių diagramą. Čia taip pat veikia skritulinė diagrama, nes duomenys yra procentai, o jūs turite tik keletą pjūvių.
Jei reikia, įtraukite į savo diagramą kintamumą
Kai diagramos taškai reiškia vidurkį, įsitikinkite, kad diagramoje yra kiekvieno vidurkio standartinė paklaida. Tai suteikia žiūrovui supratimą apie duomenų kintamumą – tai yra svarbus duomenų aspektas.
Pačios priemonės ne visada pasako visą istoriją. Pasinaudokite kiekviena proga išnagrinėti dispersijas ir standartinius nuokrypius. Galite rasti paslėptų grynuolių. Sisteminga variacija – pavyzdžiui, didelės dispersijos reikšmės, susijusios su didelėmis reikšmėmis – gali būti užuomina apie santykius, kurių anksčiau nematėte.
Būkite atsargūs siedami statistikos vadovėlio sąvokas su „Excel“.
Jei rimtai ketinate atlikti statistinį darbą, tikriausiai turėsite progą pažvelgti į statistikos tekstą ar du. Turėkite omenyje, kad simboliai kai kuriose statistikos srityse nėra standartiniai.
Vadovėlio sąvokas susieti su Excel statistinėmis funkcijomis gali būti sudėtinga dėl tekstų ir dėl Excel. Dialogo langų ir žinyno failų pranešimuose gali būti kitų simbolių nei tie, apie kuriuos skaitėte, arba juose gali būti naudojami tie patys simboliai, bet kitaip. Dėl šio neatitikimo galite neteisingai įvesti parametrą dialogo lange, todėl gali atsirasti klaida, kurią sunku atsekti.