Свет статистике је пун замки, али је пун и прилика. Било да сте корисник статистике или неко ко мора да их тумачи, могуће је упасти у замке. Такође је могуће прошетати око њих. Ево десет савета и замки из области тестирања хипотеза, регресије, корелације и графикона.
Значајно не значи увек важно
Значај је, на много начина, лоше одабран термин. Када статистички тест даје значајан резултат, а одлука је да се Х0 одбије, то не гарантује да је студија која стоји иза података важна. Статистика може само помоћи у доношењу одлука о бројевима и закључцима о процесима који су их произвели. Они не могу да учине те процесе важним или потресним. Важност је нешто о чему морате сами да процените - а ниједан статистички тест то не може учинити уместо вас.
Регресија није увек линеарна
Када покушавате да уклопите модел регресије у дијаграм распршења, долази у искушење да се одмах употреби линија. Ово је најбоље схваћени модел регресије, а када се савладате, нагиби и пресеци нису толико застрашујући.
Али линеарна регресија није једина врста регресије. Могуће је уклопити криву кроз дијаграм расејања. Немојте да вас завара: Статистичке концепте који стоје иза криволинијске регресије теже је разумети него концепте који стоје иза линеарне регресије.
Међутим, вреди одвојити време да савладате те концепте. Понекад се крива много боље уклапа од линије.
Екстраполација изван дијаграма узорка је лоша идеја
Без обзира да ли радите са линеарном или криволинијском регресијом, имајте на уму да је неприкладно генерализовати изван граница дијаграма расејања.
Претпоставимо да сте успоставили солидну предиктивну везу између теста математичке склоности и учинка на курсевима математике, а ваш дијаграм расејања покрива само уски опсег математичких способности. Немате начина да сазнате да ли се веза одржава изван тог распона. Предвиђања изван тог опсега нису важећа.
Најбоље је да проширите дијаграм распршивања тестирањем више људи. Можда ћете открити да оригинална веза говори само део приче.
Испитајте варијабилност око линије регресије
Пажљива анализа резидуала (разлике између посматраних и предвиђених вредности) може вам рећи много о томе колико добро линија одговара подацима. Основна претпоставка је да је варијабилност око линије регресије иста горе и доле. Ако није, модел можда неће бити тако предвидљив као што мислите. Ако је варијабилност систематска (већа варијабилност на једном крају него на другом), криволинијска регресија би могла бити прикладнија од линеарне. Стандардна грешка процене неће увек бити индикатор.
Узорак може бити превелик
Веровали или не, то се понекад дешава са коефицијентима корелације. Веома велики узорак може мали коефицијент корелације учинити статистички значајним.
Али шта тај коефицијент корелације заправо значи? Коефицијент детерминације —р2 — је само 0,038, што значи да је ССРегресија мања од 4 процента укупног ССТ-а. То је врло мала асоцијација.
Закључак: Када гледате коефицијент корелације, водите рачуна о величини узорка. Ако је довољно велика, може учинити да тривијална асоцијација постане статистички значајна. (Хммм... значај - ево га опет!)
Потрошачи: Познајте своје секире
Када погледате графикон, уверите се да знате шта је на свакој оси. Уверите се да разумете јединице мере. Да ли разумете независну променљиву? Да ли разумете зависну променљиву? Можете ли описати сваки од њих својим речима? Ако је одговор на било које од ових питања „Не“, не разумете графикон који гледате.
Када гледате графикон у ТВ реклами, будите веома опрезни ако нестане пребрзо, пре него што видите шта је на осама. Оглашивач можда покушава да створи дуготрајан лажни утисак о лажној вези унутар графикона. Графички однос може бити валидан као и она друга главна компонента ТВ рекламирања — научни доказ путем анимираног цртаног филма: Мале анимиране четкице за чишћење зуба из цртаних филмова не морају нужно гарантовати беље зубе за вас ако купите производ.
Графиковати категоричку променљиву као да је квантитативна променљива је једноставно погрешно
Дакле, само што сте спремни да се такмичите у светској серији Камен-папир-маказе. Припремајући се за овај међународни турнир, збројили сте све своје мечеве из протеклих десет година, наводећи проценат победа у свакој улози.
Да бисте сумирали све резултате, користите графичке могућности програма Екцел за креирање графикона.
Толико људи ствара овакве графиконе - људи који би требали знати боље. Линија на графикону имплицира континуитет од једне тачке до друге. Са овим подацима, наравно, то је немогуће. Шта је између камена и папира? Зашто су једнаке јединице? Зашто су три категорије у том редоследу?
Једноставно речено, линијски графикон није прави графикон када је бар једна од ваших променљивих скуп категорија. Уместо тога, направите колонасти графикон. Кружни дијаграм функционише и овде, јер су подаци проценти и имате само неколико делова.
Кад год је прикладно, укључите варијабилност у свој графикон
Када тачке на вашем графикону представљају средње вредности, уверите се да графикон укључује стандардну грешку сваке средине. Ово даје гледаоцу представу о варијабилности података — што је важан аспект података.
Средства сама по себи не говоре увек целу причу. Искористите сваку прилику да испитате варијансе и стандардне девијације. Можда ћете пронаћи неке скривене грумене. Систематске варијације — високе вредности варијансе повезане са великим средњим вредностима, на пример — могу бити траг о вези коју нисте раније видели.
Будите опрезни када повезујете концепте уџбеника статистике са Екцел-ом
Ако се озбиљно бавите статистичким радом, вероватно ћете имати прилике да погледате неки статистички текст. Имајте на уму да симболи у неким областима статистике нису стандардни.
Повезивање концепта уџбеника са статистичким функцијама Екцел-а може бити изазов због текстова и због Екцел-а. Поруке у дијалошким оквирима и у датотекама помоћи могу да садрже симболе другачије од оних о којима сте читали, или могу користити исте симболе, али на другачији начин. Ово неслагање може да вас наведе да унесете нетачан унос у параметар у оквиру за дијалог, што резултира грешком којој је тешко ући у траг.