Да би вам помогао да разумете статистичку анализу у Екцел-у, помаже симулација Централне граничне теореме. Скоро да не звучи како треба. Како популација која није нормално распоређена може резултирати нормално распоређеном дистрибуцијом узорка?
Да бисмо вам дали представу о томе како функционише Централна гранична теорема, постоји симулација. Ова симулација ствара нешто попут дистрибуције узорковања средње вредности за веома мали узорак, засновану на популацији која није нормално распоређена. Као што ћете видети, иако популација није нормална дистрибуција, и иако је узорак мали, дистрибуција узорковања средње вредности изгледа прилично као нормална дистрибуција.
Замислите огромну популацију која се састоји од само три резултата — 1, 2 и 3 — и сваки од њих ће се подједнако појавити у узорку. Замислите такође да можете насумично одабрати узорак од три резултата из ове популације.
Сви могући узорци од три резултата (и њихова средства) из популације која се састоји од резултата 1, 2 и 3
Узорак |
Значити |
Узорак |
Значити |
Узорак |
Значити |
1,1,1 |
1.00 |
2,1,1 |
1.33 |
3,1,1 |
1.67 |
1,1,2 |
1.33 |
2,1,2 |
1.67 |
3,1,2 |
2.00 |
1,1,3 |
1.67 |
2,1,3 |
2.00 |
3,1,3 |
2.33 |
1,2,1 |
1.33 |
2,2,1 |
1.67 |
3,2,1 |
2.00 |
1,2,2 |
1.67 |
2,2,2 |
2.00 |
3,2,2 |
2.33 |
1,2,3 |
2.00 |
2,2,3 |
2.33 |
3,2,3 |
2.67 |
1,3,1 |
1.67 |
2,3,1 |
2.00 |
3,3,1 |
2.33 |
1,3,2 |
2.00 |
2,3,2 |
2.33 |
3,3,2 |
2.67 |
1,3,3 |
2.33 |
2,3,3 |
2.67 |
3,3,3 |
3.00 |
Ако пажљиво погледате табелу, скоро можете видети шта ће се десити у симулацији. Просечна вредност узорка која се најчешће појављује је 2,00. Знакови узорка који се најмање појављују су 1.00 и 3.00. Хммм. . . .
У симулацији, резултат је насумично одабран из популације, а затим насумично одабрана још два. Та група од три резултата је узорак. Затим израчунате средњу вредност тог узорка. Овај процес је поновљен за укупно 60 узорака, што је резултирало са 60 средњих вредности узорка. Коначно, графички приказујете дистрибуцију средњих вредности узорка.
Како изгледа симулирана дистрибуција узорковања средње вредности? Слика испод приказује радни лист који одговара на ово питање.
У радном листу, сваки ред је узорак. Колоне означене са к1, к2 и к3 приказују три резултата за сваки узорак. Колона Е приказује просек за узорак у сваком реду. Колона Г приказује све могуће вредности за средњу вредност узорка, а колона Х показује колико често се свака средња вредност појављује у 60 узорака. Колоне Г и Х и графикон показују да дистрибуција има своју максималну фреквенцију када је средња вредност узорка 2,00. Фреквенције се смањују јер се узорак све више удаљава од 2.00.
Поента свега овога је да популација не личи на нормалну дистрибуцију и да је величина узорка веома мала. Чак и под тим ограничењима, дистрибуција узорковања средње вредности на основу 60 узорака почиње да личи на нормалну дистрибуцију.
Шта је са параметрима које Централна гранична теорема предвиђа за дистрибуцију узорковања? Почните са становништвом. Просечна популација је 2,00, а стандардна девијација становништва је 0,67. (Ова врста популације захтева мало фенси математику да би се утврдили параметри.)
На дистрибуцију узорковања. Средња вредност од 60 средњих вредности је 1,98, а њихова стандардна девијација (процена стандардне грешке средње вредности) је 0,48. Ови бројеви су блиско приближни Централној граничној теореми – предвиђени параметри за дистрибуцију узорка средње вредности, 2,00 (једнако средњој вредности популације) и 0,47 (стандардна девијација, 0,67, подељено квадратним кореном од 3, величином узорка) .
У случају да сте заинтересовани за ову симулацију, ево корака:
Изаберите ћелију за свој први насумично изабрани број.
Изаберите ћелију Б2.
Користите функцију радног листа РАНДБЕТВЕЕН да изаберете 1, 2 или 3.
Ово симулира извлачење броја из популације која се састоји од бројева 1, 2 и 3 где имате једнаке шансе да изаберете сваки број. Можете изабрати ФОРМУЛЕ | Матх & Триг | РАНДБЕТВЕЕН и користите дијалог Аргументи функције или само упишите =РАНДБЕТВЕЕН(1,3) у Б2 и притисните Ентер. Први аргумент је најмањи број који се враћа РАНДБЕТВЕЕН, а други аргумент је највећи број.
Изаберите ћелију десно од оригиналне ћелије и изаберите други случајни број између 1 и 3. Урадите ово поново за трећи случајни број у ћелији десно од другог.
Најлакши начин да то урадите је да аутоматски попуните две ћелије десно од оригиналне ћелије. У овом радном листу, те две ћелије су Ц2 и Д2.
Сматрајте да су ове три ћелије узорак и израчунајте њихову средњу вредност у ћелији десно од треће ћелије.
Најлакши начин да то урадите је само да унесете =АВЕРАГЕ(Б2:Д2) у ћелију Е2 и притиснете Ентер.
Поновите овај процес за онолико узорака колико желите да укључите у симулацију. Нека сваки ред одговара узорку.
Овде је коришћено 60 узорака. Брз и лак начин да се ово уради је да изаберете први ред од три насумично изабрана броја и њихову средњу вредност, а затим аутоматски попуните преостале редове. Скуп средњих вредности узорка у колони Е је симулирана дистрибуција узорковања средње вредности. Користите АВЕРАГЕ и СТДЕВ.П да бисте пронашли његову средњу вредност и стандардну девијацију.
Да бисте видели како изгледа ова симулирана дистрибуција узорковања, користите функцију низа ФРЕКУЕНЦИ на узорку значи у колони Е. Следите ове кораке:
Унесите могуће вредности средње вредности узорка у низ.
За ово можете користити колону Г. Могуће вредности средње вредности узорка можете изразити у облику фракција (3/3, 4/3, 5/3, 6/3, 7/3, 8/3 и 9/3) као оне унете у ћелије Г2 до Г8. Екцел их претвара у децимални облик. Уверите се да су те ћелије у формату бројева.
Изаберите низ за фреквенције могућих вредности средње вредности узорка.
Можете користити колону Х да задржите фреквенције, бирајући ћелије од Х2 до Х8.
У менију Статистичке функције изаберите ФРЕКУЕНЦИ да бисте отворили дијалог Аргументи функције за ФРЕКУЕНЦИ
У дијалог Аргументи функције унесите одговарајуће вредности за аргументе.
У поље Дата_арраи унесите ћелије које садрже средства узорка. У овом примеру, то је Е2:Е61.
Идентификујте низ који садржи могуће вредности средње вредности узорка.
ФРЕКУЕНЦИ држи овај низ у пољу Бинс_арраи. За овај радни лист, Г2:Г8 иде у поље Бинс_арраи. Након што идентификујете оба низа, дијалог Аргументи функције приказује фреквенције унутар пара витичастих заграда.
Притисните Цтрл+Схифт+Ентер да затворите дијалог Аргументи функције и прикажете фреквенције.
Користите ову комбинацију тастера јер је ФРЕКУЕНЦИ функција низа.
На крају, са истакнутим Х2:Х8, изаберите Уметни | Препоручени графикони и изаберите распоред груписаних колона да бисте направили графикон фреквенција. Ваш графикон ће вероватно изгледати нешто другачије од мог, јер ћете вероватно добити другачији случајни број.
Успут, Екцел понавља процес насумичне селекције кад год урадите нешто што узрокује да Екцел поново израчуна радни лист. Ефекат је да се бројеви могу променити док радите кроз ово. (То јест, поново покрећете симулацију.) На пример, ако се вратите и поново аутоматски попуните један од редова, бројеви се мењају и графикон се мења.