Jotta voit ymmärtää tilastollisen analyysin Excelillä, se auttaa simuloimaan Keskirajalausetta. Se ei melkein kuulosta oikealta. Kuinka populaatio, joka ei ole normaalijakautunut, voi johtaa normaalijakaumaan?
Jotta saat käsityksen siitä, miten Keskiraja-lause toimii, on olemassa simulaatio. Tämä simulaatio luo jotain kuin otosjakauman keskiarvosta hyvin pienelle otokselle, joka perustuu populaatioon, joka ei ole normaalisti jakautunut. Kuten näette, vaikka populaatio ei ole normaalijakauma ja vaikka otos on pieni, keskiarvon otantajakauma näyttää melko lailla normaalijakaumalta.
Kuvittele valtava populaatio, joka koostuu vain kolmesta pisteestä – 1, 2 ja 3 – ja jokainen niistä esiintyy yhtä todennäköisesti otoksessa. Kuvittele myös, että voit valita satunnaisesti kolmen pistemäärän otoksen tästä populaatiosta.
Kaikki mahdolliset näytteet kolmesta pisteestä (ja niiden keskiarvosta) populaatiosta, joka koostuu pisteistä 1, 2 ja 3
Näyte |
Tarkoittaa |
Näyte |
Tarkoittaa |
Näyte |
Tarkoittaa |
1,1,1 |
1.00 |
2,1,1 |
1.33 |
3,1,1 |
1.67 |
1,1,2 |
1.33 |
2,1,2 |
1.67 |
3,1,2 |
2.00 |
1,1,3 |
1.67 |
2,1,3 |
2.00 |
3,1,3 |
2.33 |
1,2,1 |
1.33 |
2,2,1 |
1.67 |
3,2,1 |
2.00 |
1,2,2 |
1.67 |
2,2,2 |
2.00 |
3,2,2 |
2.33 |
1,2,3 |
2.00 |
2,2,3 |
2.33 |
3,2,3 |
2.67 |
1,3,1 |
1.67 |
2,3,1 |
2.00 |
3,3,1 |
2.33 |
1,3,2 |
2.00 |
2,3,2 |
2.33 |
3,3,2 |
2.67 |
1,3,3 |
2.33 |
2,3,3 |
2.67 |
3,3,3 |
3.00 |
Jos katsot tarkasti taulukkoa, voit melkein nähdä, mitä simulaatiossa tapahtuu. Useimmiten esiintyvä otoskeskiarvo on 2,00. Vähiten esiintyvät otosmerkit ovat 1,00 ja 3,00. Hmmm. . . .
Simulaatiossa populaatiosta valittiin satunnaisesti pisteet ja valittiin sitten satunnaisesti kaksi muuta. Tämä kolmen pisteen ryhmä on esimerkki. Sitten lasket otoksen keskiarvon. Tämä prosessi toistettiin yhteensä 60 näytteelle, jolloin saatiin 60 näytekeskiarvoa. Lopuksi piirrät näytteen keskiarvojen jakautumisen.
Miltä keskiarvon simuloitu näytteenottojakauma näyttää? Alla olevassa kuvassa on laskentataulukko, joka vastaa tähän kysymykseen.
Tehtävätaulukossa jokainen rivi on esimerkki. Sarakkeet, jotka on merkitty x1, x2 ja x3, näyttävät kunkin näytteen kolme pistettä. Sarake E näyttää kunkin rivin näytteen keskiarvon. Sarake G näyttää kaikki mahdolliset näytteen keskiarvon arvot ja sarake H näyttää kuinka usein kukin keskiarvo esiintyy 60 näytteessä. Sarakkeet G ja H sekä kaavio osoittavat, että jakauman maksimitaajuus on, kun näytteen keskiarvo on 2,00. Taajuudet hiipuvat, kun näytekeinot menevät yhä kauemmaksi kellosta 2.00.
Kaiken tämän pointti on, että populaatio ei näytä yhtään normaalijakaumalta ja otoskoko on hyvin pieni. Jopa noilla rajoituksilla 60 näytteen keskiarvon näytteenottojakauma alkaa näyttää hyvin paljon normaalijakaumalta.
Entä parametrit, jotka Central Limit Theorem ennustaa näytteenottojakauman osalta? Aloita väestöstä. Väestön keskiarvo on 2,00 ja väestön keskihajonna 0,67. (Tällainen populaatio vaatii hieman hienoa matematiikkaa parametrien selvittämiseen.)
Otantajakaumaan. 60 keskiarvon keskiarvo on 1,98 ja niiden keskihajonta (arvio keskiarvon keskivirheestä) on 0,48. Nämä luvut ovat lähellä keskiarvon otosjakauman keskirajalauseen ennustettuja parametreja, 2,00 (yhtä kuin perusjoukon keskiarvo) ja 0,47 (keskihajonta, 0,67, jaettuna 3:n neliöjuurella, otoskoko). .
Jos olet kiinnostunut tekemään tämän simulaation, tässä on vaiheet:
Valitse solu ensimmäiselle satunnaisesti valitulle numerolle.
Valitse solu B2.
Käytä taulukkofunktiota RANDBETWEEN valitaksesi 1, 2 tai 3.
Tämä simuloi luvun piirtämistä populaatiosta, joka koostuu luvuista 1, 2 ja 3, jossa sinulla on yhtäläiset mahdollisuudet valita jokainen luku. Voit joko valita KAAVOT | Math & Trig | RANDBETWEEN ja käytä Function Arguments -valintaikkunaa tai kirjoita =RANDBETWEEN(1,3) kohtaan B2 ja paina Enter. Ensimmäinen argumentti on pienin luku RANDBETWEEN palauttaa, ja toinen argumentti on suurin luku.
Valitse solu alkuperäisen solun oikealla puolella ja valitse toinen satunnaisluku väliltä 1 ja 3. Tee tämä uudelleen kolmannelle satunnaisluvulle solun oikealla puolella olevassa solussa.
Helpoin tapa tehdä tämä on täyttää kaksi solua automaattisesti alkuperäisen solun oikealla puolella. Tässä laskentataulukossa nämä kaksi solua ovat C2 ja D2.
Pidä näitä kolmea solua näytteenä ja laske niiden keskiarvo kolmannen solun oikealla puolella olevassa solussa.
Helpoin tapa tehdä tämä on kirjoittaa = AVERAGE(B2:D2) soluun E2 ja painaa Enter.
Toista tämä prosessi niin monelle näytteelle kuin haluat sisällyttää simulaatioon. Anna jokaisen rivin vastata näytettä.
Tässä käytettiin 60 näytettä. Nopea ja helppo tapa tehdä tämä on valita kolmen satunnaisesti valitun luvun ensimmäinen rivi ja niiden keskiarvo ja sitten täyttää loput rivit automaattisesti. Sarakkeen E näytekeskiarvojen joukko on keskiarvon simuloitu näytteenottojakauma. Käytä AVERAGE ja STDEV.P löytääksesi sen keskiarvon ja keskihajonnan.
Jos haluat nähdä, miltä tämä simuloitu näytteenottojakauma näyttää, käytä taulukkofunktiota FREQUENCY sarakkeen E näytevälineissä. Toimi seuraavasti:
Syötä mahdolliset näytteen keskiarvon arvot taulukkoon.
Voit käyttää saraketta G tähän. Otoskeskiarvon mahdolliset arvot voidaan ilmaista murto-muodossa (3/3, 4/3, 5/3, 6/3, 7/3, 8/3 ja 9/3) samalla tavalla kuin soluihin syötetyt arvot. G2 - G8. Excel muuntaa ne desimaalimuotoon. Varmista, että nämä solut ovat numeromuodossa.
Valitse matriisi näytekeskiarvon mahdollisten arvojen taajuuksille.
Voit käyttää saraketta H pitämään taajuudet valitsemalla solut H2 - H8.
Valitse Tilastofunktiot-valikosta FREQUENCY avataksesi FREQUENCY-kohdan Function Arguments -valintaikkunan.
Kirjoita funktion argumentit -valintaikkunaan argumenteille sopivat arvot.
Kirjoita Data_array-ruutuun solut, joissa on näytekeinot. Tässä esimerkissä se on E2:E61.
Tunnista taulukko, jossa on mahdolliset näytteen keskiarvon arvot.
FREQUENCY pitää tämän taulukon Bins_array-ruudussa. Tässä laskentataulukossa G2:G8 menee Bins_array -ruutuun. Kun olet tunnistanut molemmat taulukot, Function Arguments -valintaikkuna näyttää taajuudet kaarevassa sulkuparissa.
Paina Ctrl+Shift+Enter sulkeaksesi Function Arguments -valintaikkunan ja näyttääksesi taajuudet.
Käytä tätä näppäinyhdistelmää, koska FREQUENCY on taulukkofunktio.
Kun H2:H8 on korostettuna, valitse Lisää | Suositellut kaaviot ja valitse Clustered Column -asettelu tuottaaksesi taajuuksien kaavion. Kaaviosi näyttää todennäköisesti hieman erilaiselta kuin minun, koska päädyt todennäköisesti erilaisiin satunnaislukuihin.
Muuten, Excel toistaa satunnaisen valintaprosessin aina, kun teet jotain, joka saa Excelin laskemaan laskentataulukon uudelleen. Vaikutus on, että luvut voivat muuttua, kun käsittelet tätä. (Toisin sanoen suoritat simulaation uudelleen.) Jos esimerkiksi palaat takaisin ja täytät yhden rivin automaattisesti uudelleen, numerot muuttuvat ja kaavio muuttuu.