Statistikkens verden er full av fallgruver, men den er også full av muligheter. Enten du er bruker av statistikk eller en som må tolke den, er det mulig å falle i fallgruvene. Det er også mulig å gå rundt dem. Her er ti tips og feller fra områdene hypotesetesting, regresjon, korrelasjon og graf.
Betydelig betyr ikke alltid viktig
Betydning er på mange måter et dårlig valgt begrep. Når en statistisk test gir et signifikant resultat, og beslutningen er å avvise H0, garanterer det ikke at studien bak dataene er viktig. Statistikk kan bare hjelpe beslutningstaking om tall og slutninger om prosessene som produserte dem. De kan ikke gjøre disse prosessene viktige eller ødeleggende. Viktighet er noe du må vurdere selv - og ingen statistisk test kan gjøre det for deg.
Regresjon er ikke alltid lineær
Når du prøver å tilpasse en regresjonsmodell til et scatterplot, er fristelsen å umiddelbart bruke en linje. Dette er den best forståtte regresjonsmodellen, og når du får taket på det, er ikke bakker og avskjæringer så skremmende.
Men lineær regresjon er ikke den eneste formen for regresjon. Det er mulig å passe en kurve gjennom et scatterplot. Ikke la deg lure: De statistiske konseptene bak krumlinjet regresjon er vanskeligere å forstå enn konseptene bak lineær regresjon.
Det er imidlertid verdt å ta seg tid til å mestre disse konseptene. Noen ganger passer en kurve mye bedre enn en linje.
Å ekstrapolere utover et eksempelspredningsplott er en dårlig idé
Enten du jobber med lineær regresjon eller krumlinjet regresjon, husk at det er upassende å generalisere utover grensene til spredningsplottet.
Anta at du har etablert et solid prediktivt forhold mellom en test av matematiske evner og prestasjoner i matematikkkurs, og spredningsdiagrammet ditt dekker bare et smalt område av matematiske evner. Du har ingen måte å vite om forholdet holder utover dette området. Forslag utenfor dette området er ikke gyldige.
Det beste alternativet ditt er å utvide spredningsdiagrammet ved å teste flere mennesker. Du kan finne ut at det opprinnelige forholdet bare forteller en del av historien.
Undersøk variasjonen rundt en regresjonslinje
Nøye analyse av residualer (forskjellene mellom observerte og predikerte verdier) kan fortelle deg mye om hvor godt linjen passer til dataene. En grunnleggende antakelse er at variasjonen rundt en regresjonslinje er den samme opp og ned langs linjen. Hvis den ikke er det, er modellen kanskje ikke så prediktiv som du tror. Hvis variabiliteten er systematisk (større variasjon i den ene enden enn i den andre), kan krumlinjet regresjon være mer passende enn lineær. Standard estimatfeil vil ikke alltid være indikatoren.
Et utvalg kan være for stort
Tro det eller ei, dette skjer noen ganger med korrelasjonskoeffisienter. Et veldig stort utvalg kan gjøre en liten korrelasjonskoeffisient statistisk signifikant.
Men hva betyr egentlig den korrelasjonskoeffisienten? Bestemmelseskoeffisienten —r2 — er bare 0,038, noe som betyr at SSRegresjonen er mindre enn 4 prosent av SStotal. Det er en veldig liten forening.
Bunnlinjen: Når du ser på en korrelasjonskoeffisient, vær oppmerksom på utvalgsstørrelsen. Hvis den er stor nok, kan den få en triviell assosiasjon til å vise seg statistisk signifikant. (Hmmm ... betydning - der er det igjen!)
Forbrukere: Kjenn aksene dine
Når du ser på en graf, sørg for at du vet hva som er på hver akse. Sørg for at du forstår måleenhetene. Forstår du den uavhengige variabelen? Forstår du den avhengige variabelen? Kan du beskrive hver enkelt med dine egne ord? Hvis svaret på noen av disse spørsmålene er "Nei", forstår du ikke grafen du ser på.
Når du ser på en graf i en TV-annonse, vær veldig forsiktig hvis den forsvinner for raskt, før du kan se hva som står på aksene. Annonsøren prøver kanskje å skape et langvarig feilinntrykk om et falskt forhold inne i grafen. Det grafiske forholdet kan være like gyldig som den andre hoveddelen av TV-reklame – vitenskapelig bevis via tegneserie: Små animerte skrubbebørster som renser tegneserietenner, garanterer ikke nødvendigvis hvitere tenner for deg hvis du kjøper produktet.
Å tegne en kategorisk variabel som om det er en kvantitativ variabel er bare feil
Så du er omtrent klar til å konkurrere i Rock-Paper-Scissors World Series. Som forberedelse til denne internasjonale turneringen har du talt opp alle kampene dine fra de siste ti årene, og listet opp prosentandelen av ganger du vant når du spilte hver rolle.
For å oppsummere alle resultatene, bruk Excels grafikkfunksjoner for å lage en graf.
Så mange mennesker lager denne typen grafer - folk som burde vite bedre. Linjen i grafen innebærer kontinuitet fra ett punkt til et annet. Med disse dataene er det selvfølgelig umulig. Hva er mellom stein og papir? Hvorfor er de like enheter fra hverandre? Hvorfor er de tre kategoriene i den rekkefølgen?
Enkelt sagt, en linjegraf er ikke den riktige grafen når minst én av variablene dine er et sett med kategorier. Lag i stedet en kolonnegraf. Et kakediagram fungerer også her, fordi dataene er prosenter og du har bare noen få skiver.
Ta med variasjon i grafen når det er hensiktsmessig
Når punktene i grafen representerer middelverdier, sørg for at grafen inkluderer standardfeilen for hvert gjennomsnitt. Dette gir seeren en ide om variasjonen i dataene - som er et viktig aspekt ved dataene.
Midler i seg selv forteller deg ikke alltid hele historien. Benytt enhver anledning til å undersøke avvik og standardavvik. Du kan finne noen skjulte nuggets. Systematisk variasjon - høye variansverdier assosiert med store midler, for eksempel - kan være en pekepinn om et forhold du ikke så før.
Vær forsiktig når du knytter begreper i statistikklærebok til Excel
Hvis du er seriøs med å gjøre statistisk arbeid, vil du sannsynligvis ha anledning til å se nærmere på en statistikktekst eller to. Husk at symbolene i enkelte områder av statistikken ikke er standard.
Å koble lærebokkonsepter til Excels statistiske funksjoner kan være en utfordring på grunn av tekstene og på grunn av Excel. Meldinger i dialogbokser og i hjelpefiler kan inneholde andre symboler enn de du leser om, eller de kan bruke de samme symbolene, men på en annen måte. Dette avviket kan føre til at du skriver feil inn i en parameter i en dialogboks, noe som resulterer i en feil som er vanskelig å spore.