Statistikkens verden er fuld af faldgruber, men den er også fuld af muligheder. Uanset om du er bruger af statistik eller en, der skal fortolke dem, er det muligt at falde i faldgruberne. Det er også muligt at gå rundt om dem. Her er ti tips og fælder fra områderne hypotesetestning, regression, korrelation og graf.
Betydelig betyder ikke altid vigtigt
Betydning er på mange måder et dårligt valgt udtryk. Når en statistisk test giver et signifikant resultat, og beslutningen er at afvise H0, garanterer det ikke, at undersøgelsen bag dataene er vigtig. Statistik kan kun hjælpe med beslutningstagning om tal og slutninger om de processer, der har produceret dem. De kan ikke gøre disse processer vigtige eller ødelæggende. Betydning er noget, du selv skal vurdere - og ingen statistisk test kan gøre det for dig.
Regression er ikke altid lineær
Når man forsøger at tilpasse en regressionsmodel til et scatterplot, er fristelsen straks at bruge en linje. Dette er den bedst forståede regressionsmodel, og når du får styr på det, er skråninger og aflytninger ikke så skræmmende.
Men lineær regression er ikke den eneste form for regression. Det er muligt at passe en kurve gennem et scatterplot. Lad dig ikke narre: De statistiske begreber bag kurvelineær regression er sværere at forstå end begreberne bag lineær regression.
Det er dog værd at tage sig tid til at mestre disse begreber. Nogle gange passer en kurve meget bedre end en linje.
Det er en dårlig idé at ekstrapolere ud over et scatterplot
Uanset om du arbejder med lineær regression eller kurvelineær regression, skal du huske på, at det er upassende at generalisere ud over grænserne for scatterplotten.
Antag, at du har etableret et solidt prædiktivt forhold mellem en test af matematiske evner og præstationer i matematikkurser, og dit scatterplot dækker kun et snævert område af matematiske evner. Du har ingen måde at vide, om forholdet holder ud over det interval. Forudsigelser uden for dette interval er ikke gyldige.
Dit bedste bud er at udvide scatterplot ved at teste flere mennesker. Du vil måske opdage, at det oprindelige forhold kun fortæller en del af historien.
Undersøg variabiliteten omkring en regressionslinje
Omhyggelig analyse af residualer (forskellene mellem observerede og forudsagte værdier) kan fortælle dig meget om, hvor godt linjen passer til dataene. En grundlæggende antagelse er, at variabiliteten omkring en regressionslinje er den samme op og ned ad linjen. Hvis den ikke er det, er modellen måske ikke så forudsigelig, som du tror. Hvis variabiliteten er systematisk (større variabilitet i den ene ende end i den anden), kan kurvelineær regression være mere passende end lineær. Standardfejlen for skøn vil ikke altid være indikatoren.
En prøve kan være for stor
Tro det eller ej, dette sker nogle gange med korrelationskoefficienter. En meget stor stikprøve kan gøre en lille korrelationskoefficient statistisk signifikant.
Men hvad betyder den korrelationskoefficient egentlig? Bestemmelseskoefficienten —r2 — er kun 0,038, hvilket betyder, at SSRegressionen er mindre end 4 procent af SSTotal. Det er en meget lille forening.
Nederste linje: Når du ser på en korrelationskoefficient, skal du være opmærksom på stikprøvestørrelsen. Hvis den er stor nok, kan den få en triviel sammenhæng til at vise sig statistisk signifikant. (Hmmm ... betydning - der er den igen!)
Forbrugere: Kend dine akser
Når du ser på en graf, så sørg for, at du ved, hvad der er på hver akse. Sørg for, at du forstår måleenhederne. Forstår du den uafhængige variabel? Forstår du den afhængige variabel? Kan du beskrive hver enkelt med dine egne ord? Hvis svaret på et af disse spørgsmål er "Nej", forstår du ikke den graf, du ser på.
Når du ser på en graf i en tv-annonce, skal du være meget forsigtig, hvis den forsvinder for hurtigt, før du kan se, hvad der er på akserne. Annoncøren forsøger muligvis at skabe et langvarigt falsk indtryk af et falsk forhold inde i grafen. Det grafiske forhold kan være lige så gyldigt som det andet hovedelement i tv-reklamer - videnskabeligt bevis via tegnefilm: Små animerede skrubbebørster, der renser tegneserietænder, garanterer måske ikke nødvendigvis hvidere tænder for dig, hvis du køber produktet.
At tegne en kategorisk variabel som om det er en kvantitativ variabel er bare forkert
Så du er næsten klar til at konkurrere i Rock-Paper-Scissors World Series. Som forberedelse til denne internationale turnering har du talt alle dine kampe fra de sidste ti år, og angivet procentdelen af gange, du har vundet, når du spillede hver rolle.
For at opsummere alle resultaterne skal du bruge Excels grafikfunktioner til at lave en graf.
Så mange mennesker laver den slags grafer - folk, der burde vide bedre. Linjen i grafen antyder kontinuitet fra et punkt til et andet. Med disse data er det selvfølgelig umuligt. Hvad er der mellem sten og papir? Hvorfor er de lige enheder fra hinanden? Hvorfor er de tre kategorier i den rækkefølge?
Kort sagt er en linjegraf ikke den rigtige graf, når mindst en af dine variabler er et sæt kategorier. Opret i stedet en kolonnegraf. Et cirkeldiagram fungerer også her, fordi dataene er procenter, og du kun har nogle få skiver.
Når det er relevant, skal du inkludere variabilitet i din graf
Når punkterne i din graf repræsenterer middelværdier, skal du sørge for, at grafen inkluderer standardfejlen for hver middelværdi. Dette giver seeren en idé om variabiliteten i dataene - hvilket er et vigtigt aspekt af dataene.
Midler i sig selv fortæller dig ikke altid hele historien. Benyt enhver lejlighed til at undersøge afvigelser og standardafvigelser. Du kan finde nogle skjulte guldkorn. Systematisk variation - høje variansværdier forbundet med store midler, for eksempel - kan være et fingerpeg om et forhold, du ikke har set før.
Vær forsigtig, når du relaterer statistiske lærebogsbegreber til Excel
Hvis du mener det seriøst med at lave statistisk arbejde, vil du sandsynligvis have lejlighed til at kigge i en statistiktekst eller to. Husk, at symbolerne i nogle områder af statistik ikke er standard.
At koble lærebogsbegreber til Excels statistiske funktioner kan være en udfordring på grund af teksterne og på grund af Excel. Meddelelser i dialogbokse og i hjælpefiler kan indeholde andre symboler end dem, du læser om, eller de kan bruge de samme symboler, men på en anden måde. Denne uoverensstemmelse kan føre til, at du foretager en forkert indtastning af en parameter i en dialogboks, hvilket resulterer i en fejl, der er svær at spore.