Statistikens värld är full av fallgropar, men den är också full av möjligheter. Oavsett om du är en användare av statistik eller någon som måste tolka den, är det möjligt att hamna i fallgroparna. Det är också möjligt att gå runt dem. Här är tio tips och fällor från områdena hypotestestning, regression, korrelation och graf.
Betydande betyder inte alltid viktigt
Signifikans är på många sätt en dåligt vald term. När ett statistiskt test ger ett signifikant resultat, och beslutet är att förkasta H0, garanterar det inte att studien bakom data är viktig. Statistik kan bara hjälpa till att fatta beslut om siffror och slutsatser om de processer som producerade dem. De kan inte göra dessa processer viktiga eller världskrossande. Vikt är något du måste bedöma själv - och inget statistiskt test kan göra det åt dig.
Regression är inte alltid linjär
När man försöker anpassa en regressionsmodell till en scatterplot är frestelsen att omedelbart använda en linje. Detta är den bäst förstådda regressionsmodellen, och när du får kläm på det är sluttningar och avlyssningar inte så skrämmande.
Men linjär regression är inte den enda typen av regression. Det är möjligt att passa en kurva genom en scatterplot. Låt dig inte luras: De statistiska begreppen bakom kurvlinjär regression är svårare att förstå än begreppen bakom linjär regression.
Det är dock värt att ta sig tid att bemästra dessa koncept. Ibland passar en kurva mycket bättre än en linje.
Att extrapolera bortom ett scatterplot är en dålig idé
Oavsett om du arbetar med linjär regression eller kurvlinjär regression, kom ihåg att det är olämpligt att generalisera bortom gränserna för spridningsdiagrammet.
Anta att du har etablerat ett stabilt prediktivt förhållande mellan ett test av matematikkunskaper och prestationer i matematikkurser, och din spridningsplot täcker bara ett snävt område av matematikkunskaper. Du har inget sätt att veta om förhållandet håller utöver det intervallet. Förutsägelser utanför det intervallet är ogiltiga.
Det bästa är att utöka spridningsdiagrammet genom att testa fler människor. Du kanske upptäcker att det ursprungliga förhållandet bara berättar en del av historien.
Undersök variabiliteten runt en regressionslinje
Noggrann analys av residualer (skillnaderna mellan observerade och predikterade värden) kan berätta mycket om hur väl linjen passar data. Ett grundläggande antagande är att variabiliteten runt en regressionslinje är densamma upp och ner längs linjen. Om den inte är det kanske modellen inte är så förutsägbar som du tror. Om variabiliteten är systematisk (större variation i ena änden än i den andra), kan kurvlinjär regression vara mer lämplig än linjär. Standardfelet för uppskattning kommer inte alltid att vara indikatorn.
Ett prov kan vara för stort
Tro det eller ej, men detta händer ibland med korrelationskoefficienter. Ett mycket stort urval kan göra en liten korrelationskoefficient statistiskt signifikant.
Men vad betyder den korrelationskoefficienten egentligen? Bestämningskoefficienten —r2 — är bara 0,038, vilket betyder att SSRegressionen är mindre än 4 procent av SSTotal. Det är en väldigt liten förening.
Sammanfattning: När du tittar på en korrelationskoefficient, var medveten om urvalsstorleken. Om den är tillräckligt stor kan den få en trivial association att visa sig statistiskt signifikant. (Hmmm ... betydelse — där är den igen!)
Konsumenter: Känn dina axlar
När du tittar på en graf, se till att du vet vad som finns på varje axel. Se till att du förstår måttenheterna. Förstår du den oberoende variabeln? Förstår du den beroende variabeln? Kan du beskriva var och en med dina egna ord? Om svaret på någon av dessa frågor är "Nej", förstår du inte grafen du tittar på.
När du tittar på en graf i en TV-annons, var mycket försiktig om den försvinner för snabbt, innan du kan se vad som står på axlarna. Annonsören kanske försöker skapa ett kvardröjande felaktigt intryck om ett falskt förhållande inuti diagrammet. Det grafiska förhållandet kan vara lika giltigt som den andra basen i TV-reklam – vetenskapliga bevis via tecknad film: Små animerade skurborstar som rengör tecknade tänder garanterar inte nödvändigtvis vitare tänder för dig om du köper produkten.
Att plotta en kategorisk variabel som om det vore en kvantitativ variabel är helt enkelt fel
Så du är nästan redo att tävla i Rock-Paper-Scissors World Series. Som förberedelse för den här internationella turneringen har du räknat ihop alla dina matcher från de senaste tio åren och listat hur många gånger du vunnit när du spelade varje roll.
För att sammanfatta alla resultat, använd Excels grafikfunktioner för att skapa en graf.
Så många människor skapar den här typen av grafer - människor som borde veta bättre. Linjen i grafen innebär kontinuitet från en punkt till en annan. Med dessa data är det naturligtvis omöjligt. Vad är det mellan sten och papper? Varför är de lika enheter från varandra? Varför är de tre kategorierna i den ordningen?
Enkelt uttryckt är ett linjediagram inte det korrekta diagrammet när minst en av dina variabler är en uppsättning kategorier. Skapa istället ett kolumndiagram. Ett cirkeldiagram fungerar här också, eftersom uppgifterna är procentsatser och du bara har några få skivor.
När det är lämpligt, inkludera variabilitet i ditt diagram
När punkterna i din graf representerar medelvärden, se till att grafen inkluderar standardfelet för varje medelvärde. Detta ger tittaren en uppfattning om variationen i data - vilket är en viktig aspekt av data.
Medel i sig berättar inte alltid hela historien. Ta alla tillfällen i akt att undersöka avvikelser och standardavvikelser. Du kanske hittar några dolda klumpar. Systematisk variation — höga variansvärden förknippade med stora medel, till exempel — kan vara en ledtråd om ett förhållande du inte sett tidigare.
Var försiktig när du kopplar begrepp i statistiklärobok till Excel
Om du menar allvar med att göra statistiskt arbete, kommer du förmodligen att ha tillfälle att titta på en statistiktext eller två. Tänk på att symbolerna i vissa områden av statistik inte är standard.
Att koppla ihop lärobokskoncept till Excels statistiska funktioner kan vara en utmaning på grund av texterna och på grund av Excel. Meddelanden i dialogrutor och i hjälpfiler kan innehålla andra symboler än de du läser om, eller så kan de använda samma symboler men på ett annat sätt. Denna avvikelse kan leda till att du gör en felaktig inmatning av en parameter i en dialogruta, vilket resulterar i ett fel som är svårt att spåra.