Hur vet du om en prognostrender är verklig? Om du ser en baslinje som ser ut att glida upp eller ner, representerar det en riktig trend eller är det bara slumpmässig variation? För att svara på de frågorna måste du gå in på sannolikhet och statistik. Lyckligtvis behöver du inte komma in i dem för långt - handledsdjupt, kanske.
Den grundläggande tankegången går så här:
Använd Excel för att berätta vad sambandet är mellan försäljningsintäkter och deras tillhörande tidsperioder.
Det spelar ingen roll om jag representerar den tidsperioden som januari 2011, februari 2011, mars 2011. . . december 2016, eller som 1, 2, 3 . . . 72.
Om det inte finns något samband, mätt med korrelationen, mellan intäkter och tidsperiod, finns det ingen trend, och du behöver inte oroa dig för det.
Om det finns ett samband mellan intäkter och tidsperioder måste man välja det bästa sättet att hantera trenden.
Efter att Excel har beräknat korrelationen måste du bestämma om det representerar ett verkligt förhållande mellan tidsperiod och intäktsbelopp, eller om det bara är ett lyckokast.
Om sannolikheten att det bara är tur är mindre än 5 procent är det en riktig trend. (Inget magiskt om 5 procent heller - det är konventionellt. Vissa människor föredrar att använda 1 procent som kriterium - det är mer konservativt än 5 procent, och de känner sig lite säkrare.) Detta väcker frågan om statistisk signifikans: Vilken sannolikhetsnivå behöver du innan du bestämmer dig för att något (här, en korrelation) är den verkliga McCoy?
Det finns olika metoder för att testa den statistiska signifikansen av en korrelationskoefficient. Här är tre populära metoder:
- Testa korrelationen direkt och jämför resultatet med normalfördelningen.
- Testa korrelationen direkt och jämför resultatet med t-fördelningen (t-fördelningen, även om den liknar normalkurvan, antar att du använder ett litet urval snarare än en oändligt stor population).
- Konvertera korrelationen med Fisher-transformationen (som omvandlar en korrelationskoefficient till ett värde som passar i normalkurvan) och jämför resultatet med normalfördelningen.
Det finns andra populära metoder för att testa den statistiska signifikansen av en korrelationskoefficient. Var och en ger ett lite olika resultat. I praktiken kommer du nästan alltid att fatta samma beslut (korrelationen är eller är inte signifikant skild från noll), oavsett vilken metod du väljer.
Om du drar slutsatsen att trenden som korrelationen mäter är verklig (och när sannolikheten är mindre än 1 procent att korrelationen är ett spöke, bör du förmodligen acceptera den slutsatsen), har du ytterligare två frågor att ställa dig själv:
- Ska du använda en prognosmetod som hanterar trender väl? Du skulle kunna tro att om du upptäckt en trend bör du använda en prognosmetod som hanterar trender väl. Det är ofta sant, men inte nödvändigtvis. Anta att du istället för att använda tidsperiod som en av variablerna i din korrelationsanalys använde något som t.ex. försäljningsintäkter från konkurrenterna.
Om tävlingens intäkter sjunker som dina (eller om båda grupperna av intäkter växer), kommer du att hitta ett troligt signifikant samband mellan dina intäkter och konkurrenternas. Men det är fullt möjligt - till och med troligt - att det inte finns något verkligt orsakssamband mellan deras intäkter och dina. Det kan vara så att både din och deras är korrelerade med den verkliga orsaksfaktorn: Storleken på den totala marknaden förändras. I så fall skulle du förmodligen vara mycket bättre av att använda ett mått på den totala marknadsstorleken som din prediktorvariabel. I det här scenariot har marknadsstorleken ett direkt orsakssamband till dina intäkter, medan dina konkurrenters intäkter bara har ett indirekt samband med dina intäkter.
- Bör du avskräcka uppgifterna? En dold variabel, som en konsekvent förändring av den totala storleken på en marknad, kan få dig att tro att en prediktorvariabel och den variabel du vill förutsäga är direkt relaterade, medan de i själva verket inte är det. Eller så kan prediktorn och prognosen ändras på liknande sätt eftersom de båda är relaterade till tid.
Sättet att hantera denna typ av situation är att först avskräcka båda variablerna med hjälp av en transformation.
Eller så kanske du föredrar att göra din prognos med ett tillvägagångssätt som inte nödvändigtvis hanterar trender bra, som glidande medelvärden eller enkel exponentiell utjämning. En anledning till att göra detta är att du kanske tycker att regressionsmetoden med din datamängd inte är en lika exakt prognosmakare som glidande medelvärden eller utjämning. Återigen, se om du kan transformera data för att ta bort trenden.