Як дізнатися, чи є тенденція прогнозування реальна? Якщо ви бачите базову лінію, яка виглядає так, ніби вона дрейфує вгору або вниз, чи є це справжньою тенденцією чи це просто випадкові зміни? Щоб відповісти на ці питання, вам потрібно зануритися в ймовірність і статистику. На щастя, вам не потрібно заходити в них занадто далеко — можливо, до зап’ястя.
Основний хід думок виглядає так:
Використовуйте Excel, щоб дізнатися, яка кореляція між доходами від продажів і пов’язаними з ними періодами часу.
Не має значення, чи я представляю цей період як січень 2011 року, лютий 2011 року, березень 2011 року. . . грудня 2016 року або як 1, 2, 3 . . . 72
Якщо немає зв’язку, виміряного кореляцією, між доходами та періодом часу, немає тенденції, і вам не потрібно про це турбуватися.
Якщо це співвідношення між доходами і періодами часу, ви повинні вибрати кращий спосіб впоратися з цією тенденцією.
Після того як Excel обчислить кореляцію, ви повинні вирішити, чи представляє вона реальну залежність між періодом часу та сумою доходу, чи це просто щасливий шанс.
Якщо ймовірність того, що це просто удача, менше 5 відсотків, це реальна тенденція. (Також нічого магічного щодо 5 відсотків — це умовно. Деякі люди вважають за краще використовувати 1 відсоток як критерій — він більш консервативний, ніж 5 відсотків, і вони відчувають себе трохи безпечніше.) Це піднімає питання статистичної значущості: який рівень ймовірності вам потрібно, перш ніж вирішити, що щось (тут, кореляція) є справжнім Маккой?
Існують різні методи перевірки статистичної значущості коефіцієнта кореляції. Ось три популярних способи:
- Перевірте кореляцію безпосередньо та порівняйте результат із нормальним розподілом.
- Перевірте кореляцію безпосередньо та порівняйте результат з t-розподілом (т-розподіл, хоча і схожий на звичайну криву, передбачає, що ви використовуєте невелику вибірку, а не нескінченно велику сукупність).
- Перетворіть кореляцію за допомогою перетворення Фішера (яке перетворює коефіцієнт кореляції на значення, яке відповідає нормальній кривій) і порівняйте результат із нормальним розподілом.
Існують інші популярні методи перевірки статистичної значущості коефіцієнта кореляції. Кожен повертає трохи інший результат. На практиці ви майже завжди приймаєте одне й те саме рішення (кореляція значно відрізняється від нуля), незалежно від обраного методу.
Якщо ви робите висновок, що тенденція вимірювань кореляції є реальною (і коли ймовірність того, що кореляція є примарою, менша за 1 відсоток, вам, ймовірно, слід прийняти цей висновок), у вас є ще два запитання, які потрібно задати собі:
- Чи варто використовувати підхід до прогнозування, який добре враховує тенденції? Можна подумати, що якщо ви виявили тенденцію, вам слід використовувати підхід до прогнозування, який добре обробляє тенденції. Часто це правда, але не обов’язково. Припустимо, що замість того, щоб використовувати період часу як одну зі змінних у вашому кореляційному аналізі, ви використовували щось на кшталт доходів від продажів, отриманих конкурентом.
Якщо доходи конкурентів знижуються, як і ваші (або якщо обидва набори доходів зростають), ви виявите, ймовірно, значну кореляцію між вашими доходами та доходами конкурентів. Але цілком можливо — навіть імовірно — що немає реального причинно-наслідкового зв’язку між їхніми доходами та вашими. Можливо, і ваш, і їхній корелюють із справжнім причинним фактором: розмір загального ринку змінюється. У цьому випадку вам, ймовірно, було б набагато краще використовувати вимір загального розміру ринку як провісну змінну. У цьому сценарії розмір ринку має прямий причинно-наслідковий зв’язок з вашим доходом, тоді як дохід ваших конкурентів має лише непрямий зв’язок з вашим доходом.
- Чи варто зменшувати тренд даних? Прихована змінна, наприклад постійна зміна загального розміру ринку, може привести вас до думки, що змінна-провісник і змінна, яку ви хочете прогнозувати, безпосередньо пов’язані, хоча насправді це не так. Або прогноз і прогноз можуть змінюватися подібним чином, оскільки вони обидва пов’язані з часом.
Спосіб вирішення подібних ситуацій полягає в тому, щоб спочатку вилучити обидві змінні за допомогою перетворення.
Або ви можете віддати перевагу скласти свій прогноз, використовуючи підхід, який не обов’язково добре обробляє тенденції, наприклад ковзні середні або просте експоненціальне згладжування. Однією з причин для цього є те, що ви можете виявити, що регресійний підхід до вашого набору даних не є таким точним прогнозом, як ковзні середні чи згладжування. Знову ж таки, подивіться, чи можете ви трансформувати дані, щоб видалити тенденцію.