Світ статистики сповнений підводних каменів, але він також сповнений можливостей. Незалежно від того, чи користуєтеся ви статистики, чи хтось, хто повинен її інтерпретувати, ви можете потрапити в підводні камені. По них також можна прогулятися. Ось десять порад і пасток з питань перевірки гіпотез, регресії, кореляції та графіка.
Важливе не завжди означає важливе
Значення — це багато в чому невдало підібраний термін. Коли статистичний тест дає значний результат, і рішенням є відхилення H0, це не гарантує, що дослідження, що ґрунтується на даних, є важливим. Статистика може лише допомогти у прийнятті рішень щодо чисел і висновків про процеси, які їх викликали. Вони не можуть зробити ці процеси важливими або зруйнувати землю. Важливість – це те, про що ви повинні судити самі, і жоден статистичний тест не може зробити цього за вас.
Регресія не завжди є лінійною
При спробі підігнати модель регресії до діаграми розсіювання виникає спокуса негайно використати лінію. Це найкраще зрозуміла регресійна модель, і коли ви впораєтеся з нею, нахили та перехоплення не так вже й страшні.
Але лінійна регресія — не єдиний вид регресії. Можна помістити криву за допомогою діаграми розсіювання. Нехай вас не обманюють: статистичні концепції криволінійної регресії важче зрозуміти, ніж концепції лінійної регресії.
Однак варто виділити час, щоб освоїти ці поняття. Іноді крива підходить набагато краще, ніж лінія.
Екстраполяція за межі вибіркової діаграми розсіювання є поганою ідеєю
Незалежно від того, чи працюєте ви з лінійною або криволінійною регресією, пам’ятайте, що узагальнення за межі діаграми розсіювання недоречно.
Припустимо, ви встановили надійний прогнозний зв’язок між тестом на математичні здібності та успішністю на курсах математики, і ваша діаграма розсіювання охоплює лише вузький діапазон здібностей до математики. Ви не можете дізнатися, чи витримуються стосунки за межами цього діапазону. Прогнози за межами цього діапазону недійсні.
Найкраще розширити діаграму розсіювання, випробовуючи більше людей. Ви можете виявити, що оригінальні стосунки розповідають лише частину історії.
Вивчіть мінливість навколо лінії регресії
Ретельний аналіз залишків (різниці між спостережуваними і прогнозованими значеннями) може багато розповісти про те, наскільки добре лінія відповідає даним. Основне припущення полягає в тому, що мінливість навколо лінії регресії однакова вгору і вниз по лінії. Якщо це не так, модель може бути не такою передбачливою, як ви думаєте. Якщо мінливість є систематичною (більша мінливість на одному кінці, ніж на іншому), криволінійна регресія може бути більш прийнятною, ніж лінійна. Стандартна помилка оцінки не завжди буде показником.
Вибірка може бути занадто великою
Вірте чи ні, але це іноді трапляється з коефіцієнтами кореляції. Дуже велика вибірка може зробити малий коефіцієнт кореляції статистично значущим.
Але що насправді означає цей коефіцієнт кореляції? Коефіцієнт детермінації —r2 — складає всього 0,038, що означає, що SSRegression становить менше 4 відсотків від загального SSTotal. Це дуже маленька асоціація.
Підсумок: дивлячись на коефіцієнт кореляції, зверніть увагу на розмір вибірки. Якщо він досить великий, це може зробити тривіальну асоціацію статистично значущою. (Хммм... значення — ось воно знову!)
Споживачі: Знайте свої осі
Коли ви дивитеся на графік, переконайтеся, що ви знаєте, що знаходиться на кожній осі. Переконайтеся, що ви розумієте одиниці вимірювання. Ви розумієте незалежну змінну? Ви розумієте залежну змінну? Чи можете ви описати кожну з них своїми словами? Якщо відповідь на будь-яке з цих запитань «Ні», ви не розумієте графіка, на який дивитесь.
Переглядаючи графік у телевізійній рекламі, будьте дуже обережні, якщо він зникає занадто швидко, перш ніж ви зможете побачити, що на осях. Можливо, рекламодавець намагається створити довготривале помилкове враження про фіктивні зв’язки всередині графіка. Графічний зв’язок може бути настільки ж дійсним, як і той інший основний елемент телевізійної реклами — наукове підтвердження через мультфільм: крихітні анімовані щітки для очищення зубів із мультфільму не обов’язково гарантують біліші зуби для вас, якщо ви купите продукт.
Зобразити категоріальну змінну так, ніби це кількісна змінна, просто неправильно
Отже, ви майже готові взяти участь у Всесвітній серії «Камень-ножиці-папір». Готуючись до цього міжнародного турніру, ви підрахували всі свої матчі за останні десять років, перерахувавши відсоток перемог, які ви виграли під час виконання кожної ролі.
Щоб підсумувати всі результати, скористайтеся графічними можливостями Excel для створення графіка.
Такого роду графіки створюють багато людей — люди, які повинні знати краще. Лінія на графіку означає безперервність від однієї точки до іншої. З цими даними, звичайно, це неможливо. Що між каменем і папером? Чому вони рівні одиниці один від одного? Чому три категорії розташовані в такому порядку?
Простіше кажучи, лінійний графік не є правильним графіком, якщо хоча б одна з ваших змінних є набором категорій. Замість цього створіть стовпчастий графік. Кругова діаграма тут також працює, тому що дані – це відсотки, а у вас є лише кілька фрагментів.
За потреби включайте змінність у свій графік
Коли точки на вашому графіку представляють середні, переконайтеся, що графік містить стандартну помилку кожного середнього. Це дає глядачеві уявлення про мінливість даних, що є важливим аспектом даних.
Засоби самі по собі не завжди розповідають вам всю історію. Скористайтеся будь-якою можливістю для вивчення дисперсій і стандартних відхилень. Ви можете знайти деякі приховані самородки. Систематична варіація — наприклад, високі значення дисперсії, пов’язані з великими середніми — може бути підказкою про стосунки, яких ви раніше не бачили.
Будьте обережні, пов’язуючи поняття підручника зі статистики з Excel
Якщо ви серйозно ставитеся до статистичної роботи, у вас, напевно, буде нагода заглянути в текст чи два статистичних даних. Майте на увазі, що символи в деяких областях статистики не є стандартними.
Підключення концепцій підручника до статистичних функцій Excel може бути складним через тексти та завдяки Excel. Повідомлення в діалогових вікнах і файлах довідки можуть містити символи, відмінні від тих, про які ви читали, або вони можуть використовувати ті самі символи, але іншим способом. Ця невідповідність може призвести до неправильного введення параметра в діалоговому вікні, що призведе до помилки, яку важко відстежити.