Линейната регресия е чудесен инструмент за правене на прогнози с Excel. Когато знаете наклона и пресечната точка на линията, която свързва две променливи, можете да вземете нова x- стойност и да предвидите нова y- стойност. В примера, който работите, вие взимате SAT резултат и прогнозирате среден успех за студент от университета Sahutsket.
Ами ако знаехте повече от SAT резултата за всеки ученик? Ами ако имате средната стойност на ученика за гимназията (по скала от 100) и бихте могли да използвате и тази информация? Ако можете да комбинирате SAT резултат със среден HS, може да имате по-точен предиктор от SAT резултат самостоятелно.
Когато работите с повече от една независима променлива, вие сте в сферата на множествена регресия. Както при линейната регресия, вие намирате коефициенти на регресия за най-подходящата линия чрез диаграма на разсейване. Още веднъж, най-подходящото означава, че сумата от квадратите на разстоянията от точките с данни до линията е минимална.
С две независими променливи обаче не можете да покажете диаграма на разсейване в две измерения. Имате нужда от три измерения и това става трудно за рисуване.
За примера SAT-GPA уравнението за регресия се превежда на
Прогнозиран среден успех =a+b1(SAT)+b2(средно средно училище)
Можете да тествате хипотези за цялостното прилягане и за трите коефициента на регресия.
Нека да проверим възможностите на Excel за намиране на коефициенти.
Няколко неща, които трябва да имате предвид:
- Можете да имате произволен брой x- променливи.
- Очаквайте коефициентът за SAT да се промени от линейна регресия към множествена регресия. Очаквайте и прихващането да се промени.
- Очаквайте стандартната грешка на оценката да намалее от линейна регресия към множествена регресия. Тъй като множествената регресия използва повече информация от линейната регресия, тя намалява грешката.