Зміст
Проста регресія аналіз зазвичай використовується для оцінки взаємозв'язку між двома змінними, наприклад, взаємозв'язок між врожайністю сільськогосподарських культур і кількістю опадів або взаємозв'язок між смаком хліба і температурою в духовці. Однак частіше за все нам потрібно дослідити взаємозв'язок між залежною змінною і двома або більше незалежними змінними. Наприклад, агент з нерухомості може захотіти дізнатися, щочи пов'язані і яким чином такі показники, як розмір будинку, кількість спалень, середній дохід населення району, з ціною, за яку продається житло. Такого роду проблеми можна вирішити, застосувавши множинний регресійний аналіз. А ця стаття дасть вам короткий опис того, як за допомогою Excel зробити множинний регресійний аналіз.
Проблема
Припустимо, що ми взяли 5 випадково обраних продавців і зібрали інформацію, як показано в таблиці нижче. Чи впливає освіта або мотивація на річний обсяг продажів чи ні?
Найвищий рік закінчення школи | Мотивація за шкалою мотивації Хіггінса | Річні продажі в доларах США |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Рівняння
Загалом, множинний регресійний аналіз припускає, що між залежною змінною (y) та незалежними змінними (x1, x2, x3 ... xn) існує лінійний зв'язок. І цей вид лінійного зв'язку може бути описаний за допомогою наступної формули:
Y = константа + β1*x1 + β2*x2+...+ βn*xn
Наводимо пояснення до констант та коефіцієнтів:
Y | Прогнозне значення Y |
Постійна | Y-перехоплення |
β1 | Зміна Y на кожний 1 приріст зміни x1 |
β2 | Зміна Y на 1 приріст зміни x2 |
... | ... |
βn | Зміна Y на 1 приріст зміни xn |
Константа та β1, β2...βn можуть бути розраховані на основі наявних вибіркових даних. Отримавши значення константи, β1, β2...βn, можна використовувати їх для побудови прогнозу.
Що стосується нашої проблеми, то тут є тільки два фактори, в яких ми зацікавлені. Тому рівняння буде таким:
Річний обсяг продажів = константа + β1*(Найвищий рік закінчення школи) + β2*(Мотивація за шкалою мотивації Хіггінса)
Налаштування моделі
Річний обсяг продажів, останній рік закінчення школи та мотивація були введені в колонку A, колонку B та колонку C, як показано на рисунку 1. Краще завжди ставити залежну змінну (тут - річний обсяг продажів) перед незалежними змінними.
Малюнок 1
Завантажити Analysis ToolPak
Excel пропонує нам функцію аналізу даних, яка може повертати значення констант і коефіцієнтів. Але перш ніж використовувати цю функцію, вам потрібно завантажити Analysis ToolPak. Ось як ви можете встановити його.
Натисніть на кнопку Файл вкладка ->; Опції а потім натисніть на Надбудови в Параметри Excel Натисніть на кнопку Іди. внизу сторінки Параметри Excel відкриється діалогове вікно Надбудови В діалоговому вікні Надбудови виберіть у діалоговому вікні Аналіз TookPak і натисніть на кнопку Гаразд. .
Тепер, якщо ви натиснете на Дані вкладку, ви побачите Аналіз даних з'являється в Аналіз група (права панель).
Малюнок 2 [натисніть на зображення для повного перегляду]
Множинний регресійний аналіз
Натисніть на Аналіз даних в Аналіз група на Дані Виберіть вкладку Регресія У запропонованому Аналіз даних Ви також можете виконати інші дії статистичний аналіз таких як t-тест, ANOVA тощо.
Рисунок 3.1
A Регресія діалогове вікно з'явиться після того, як ви виберете Регресія Заповніть діалогове вікно, як показано на Малюнку 3.2.
Вхідний діапазон Y містить залежну змінну та дані, а вхідний діапазон X містить незалежні змінні та дані. Тут я маю нагадати, що незалежні змінні повинні знаходитися в сусідніх стовпчиках. І максимальна кількість незалежних змінних - 15.
Оскільки діапазон A1: C1 включає мітки змінних, тому прапорець Мітки повинен бути встановлений. Насправді я рекомендую включати мітки кожного разу, коли ви заповнюєте діапазон введення Y та діапазон введення X. Ці мітки корисні, коли ви переглядаєте зведені звіти, що повертаються Excel.
Рисунок 3.2
Встановивши прапорець "Залишки", ви можете дозволити Excel перерахувати залишки для кожного спостереження. Подивіться на Рисунок 1, всього 5 спостережень і ви отримаєте 5 залишків. Залишок - це те, що залишається, коли ви віднімаєте прогнозоване значення від спостережуваного значення. Стандартизований залишок - це залишок, поділений на його стандартне відхилення.
Ви також можете встановити прапорець "Графік залишків", який дозволяє Excel повертати графіки залишків. Кількість графіків залишків дорівнює кількості незалежних змінних. Графік залишків - це графік, який показує залишки на осі Y і незалежні змінні на осі x. Випадково розкидані точки навколо осі x на графіку залишків означають, що лінійна регресія Наприклад, на рис. 3.3 показано три типові форми графіків залишків. Лише одна з них на лівій панелі вказує на те, що вона добре підходить для лінійної моделі. Інші дві форми вказують на те, що вона краще підходить для нелінійної моделі.
Рисунок 3.3
Excel поверне графік, якщо ви встановите прапорець Лінійні графіки. Лінійний графік може відображати залежність між однією залежною змінною та однією незалежною змінною. Іншими словами, Excel поверне вам стільки ж лінійних графіків, скільки і для незалежної змінної. Наприклад, для нашої задачі ви отримаєте 2 лінійних графіки.
Результати
Після натискання на кнопку "ОК" Excel поверне зведений звіт, як показано нижче. Клітинки, виділені зеленим і жовтим кольором, є найбільш важливою частиною, на яку слід звернути увагу.
Рисунок 3.4
Чим вище R-квадрат (комірка F5), тим тісніший зв'язок існує між залежними та незалежними змінними. А коефіцієнти (діапазон F17: F19) у третій таблиці повернули Вам значення констант та коефіцієнтів. Рівняння має бути таким: Річний обсяг продажів = 1589,2 + 19928,3*(Найвищий рік закінчення школи) + 11,9*(Мотивація за шкалою мотивації Хіггінса).
Однак, щоб перевірити надійність результатів, необхідно також перевірити p-значення, виділені жовтим кольором. Тільки якщо p-значення в комірці J12 менше 0,05, все рівняння регресії є надійним. Але також необхідно перевірити p-значення в діапазоні I17: I19, щоб побачити, чи є постійні та незалежні змінні корисними для прогнозування залежної змінної. Для нашої задачі нам краще відкинутимотивація при розгляді незалежних змінних.
Читати далі: Як розрахувати значення P в лінійній регресії в Excel (3 способи)
Вилучити мотивацію з незалежних змінних
Видаливши мотивацію як незалежну змінну, я застосував той самий підхід і провів простий регресійний аналіз. Ви можете побачити, що всі значення тепер менше 0,05. Таким має бути остаточне рівняння:
Річний обсяг продажів = 1167,8 + 19993,3*(Найвищий рік закінчення школи)
Рисунок 3.5 [натисніть на зображення для повного перегляду].
Примітка
Малюнок 4
Крім інструменту Надстройки, ви також можете використовувати функцію ЛИНЕЙН для проведення множинного регресійного аналізу. Функція ЛИНЕЙН - це функція масиву, яка може повернути результат як в одній комірці, так і в діапазоні комірок. Перш за все, виділіть діапазон A8:B12 і введіть формулу "=ЛИНЕЙН (A2:A6, B2:B6, ИСТИНА, ИСТИНА)" в першу комірку цього діапазону (A8). Після натискання комбінації клавіш CTRL + SHIFT + ENTER Excel поверне вам результат у виглядіПорівнюючи з рисунком 3.4, можна побачити, що 19993,3 - це коефіцієнт найвищого року закінчення школи, тоді як 1167,8 є постійним. У будь-якому випадку, я рекомендую вам використовувати інструмент Add-Ins, це набагато простіше.
Читати далі...
Зворотний що-якщо аналіз в Excel
Як використовувати символи підстановки в Excel?
Завантажити робочий файл
Завантажити робочий файл можна за посиланням нижче.
Множинний регресійний аналіз.xlsx