Як інтерпретувати результати регресії в Excel (детальний аналіз)

Зміст

Регресійний аналіз є майже в кожному типі статистичного програмного забезпечення, такого як SPSS , R, Регресія може дати нам повну картину взаємозв'язків між змінними. Лінійна регресія може бути зроблена досить швидко в Excel за допомогою функції "Лінійна регресія". Аналіз даних У цій статті ми розповімо, як ви можете інтерпретувати результати регресії в Excel.

Завантажити Практичний посібник

Завантажте цей робочий зошит нижче.

Інтерпретація результатів регресії.xlsx

Що таке регресія?

Регресійний аналіз часто використовується в аналізі даних для визначення зв'язків між кількома змінними. Регресійний аналіз дозволяє вибрати, що відбувається з залежною змінною, якщо змінюється одна з незалежних змінних. Він також дозволяє математично з'ясувати, які незалежні змінні мають вплив.

Проста лінійна регресія відрізняється від множинна лінійна регресія в статистиці. Використовуючи лінійну функцію, простий лінійний регресійний аналіз зв'язок між змінними та однією незалежною змінною. Множинна лінійна регресія це коли для визначення змінних використовуються два або більше пояснювальних факторів. Використання нелінійної регресії замість залежної змінної описується як нелінійна функція, оскільки зв'язки між даними не є лінійними. У цій статті буде зосереджено увагу на множинна лінійна регресія продемонструвати, як ви можете інтерпретувати результати регресії в Excel.

Покрокове виконання регресії в Excel

Для цілей регресійного аналізу ми використаємо наведений нижче набір даних. Тут незалежною змінною буде Ціна стовпчик і Продано Колонка. незалежний буде стовпчик Попит колонка.

Кроки

Нам потрібно йти до Дані та натисніть на вкладку Аналіз даних робити регресію .

З'явиться нове вікно, виберіть залежну змінну та діапазон даних незалежної змінної.
Потім поставте галочку напроти Етикетки коробка і Впевненість Ящик.
Потім натисніть на поле діапазону вихідної комірки, щоб вибрати адресу вихідної комірки
Далі поставте галочку напроти пункту Залишок для розрахунку залишків.
Після цього поставте галочку у полі Залишок ділянки та Лінійні поля Fit Plots
Натисніть ГАРАЗД. після цього.

Після натискання ГАРАЗД, первинні вихідні параметри аналізу будуть знаходитись у вказаних комірках.

Тоді ви також отримаєте деякі параметри, такі як Значення цінність тощо в ANOVA ( Аналіз відхилень ) таблиця.
Ось, df позначає ступінь свободи, пов'язану з джерелом дисперсії.
СС позначає суму квадратів. Ваша модель буде краще відображати дані, якщо Залишок SS менше, ніж у Загальна кількість есесівців.
РС означає "квадрат".
F позначає F -перевірка нульової гіпотези.
Значущість F позначає P -значення F .

Тоді ви також отримаєте коефіцієнти змінної, значення значущості тощо в таблиці.

Потім ви отримаєте підсумкову таблицю під таблицею коефіцієнтів, яка містить залишкову вартість для кожного запису.

Далі ви отримаєте Попит проти Ціна регресійний графік, з лінією тренду.

Після цього ви отримуєте Попит проти Продано регресійний графік з лінією тренду.

Існує ще одна діаграма, яка показує розподіл залишків кожної статті з Продано змінна.

Існує ще одна діаграма, яка показує розподіл залишків кожної статті з Ціна змінна.

Далі ми покажемо, як можна інтерпретувати результати регресії в Excel.

Читати далі: Як зробити логістичну регресію в Excel (з короткими кроками)

Як інтерпретувати результати регресії в Excel

Наступне, що потрібно зробити після проведення регресійного аналізу, - це інтерпретувати отримані результати. Результати описані та детально розглянуті нижче.

Аналіз значень множинної R-квадрат регресії

На сьогоднішній день, на жаль, це не так. R-квадрат показує, наскільки тісно пов'язані елементи набору даних і наскільки добре лінія регресії відповідає даним. Ми будемо використовувати множинний лінійний регресійний аналіз, в якому ми будемо визначати вплив двох або більше змінних на головний фактор. Це стосується того, як змінюється залежна змінна при зміні однієї з незалежних змінних. Діапазон цього коефіцієнта становить від-1:1. Ось,

1 - тісний позитивний зв'язок
0 означає відсутність взаємозв'язку між змінними, тобто точки даних є випадковими.
-1 означає обернений або від'ємний зв'язок між змінними.

У вихідних результатах, показаних вище, множинне R-значення наведених наборів даних становить o.7578( приблизно ), що свідчить про сильний зв'язок між змінними.

R в квадраті

R в квадраті пояснює, як змінюється реакція залежних змінних на незалежну змінну. У нашому випадку значення становить 0,574 (приблизно), що можна інтерпретувати як досить добрий зв'язок між змінними.

Скоригований R-квадрат

Це лише альтернативна версія R в квадраті Це просто перетасовує значення предиктор змінних при прогнозуванні відповідь змінна. Вона обчислюється як

Дивіться також: Як застосувати формулу відсотків для декількох комірок в Excel (5 способів)

R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)].

Ось, R^2 : The R^2 значення, яке ми отримали з набору даних.

n : кількість спостережень.

K : кількість предикторних змінних.

Значущість цієї величини виникає при проведенні регресійного аналізу між двома предиктор Якщо є більше однієї змінної, то предиктор у наборі даних, то значення R в квадраті буде завищеним, що є вкрай небажаним. Скоригований R в квадраті коригує цю інфляцію і дає точну картину змінних.

Стандартна помилка

Ще одна метрика, яка вказує на точність вашого регресійного аналізу; чим нижче значення, тим більше ви можете бути впевнені у вашому регресійному аналізі.

Стандартна помилка емпіричний показник, що відображає середню відстань, на яку точки відхиляються від лінії тренду. На відміну від R2 являє собою частку варіації залежної змінної. У цьому випадку значення Стандартна помилка становить 288,9 ( приблизно ), що означає, що наші точки в середньому відстають від лінії тренду на 288,9.

Спостереження

Вказати кількість спостережень або записів.

Визначення значущої змінної

На сьогоднішній день, на жаль, це не так. Значення суттєвості вказує на достовірність (статистично обґрунтованість) нашого аналізу. Іншими словами, він вказує на ймовірність того, що наш набір даних є помилковим. Це значення має бути нижче 5%. Але в даному випадку наше значення значущості становить 0,00117, що перекладається як 0,1%, що значно нижче 5%. Отже, наш аналіз є нормальним. В іншому випадку, можливо, нам доведеться вибрати інші змінні для нашого аналізу.

P-значення в регресійному аналізі

Тісно пов'язане зі значною вартістю, але не менш важливе значення має P-значення позначає ймовірність того, що значення коефіцієнта є помилковим. P-значення показує зв'язок нульової гіпотези зі змінними.

Якщо ваш p-значення <"Участь у Значення є достатньо доказів для відхилення гіпотези про нульове значення, що означає наявність ненульової кореляції між змінними.

Але якщо в p-значення > Значення значення, не буде достатньо доказів для відхилення нульової гіпотези, що означає, що кореляція між змінними може бути відсутня.

У випадку, якщо P-значення змінної Ціна =0,000948 <0,00117 (значення значущості),

Отже, тут не йдеться про нульову гіпотезу, і є достатньо доказів, щоб заявити про кореляцію між змінними.

З іншого боку, для змінної Продано (P-value) 0,0038515 <0,0011723 (Значущість)

Таким чином, тут може мати місце нульова гіпотеза, і недостатньо доказів, щоб заявити про ненульову кореляцію між змінними.

У більшості випадків це P-значення визначає, чи буде змінна в наборі даних чи ні. Наприклад, ми повинні видалити Продано для збереження робастності набору даних.

Рівняння регресії

Оскільки ми визначаємо лінійний регресійний аналіз в Excel, то лінія тренду також повинна бути лінійною. Загальний вигляд такий:

Y=mX+C.

Ось, Y залежна змінна.

Причому Х тут є незалежною змінною, тобто ми будемо визначати вплив зміни змінної Х на змінну Y.

C буде якраз значенням точки перетину лінії з віссю Y.

В даному випадку значення перехоплення С дорівнює 9502,109853

А значення m для двох змінних становить -809,265 та 0,424818.

Отже, ми маємо остаточне рівняння для двох окремих змінних.

Перше:

Y=-809.265771X+9502.12

А рівняння для другої змінної таке:

Y=0.4248X+9502.12

Коефіцієнти

Коефіцієнти, які ми отримали, становлять m1=-809.2655 і m2=04248 І перехоплювач, C= 9502.12 .

По-перше, значення перехоплювача вказує на те, що попит буде 9502 при нульовій ціні.
А цінності m показує темп зміни попиту на одиницю зміни ціни. Значення цінового коефіцієнту становить -809,265, що свідчить про те, що збільшення ціни на одиницю призведе до падіння попиту приблизно на 809 одиниць.
Для другої змінної, Продано, значення m дорівнює 0,424. Це означає, що зміна на одиницю проданого товару призведе до збільшення одиниці товару в 0424 рази.

Залишки

На сьогоднішній день, на жаль, це не так. Залишок різниця між вихідним та розрахованим значенням з лінії регресії - різниця. Залишки показують, наскільки віддалене фактичне значення від лінії. Наприклад, розраховане значення з регресійного аналізу для першого запису - 9497. А перше вихідне значення - 9500. Таким чином, залишок становить близько 2,109.

Значення T-статистики

Значення T-статистики - це частка від ділення коефіцієнта на стандартне значення. Чим більше значення, тим кращу надійність показує коефіцієнт.

Дивіться також: Як відфільтрувати кілька стовпців одночасно в Excel (4 способи)

Є ще одне значення цієї величини, яке необхідне для того, щоб розрахувати P-value.

95% довірчий інтервал

Тут довірча ймовірність змінної, яку ми встановили на початку, дорівнює 95, але вона може змінюватися.

При цьому значення коефіцієнта нижніх 95% розраховано як 8496,84, а верхніх 95% - як 10507,37,
Це означає, що в той час як наш основний коефіцієнт становить близько 9502,1, існує висока ймовірність того, що значення може бути нижче 8496 в 95% випадків, і 5% ймовірність того, що воно буде вище 10507,37.

Читати далі:

Важливі моменти для запам'ятовування

✎ Метод регресійного аналізу лише оцінює зв'язок між досліджуваними змінними, а не встановлює причинно-наслідковий зв'язок. Іншими словами, розглядається лише аспект кореляції. Коли якась дія спричиняє щось, це стає причинно-наслідковим зв'язком. Коли зміна однієї змінної спричиняє зміни, це можна вважати причинно-наслідковим зв'язком.

✎ Регресійний аналіз сильно ускладнюється викидами. Всі види викидів повинні бути видалені перед проведенням аналізу. Для аналізу та інтерпретації результатів регресійного аналізу в Excel необхідно враховувати ці моменти.

Висновок

Таким чином, відповідь на питання "як інтерпретувати результати регресії в Excel" полягає в тому, щоб детально проаналізувати і потім інтерпретувати їх. Аналіз проводиться за допомогою Аналіз даних інструмент в Дані рахунок.

Для цієї задачі доступний для завантаження робочий зошит, де можна потренуватися у проведенні регресійного аналізу та його інтерпретації.

Ви можете задати будь-які питання або залишити відгук через розділ коментарів. Будь-яка пропозиція щодо покращення Ексельдемія буде вельми відчутною.

Попередній пост COUNTIFS Унікальні значення в Excel (3 простих способи)

Наступний пост Як зробити подвійну гістограму в Excel (з простими кроками)

Hugh West

Г’ю Вест — досвідчений тренер і аналітик Excel із понад 10-річним досвідом роботи в галузі. Він має ступінь бакалавра з бухгалтерського обліку та фінансів і ступінь магістра з ділового адміністрування. Г’ю має пристрасть до викладання та розробив унікальний підхід до викладання, який легко зрозуміти та дотримуватися. Його експертне знання Excel допомогло тисячам студентів і професіоналів у всьому світі вдосконалити свої навички та досягти успіху в кар’єрі. У своєму блозі Г’ю ділиться своїми знаннями зі світом, пропонуючи безкоштовні навчальні посібники з Excel та онлайн-навчання, щоб допомогти окремим особам і компаніям повністю розкрити свій потенціал.

#EXEL.WIKI