Множествен регресионен анализ с Excel

  • Споделя Това
Hugh West

Проста регресия Анализът обикновено се използва за оценка на връзката между две променливи, например връзката между добивите на земеделски култури и валежите или връзката между вкуса на хляба и температурата на фурната. По-често обаче се налага да изследваме връзката между зависима променлива и две или повече независими променливи. Например агент по недвижими имоти може да иска да знаедали и как показатели като размера на къщата, броя на спалните и средния доход в квартала са свързани с цената, на която се продава една къща. Този вид проблеми могат да бъдат решени чрез прилагане на множествен регресионен анализ. Тази статия ще ви даде обобщение на това как да използвате множествен регресионен анализ с помощта на Excel.

Проблем

Да предположим, че сме взели 5 произволно избрани търговци и сме събрали информацията, както е показано в таблицата по-долу. Дали образованието или мотивацията оказват влияние върху годишните продажби, или не?

Най-висока година на завършено училище Мотивация, измерена чрез скалата на Хигинс за мотивация Годишни продажби в долари
12 32 $350,000
14 35 $399,765
15 45 $429,000
16 50 $435,000
18 65 $433,000

Уравнение

Като цяло, множествен регресионен анализ предполага, че съществува линейна зависимост между зависимата променлива (y) и независимите променливи (x1, x2, x3 ... xn). И този вид линейна зависимост може да се опише със следната формула:

Y = константа + β1*x1 + β2*x2+...+ βn*xn

Ето обясненията за константите и коефициентите:

Y Прогнозираната стойност на Y
Постоянно Пресечната точка Y
β1 Промяната в Y при всяка промяна на x1 с 1 стъпка
β2 Промяната в Y при всяка промяна на x2 с 1 стъпка
... ...
βn Промяната в Y при всяка промяна на xn с 1 инкремент

Константата и β1, β2... βn могат да бъдат изчислени въз основа на наличните данни от извадката. След като получите стойностите на константата, β1, β2... βn, можете да ги използвате, за да направите прогнозите.

Що се отнася до нашия проблем, има само два фактора, от които се интересуваме. Следователно уравнението ще бъде:

Годишни продажби = константа + β1*(Най-висока завършена година на обучение) + β2*(Мотивация, измерена по скалата на Хигинс за мотивация)

Създаване на модел

Годишните продажби, най-високата завършена година и Мотивацията бяха въведени в колона А, колона Б и колона В, както е показано на фигура 1. По-добре е винаги да поставяте зависимата променлива (Годишните продажби тук) преди независимите променливи.

Фигура 1

Изтегляне на Analysis ToolPak

Excel ни предлага функцията Data Analysis (Анализ на данни), която може да връща стойности на константи и коефициенти. Но преди да използвате тази функция, трябва да изтеглите Analysis ToolPak. Ето как можете да го инсталирате.

Кликнете върху Файл tab -> Опции и след това щракнете върху Добавки в Опции на Excel Кликнете върху Отидете на бутон в долната част на Опции за Excel диалогов прозорец, за да отворите Добавки диалогов прозорец. В Добавки диалогов прозорец, изберете Анализ на TookPak и след това щракнете върху Добре .

Сега, ако кликнете върху Данни ще видите Анализ на данните се появява в Анализ (десен панел).

Фигура 2 [кликнете върху изображението, за да получите пълен изглед]

Множествен регресионен анализ

Кликнете върху Анализ на данните в Анализ група в Данни таб. Изберете Регресия В подканените Анализ на данните диалогов прозорец. Можете да направите и други статистически анализ като t-тест, ANOVA и др.

Фигура 3.1

A Регресия диалогов прозорец, след като изберете Регресия . Попълнете диалоговия прозорец, както е показано на Фигура 3.2.

Input Y Range съдържа зависимата променлива и данни, докато Input X Range съдържа независимите променливи и данни. Тук трябва да ви напомня, че независимите променливи трябва да са в съседни колони. А максималният брой независими променливи е 15.

Тъй като диапазонът A1: C1 включва променливи етикети и следователно квадратчето Labels (Етикети) трябва да бъде избрано. Всъщност ви препоръчвам да включвате етикети всеки път, когато попълвате Input Y Range (Диапазон на въвеждане Y) и Input X Range (Диапазон на въвеждане X). Тези етикети са полезни, когато преглеждате обобщените отчети, върнати от Excel.

Фигура 3.2

Като поставите отметка в квадратчето Residuals (Остатъци), можете да разрешите на Excel да изписва остатъците за всяко наблюдение. Погледнете Фигура 1, има общо 5 наблюдения и ще получите 5 остатъка. Остатъкът е нещо, което остава, когато извадите предсказаната стойност от наблюдаваната. Стандартизираният остатък е остатъкът, разделен на стандартното му отклонение.

Можете също така да поставите отметка в квадратчето Residual Plot (Остатъчна графика), което може да даде възможност на Excel да връща остатъчни графики. Броят на остатъчните графики е равен на броя на независимите променливи. Остатъчната графика е графика, която показва остатъците по оста Y и независимите променливи по оста x. Случайно разпръснатите точки около оста x в остатъчната графика означават, че линейна регресия Например, на фигура 3.3 са показани три типични модела на остатъчните графики. Само този в левия панел показва, че е добро съответствие за линеен модел. Другите два модела предполагат по-добро съответствие за нелинеен модел.

Фигура 3.3

Excel ще ви върне напасната линейна диаграма, ако изберете квадратчето Line Fit Plots (Напаснати линейни диаграми). Напаснатата линейна диаграма може да изобрази връзката между една зависима променлива и една независима променлива. С други думи, Excel ще ви върне същия брой напаснати линейни диаграми с тази на независимата променлива. Например, ще получите 2 напаснати линейни диаграми за нашия проблем.

Резултати

След като щракнете върху бутона Ok, Excel ще върне обобщен отчет, както е показано по-долу. Клетките, подчертани в зелено и жълто, са най-важната част, на която трябва да обърнете внимание.

Фигура 3.4

Колкото по-висок е R-квадратът (клетка F5), толкова по-тясна връзка съществува между зависимите и независимите променливи. А коефициентите (диапазон F17: F19) в третата таблица ви върнаха стойностите на константите и коефициентите. Уравнението трябва да бъде Годишни продажби = 1589,2 + 19928,3*(Най-висока завършена година на училището) + 11,9*(Мотивация, измерена по скалата на Хигинс за мотивация).

За да се уверите обаче, че резултатите са надеждни, трябва да проверите и р-стойностите, подчертани в жълто. Само ако р-стойността в клетка J12 е по-малка от 0,05, цялото регресионно уравнение е надеждно. Но трябва да проверите и р-стойностите в диапазона I17: I19, за да видите дали константните и независимите променливи са полезни за предсказване на зависимата променлива. За нашия проблем е по-добре да отхвърлиммотивация, когато се разглеждат независими променливи.

Прочетете още: Как да изчислите стойността P при линейна регресия в Excel (3 начина)

Премахване на мотивацията от независимите променливи

След като изтрих мотивацията като независима променлива, приложих същия подход и направих прост регресионен анализ. Можете да видите, че сега всички стойности са по-малки от 0,05. Окончателното уравнение трябва да бъде:

Годишни продажби = 1167,8 + 19993,3*(най-висока завършена година на обучение)

Фигура 3.5 [кликнете върху изображението, за да получите пълен изглед]

Забележка

Фигура 4

Освен инструмента Add-Ins можете да използвате и функцията LINEST, за да направите множествен регресионен анализ. Функцията LINEST е функция на масив, която може да върне резултата в една клетка или в диапазон от клетки. Първо, изберете диапазона A8:B12 и след това въведете формулата "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" в първата клетка на този диапазон (A8). След като натиснете CTRL + SHIFT +ENTER, Excel ще върне резултатите катоСравнявайки с фигура 3.4, можете да видите, че 19993,3 е коефициентът на най-високата завършена година на училището, докато 1167,8 е константа. Както и да е, препоръчвам ви да използвате инструмента Add-Ins. Той е много по-лесен.

Прочетете повече...

Обратен What-If анализ в Excel

Как да използваме заместващи символи в Excel?

Изтегляне на работен файл

Изтеглете работния файл от връзката по-долу.

Multiple-Regression-Analysis.xlsx

Хю Уест е опитен обучител и анализатор на Excel с над 10 години опит в индустрията. Има бакалавърска степен по счетоводство и финанси и магистърска степен по бизнес администрация. Хю има страст към преподаването и е разработил уникален подход на преподаване, който е лесен за следване и разбиране. Неговите експертни познания по Excel са помогнали на хиляди студенти и професионалисти по целия свят да подобрят уменията си и да постигнат отлични резултати в кариерата си. Чрез своя блог Хю споделя знанията си със света, като предлага безплатни уроци за Excel и онлайн обучение, за да помогне на хората и фирмите да достигнат пълния си потенциал.