Анализ множественной регрессии с помощью Excel

  • Поделись Этим
Hugh West

Простая регрессия анализ обычно используется для оценки связи между двумя переменными, например, связи между урожайностью и количеством осадков или связи между вкусом хлеба и температурой в печи. Однако чаще всего нам нужно исследовать связь между зависимой переменной и двумя или более независимыми переменными. Например, агент по недвижимости может захотеть узнать следующеесвязаны ли такие показатели, как размер дома, количество спален и средний доход в районе с ценой, за которую продается дом, и если да, то как. Такого рода проблему можно решить, применив множественный регрессионный анализ. В этой статье мы расскажем вам о том, как проводить множественный регрессионный анализ с помощью Excel.

Проблема

Предположим, что мы взяли 5 случайно выбранных продавцов и собрали информацию, как показано в таблице ниже. Влияет ли образование или мотивация на годовые продажи или нет?

Наивысший год окончания школы Мотивация, измеренная по шкале мотивации Хиггинса Годовой объем продаж в долларах
12 32 $350,000
14 35 $399,765
15 45 $429,000
16 50 $435,000
18 65 $433,000

Уравнение

В целом, множественный регрессионный анализ Предполагает, что между зависимой переменной (y) и независимыми переменными (x1, x2, x3 ... xn) существует линейная связь. И такую линейную связь можно описать с помощью следующей формулы:

Y = константа + β1*x1 + β2*x2+...+ βn*xn

Здесь приведены пояснения к константам и коэффициентам:

Y Прогнозируемое значение Y
Постоянная Y-интерцепт
β1 Изменение Y при каждом изменении x1 на 1 приращение
β2 Изменение Y при каждом изменении x2 на 1 приращение
... ...
βn Изменение в Y при каждом изменении xn на 1 приращение

Константа и β1, β2... βn могут быть рассчитаны на основе имеющихся данных выборки. После получения значений константы, β1, β2... βn, вы можете использовать их для построения прогнозов.

В нашей задаче есть только два фактора, в которых мы заинтересованы. Поэтому уравнение будет иметь вид:

Годовой объем продаж = константа + β1*(Наибольший год окончания школы) + β2*(Мотивация, измеренная по шкале мотивации Хиггинса)

Установить модель

Годовой объем продаж, наивысший год окончания школы и мотивация были введены в столбец А, столбец В и столбец С, как показано на рис. 1. Лучше всегда помещать зависимую переменную (здесь - годовой объем продаж) перед независимыми переменными.

Рисунок 1

Скачать Analysis ToolPak

Excel предлагает нам функцию анализа данных, которая может возвращать значения констант и коэффициентов. Но прежде чем использовать эту функцию, вам необходимо загрузить Analysis ToolPak. Вот как вы можете установить его.

Нажмите на Файл вкладка -> Опции и затем нажмите на Дополнения в Параметры Excel диалоговое окно. Нажмите на Перейти кнопка в нижней части Параметры Excel диалоговое окно, чтобы открыть Дополнения диалоговое окно. В Дополнения в диалоговом окне выберите Анализ TookPak флажок, а затем нажмите кнопку Хорошо .

Теперь, если вы нажмете на Данные вы увидите Анализ данных появляется в Анализ группа (правая панель).

Рисунок 2 [нажмите на изображение для полного просмотра]

Анализ множественной регрессии

Нажмите на Анализ данных в Анализ группа на Данные вкладка. Выбрать Регрессия В подсказанном Анализ данных Вы также можете выполнить другие действия статистический анализ такие как t-тест, ANOVA и так далее.

Рисунок 3.1

A Регрессия диалоговое окно появится после того, как вы выберете Регрессия Заполните диалоговое окно, как показано на рисунке 3.2.

Диапазон Input Y содержит зависимую переменную и данные, а диапазон Input X - независимые переменные и данные. Здесь я должен напомнить, что независимые переменные должны находиться в соседних столбцах. Максимальное количество независимых переменных - 15.

Поскольку диапазон A1: C1 включает метки переменных, поэтому флажок Labels должен быть установлен. На самом деле, я рекомендую включать метки каждый раз, когда вы заполняете Input Y Range и Input X Range. Эти метки полезны, когда вы просматриваете сводные отчеты, возвращаемые Excel.

Рисунок 3.2

Установив флажок "Остатки", вы можете включить в Excel список остатков для каждого наблюдения. Посмотрите на рисунок 1, всего здесь 5 наблюдений, и вы получите 5 остатков. Остаток - это то, что остается после вычитания предсказанного значения из наблюдаемого. Стандартизированный остаток - это остаток, деленный на его стандартное отклонение.

Вы также можете установить флажок Residual Plot, который позволяет Excel возвращать графики остатков. Количество графиков остатков равно количеству независимых переменных. График остатков - это график, который показывает остатки на оси Y и независимые переменные на оси x. Случайно разбросанные точки вокруг оси x на графике остатков подразумевают, что линейная регрессия Например, на рисунке 3.3 показаны три типичные схемы графиков остатков. Только та, что на левой панели, указывает на то, что она хорошо подходит для линейной модели. Две другие схемы указывают на то, что лучше подходит нелинейная модель.

Рисунок 3.3

Если установить флажок Line Fit Plots, Excel выдаст график подогнанной линии. График подогнанной линии может отображать зависимость между одной зависимой и одной независимой переменной. Другими словами, Excel выдаст вам столько же графиков подогнанной линии, сколько и независимой переменной. Например, для нашей задачи вы получите 2 графика подогнанной линии.

Результаты

После нажатия на кнопку Ok Excel выдаст сводный отчет, как показано ниже. Ячейки, выделенные зеленым и желтым цветом, являются наиболее важной частью, на которую следует обратить внимание.

Рисунок 3.4

Чем выше R-квадрат (ячейка F5), тем более тесная связь существует между зависимыми и независимыми переменными. А коэффициенты (диапазон F17: F19) в третьей таблице вернули вам значения констант и коэффициентов. Уравнение должно быть следующим Годовые продажи = 1589,2 + 19928,3*(Самый высокий год окончания школы) + 11,9*(Мотивация, измеренная по шкале мотивации Хиггинса).

Однако, чтобы убедиться в надежности результатов, необходимо также проверить p-значения, выделенные желтым цветом. Только если p-значение в ячейке J12 меньше 0,05, все уравнение регрессии надежно. Но также необходимо проверить p-значения в диапазоне I17: I19, чтобы узнать, полезны ли постоянные и независимые переменные для прогнозирования зависимой переменной. Для нашей проблемы нам лучше отброситьмотивации при рассмотрении независимых переменных.

Читайте также: Как рассчитать значение P в линейной регрессии в Excel (3 способа)

Исключите мотивацию из независимых переменных

После удаления мотивации как независимой переменной я применил тот же подход и провел простой регрессионный анализ. Вы можете видеть, что все значения теперь меньше 0,05. Окончательное уравнение должно быть таким:

Годовой объем продаж = 1167,8 + 19993,3*(Наибольший год окончания школы)

Рисунок 3.5 [нажмите на изображение для полного просмотра]

Примечание

Рисунок 4

Помимо инструмента Add-Ins, вы также можете использовать функцию LINEST для проведения множественного регрессионного анализа. Функция LINEST - это функция массива, которая может возвращать результат как в одной ячейке, так и в диапазоне ячеек. Прежде всего, выберите диапазон A8:B12, а затем введите формулу "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" в первую ячейку этого диапазона (A8). После нажатия CTRL + SHIFT +ENTER, Excel вернет результат в видеСравнивая с рисунком 3.4, можно увидеть, что 19993.3 - коэффициент самого высокого года окончания школы, а 1167.8 - константа. В любом случае, я рекомендую вам использовать инструмент Add-Ins. Это намного проще.

Читать далее...

Обратный анализ What-If в Excel

Как использовать подстановочные знаки в Excel?

Скачать рабочий файл

Загрузите рабочий файл по ссылке ниже.

Multiple-Regression-Analysis.xlsx

Хью Уэст — опытный тренер и аналитик Excel с более чем 10-летним опытом работы в отрасли. Он имеет степень бакалавра в области бухгалтерского учета и финансов и степень магистра делового администрирования. Хью страстно любит преподавать и разработал уникальный подход к обучению, которому легко следовать и который легко понять. Его экспертные знания Excel помогли тысячам студентов и специалистов по всему миру улучшить свои навыки и преуспеть в своей карьере. В своем блоге Хью делится своими знаниями со всем миром, предлагая бесплатные учебные пособия по Excel и онлайн-обучение, чтобы помочь отдельным лицам и компаниям полностью раскрыть свой потенциал.