Як інтэрпрэтаваць вынікі рэгрэсіі ў Excel (падрабязны аналіз)

Змест

Рэгрэсійны аналіз прысутнічае практычна ў кожным тыпе статыстычнага праграмнага забеспячэння, напрыклад SPSS , R, і не кажучы ўжо пра Excel. Рэгрэсія можа даць нам агульную карціну адносін паміж зменнымі. Лінейную рэгрэсію можна зрабіць даволі хутка ў Excel з дапамогай інструмента Аналіз даных . Гэты артыкул пакажа, як вы можаце інтэрпрэтаваць вынікі рэгрэсіі ў Excel.

Спампаваць практычны сшытак

Спампуйце гэты практычны сшытак ніжэй.

Інтэрпрэтаваць вынікі рэгрэсіі.xlsx

Што такое рэгрэсія?

Рэгрэсійны аналіз часта выкарыстоўваецца ў аналізе даных для вызначэння сувязей паміж некалькімі зменнымі. Рэгрэсійны аналіз дазваляе выбраць, што адбудзецца з залежнай зменнай, калі адна з незалежных зменных зменіцца. Гэта таксама дазваляе матэматычна вызначыць, якія незалежныя зменныя ўплываюць.

Простая лінейная рэгрэсія адрозніваецца ад множнай лінейнай рэгрэсіі ў статыстыцы. Выкарыстоўваючы лінейную функцыю, простая лінейная рэгрэсія аналізуе сувязь паміж зменнымі і адной незалежнай зменнай. Множная лінейная рэгрэсія - гэта калі для вызначэння зменных выкарыстоўваюцца два або больш тлумачальных фактараў. Выкарыстанне нелінейнай рэгрэсіі замест залежнай зменнай апісваецца як нелінейная функцыя, паколькі адносіны даных не з'яўляюцца лінейнымі. Гэты артыкул будзе сканцэнтраваны на шматлінейныхрэгрэсія , каб прадэманстраваць, як вы можаце інтэрпрэтаваць вынікі рэгрэсіі ў Excel.

Крокі для выканання рэгрэсіі ў Excel

У мэтах рэгрэсіі мы будзем выкарыстоўваць прыведзены ніжэй набор даных для мэтах аналізу. Тут незалежнай зменнай будуць слупкі Цана і слупкі Прададзена . Слупок незалежны будзе слупком Попыт .

Крокі

Нам трэба перайсці на ўкладку Дадзеныя і націснуць на Аналіз даных , каб зрабіць рэгрэсію .

З'явіцца новае акно; выберыце залежную зменную і дыяпазон даных незалежнай зменнай.
Затым адзначце поле Меткі і поле Упэўненасць .
Затым пстрыкніце па дыяпазоне выхадных вочак поле, каб выбраць адрас выхадной ячэйкі
Далей адзначце Астатак , каб вылічыць рэшткі.
Пасля гэтага адзначце графікі Астатак і Лінейныя палі ўчасткаў
Націсніце ОК пасля гэтага.

Пасля націску ОК, асноўныя выходныя параметры аналізу будуць у вызначаных ячэйках.

Тады вы таксама атрымаеце некаторыя параметры напрыклад, Значнасць значэнне і г.д. у табліцы ANOVA ( Дысперыяцыйны аналіз ).
Тут df абазначае ступень свабоды, звязаная з крыніцай дысперсіі.
SS абазначае суму квадратаў. Ваша мадэль будзе лепш адлюстроўваць дадзеныя, калі Астаткавы SS меншы за Агульны SS.
MS азначае квадрат.
F пазначае F -тэст для нулявой гіпотэзы.
Значнасць F пазначае P -значэнне F .

Тады вы таксама атрымаеце каэфіцыенты зменнай, значэнне значнасці і г.д. у табліцы.

Тады вы атрымаеце выніковую табліцу пад табліцай каэфіцыентаў, якая змяшчае рэшткавы кошт для кожнага запісу.

Далей вы атрымаеце графік рэгрэсіі Попыту супраць Цаны з лініяй трэнду.

Пасля гэта, вы атрымаеце графік рэгрэсіі Попыту супраць Прададзенага з лініяй трэнду.

Ёсць яшчэ адзін дыяграма, якая паказвае размеркаванне астаткаў кожнага запісу са зменнай Прададзена .

Існуе іншая дыяграма, якая паказвае размеркаванне астаткаў кожнага запісу са зменнай Цана .

Далей мы пакажам вам, як вы ка n інтэрпрэтаваць гэтыя вынікі рэгрэсіі ў Excel.

Дадатковая інфармацыя: Як зрабіць лагістычную рэгрэсію ў Excel (з хуткімі крокамі)

Як інтэрпрэтаваць Вынікі рэгрэсіі ў Excel

Наступнае, што вам трэба зрабіць пасля правядзення рэгрэсійнага аналізу і іх інтэрпрэтацыі. Вынікі апісаны і падрабязна апісаны ніжэй.

Аналіз рэгрэсійнага значэння множнага R-квадрата

Лік R-квадрат паказвае, наколькі цесна звязаны элементы набору даных і наколькі лінія рэгрэсіі адпавядае даным. Мы збіраемся выкарыстоўваць множны лінейны рэгрэсійны аналіз, у якім мы збіраемся вызначыць уплыў дзвюх або больш зменных на галоўны фактар. Гэта адносіцца да таго, як змяняецца залежная зменная пры змене адной з незалежных зменных. Дыяпазон гэтага каэфіцыента складае ад -1 да 1. Тут

1 азначае цесную станоўчую залежнасць
0 азначае адсутнасць сувязі паміж зменнымі. Іншымі словамі, кропкі даных з'яўляюцца выпадковымі.
-1 азначае адваротную або адмоўную залежнасць паміж зменнымі.

У выходных выніках, паказаных вышэй, кратнае R-значэнне зададзенага набор даных складае o.7578( прыблізна ), што паказвае на моцныя сувязі паміж зменнымі.

R у квадраце

R у квадраце значэнне тлумачыць, як рэакцыя залежных зменных змяняецца на незалежную зменную. У нашым выпадку значэнне складае 0,574 (прыблізна), што можа быць інтэрпрэтавана як дастаткова нармальная залежнасць паміж зменнымі.

Адкарэктаваны R-квадрат

Гэта проста альтэрнатыўная версія значэння R у квадраце . Гэта проста перамешвае зменныя прадказальніка пры прагназаванні зменнай адказу . Ён разлічваецца як

R^2 = 1 – [(1-R^2)*(n-1)/(n-k-1)]

Тут R^2 : значэнне R^2 , якое мы атрымалі знабор даных.

n : колькасць назіранняў.

K : колькасць зменных прэдыктара.

Значнасць гэтага значэння ўзнікае пры выкананні рэгрэсійнага аналізу паміж дзвюма зменнымі прадказальнікам . Калі ў наборы даных прысутнічае больш за адну зменную прадказчыка , то значэнне квадрата R будзе завышаным, што вельмі непажадана. Скарэкціраванае значэнне R squared карэктуе гэтую інфляцыю і дае дакладную карціну зменных.

Стандартная памылка

Яшчэ адна метрыка адпаведнасці што паказвае на дакладнасць вашага рэгрэсійнага аналізу; чым меншае значэнне, тым больш упэўнены вы ў сваім рэгрэсійным аналізе.

Стандартная памылка - гэта эмпірычная метрыка, якая прадстаўляе сярэднюю адлегласць, на якую кропкі адхіляюцца ад лініі трэнду. Наадварот, R2 уяўляе долю варыяцый залежнай зменнай. У гэтым выпадку значэнне стандартнай памылкі складае 288,9 ( прыблізна ), што азначае, што нашы кропкі даных у сярэднім апускаюцца на 288,9 ад лініі трэнду.

Глядзі_таксама: Як выкарыстоўваць функцыю INDEX у Excel (6 зручных прыкладаў)

Назіранні

Пакажыце колькасць назіранняў або запісаў.

Вызначэнне значнай зменнай

Значэнне значнасці паказвае надзейнасць (статыстычна абгрунтаваную) нашага аналізу. Іншымі словамі, гэта азначае верагоднасць таго, што наш набор дадзеных памылковы. Гэта значэнне павінна быць ніжэй за 5%. Але ў гэтым выпадку наша значэнне значнасці 0,00117,што ў перакладзе складае 0,1%, што значна ніжэй за 5%. Такім чынам, наш аналіз у парадку. У адваротным выпадку нам, магчыма, прыйдзецца выбраць розныя зменныя для нашага аналізу.

P-значэнне ў рэгрэсійным аналізе

Цесна звязанае са значным значэннем, P- значэнне пазначае верагоднасць таго, што значэнне каэфіцыента няправільнае. P-значэнне азначае сувязь нулявой гіпотэзы са зменнымі.

Калі ваша p-значэнне < лік Значнасць , ёсць дастаткова доказаў, каб адхіліць гіпотэзу аб нулявым значэнні. Гэта азначае, што існуе ненулявая карэляцыя паміж зменнымі.

Але калі p-значэнне > Значнасць значэнне, будзе недастаткова доказаў, каб адхіліць нулявая гіпотэза. Гэта азначае, што паміж зменнымі не магло быць карэляцыі.

У выпадку або, P-значэнне зменнай Цана =0,000948 < 0,00117 (значэнне значнасці),

Такім чынам, тут няма нулявой гіпотэзы, і ёсць дастаткова доказаў, каб заявіць аб карэляцыі паміж зменнымі.

З іншага боку, для зменнай Прададзена , (P-значэнне) 0,0038515 < 0,0011723 (Значэнне значнасці)

Такім чынам, тут можа быць нулявая гіпотэза, і няма дастаткова доказаў, каб заявіць аб ненулявой карэляцыі паміж зменнымі.

У большасці выпадкаў гэта P -значэнне вызначае, ці будзе зменная ў наборы дадзеных ці не. Напрыклад, мы павінны выдаліць Прададзена зменнай, каб захаваць надзейнасць набору даных.

Ураўненне рэгрэсіі

Глядзі_таксама: Як разлічыць асноўную суму і працэнты па крэдыце ў Excel

Паколькі мы вызначаем аналіз лінейнай рэгрэсіі ў Excel, лінія трэнду таксама павінна быць лінейнай. Агульны выгляд:

Y=mX+C.

Тут Y з'яўляецца залежнай зменнай.

І X тут незалежная зменная, што азначае, што мы будзем вызначаць уплыў змены зменнай x на зменную Y.

C будзе проста значэннем перасячэння восі Y лінія.

У гэтым выпадку значэнне перасячэння C роўна 9502,109853

А значэнне m для дзвюх зменных роўна -809,265 і 0,424818.

Такім чынам, у нас ёсць канчатковае ўраўненне для дзвюх асобных зменных.

Першае:

Y=-809,265771X+9502,12

Ураўненне для другой зменнай:

Y=0,4248X+9502,12

Каэфіцыенты

Атрыманыя каэфіцыенты m1=-809,2655 і m2=04248 . І перахопнік, C= 9502.12 .

Па-першае, значэнне перахопніка паказвае, што попыт будзе 9502, калі цана роўная нулю.
І значэнні m пазначае хуткасць, з якой змяняецца попыт на адзінку змены цаны. Значэнне цэнавага каэфіцыента складае -809,265, што паказвае на тое, што павелічэнне цаны на адзінку знізіць попыт прыкладна на 809 адзінак.
Для другой зменнай, Прададзена, значэнне m роўна 0,424. Гэта азначае, што змена на адзінку прададзенага таварупрывядзе да павелічэння здабытку ў 0424 адзінкі.

Астаткі

Астатка розніца паміж зыходнай і разлічанай запіс з лініі рэгрэсіі - розніца. Астаткі паказваюць, наколькі далёкае фактычнае значэнне ад лініі. Напрыклад, вылічаны запіс з рэгрэсійнага аналізу для першага запісу складае 9497. А першае першапачатковае значэнне роўна 9500. Такім чынам, рэшта складае каля 2,109.

Значэнне T-статыстыкі

Значэнне Т-статыкі - гэта дзяленне каэфіцыента на стандартнае значэнне. Чым вышэй значэнне, тым лепшая надзейнасць каэфіцыента паказвае.

Ёсць яшчэ адно значэнне гэтага значэння, якое патрабуецца для разліку P-значэння.

95% даверны інтэрвал

Тут давер зменнай, якую мы ўсталявалі 95 у пачатку. Аднак гэта можа змяніцца.

Тут значэнне каэфіцыента ніжніх 95% разлічваецца як 8496,84, што азначае, што верхнія 95% разлічваюцца як 10507,37,
Гэта азначае, што ў той час як нашы асноўны каэфіцыент складае прыкладна 9502,1. існуе высокая верагоднасць таго, што значэнне можа быць ніжэй за 8496 у 95% выпадкаў і 5% верагоднасць таго, што яно будзе больш за 10507,37

Больш падрабязна:

Пра што трэба памятаць

✎ Метад рэгрэсійнага аналізу ацэньвае выключна ўзаемасувязь паміж даследуемымі зменнымі. Гэта не ўстанаўлівае прычынна-следчую сувязь. У астатніх - толькі аспекткарэляцыі лічыць. Калі нейкі ўчынак выклікае нешта, гэта становіцца прычынна-следчай сувяззю. Калі змяненне адной зменнай стварае змены, гэта можна лічыць прычынна-следчай сувяззю.

✎ Рэгрэсійнаму аналізу моцна перашкаджаюць выкіды. Усе віды выкідаў павінны быць выдалены перад правядзеннем аналізу. Каб прааналізаваць і інтэрпрэтаваць вынікі рэгрэсійнага аналізу ў Excel, неабходна ўлічыць наступныя моманты.

Выснова

Падводзячы вынік, на пытанне «як інтэрпрэтаваць вынікі рэгрэсійнага аналізу ў Excel» дадзены дэталёвы адказ аналізуючы і пазней інтэрпрэтуючы яго. Аналіз выконваецца з дапамогай інструмента Аналіз даных ва ўкладцы Дадзеныя .

Для гэтай задачы даступны працоўны сшытак, у якім вы можаце практыкаваць рэгрэсійны аналіз і інтэрпрэтацыю гэта.

Не саромейцеся задаваць любыя пытанні ці водгукі праз раздзел каментарыяў. Любыя прапановы па паляпшэнню супольнасці Exceldemy будуць вельмі ўдзячныя.

Папярэдняя публікацыя Унікальныя значэнні COUNTIFS у Excel (3 простых спосабу)

Наступны пост Як зрабіць падвойную гістаграму ў Excel (з простымі крокамі)

Hugh West

Х'ю Уэст з'яўляецца вельмі дасведчаным трэнерам і аналітыкам Excel з больш чым 10-гадовым вопытам работы ў галіны. Ён мае ступень бакалаўра ў галіне бухгалтарскага ўліку і фінансаў і ступень магістра дзелавога адміністравання. Х'ю захапляецца навучаннем і распрацаваў унікальны падыход да навучання, які лёгка прытрымлівацца і зразумець. Яго экспертныя веды Excel дапамаглі тысячам студэнтаў і спецыялістаў па ўсім свеце палепшыць свае навыкі і атрымаць поспех у сваёй кар'еры. Праз свой блог Х'ю дзеліцца сваімі ведамі з усім светам, прапаноўваючы бясплатныя падручнікі па Excel і онлайн-трэнінгі, каб дапамагчы прыватным асобам і прадпрыемствам цалкам раскрыць свой патэнцыял.

#EXEL.WIKI