Obsah
Jednoduchá regrese analýza se běžně používá k odhadu vztahu mezi dvěma proměnnými, například vztahu mezi výnosy plodin a dešťovými srážkami nebo vztahu mezi chutí chleba a teplotou v peci. častěji však potřebujeme zkoumat vztah mezi závislou proměnnou a dvěma nebo více nezávislými proměnnými. Například realitní makléř může chtít vědětzda a jak souvisí měřítka, jako je velikost domu, počet ložnic a průměrný příjem v sousedství, s cenou, za kterou se dům prodává. Tento druh problému lze řešit použitím vícenásobná regresní analýza. V tomto článku se dozvíte, jak provést vícenásobnou regresní analýzu pomocí aplikace Excel.
Problém
Předpokládejme, že jsme vzali 5 náhodně vybraných prodejců a shromáždili informace podle následující tabulky. Má vzdělání nebo motivace vliv na roční prodej, nebo ne?
Nejvyšší ukončený ročník školy | Motivace měřená Higginsovou motivační škálou | Roční tržby v dolarech |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Rovnice
Obecně, vícenásobná regresní analýza předpokládá, že mezi závislou proměnnou (y) a nezávislými proměnnými (x1, x2, x3 ... xn) existuje lineární vztah. A tento druh lineárního vztahu lze popsat pomocí následujícího vzorce:
Y = konstanta + β1*x1 + β2*x2+...+ βn*xn
Zde jsou vysvětlivky ke konstantám a koeficientům:
Y | Předpokládaná hodnota Y |
Konstantní | Intercept Y |
β1 | Změna Y při každé změně x1 o 1 přírůstek |
β2 | Změna Y při každé změně x2 o 1 přírůstek |
... | ... |
βn | Změna Y při každé změně xn o 1 přírůstek |
Konstantu a β1, β2... βn lze vypočítat na základě dostupných údajů o vzorku. Po získání hodnot konstanty, β1, β2... βn je můžete použít k předpovědím.
Co se týče našeho problému, existují pouze dva faktory, které nás zajímají. Proto bude rovnice následující:
Roční tržby = konstanta + β1*(nejvyšší ukončený ročník školy) + β2*(motivace měřená Higginsovou motivační škálou)
Nastavení modelu
Roční tržby, nejvyšší ukončený ročník školy a Motivace byly zadány do sloupce A, sloupce B a sloupce C, jak je znázorněno na obrázku 1. Je lepší vždy uvést závislou proměnnou (zde roční tržby) před nezávislými proměnnými.
Obrázek 1
Stáhnout Analysis ToolPak
Excel nám nabízí funkci Analýza dat, která dokáže vrátit hodnoty konstant a koeficientů. Před použitím této funkce si však musíte stáhnout Analysis ToolPak. Zde je návod, jak jej nainstalovat.
Klikněte na Soubor tab -> Možnosti a pak klikněte na Doplňky na adrese Možnosti aplikace Excel dialogové okno. Klikněte na Přejít na tlačítko v dolní části Možnosti aplikace Excel otevřít dialogové okno Doplňky dialogové okno. V dialogovém okně Doplňky dialogového okna vyberte možnost Analýza TookPak zaškrtávacího políčka a klikněte na Ok .
Pokud nyní kliknete na Data na kartě se zobrazí Analýza dat se objevuje v Analýza (pravý panel).
Obrázek 2 [kliknutím na obrázek se zobrazí celý]
Vícenásobná regresní analýza
Klikněte na Analýza dat v Analýza skupinu na Data tab. Vyberte Regrese V pobídce Analýza dat dialogové okno. Můžete také provést další statistická analýza jako je t-test, ANOVA apod.
Obrázek 3.1
A Regrese Po výběru možnosti se zobrazí dialogové okno Regrese . vyplňte dialogové okno podle obrázku 3.2.
Vstupní rozsah Y obsahuje závislou proměnnou a data, zatímco vstupní rozsah X obsahuje nezávislé proměnné a data. Zde musím připomenout, že nezávislé proměnné by měly být ve vedlejších sloupcích. A maximální počet nezávislých proměnných je 15.
Protože rozsah A1: C1 obsahuje proměnné štítky, a proto by mělo být zaškrtnuto políčko Štítky. Ve skutečnosti doporučuji, abyste štítky zahrnuli vždy, když vyplňujete Rozsah vstupů Y a Rozsah vstupů X. Tyto štítky jsou užitečné při prohlížení souhrnných sestav vrácených Excelem.
Obrázek 3.2
Zaškrtnutím políčka Rezidua můžete aplikaci Excel povolit, aby pro každé pozorování vypsala rezidua. Podívejte se na obrázek 1, je zde celkem 5 pozorování a získáte 5 reziduí. Reziduum je něco, co zůstane, když odečtete předpovídanou hodnotu od pozorované hodnoty. Standardizované reziduum je reziduum dělené jeho směrodatnou odchylkou.
Můžete také zaškrtnout políčko Reziduální graf, které může Excelu umožnit vracet reziduální grafy. Počet reziduálních grafů se rovná počtu nezávislých proměnných. Reziduální graf je graf, který zobrazuje rezidua na ose Y a nezávislé proměnné na ose x. Náhodně rozptýlené body kolem osy x v reziduálním grafu znamenají, že se jedná o lineární regrese Například obrázek 3.3 ukazuje tři typické vzorce reziduálních grafů. Pouze ten v levém panelu naznačuje, že se jedná o dobrou shodu s lineárním modelem. Další dva vzorce naznačují lepší shodu s nelineárním modelem.
Obrázek 3.3
Pokud zaškrtnete políčko Line Fit Plots, Excel vám vrátí fitovaný přímkový graf. Fitovaný přímkový graf může vykreslit vztah mezi jednou závislou proměnnou a jednou nezávislou proměnnou. Jinými slovy, Excel vám vrátí stejný počet fitovaných přímkových grafů s počtem nezávislých proměnných. Například pro náš problém dostanete 2 fitované přímkové grafy.
Výsledky
Po kliknutí na tlačítko Ok vám Excel vrátí souhrnnou zprávu, jak je uvedeno níže. Zeleně a žlutě zvýrazněné buňky jsou nejdůležitější částí, které byste měli věnovat pozornost.
Obrázek 3.4
Čím vyšší je R-kvadrát (buňka F5), tím těsnější vztah existuje mezi závisle proměnnými a nezávisle proměnnými. A koeficienty (rozsah F17: F19) ve třetí tabulce vám vrátily hodnoty konstant a koeficientů. Rovnice by měla znít Roční tržby = 1589,2 + 19928,3*(nejvyšší ukončený ročník školy) + 11,9*(motivace měřená Higginsovou motivační škálou).
Abychom však zjistili, zda jsou výsledky spolehlivé, je třeba zkontrolovat také žlutě zvýrazněné p-hodnoty. Pouze pokud je p-hodnota v buňce J12 menší než 0,05, je celá regresní rovnice spolehlivá. Je však třeba zkontrolovat také p-hodnoty v rozsahu I17: I19, abychom zjistili, zda jsou konstanta a nezávislé proměnné užitečné pro předpověď závislé proměnné. Pro náš problém je pro nás lepší vyřadit.motivace při posuzování nezávislých proměnných.
Další informace: Jak vypočítat hodnotu P v lineární regresi v aplikaci Excel (3 způsoby)
Odstranění motivace z nezávislých proměnných
Po odstranění Motivace jako nezávislé proměnné jsem použil stejný přístup a provedl jednoduchou regresní analýzu. Můžete vidět, že všechny hodnoty jsou nyní menší než 0,05. Výsledná rovnice by měla být následující:
Roční tržby = 1167,8 + 19993,3*(nejvyšší ukončený ročník školy)
Obrázek 3.5 [kliknutím na obrázek se zobrazí celý]
Poznámka
Obrázek 4
Kromě nástroje Add-Ins můžete k provedení vícenásobné regresní analýzy použít také funkci LINEST. Funkce LINEST je funkce pole, která může vrátit výsledek buď v jedné buňce, nebo v rozsahu buněk. Nejprve vyberte rozsah A8:B12 a poté do první buňky tohoto rozsahu (A8) zadejte vzorec "=LINEST (A2:A6, B2:B6, TRUE, TRUE)". Po stisknutí klávesové zkratky CTRL + SHIFT +ENTER vrátí Excel výsledky ve tvaruníže. Porovnáním s obrázkem 3.4 zjistíte, že 19993,3 je koeficient Nejvyššího ukončeného ročníku školy, zatímco 1167,8 je konstantní. Každopádně doporučuji použít nástroj Add-Ins, je to mnohem jednodušší.
Více informací...
Zpětná analýza What-If v aplikaci Excel
Jak používat zástupné znaky v aplikaci Excel?
Stáhnout pracovní soubor
Stáhněte si pracovní soubor z níže uvedeného odkazu.
Vícenásobná regrese-analýza.xlsx