Analisi di regressione multipla con Excel

  • Condividi Questo
Hugh West

Regressione semplice L'analisi è comunemente utilizzata per stimare la relazione tra due variabili, ad esempio la relazione tra i raccolti e le precipitazioni o la relazione tra il sapore del pane e la temperatura del forno. Tuttavia, il più delle volte abbiamo bisogno di indagare la relazione tra una variabile dipendente e due o più variabili indipendenti. Ad esempio, un agente immobiliare può voler conoscere la relazione tra una variabile dipendente e due variabili indipendenti.se e come misure come la dimensione della casa, il numero di camere da letto e il reddito medio del quartiere siano in relazione con il prezzo di vendita di una casa. Questo tipo di problema può essere risolto applicando analisi di regressione multipla. Questo articolo vi fornirà una sintesi di come eseguire l'analisi di regressione multipla con Excel.

Problema

Supponiamo di aver preso 5 venditori selezionati a caso e di aver raccolto le informazioni riportate nella tabella seguente. L'istruzione o la motivazione hanno un impatto sulle vendite annuali oppure no?

Anno scolastico più alto completato Motivazione misurata dalla scala di Higgins. Vendite annuali in dollari
12 32 $350,000
14 35 $399,765
15 45 $429,000
16 50 $435,000
18 65 $433,000

Equazione

In generale, analisi di regressione multipla presuppone che esista una relazione lineare tra la variabile dipendente (y) e le variabili indipendenti (x1, x2, x3 ... xn). Questo tipo di relazione lineare può essere descritta con la seguente formula:

Y = costante + β1*x1 + β2*x2+...+ βn*xn

Ecco le spiegazioni delle costanti e dei coefficienti:

Y Il valore previsto di Y
Costante L'intercetta Y
β1 La variazione di Y per ogni variazione di 1 incremento di x1
β2 La variazione di Y per ogni variazione di 1 incremento di x2
... ...
βn La variazione di Y per ogni variazione di 1 incremento di xn

La costante e i valori di β1, β2... βn possono essere calcolati sulla base dei dati campione disponibili. Dopo aver ottenuto i valori di costante, β1, β2... βn, è possibile utilizzarli per fare le previsioni.

Per quanto riguarda il nostro problema, ci sono solo due fattori che ci interessano e quindi l'equazione sarà:

Vendite annuali = costante + β1*(Anno scolastico più alto completato) + β2*(Motivazione misurata dalla Scala di Motivazione di Higgins)

Impostazione del modello

Le vendite annuali, l'anno scolastico più alto e la motivazione sono stati inseriti nella colonna A, nella colonna B e nella colonna C, come mostrato nella Figura 1. È meglio mettere sempre la variabile dipendente (le vendite annuali) prima delle variabili indipendenti.

Figura 1

Scarica Analysis ToolPak

Excel offre una funzione di analisi dei dati che può restituire i valori di costanti e coefficienti. Ma prima di utilizzare questa funzione, è necessario scaricare Analysis ToolPak. Ecco come installarlo.

Fare clic sul pulsante File scheda -> Opzioni e poi fare clic su Componenti aggiuntivi in Opzioni di Excel Fare clic su Vai nella parte inferiore di Opzioni di Excel per aprire la finestra di dialogo Componenti aggiuntivi Nella finestra di dialogo Componenti aggiuntivi selezionare la finestra di dialogo Analisi TookPak e quindi fare clic su Ok .

Ora se si fa clic su Dati si vedrà la scheda Analisi dei dati appare nel Analisi gruppo (pannello di destra).

Figura 2 [fare clic sull'immagine per visualizzarla integralmente].

Analisi di regressione multipla

Fare clic su Analisi dei dati nel Analisi gruppo sul Dati Selezionare la scheda. Regressione Nella richiesta Analisi dei dati È inoltre possibile eseguire altre operazioni analisi statistica come il t-test, l'ANOVA e così via.

Figura 3.1

A Regressione Dopo aver selezionato Regressione Compila la finestra di dialogo mostrata nella Figura 3.2.

L'Intervallo Y contiene la variabile dipendente e i dati, mentre l'Intervallo X contiene le variabili indipendenti e i dati. A questo punto, è necessario ricordare che le variabili indipendenti devono trovarsi in colonne adiacenti. Il numero massimo di variabili indipendenti è 15.

Poiché l'intervallo A1: C1 include etichette variabili, la casella di controllo Etichette deve essere selezionata. In realtà, vi consiglio di includere le etichette ogni volta che compilate l'Intervallo di input Y e l'Intervallo di input X. Queste etichette sono utili quando esaminate i rapporti di riepilogo restituiti da Excel.

Figura 3.2

Selezionando la casella di controllo Residui, è possibile consentire a Excel di elencare i residui per ogni osservazione. Guardate la Figura 1, ci sono 5 osservazioni in totale e si otterranno 5 residui. Il residuo è ciò che rimane quando si sottrae il valore previsto dal valore osservato. Il residuo standardizzato è il residuo diviso per la sua deviazione standard.

È inoltre possibile selezionare la casella di controllo Grafico dei residui, che consente a Excel di restituire i grafici dei residui. Il numero di grafici dei residui è uguale al numero di variabili indipendenti. Un grafico dei residui è un grafico che mostra i residui sull'asse delle Y e le variabili indipendenti sull'asse delle x. I punti dispersi a caso intorno all'asse delle x in un grafico dei residui implicano che le variabili indipendenti sono state modificate. regressione lineare Ad esempio, la Figura 3.3 mostra tre modelli tipici di diagrammi dei residui. Solo quello nel pannello di sinistra indica che si tratta di un buon adattamento per un modello lineare. Gli altri due modelli suggeriscono un adattamento migliore per un modello non lineare.

Figura 3.3

Excel restituisce un diagramma a linee adattate se si seleziona la casella di controllo Grafici a linee adattate. Un diagramma a linee adattate può tracciare la relazione tra una variabile dipendente e una variabile indipendente. In altre parole, Excel restituisce lo stesso numero di diagrammi a linee adattate con quello della variabile indipendente. Ad esempio, per il nostro problema si otterranno 2 diagrammi a linee adattate.

Risultati

Dopo aver fatto clic sul pulsante Ok, Excel restituirà un rapporto di riepilogo come quello riportato di seguito. Le celle evidenziate in verde e in giallo sono le più importanti a cui prestare attenzione.

Figura 3.4

Più alto è l'R-quadrato (cella F5), più stretta è la relazione tra le variabili dipendenti e le variabili indipendenti. E i coefficienti (intervallo F17: F19) nella terza tabella hanno restituito i valori delle costanti e dei coefficienti. L'equazione dovrebbe essere Vendite annuali = 1589,2 + 19928,3*(Anno scolastico più alto completato) + 11,9*(Motivazione misurata dalla Scala di motivazione Higgins).

Tuttavia, per vedere se i risultati sono affidabili, è necessario controllare anche i valori di p evidenziati in giallo. Solo se il valore di p nella cella J12 è inferiore a 0,05, l'intera equazione di regressione è affidabile. Ma è anche necessario controllare i valori di p nell'intervallo I17: I19 per vedere se le costanti e le variabili indipendenti sono utili per la previsione della variabile dipendente. Per il nostro problema, è meglio che scartiamomotivazione quando si considerano le variabili indipendenti.

Per saperne di più: Come calcolare il valore P nella regressione lineare in Excel (3 modi)

Rimuovere la motivazione dalle variabili indipendenti

Dopo aver eliminato la Motivazione come variabile indipendente, ho applicato lo stesso approccio e ho fatto un'analisi di regressione semplice. Si può notare che tutti i valori sono ora inferiori a 0,05. L'equazione finale dovrebbe essere:

Fatturato annuo = 1167,8 + 19993,3*(Anno scolastico più alto completato)

Figura 3.5 [fare clic sull'immagine per visualizzarla integralmente].

Nota

Figura 4

Oltre allo strumento Add-Ins, è possibile utilizzare la funzione LINEST per eseguire l'analisi di regressione multipla. La funzione LINEST è una funzione array che può restituire il risultato in una cella o in un intervallo di celle. Innanzitutto, selezionare l'intervallo A8:B12 e poi inserire la formula "=LINEST (A2:A6, B2:B6, VERO, VERO)" nella prima cella di questo intervallo (A8). Dopo aver premuto CTRL + MAIUSC + INVIO, Excel restituirà i risultati comeConfrontando con la Figura 3.4, si può notare che 19993,3 è il coefficiente dell'anno scolastico più alto completato, mentre 1167,8 è costante. In ogni caso, vi consiglio di utilizzare lo strumento Add-Ins, molto più semplice.

Per saperne di più...

Analisi inversa What-If in Excel

Come usare i caratteri jolly in Excel?

Scarica il file di lavoro

Scaricate il file di lavoro dal link sottostante.

Analisi di regressione multipla.xlsx

Hugh West è un istruttore e analista di Excel di grande esperienza con oltre 10 anni di esperienza nel settore. Ha conseguito una laurea in Contabilità e Finanza e un Master in Economia Aziendale. Hugh ha una passione per l'insegnamento e ha sviluppato un approccio didattico unico che è facile da seguire e capire. La sua conoscenza approfondita di Excel ha aiutato migliaia di studenti e professionisti in tutto il mondo a migliorare le proprie competenze ed eccellere nella propria carriera. Attraverso il suo blog, Hugh condivide le sue conoscenze con il mondo, offrendo esercitazioni gratuite su Excel e formazione online per aiutare le persone e le aziende a raggiungere il loro pieno potenziale.