Excel에서 회귀 결과를 해석하는 방법(상세 분석)

  • 이 공유
Hugh West

회귀 분석은 Excel은 말할 것도 없고 SPSS , R, 과 같은 거의 모든 유형의 통계 소프트웨어에 있습니다. 회귀는 변수 간의 관계에 대한 큰 그림을 제공할 수 있습니다. 데이터 분석 도구를 사용하여 Excel에서 매우 빠르게 선형 회귀를 수행할 수 있습니다. 이 문서에서는 Excel에서 회귀 결과를 해석하는 방법을 보여줍니다.

실습 워크북 다운로드

아래에서 이 연습 워크북을 다운로드합니다.

회귀 결과 해석.xlsx

회귀란 무엇입니까?

회귀 분석은 데이터 분석에서 여러 변수 간의 연관성을 확인하는 데 자주 사용됩니다. 회귀 분석을 사용하면 독립 변수 중 하나가 변경될 경우 종속 변수에 어떤 일이 발생하는지 선택할 수 있습니다. 또한 어떤 독립 변수가 영향을 미치는지 수학적으로 파악할 수 있습니다.

단순 선형 회귀 는 통계의 다중 선형 회귀 와 다릅니다. 선형 함수를 사용하여 간단한 선형 회귀 분석 은 변수와 하나의 독립 변수 간의 연관성을 분석합니다. 다중선형회귀 는 변수를 결정하기 위해 두 개 이상의 설명 요소가 사용되는 경우입니다. 종속 변수 대신 비선형 회귀를 사용하는 것은 데이터 관계가 선형이 아니기 때문에 비선형 함수로 설명됩니다. 이 문서는 다중 선형회귀 Excel에서 회귀 결과를 해석하는 방법을 보여줍니다.

Excel에서 회귀를 수행하는 단계

회귀를 위해 다음 데이터 세트를 사용합니다. 분석 목적. 여기서 독립 변수는 Price 열과 Sold 열입니다. 독립 열은 수요 열이 됩니다.

단계

  • 데이터 탭으로 이동하여 데이터 분석 을 클릭하여 회귀 를 수행해야 합니다.

  • 새 창이 나타납니다. 종속 변수와 독립 변수 데이터 범위를 선택합니다.
  • 그런 다음 레이블 상자와 신뢰도 상자를 선택합니다.
  • 그런 다음 출력 셀 범위를 클릭합니다. 상자를 선택하여 출력 셀 주소
  • 다음으로 잔차 를 선택하여 잔차를 계산합니다.
  • 그 후 잔차 플롯을 선택하고 Line Fit Plots 상자
  • 이 후 확인 을 클릭합니다.

  • 클릭 후 좋아요, 분석의 기본 출력 매개변수가 지정된 셀에 있을 것입니다.

  • 그런 다음 일부 매개변수도 얻을 수 있습니다. ANOVA ( Analysis of Variance ) 표의 Significance value 등.
  • 여기서 df 는 분산 소스와 관련된 자유도.
  • SS 는 제곱합을 나타냅니다. 다음과 같은 경우 모델이 데이터를 더 잘 반영합니다. 잔여 SS는 총 SS보다 작습니다.
  • MS 는 정사각형을 의미합니다.
  • F 는 귀무 가설에 대한 F -테스트를 ​​나타냅니다.
  • 유의성 F F P -값을 나타냅니다.

  • 그러면 변수의 계수, 유의값 등도 표로 얻을 수 있습니다.

  • 그러면 계수 테이블 아래에 각 항목의 잔존 가치가 포함된 최종 테이블이 표시됩니다.

  • 다음으로 추세선이 있는 수요 가격 회귀 차트를 얻을 수 있습니다.

  • 이후 이를 통해 추세선이 있는 수요 매도 회귀 차트를 얻을 수 있습니다.

  • 다른 Sold 변수에서 각 항목의 잔차 분포를 보여주는 차트.

  • 잔차 분포를 보여주는 또 다른 차트가 있습니다. 가격 변수에서 각 항목의

다음으로 n Excel에서 이러한 회귀 결과를 해석합니다.

자세히 알아보기: Excel에서 로지스틱 회귀를 수행하는 방법(빠른 단계 포함)

해석 방법 Excel에서 회귀 결과

회귀 분석을 하고 해석한 후 다음으로 해야 할 일입니다. 결과는 아래에 설명 및 자세히 설명되어 있습니다.

다중 R-제곱 회귀 값 분석

R-제곱 숫자는 데이터세트의 요소가 얼마나 밀접하게 관련되어 있고 회귀선이 데이터와 얼마나 잘 일치하는지 나타냅니다. 우리는 두 개 이상의 변수가 주 요인에 미치는 영향을 결정하는 다중 선형 회귀 분석을 사용할 것입니다. 이것은 독립 변수 중 하나가 변경됨에 따라 종속 변수가 어떻게 변경되는지를 나타냅니다. 이 계수의 범위는 -1에서 1까지입니다. 여기서

  • 1은 가까운 양의 관계를 의미합니다.
  • 0은 변수 간의 관계가 없음을 의미합니다. 즉, 데이터 포인트는 임의적입니다.
  • -1은 변수 간의 역관계 또는 음의 관계를 의미합니다.

위에 표시된 출력 결과에서 주어진 다중 R-값은 데이터 세트는 o.7578( )이며 변수 간의 강한 관계를 나타냅니다.

R Squared

R squared 값은 종속 변수의 반응이 독립 변수에 대해 어떻게 달라지는지를 설명합니다. 우리의 경우 값은 0.574(근사치)이며 변수 사이의 합리적으로 괜찮은 관계로 해석될 수 있습니다.

조정된 R-제곱

이것은 단지 R squared 값의 대체 버전. 이는 response 변수를 예측하는 동안 단순히 predictor 변수를 섞습니다. 다음과 같이 계산됩니다.

R^2 = 1 – [(1-R^2)*(n-1)/(n-k-1)]

여기서, R^2 : 우리가 얻은 R^2 값데이터 세트.

n : 관측치 수.

K : 예측 변수 수.

유의성 두 예측자 변수 간의 회귀 분석을 수행하는 동안 이 값이 발생합니다. 데이터 세트에 predictor 변수가 둘 이상 있으면 R 제곱 값이 부풀려져 매우 바람직하지 않습니다. 조정된 R 제곱 값은 이 인플레이션을 조정하고 변수에 대한 정확한 그림을 제공합니다.

표준 ​​오차

또 다른 적합도 측정항목 회귀 분석의 정확성을 나타냅니다. 값이 낮을수록 회귀 분석에 더 확신을 가질 수 있습니다.

표준 오차 는 포인트가 추세선에서 벗어나는 평균 거리를 나타내는 경험적 메트릭입니다. 반면 R2 는 종속변수 변동의 비율을 나타낸다. 이 경우 표준 오차 의 값은 288.9( )이며, 이는 데이터 포인트가 추세선에서 평균 288.9 하락했음을 나타냅니다.

관찰

관찰 또는 항목의 수를 나타냅니다.

유의한 변수 결정

유의 값 분석의 신뢰성(통계적으로 건전함)을 나타냅니다. 즉, 데이터 세트가 잘못될 확률을 나타냅니다. 이 값은 5% 미만이어야 합니다. 하지만 이 경우 유의성 값은 0.00117입니다.이는 5%보다 훨씬 낮은 0.1%로 변환됩니다. 그래서 우리의 분석은 괜찮습니다. 그렇지 않으면 분석을 위해 다른 변수를 선택해야 할 수도 있습니다.

회귀 분석의 P-값

유의한 값과 밀접하게 연결된 P- value 는 계수 값이 잘못될 확률을 나타냅니다. P-값은 귀무 가설과 변수의 연관성을 나타냅니다.

p-값 < 유의성 숫자, null 값 가설을 기각할 충분한 증거가 있습니다. 이는 변수 간에 0이 아닌 상관관계가 있음을 의미합니다.

그러나 p-값 > 유의성 값이 귀무 가설. 이는 변수 간에 상관관계가 없을 수 있음을 나타냅니다.

경우에 따라 변수 Price P-값 =0.000948 < 0.00117(유의값),

그래서 여기에는 귀무가설이 성립하지 않고, 변수들 간의 상관관계를 선언할 충분한 증거가 있다.

한편, 변수 매도 , (P-값) 0.0038515 < 0.0011723(유의성 값)

따라서 여기에 귀무가설이 있을 수 있으며 변수 간의 상관관계가 0이 아니라는 증거가 충분하지 않습니다.

대부분의 경우 이 P -value는 변수가 데이터 세트에 있는지 여부를 결정합니다. 예를 들어 Sold 를 제거해야 합니다.

회귀 방정식

Excel에서 선형 회귀 분석을 결정할 때 추세선도 선형이어야 합니다. 일반 형식은

Y=mX+C입니다.

여기서 Y 는 종속 변수입니다.

그리고 여기서 X는 독립 변수입니다. 즉, 변수 Y에 대한 변수 x의 변경 효과를 결정합니다.

C 는 line.

이 경우 C 절편의 값은 9502.109853입니다.

두 변수의 m 값은 -809.265와 0.424818입니다.

따라서 두 개의 개별 변수에 대한 최종 방정식이 있습니다.

첫 번째 방정식은 다음과 같습니다.

Y=-809.265771X+9502.12

두 번째 변수의 방정식은 다음과 같습니다.

Y=0.4248X+9502.12

계수

우리가 얻은 계수는 m1=-809.2655 m2=04248 입니다. 그리고 인터셉터, C= 9502.12 .

  • 먼저 인터셉터 값은 가격이 0일 때 수요가 9502가 될 것임을 나타냅니다.
  • 그리고 m 는 단위 가격 변화당 수요 변화율을 나타낸다. 가격 계수 값은 -809.265로 단위당 가격이 상승하면 수요가 약 809단위 감소함을 나타냅니다.
  • 두 번째 변수인 Sold의 경우 m 값은 0.424입니다. 이것은 판매된 품목의 단위당 변화를 나타냅니다.제품의 0424배 단위 증가가 발생합니다.

잔여량

원래와 계산된 것 사이의 잔여량 차이 회귀선의 항목이 차이입니다. 잔차 는 실제 값이 선에서 얼마나 떨어져 있는지 나타냅니다. 예를 들어 첫 번째 항목에 대한 회귀 분석에서 계산된 항목은 9497이고 첫 번째 원래 값은 9500입니다. 따라서 잔차는 약 2.109입니다.

T-통계 값

T-statics 값은 계수를 표준 값으로 나눈 값입니다. 값이 높을수록 계수의 신뢰도가 높다는 것을 나타냅니다.

이 값에는 P-값을 계산하는 데 필요한 또 다른 의미가 있습니다.

95% 신뢰 구간

여기서 처음에 95로 설정한 변수의 신뢰도입니다. 다만 변경될 수 있습니다.

  • 여기서 하위 95%의 계수 값은 8496.84로 계산되며 상위 95%는 10507.37로 계산된다는 것을 의미합니다.
  • 이것은 우리가 주요 계수는 약 9502.1입니다. 케이스의 95%에서 값이 8496 미만일 가능성이 높고 10507.37 이상일 확률이 5%입니다.

자세히 보기:

기억할 사항

회귀 분석 방법은 검사 대상 변수 간의 관계만을 평가합니다. 인과 관계를 설정하지 않습니다. 다른 의미로 측면만상관관계를 고려합니다. 어떤 행위가 원인이 되면 원인이 됩니다. 한 변수의 변경으로 인해 변경 사항이 발생하면 인과 관계로 간주될 수 있습니다.

회귀 분석은 이상치에 의해 크게 방해됩니다. 분석이 완료되기 전에 모든 종류의 이상값을 제거해야 합니다. 회귀분석 결과를 엑셀로 분석하고 해석하기 위해서는 이러한 점들을 고려해야 합니다.

결론

요약하자면 "회귀분석 결과를 엑셀로 어떻게 해석할 것인가"라는 질문에 대한 답변은 치밀하다. 분석하고 나중에 해석합니다. 분석은 데이터 탭의 데이터 분석 도구를 통해 이루어집니다.

이 문제에 대한 통합 문서를 다운로드하여 회귀 분석을 연습하고 해석할 수 있습니다. 그것.

댓글 섹션을 통해 질문이나 의견을 자유롭게 물어보세요. Exceldemy 커뮤니티의 개선을 위한 제안은 매우 소중합니다.

Hugh West는 업계에서 10년 이상의 경험을 가진 고도로 숙련된 Excel 트레이너이자 분석가입니다. 그는 회계 및 재무 학사 학위와 경영학 석사 학위를 보유하고 있습니다. Hugh는 교육에 대한 열정을 가지고 있으며 따라하기 쉽고 이해하기 쉬운 독특한 교수법을 개발했습니다. Excel에 대한 그의 전문 지식은 전 세계 수천 명의 학생과 전문가가 자신의 기술을 향상시키고 경력에서 탁월하도록 도왔습니다. Hugh는 자신의 블로그를 통해 자신의 지식을 전 세계와 공유하고 개인과 기업이 잠재력을 최대한 발휘할 수 있도록 무료 Excel 자습서 및 온라인 교육을 제공합니다.