본문 바로가기

데이터마이닝

다중회귀분석 결과 해석

728x90

  1. Dependent Variable: 종속 변수는 tip입니다. 우리가 예측하려고 하는 변수입니다.
  2. Model: 모델은 OLS(Ordinary Least Squares), 즉 최소제곱법을 사용한 선형 회귀 모델입니다.
  3. R-squared: 결정계수는 0.470입니다. 이는 모델이 데이터의 47.0%만 설명한다는 것을 의미합니다. 일반적으로 이 값이 높을수록 모델의 설명력이 높은 것으로 간주됩니다.
  4. Adj. R-squared: 조정된 결정계수는 0.452입니다. 이는 독립 변수의 수를 고려하여 조정된 값으로, 독립 변수가 많을 때 과적합을 방지하기 위해 사용됩니다.
  5. F-statistic: F-통계량은 26.06입니다. 이는 모델의 적합도를 검증하는 데 사용되며, 계산된 p-값(p-값: 1.20e-28)과 함께 모델이 통계적으로 유의하다는 것을 나타냅니다.
  6. Prob (F-statistic): 모델의 F-통계량에 대한 p-값이 매우 작으므로 (1.20e-28), 모델의 유의성이 매우 높습니다.
  7. Coefficients: 회귀 계수들은 각 변수가 종속 변수에 미치는 영향력의 크기와 방향을 나타냅니다.
    • total_bill의 계수는 0.0945로, 이는 계산서가 1달러 증가할 때마다 팁이 평균적으로 9.45센트 증가한다는 것을 의미합니다.
    • size (식사 인원 수)는 0.1760으로, 한 사람이 더 참여할 때마다 팁이 평균적으로 17.6센트 증가함을 나타냅니다.
  8. P>|t|: t-통계량에 대한 p-값은 각 독립 변수의 회귀 계수가 통계적으로 유의한지를 나타냅니다.
    • total_billsize는 p-값이 0.05보다 작으므로 통계적으로 유의합니다.
    • 성별, 흡연 여부, 요일, 시간에 대한 변수들은 p-값이 0.05보다 크므로 통계적으로 유의하지 않습니다.
  9. Confidence Interval: 각 회귀 계수의 95% 신뢰 구간입니다. 예를 들어, total_bill의 신뢰 구간은 [0.076, 0.113]이며, 이는 계수의 실제 값이 이 구간 내에 있을 확률이 95%라는 것을 의미합니다.
  10. Omnibus, Prob(Omnibus): Omnibus 테스트는 잔차들이 정규 분포를 따르는지를 검증합니다. Prob(Omnibus) 값이 낮을 경우, 잔차들이 정규 분포에서 벗어난다는 것을 의미합니다 (여기서는 0.000).
  11. Skew: 잔차의 비대칭도를 나타냅니다. 이 값이 0에 가까우면 잔차가 대칭적인 것으로 간주됩니다.
  12. Kurtosis: 잔차의 첨도를 나타냅니다. 높은 첨도는 잔차에 이상값이 많음을 나타냅니다.
  13. Durbin-Watson: 이 통계량은 잔차들 사이의 독립성을 검증합니다. 2에 가까운 값은 잔차들이 서로 독립적임을 의미합니다.
  14. Jarque-Bera (JB), Prob(JB): Jarque-Bera 테스트는 잔차의 정규성을 검증합니다. Prob(JB) 값이 낮으면 잔차가 정규 분포를 따르지 않음을 나타냅니다.
  15. Cond. No.: 조건수는 다중 공선성의 정도를 나타냅니다. 30 이상의 값은 다중 공선성이 있을 수 있음을 경고합니다. 여기서는 281로, 변수들 사이에 다중 공선성 문제가 있을 수 있음을 나타냅니다.

모델은 데이터의 거의 절반을 설명하고 있으며 (R-squared), total_billsize 변수가 팁의 크기에 통계적으로 유의미한 영향을 미치는 것으로 나타났습니다. 그러나 일부 변수는 유의미하지 않으며, 잔차의 분포가 정규 분포를 따르지 않을 가능성이 높고, 다중 공선성이 있을 수 있는 문제가 지적되었습니다.