728x90
Mallows의 \(C_p\)는 통계학에서 회귀 모델을 선택할 때 사용되는 기준 중 하나입니다. 이 지표는 모델이 얼마나 잘 적합하는지, 즉 데이터를 얼마나 잘 설명하는지를 평가하기 위해 사용됩니다. \(C_p\)의 목적은 모델의 복잡성과 모델이 데이터에 적합하는 정도 사이의 균형을 찾는 것입니다. 이를 통해 과적합(overfitting)을 방지하고 모델의 예측 성능을 향상시키고자 합니다.
Mallows의 \(C_p\) 정의
Mallows의 \(C_p\)는 다음 공식으로 계산됩니다.
$$ C_p = \frac{SSE_p}{S^2} - (n - 2p) $$
- \(SSE_p\)는 \(p\)개의 예측 변수를 사용하는 모델의 오차 제곱합(Sum of Squared Errors)입니다.
- \(S^2\)는 전체 데이터에 대한 잔차의 분산입니다.
- \(n\)은 관측값의 수입니다.
- \(p\)는 모델에 포함된 예측 변수의 수입니다.
Mallows의 \(C_p\)의 이해와 해석
- 모델의 복잡성: \(p\)가 증가함에 따라, 즉 더 많은 변수를 모델에 포함시킴에 따라 모델의 복잡성이 증가합니다. 복잡한 모델은 과적합의 위험이 있으나, Mallows의 \(C_p\)는 이를 균형잡는 데 도움을 줍니다.
- 적합도와 복잡성 사이의 균형: \(C_p\) 값이 작을수록 모델이 데이터를 잘 적합하면서도 복잡하지 않다는 것을 의미합니다. 이상적으로, \(C_p\) 값이 모델에 포함된 변수의 수 \(p\)와 비슷할 때, 모델이 데이터를 잘 설명하고 있으며 과적합도 발생하지 않은 것으로 간주할 수 있습니다.
Mallows의 \(C_p\)는 여러 다른 회귀 모델을 비교할 때 유용합니다. 예를 들어, 다양한 변수 조합을 가진 여러 모델 중에서 가장 적절한 모델을 선택하고자 할 때, \(C_p\) 값이 가장 낮은 모델을 선택함으로써 데이터를 잘 설명하면서도 과적합을 피할 수 있는 모델을 찾을 수 있습니다.
'데이터마이닝' 카테고리의 다른 글
결측값의 발생 원인과 대치 접근 (0) | 2024.03.08 |
---|---|
BIC와 AIC 정보기준 (0) | 2024.03.08 |
statsmodels를 활용한 선형 회귀 분석 구현 (0) | 2024.03.08 |
statsmodels의 모형식 표현 (0) | 2024.03.08 |
회귀분석의 수행 단계들 (0) | 2024.03.08 |