본문 바로가기

데이터마이닝

(16)
UCI 리포지토리(UCI Repository) UCI 리포지토리(UCI Repository)는 공식적으로 "UCI Machine Learning Repository"라고 불리며, 다양한 분야에서 수집된 데이터 세트를 모아 놓은 온라인 라이브러리입니다. 캘리포니아 대학교 얼바인(University of California, Irvine) 캠퍼스의 정보 및 컴퓨터 과학 학부에서 관리하고 있습니다. 이 리포지토리의 주요 목적은 머신 러닝과 데이터 마이닝 분야의 연구를 지원하고 촉진하는 것입니다. UCI 리포지토리는 연구자들이 자신의 알고리즘을 테스트하고 다른 연구 결과와 비교할 수 있는 표준화된 데이터 세트를 제공합니다. 이를 통해 연구자들은 데이터 전처리 방법, 알고리즘 성능 평가, 그리고 다양한 머신 러닝 기법의 효율성 비교 등에 필요한 데이터에 쉽게..
다중회귀분석 결과 해석 Dependent Variable: 종속 변수는 tip입니다. 우리가 예측하려고 하는 변수입니다. Model: 모델은 OLS(Ordinary Least Squares), 즉 최소제곱법을 사용한 선형 회귀 모델입니다. R-squared: 결정계수는 0.470입니다. 이는 모델이 데이터의 47.0%만 설명한다는 것을 의미합니다. 일반적으로 이 값이 높을수록 모델의 설명력이 높은 것으로 간주됩니다. Adj. R-squared: 조정된 결정계수는 0.452입니다. 이는 독립 변수의 수를 고려하여 조정된 값으로, 독립 변수가 많을 때 과적합을 방지하기 위해 사용됩니다. F-statistic: F-통계량은 26.06입니다. 이는 모델의 적합도를 검증하는 데 사용되며, 계산된 p-값(p-값: 1.20e-28)과 함께..
다중회귀분석 python 코드 구현 다중 회귀분석을 구현하기 위해 seaborn의 tips 데이터셋을 사용하는 것은 흥미로운 방법입니다. 이 분석을 수행하기 위해 pandas, seaborn, 그리고 statsmodels 라이브러리를 사용할 것입니다. import pandas as pd import seaborn as sns import statsmodels.api as sm # 데이터셋 로드 tips = sns.load_dataset('tips') # 범주형 변수를 위한 원-핫 인코딩 처리 tips_encoded = pd.get_dummies(tips, columns=['sex', 'smoker', 'day', 'time'], drop_first=True) # 종속 변수와 독립 변수 선택 X = tips_encoded.drop('tip'..
피어슨 상관계수 vs 스피어만 상관계수 피어슨 상관계수(Pearson correlation coefficient)와 스피어만 상관계수(Spearman's rank correlation coefficient)는 모두 두 변수 간의 상관관계를 측정하는 방법이지만, 사용하는 데이터의 종류와 가정, 계산 방법에서 차이가 있습니다. 피어슨 상관계수 정의 및 사용: 피어슨 상관계수는 두 변수 간의 선형적 관계의 강도와 방향을 측정합니다. 연속적이고 정규 분포를 따르는 데이터에 가장 적합합니다. 계산 방법: 피어슨 상관계수는 두 변수의 공분산을 그 변수들의 표준편차의 곱으로 나눈 값으로 계산됩니다. 값은 -1에서 +1 사이이며, +1은 완벽한 양의 선형 관계, -1은 완벽한 음의 선형 관계, 0은 선형 관계의 부재를 의미합니다. 가정: 데이터는 연..
피어슨 상관계수 검정 구현 - python 아래 코드는 Python에서 SciPy 라이브러리를 사용하여 두 변수 간의 피어슨 상관계수와 이 상관계수의 유의성을 검정하는 방법을 보여줍니다. import numpy as np from scipy.stats import pearsonr # 임의의 데이터 생성 # 예를 들어, x와 y는 연구에서 수집한 두 변수의 값일 수 있습니다. x = np.array([10, 20, 30, 40, 50]) y = np.array([15, 25, 35, 45, 55]) # 피어슨 상관계수 및 p-value 계산 correlation, p_value = pearsonr(x, y) # 결과 출력 print(f'피어슨 상관계수: {correlation:.3f}') print(f'p-value: {p_value:.3f}') ..
박스-콕스 변환 python 구현 이 코드는 scipy.stats 모듈의 boxcox 함수를 사용하여 주어진 양수 데이터에 대한 Box-Cox 변환을 수행하고, 변환된 데이터와 최적의 \(\lambda\) 값을 반환합니다. from scipy import stats import numpy as np # 예시 데이터 (양수) data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # Box-Cox 변환 transformed_data, best_lambda = stats.boxcox(data) # 변환된 데이터와 최적의 lambda 값 출력 (실행을 원하시면 주석을 해제하세요) print("Transformed Data:", transformed_data) print("Best Lambda:", best_la..
박스-콕스 변환을 적용하기 전 만족해야 하는 조건들 - Python 구현 박스-콕스 변환을 적용하기 전에 데이터가 만족해야 하는 몇 가지 기본적인 조건들이 있습니다. 이 조건들을 이해하고 준수하는 것은 변환의 효과를 극대화하고, 변환 후의 분석 결과의 신뢰도를 높이는 데 중요합니다. 1. 양수 조건 조건 설명: 박스-콕스 변환을 적용할 데이터는 모두 양수여야 합니다. 이는 변환 공식에 로그 변환(\(\lambda=0\)일 때)이 포함되어 있기 때문에, 음수나 0의 값에 대해서는 로그를 취할 수 없으므로 변환을 적용할 수 없습니다. 해결 방법: 데이터에 0이나 음수 값이 포함되어 있는 경우, 모든 데이터 값에 일정한 상수 \(c\)를 더해 모든 값을 양수로 만든 후 변환을 적용합니다. 이 상수 \(c\)는 데이터 세트의 최소값보다 크거나 같은 양수여야 합니다. 2. 데이터의 분..
박스-콕스 변환(Box-Cox transformation)의 정의와 효과 박스-콕스 변환(Box-Cox transformation)은 통계학에서 사용되는 데이터 변환 기법으로, George Box와 David Cox가 1964년에 제안했습니다. 데이터의 분포를 정규 분포에 가깝게 변환합니다. 정의 박스-콕스 변환은 하나의 파라미터 \(\lambda\)를 사용하여 다음과 같은 변환을 적용합니다. 여기서 \(y\)는 원래 데이터 값을 나타내며, \(y(\lambda)\)는 변환된 데이터 값을 나타냅니다. 이 공식은 \(\lambda\)의 값에 따라 다양한 변환 형태를 취할 수 있으며, 이는 데이터의 특성과 분석 목적에 따라 최적화될 수 있습니다. 변환 효과 박스-콕스 변환의 효과는 다음과 같습니다. 정규성 향상: 많은 통계적 기법들이 데이터가 정규 분포를 따른다는 가정 하에 최적..