본문 바로가기

통계 소프트웨어

(7)
OpenAI GPT4-o1 공개 소개 페이지의 한글 번역본입니다. 원문 링크https://openai.com/index/introducing-openai-o1-preview/   OpenAI o1 프리뷰 소개 어려운 문제를 해결하기 위한 새로운 추론 모델 시리즈. 지금 사용 가능합니다. 2024년 9월 17일에 업데이트되었습니다: 이제 o1-preview의 경우 주당 50개, o1-mini의 경우 하루 50개의 쿼리로 속도 제한이 적용됩니다. 응답하기 전에 더 많은 시간을 생각하도록 설계된 새로운 AI 모델 시리즈를 개발했습니다. 이 모델은 복잡한 작업을 추론하고 과학, 코딩, 수학 분야의 이전 모델보다 더 어려운 문제를 해결할 수 있습니다.오늘, 이 시리즈의 첫 번째를 ChatGPT와 API에서 공개합니다. 이는 미리 보기 버전이며 ..
sm.OLS - 다중회귀분석 python 구현 statsmodels의 OLS 클래스는 선형 회귀 모델을 위한 주요 클래스입니다. OLS는 Ordinary Least Squares (최소 제곱법)의 약어이며, 종속 변수와 독립 변수 사이의 관계를 모델링하는 데 사용됩니다. OLS 클래스를 생성할 때 사용할 수 있는 주요 인수는 다음과 같습니다. endog: 종속 변수 (y)를 나타냅니다. 이는 예측하고자 하는 변수로, pandas의 Series나 DataFrame 형식으로 제공될 수 있습니다. exog: 독립 변수 (X)를 나타냅니다. 이는 설명변수로, 각각의 행이 관측치를, 열이 변수를 나타내는 pandas DataFrame 형식으로 제공될 수 있습니다. statsmodels에서 회귀 모델을 적합시키기 전에 일반적으로 이 배열에 상수항을 추가해야 하..
python으로 상관행렬 시각화 Python에서 다변량 데이터에서 각 변수 쌍 사이의 관계를 시각화하는 기능을 수행하는 코드를 작성하기 위해서는 matplotlib, seaborn, pandas 같은 라이브러리를 활용할 수 있습니다. 여기서는 seaborn의 pairplot 함수를 이용하여 시각화를 생성할 수 있는 예제 코드를 제공하겠습니다. Python 코드 예제 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 데이터 준비 (예시 데이터셋 로드) iris = sns.load_dataset('iris') # 시각화 함수 작성 및 실행 def plot_pairs_panel(df): sns.pairplot(df, diag_kind='kde', marke..
seaborn 벤치마크 데이터셋 Seaborn 라이브러리는 데이터 시각화를 위해 여러 가지 내장 데이터 세트를 제공합니다. 이 데이터 세트들은 다양한 시각화 기법과 상관관계 분석, 통계적 모델링 연습 등을 위해 사용될 수 있습니다. Seaborn의 내장 데이터 세트 중 몇 가지를 예로 들고 각각의 특징을 설명하겠습니다. tips: 음식점에서 팁을 얼마나 받았는지에 대한 데이터를 포함하고 있으며, 식사 비용, 시간, 성별, 흡연 유무 등의 변수를 포함합니다. 이 데이터는 팁의 크기에 영향을 미치는 요소들을 분석하는 데 유용합니다. iris: 아이리스(붓꽃)의 종을 분류하기 위해 사용되는 데이터 세트로, 꽃잎(petal)과 꽃받침(sepal)의 길이와 너비 정보를 포함합니다. 이 데이터는 분류 문제와 데이터 시각화 기술을 연습하는 데 자주..
넘파이와 판다스를 활용해 결측치 생성 함수 구현하기 prod_na 함수를 원본 데이터프레임을 직접 수정하지 않도록 하며, 결측치 도입 인덱스를 선택해 효율적으로 코드를 작성했습니다. import numpy as np import pandas as pd def prod_na(df, missing_rate=0.1): """ 주어진 비율에 따라 데이터프레임의 값에 무작위로 NaN을 할당합니다. 원본 데이터프레임은 변경하지 않습니다. Parameters: df (pd.DataFrame): 원본 데이터프레임 missing_rate (float): 전체 데이터에 대한 결측치 비율 (0 ~ 1 사이의 값) Returns: pd.DataFrame: 결측치가 할당된 데이터프레임의 복사본 """ # 데이터프레임 복사본 생성 df_copy = df.copy() # 전체 데이..
Python vs R R과 Python 둘 중 어떤 것을 우선적으로 배워야 할까요? 이번 글에서는 데이터 분석의 두 도구, R과 Python의 차이점을 이해해 보죠. 각각의 생태계, 기능 및 보편적인 활용 사례를 자세히 살펴봅니다. 두 가지 모두 강력한 프로그래밍 언어이지만, 서로 다른 요구 사항을 충족하고 서로 다른 영역에서 강합니다. 1. 기원과 주요 초점 R: R은 통계 분석 및 데이터 시각화를 위해 특별히 설계되었습니다. 통계 커뮤니티에서 시작되었기 때문에 통계 테스트, 모델 및 분석을 위한 다양한 패키지가 있습니다. Python: Python은 가독성과 다용도로 잘 알려진 간단한 구문을 가진 범용 언어입니다. 웹 개발, 자동화, 데이터 과학 및 인공 지능과 같은 다양한 분야에서 사용됩니다. 2. 데이터 분석 및 시..
R, JAMOVI, SPSS의 차이 1. R R은 통계 컴퓨팅 및 그래픽을 위한 프로그래밍 언어이자 환경입니다. 오픈 소스이며 확장성이 뛰어나 다양한 통계 및 그래픽 기법을 제공합니다. R을 맞춤형 작업실이라고 생각하면 됩니다. 생각할 수 있는 거의 모든 통계 분석을 수행하기 위해 사용자 지정하거나 처음부터 만들 수 있는 도구(함수 및 패키지)가 있습니다. 하지만 이러한 도구를 효과적으로 사용하는 방법을 알아야 하며, 이를 위해서는 R 언어를 배워야 합니다. 2. Jamovi Jamovi는 R을 기반으로 구축된 오픈 소스 통계 소프트웨어로, 프로그래밍 기술 없이도 통계 분석에 액세스 할 수 있도록 사용자 친화적인 그래픽 인터페이스를 제공합니다. Jamovi를 사용자 친화적이고 미리 조립된 툴킷이라고 상상해 보세요. 쉽게 액세스하고 사용할 ..