본문 바로가기

CS/R | DA

R 모델링, 가설 검정, 예측, 다중 선형 회귀

모델링

- 현실 세계에서 일어나는 현상을 수학식으로 표현하는 행위

- 모델링을 통해 모델 알아내고 나면 모델 이용해 새로운 사실 예측 가능

 

 

데이터 과학에서 주어지는 데이터

- 데이터로부터 모델 알아내야 함

- 주어진 데이터를 훈련 집합이라 함

(xi ,yi )를 i번째 관측observation 또는 i번째 샘플sample이라 부름

독립 변수 xi 를 설명 변수explanatory variable, 종속 변수 yi 를 반응 변수response variable라 부름 

또는 xi 를 특징feature, yi 를 레이블lable이라 부름 

또는 yi 를 그라운드 트루스ground truth라 부름

데이터 과학에서의 모델링 : 훈련 집합 이용해 최적의 모델 찾아내는 과정

 

 

데이터 과학이 다루는 문제는 불확실성 개입

- 예) 같은 시간에 같은 사람의 체온 측정하면 시간에 따라 변하기 일쑤

 

 

선형 회귀에서는 최적화 문제 풀어야 함

- 최적화는 미분 사용해 해결

- R 제공 함수 : lm

 

 

가설 검정

- 확률변수 : 평균(u), 분산(s2), 데이터 크기(n)

- 귀무가설 (H_0) : 모집단 확률변수와 추정치가 차이가 없다는 가설

- 대립가설 (H_1) : 모집단 확률변수와 추정치가 차이가 있다는 가설

 

- P-값: 귀무 가설이 맞다는 가정하에서 실험 데이터가 나올 확률을 의미

- P-값이 유의 수준 𝜶보다 작으면 통계적으로 유의미함

- 유의 수준 𝜶는 보통 0.05 또는 0.01

 

 

R의 cars 데이터 사용해 모델링, 예측

- str(), head()로 데이터 내용 확인

 

- plot()으로 가시화

 

- 설명 변수와 반응 변수 정하기

 변수 사이 원인과 결과 따져 원인에 해당하는 것을 설명 변수로 함

- 단순 선형 회귀 : 설명 변수가 하나 뿐인 경우

 

 

모델 적합

 

 

- fitted 함수로 훈련 집합에 대한 예측 수행하기

 

 

lm에 고차 방정식 적용

- lm은 기본적으로 1차 방정식, 즉 직선으로 모델 적합

- poly 옵션 사용하면 고차 방정식 적용 가능

 

 

anova 함수로 분산 분석ANOVA(ANalysis Of VAriance) 해보기

- 여러 모델 간에 차이가 있는지에 대해 통계적 유의성 확인해 줌

 

 

현실 세계의 데이터는 설명 변수가 여러 개

- 월급에 영향을 미치는 변수로 판매 대수뿐 아니라 근무 연수, 직급 등

- 제동 거리에 영향을 미치는 변수로 속도뿐 아니라 날씨나 브레이크의 종류 등

 

 

다중 선형 회귀(multiple linear regression)

- 설명 변수가 2개 이상인 선형 회귀

- 설명 변수가 2개인 경우 매개변수 3개

- 일반적으로 설명 변수가 k개이면 매개변수는 k+1

 

 

 


Tiny Star