R 모델링, 가설 검정, 예측, 다중 선형 회귀

모델링

- 현실 세계에서 일어나는 현상을 수학식으로 표현하는 행위

- 모델링을 통해 모델 알아내고 나면 모델 이용해 새로운 사실 예측 가능

데이터 과학에서 주어지는 데이터

- 데이터로부터 모델 알아내야 함

- 주어진 데이터를 훈련 집합이라 함

(xi ,yi )를 i번째 관측observation 또는 i번째 샘플sample이라 부름

독립 변수 xi 를 설명 변수explanatory variable, 종속 변수 yi 를 반응 변수response variable라 부름

또는 xi 를 특징feature, yi 를 레이블lable이라 부름

또는 yi 를 그라운드 트루스ground truth라 부름

데이터 과학에서의 모델링 : 훈련 집합 이용해 최적의 모델 찾아내는 과정

데이터 과학이 다루는 문제는 불확실성 개입

- 예) 같은 시간에 같은 사람의 체온 측정하면 시간에 따라 변하기 일쑤

선형 회귀에서는 최적화 문제 풀어야 함

- 최적화는 미분 사용해 해결

- R 제공 함수 : lm

가설 검정

- 확률변수 : 평균(u), 분산(s2), 데이터 크기(n)

- 귀무가설 (H_0) : 모집단 확률변수와 추정치가 차이가 없다는 가설

- 대립가설 (H_1) : 모집단 확률변수와 추정치가 차이가 있다는 가설

- P-값: 귀무 가설이 맞다는 가정하에서 실험 데이터가 나올 확률을 의미

- P-값이 유의 수준 𝜶보다 작으면 통계적으로 유의미함

- 유의 수준 𝜶는 보통 0.05 또는 0.01

R의 cars 데이터 사용해 모델링, 예측

- str(), head()로 데이터 내용 확인

- plot()으로 가시화

- 설명 변수와 반응 변수 정하기

변수 사이 원인과 결과 따져 원인에 해당하는 것을 설명 변수로 함

- 단순 선형 회귀 : 설명 변수가 하나 뿐인 경우

모델 적합

- fitted 함수로 훈련 집합에 대한 예측 수행하기

lm에 고차 방정식 적용

- lm은 기본적으로 1차 방정식, 즉 직선으로 모델 적합

- poly 옵션 사용하면 고차 방정식 적용 가능

anova 함수로 분산 분석ANOVA(ANalysis Of VAriance) 해보기

- 여러 모델 간에 차이가 있는지에 대해 통계적 유의성 확인해 줌

현실 세계의 데이터는 설명 변수가 여러 개

- 월급에 영향을 미치는 변수로 판매 대수뿐 아니라 근무 연수, 직급 등

- 제동 거리에 영향을 미치는 변수로 속도뿐 아니라 날씨나 브레이크의 종류 등

다중 선형 회귀(multiple linear regression)

- 설명 변수가 2개 이상인 선형 회귀

- 설명 변수가 2개인 경우 매개변수 3개

- 일반적으로 설명 변수가 k개이면 매개변수는 k+1

저작자표시 비영리 변경금지 (새창열림)

'CS > R | DA' 카테고리의 다른 글

R 일반화 선형 모델, 회귀, 분류, 결정트리, 랜덤 포레스트 (0)	2021.06.10
R 데이터 시각화, gapminder, 로그스케일, ggplot2 (0)	2021.04.11
R 데이터 가공, gapminder 라이브러리, 데이터 정렬 검색, 데이터 프레임 병합 (1)	2021.04.10
R 파일 입출력, 조건문, 반복문, 사용자 정의 함수, 결측값 처리, 이상값 (0)	2021.04.08
R read csv, R 데이터형, 벡터, 배열, 데이터프레임, 리스트 (0)	2021.04.08

damio

R 모델링, 가설 검정, 예측, 다중 선형 회귀

모델링

데이터 과학에서 주어지는 데이터

데이터 과학이 다루는 문제는 불확실성 개입

가설 검정

R의 cars 데이터 사용해 모델링, 예측

모델 적합

lm에 고차 방정식 적용

anova 함수로 분산 분석ANOVA(ANalysis Of VAriance) 해보기

현실 세계의 데이터는 설명 변수가 여러 개

다중 선형 회귀(multiple linear regression)

'CS > R | DA' 카테고리의 다른 글

티스토리툴바

R 모델링, 가설 검정, 예측, 다중 선형 회귀

모델링

데이터 과학에서 주어지는 데이터

데이터 과학이 다루는 문제는 불확실성 개입

가설 검정

R의 cars 데이터 사용해 모델링, 예측

모델 적합

lm에 고차 방정식 적용

anova 함수로 분산 분석ANOVA(ANalysis Of VAriance) 해보기

현실 세계의 데이터는 설명 변수가 여러 개

다중 선형 회귀(multiple linear regression)

'CS > R | DA' 카테고리의 다른 글

'CS/R | DA' Related Articles

티스토리툴바