본문 바로가기

CS/R | DA

(6)
R 일반화 선형 모델, 회귀, 분류, 결정트리, 랜덤 포레스트 일반화 선형 모델 필요성 @반응 변수가 두 가지 값만 가지는 경우 - 정상 / 환자 - 상품 / 하품 glm() - R에서 일반화 선형 모델은 glm() 사용 - 이전과 달라진 것은 lm -> glm, family=binomial 옵션 추가 - binomial 옵션 : 반응 변수가 두 가지 값만 가진다고 glm에게 알려주는 역할 - 반응 변수가 0과 1 또는 범주형이어야 함 -> 그대로 적용하면 오류! # factor() 사용 로지스틱 회귀 - 반응 변수가 두 가지 값만 가지는 경우의 회귀 - 참 / 거짓, 성공 / 실패, 환자 / 정상, 사망 / 생존, 승리 / 패배 등 - 원리 : 설명 변수를 x, 반응 변수를 l로 표기 예측 - predict() 범주형 (factor 형) - 순서값(ordinal ..
R 모델링, 가설 검정, 예측, 다중 선형 회귀 모델링 - 현실 세계에서 일어나는 현상을 수학식으로 표현하는 행위 - 모델링을 통해 모델 알아내고 나면 모델 이용해 새로운 사실 예측 가능 데이터 과학에서 주어지는 데이터 - 데이터로부터 모델 알아내야 함 - 주어진 데이터를 훈련 집합이라 함 (xi ,yi )를 i번째 관측observation 또는 i번째 샘플sample이라 부름 독립 변수 xi 를 설명 변수explanatory variable, 종속 변수 yi 를 반응 변수response variable라 부름 또는 xi 를 특징feature, yi 를 레이블lable이라 부름 또는 yi 를 그라운드 트루스ground truth라 부름 데이터 과학에서의 모델링 : 훈련 집합 이용해 최적의 모델 찾아내는 과정 데이터 과학이 다루는 문제는 불확실성 개입 ..
R 데이터 시각화, gapminder, 로그스케일, ggplot2 데이터 시각화 -데이터는 수많은 속성과 샘플로 구성되어 한눈에 의미 파악 어려움 -데이터 의미 통찰하고 전달하는 가장 좋은 방법 @getminder 데이터 -5개 대륙, 총 142개 국가에 대한 1952~2007년의 인구 데이터가 5년 간격으로 담겨 있음 -인구 변화 추이는 개별 국가보단 대륙별로 묶어 관찰하는 게 편리 > library(gapminder) > library(dplyr) > y % group_by(year, continent) %>% summarize(c_pop = sum(pop)) > head(y, 20) -수치로 요약된 결과를 plot() 이용해 시각화 > plot(y$year, y$c_pop) -여러 대륙의 데이터가 하나의 그래프에 표시되므로 추가 옵션 이용해 마커 색이나 모양 서로..
R 데이터 가공, gapminder 라이브러리, 데이터 정렬 검색, 데이터 프레임 병합 @데이터 가공(data wrangling) -데이터를 보다 효과적으로 분석하기 위해 데이터를 만지고 변형하는 작업 -거의 모든 분야에서 적절한 데이터 가공 필요 (통계 분석, 시각화, 모델링 등) gapminder 라이브러리 -세계 각국의 기대 수명, 1인당 국내총생산, 인구 데이터 등을 집계해놓은 gapminder 데이터 셋의 일부를 담고 있음 @샘플과 속성의 추출 -각 나라의 기대 수명 > gapminder[, c("country", "lifeExp")] -행에는 이름이 지정되지 않은 경우가 많아 행 번호를 지정하거나 조건식을 이용하는 것이 일반적 > gapminder[1 : 15, ] -국가 이름이 "Croatia"인 샘플을 조건식 사용해 추출 > gapminder[gapminder$country ..
R 파일 입출력, 조건문, 반복문, 사용자 정의 함수, 결측값 처리, 이상값 R 파일 읽기 -read.table() : 일반 텍스트 파일 읽을 때 사용 > students = read.table(".txt", header = T) > students # 읽은 파일의 구조 확인 > str(students) -read.csv() : CSV 파일 읽을 때 사용 > students = read.csv(".txt", header = T) > students 파일 쓰기 -write.table() : 일반 텍스트 파일로 저장할 때 사용 > students = read.table(".txt", header = T, as.is = T) # 문자열에 큰따옴표 표시됨 > write.table(students, file = ".txt") # 문자열에 큰따옴표 표시되지 않음 > write.table(s..
R read csv, R 데이터형, 벡터, 배열, 데이터프레임, 리스트 @탐색적 데이터 분석 -변수 값의 분포, 변수 사이의 상관관계 등을 살펴 데이터 특성 파악 -요약 통계량 계산, 시각화 등 @모델링 -데이터를 가장 잘 설명하는 모델을 찾는 과정 -모델은 변수 사이의 관계를 수학식으로 표현 R @str() -데이터의 내용을 요약해 보여주는 함수 @plot() -시각화 함수 -여러 시각화 옵션 -col : 색깔 지정 xlab, ylab : 축의 이름 지정 pch : 기호 모양 지정 > ?plot 처럼 ? 기호 사용해 도움말 볼 수 있음 iris > str(iris) > head(iris, 10) # 내용의 일부 확인(10줄) > plot(iris) > plot(iris$Petal.Width, iris$Petal.Length, col=Species) # 각각 x, y축, 색..

Tiny Star