@News Categorization
-비슷한 뉴스끼리 분류하기
- 컴퓨터는 문자 그대로 이해하지 못함
문자 -> 숫자
- 숫자로 유사하다는 표현을 어떻게 할까?
유사하다 -> 가깝다
- 어떤 숫자를 벡터로 바꿔줘야 함
문자 -> 숫자 -> 벡터
@One-hot Encoding(Bag of words)
-가장 기본적인 문서에 대한 벡터 표현 기법
-문자를 벡터로
-하나의 단어를 벡터의 인덱스로 인식, 단어 존재시 1 없으면 0
-단어별로 인덱스 부여, 한 문장(또는 문서)의 단어 개수를 벡터로 표현
@유사성 -> 거리 측정
-Distance measure
@Euclidian distance
-피타고라스 정리, 두 점 사이의 직선의 거리
@Cosine distance
-두 점 사이의 각도
-문서의 similarity 구할 때는 Cosine distance를 더 많이 씀
(data set이 많으면 많을수록 Cosine distance가 더 잘나옴)
@Data set
-축구와 야구 선수들의 영문 기사 분류
@Process
-파일 불러오기
-파일 읽고 단어사전(corpus) 만들기
-단어별로 index 만들기
-만들어진 index로 문서별로 Bag of words 벡터 생성
-비교하고자 하는 문서 비교
-얼마나 맞는지 측정
실습)
-파이썬에선 폴더끼리 join()해줄 때 상대경로까지 맞춰줘야 하는데, os에 맞게끔 기호 써주면 됨
'CS > Python' 카테고리의 다른 글
PCA: How to use in Python (0) | 2021.02.08 |
---|---|
Basic Linear Algebra | 선형대수 기본 (0) | 2021.01.18 |
Linear algebra codes (0) | 2021.01.15 |
Data Structure - Collections (0) | 2021.01.13 |
Asterisk (0) | 2021.01.11 |