본문 바로가기

CS/Python

News Categorization

@News Categorization

-비슷한 뉴스끼리 분류하기

 

 

 

  • 컴퓨터는 문자 그대로 이해하지 못함

  문자 -> 숫자

 

  • 숫자로 유사하다는 표현을 어떻게 할까?

  유사하다 -> 가깝다

 

  • 어떤 숫자를 벡터로 바꿔줘야 함

   문자 -> 숫자 -> 벡터

 

 

 

@One-hot Encoding(Bag of words)

-가장 기본적인 문서에 대한 벡터 표현 기법

-문자를 벡터로

-하나의 단어를 벡터의 인덱스로 인식, 단어 존재시 1 없으면 0

-단어별로 인덱스 부여, 한 문장(또는 문서)의 단어 개수를 벡터로 표현

 

 

 

@유사성 -> 거리 측정

-Distance measure

 

 

 

@Euclidian distance

-피타고라스 정리, 두 점 사이의 직선의 거리

 

 

 

@Cosine distance

-두 점 사이의 각도

-문서의 similarity 구할 때는 Cosine distance를 더 많이 씀

 (data set이 많으면 많을수록 Cosine distance가 더 잘나옴)

 

 

 

@Data set

-축구와 야구 선수들의 영문 기사 분류

 

 

 

@Process

-파일 불러오기

-파일 읽고 단어사전(corpus) 만들기

-단어별로 index 만들기

-만들어진 index로 문서별로 Bag of words 벡터 생성

-비교하고자 하는 문서 비교

-얼마나 맞는지 측정

 

 

 

실습)

-파이썬에선 폴더끼리 join()해줄 때 상대경로까지 맞춰줘야 하는데, os에 맞게끔 기호 써주면 됨

 

 

 

 

'CS > Python' 카테고리의 다른 글

PCA: How to use in Python  (0) 2021.02.08
Basic Linear Algebra | 선형대수 기본  (0) 2021.01.18
Linear algebra codes  (0) 2021.01.15
Data Structure - Collections  (0) 2021.01.13
Asterisk  (0) 2021.01.11

Tiny Star