본문 바로가기
Study (Data Science)/DL

유사도 Similarity / 거리 Distance

by 콜라찡 2023. 3. 12.
  1. 유클리드 거리(Euclidean distance): 두 점 / 직선 거리
  2. 맨해튼 거리(Manhattan distance): 두 점 수직/수평 거리 (블록거리같은 지리적 위치데이터를 측정할 수 있음)
  3. 코사인 유사도(Cosine similarity): 두 벡터 / 각도 / 주로 고차원 데이터에 적합 (각도라 차원의 영향을 받지 않음)
  4. 자카드 유사도(Jaccard similarity): 두 집합 / 공통 원소 비율 (영상처리)
  5. 매치 유사도(Match similarity): 문자열, 시퀀스 데이터 / 부분 문자열이 얼마나 일치하는지를 계산 (문자열 매칭, 검색)
  6. 편집 거리(Edit distance): 두 문자열 사이의 삽입, 삭제, 대체 연산의 최소 횟수를 계산 (음성인식, 문자열매칭)

 

이 중에서 유클리드 거리와 코사인 유사도가 제일 많이 쓰임.

 

유클리드 거리는

점과 점 사이의 실제 거리를 측정하는 것이기 때문에,

예시로 이미지 처리에서 두 이미지 간의 픽셀 값 차이를 측정할 때 사용됨.

 

코사인 유사도는

벡터간의 각을 측정하였기 때문에, 고차원에 매핑하여도 값에 영향을 받지 않아서,

종이를 구겨넣는 모양의 딥러닝에는 주로 코사인 유사도가 쓰이고 있음.

추천시스템, 정보검색, 문서분류 등 좀 더 복잡한 모델에 사용됨.

 

 

728x90

댓글