본문 바로가기
728x90

Study (Data Science)/DL16

수렴되지 않는 이유.. Hyperparameter 튜닝: 모델의 학습이 잘 되지 않는 경우, 먼저 Hyperparameter를 조정해보는 것이 좋습니다. 예를 들어, 학습률, 배치 크기, 최적화 알고리즘 등을 변경하여 성능이 개선되는지 확인해볼 수 있습니다. 또한, Contrastive Learning에서는 negative sample의 개수와 temperature parameter도 중요한 hyperparameter입니다. 이러한 hyperparameter를 변경하여 모델의 학습이 개선되는지 확인해보는 것이 좋습니다. Data Augmentation 적용: Contrastive Learning에서 Data Augmentation은 중요한 역할을 합니다. 이는 모델이 다양한 변형된 입력 데이터를 통해 더욱 강건하게 학습할 수 .. 2023. 3. 23.
유사도 Similarity / 거리 Distance 유클리드 거리(Euclidean distance): 두 점 / 직선 거리 맨해튼 거리(Manhattan distance): 두 점 수직/수평 거리 (블록거리같은 지리적 위치데이터를 측정할 수 있음) 코사인 유사도(Cosine similarity): 두 벡터 / 각도 / 주로 고차원 데이터에 적합 (각도라 차원의 영향을 받지 않음) 자카드 유사도(Jaccard similarity): 두 집합 / 공통 원소 비율 (영상처리) 매치 유사도(Match similarity): 문자열, 시퀀스 데이터 / 부분 문자열이 얼마나 일치하는지를 계산 (문자열 매칭, 검색) 편집 거리(Edit distance): 두 문자열 사이의 삽입, 삭제, 대체 연산의 최소 횟수를 계산 (음성인식, 문자열매칭) 이 중에서 유클리드 거리.. 2023. 3. 12.
비지도학습 / K-means, DBSCAN / PCA, T-SNE 비지도학습 지도학습과 달리 training data로 정답(label)이 없는 데이터가 주어지는 학습방법. 주어진 데이터가 어떻게 구성되어 있는지 스스로 알아내는 방법 지도학습이 회귀, 분류라면, 비지도학습은 분류! 종류 군집화 (clustering) : K-means, DBSCAN (주로 Classification) 차원축소 (dimensionality reduction) :PCA(Principal Component Analysis), T-SNE 생성모델 (generative model) 군집화 (clustering) 1. K-means 정답 label 도 없고, 분류기준이 되는 클래스나 카테고리도 없는 데이터를 가까운, 유사한 것들끼리 묶어주는 것. 묶을 기준이 없기 때문에 k개의 기준점을 중심으로 .. 2023. 1. 30.
추천시스템 - ALS ALS(Alternating Least Squares) 알고리즘 설명 사용자 또는 상품 측면의 벡터가 주어져 있을 때 최소제곱해(Least Squares) 도출 이전 스텝에서 설명한 Matrix Factorization 모델을 implicit 패키지를 사용하여 학습해 봅시다. implicit 패키지는 이전 스텝에서 설명한 암묵적(implicit) dataset을 사용하는 다양한 모델을 굉장히 빠르게 학습할 수 있는 패키지입니다. 이 패키지에 구현된 als(AlternatingLeastSquares) 모델을 사용하겠습니다. Matrix Factorization에서 쪼개진 두 Feature Matrix를 한꺼번에 훈련하는 것은 잘 수렴하지 않기 때문에, 한쪽을 고정시키고 다른 쪽을 학습하는 방식을 번갈아 수.. 2023. 1. 26.
추천 시스템 알고리즘/ MF / CSR 추천 시스템(Recommender System) 언제 사용하는가? 아이템은 너무 많고, 유저의 취향이 다양할 때 주요 특징 범주형(이산적) 데이터를 다룬다. 데이터들을 일직선 좌표에 두고 유사도를 계산하여 추천한다. 코사인 유사도 (Cosine similarity) 두 벡터의 방향이 이루는 각에 코사인을 취해 구함. 두 벡터의 방향이 완전히 동일하면 (둘다 왼쪽아래-오른쪽위) : 1, 둘의 교차각이 90도라면 (왼쪽아래-오른쪽위)와 (오른쪽아래-왼쪽위) : 0, 둘의 교차각이 180도라면 (왼쪽아래-오른쪽위)와(오른쪽위-왼쪽아래) : -1 1 ~ -1까지 값을 가지며, 1일수록 유사도가 높음. 사이킷런으로 구사함. 기타 다른 유사도 계산법 코사인 유사도 이외에도 유클리드 거리, 자카드 유사도, 피어슨 상.. 2023. 1. 25.
MLE, MAP / prior, posterior, likelihood 베이지안 머신러닝 모델 모델 파라미터를 고정된 값이 아닌 불확실성(uncertainty)을 가진 확률 변수로 보는 것, 데이터를 관찰하면서 업데이트되는 값으로 보는 것 베이즈 정리(Bayes' theorem) prior(prior probability, 사전 확률) 데이터를 관찰하기 전 파라미터 공간에 주어진 확률 분포 확률분포 먼저 고정 후 데이터 받음. p(θ) likelihood(가능도, 우도) 파라미터의 분포 p(θ)가 정해졌을 때 x라는 데이터가 관찰될 확률 prior 분포를 고정한 후, 주어진 파라미터 분포에 대해서 우리가 갖고 있는 데이터가 얼마나 '그럴듯한지' 계산하는것 p(X=x∣θ) , L(θ∣x) 입력 데이터의 집합을 X, 라벨들의 집합을 Y라고 할 때, likelihood는 파라미터.. 2023. 1. 18.
확률과 통계 1. 확률 (Probability) 이항(discrete) / 연속(continuous) 서로 배타적(mutually exclusive) : 시행의 모든 시도에서 한 사건 발생 시 다른 하나사건이 발생하지 않을 경우 집합(set), 원소(elements), 사건(events), 부분집합(subset), 전체집합(universal set), 공집합(null,empty set) 교집합(intersection), 합집합(union), 같음(equality) 여집합(complementary set; Set - A), 차집합(difference; A-B != B-A in Union), 서로소집합(disjoint set; A and B are mutually exclusive) A1​,A2​,…,An​ 이 서로 배.. 2023. 1. 16.
Entropy / Cross - Entropy Entropy 불확실성(uncertainty)에 대한 척도. 예측모델의 궁극적인 목표는 불확실성 제어에 있다. 불확실성이 없을 때, 즉 내가 사람이라는 사실에 있어 entropy는 0이다. 어떤 사건이 같은 비율로 발생한다고 하고, 사건의 갯수를 n이라고 하면, entropy는 log(n)이다. 만약 양념치킨과 후라이드 치킨이 반반일 때의 entropy는 log(2) = 0.69이다. 여기서 2는 사건의 갯수로, 양념을 집거나 후라이드를 집는 사건, 총 2개가 된다. 하지만 치킨맛이 2개가 아닌 여러개고, 맛마다 치킨조각이 다르다면, 공식이 필요해진다. H(q) : 엔트로피 C : 범주갯수 = 치킨 맛이 몇개인가 q : 사건의 확률질량함수 (probability mass function) = 각 사건이 .. 2023. 1. 12.
Regression (회귀) / 이진분류는 회귀인가 분류인가? Regression 두시간 반을 갈아넣어 만든 표..... ㅠㅠㅠㅠㅠ 선형 회귀 분석(Linear Regression) 1. 표기법 종속변수 Y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법 주어진 데이터에 우리의 선형 식이 잘 맞도록 회귀계수 및 오차를 구하는 것 β : 회귀계수 = weight / ϵ : 종속 변수와 독립 변수 사이에 오차 = bias 수학과의 차이는, W, b는 단순스칼라 값이 아니라 행렬로 거의 대부분 오게됨 2. 용어설명 잔차(residual) 관측값(y_test)과 회귀직선의 예측값(y_pred)과의 차이, 보통 e로 표기 잔차로 그래프를 그린 후에 특정 패턴이 나타나면 회귀직선이 적합하지 않다는 의미. 잔차의 개념을 잘 알면 손실함수를 이해할 수 있.. 2023. 1. 12.
Regularization, Normalization Normalization(정규화) Scaling input features so that they have similar ranges or distributions. - 데이터 전처리 과정 중 하나. - 데이터의 형태를 좀 더 의미있고, 학습에 적합하게 만드는 과정 - z-score, minmax scaler로 value를 0-1 사이로 분포를 조정 Normalization refers to scaling input features so that they have similar ranges or distributions. This can help prevent certain features from dominating others during training which could lead to biase.. 2023. 1. 11.
728x90