https://arxiv.org/pdf/2302.04456.pdf

Meaning
- diffusion으로 waveform을 생성하는 최초의 음악생성모델 (참고한 text-to-speech는 speech 생성함)
- 투표된 인기댓글을 활용함으로써 free-form text 의 데이터 부족을 해소.
- 두 가지 conditional model 비교를 통해 end-to-end의 성능을 증명
- 관련성이 높고, 고품질의 음악을 생성할 수 있음을 보여줌.
Dataset
- 인기댓글 : 수준이 높고, 악기, 장르 및 감정에 대한 음악 정보가 많았음. 그래서 (인기댓글 - 음악) 병렬데이터 수집


Model
U-Net for diffusion.
14개 convolutional block layers 로 down - up
노이즈를 추가하는 diffusion에 self attention을 넣었음.
Text encoder로 free-form text를 분석해서 잔차로 연결시킴

Evaluation
text-music relevance & music quality. subjective evaluation.
객관적 지표 (e.g FAD, SC, PE)는 실제 퀄리티와 달라 10명 고용..
각 음악에 대한 전체 평균을 구하고, 각 음악에 대한 점수를 구함.
그 뒤에 같은 모델끼리 test samples전체에 관한 점수를 구함.
기존의 모델 3개 TSM, Mubert, Musika와 비교하였음.
5점 만점.
Top rate : the probability that the music obtains the highest score
Bottom rate : the probability that the music obtains the lowest score.

end-to-end text conditioning과 music tag conditioning models 두 개를 훈련시켜서 different formats of input text를 비교할 예정.
end-to-end : (y,x) = (free-form text , music)
tags : (y,x) = (TD-IDF하여 mining한것, music)


Results
end-to-end가 더 좋았음. tag는 사람이 만든거라 중간 정보 소실이 있었을 것으로 예상.


Limitation
데이터셋이 너무 적었음..
중국어 데이어셋을 taging 한 것. 언어 특성상 태깅이 잘될 듯.
최종 평가를 객관적 지표가 아니라 주관적 지표로 하였는데,,
고용된 10명의 rating 중간과정이 얼마나 clean 했을지는?


Reference
https://arxiv.org/pdf/2304.00830.pdf
https://arxiv.org/pdf/1811.00223.pdf
https://arxiv.org/pdf/2302.04456.pdf
'Study (Data Science) > Paper Research' 카테고리의 다른 글
SSSD (Diffusion-based Time Series Forecasting) (0) | 2023.10.05 |
---|---|
Disney FVAE (관람객 표정 분석 AI) (0) | 2023.05.22 |
Diffusion 1 (DDPM, DDIM, Guided Diffusion, DDGAN) (0) | 2023.04.03 |
SCARF) SELF-SUPERVISED CONTRASTIVE LEARNINGUSING RANDOM FEATURE CORRUPTION (2022.03) (0) | 2023.03.24 |
CLEP) Exploiting Negative Preference in Content-based MusicRecommendation with Contrastive Learning (2022.07) (0) | 2023.03.22 |
댓글