본문 바로가기
Study (Data Science)/Paper Research

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models (2023.2.9)

by 콜라찡 2023. 4. 15.

https://arxiv.org/pdf/2302.04456.pdf

Meaning

  1. diffusion으로 waveform을 생성하는 최초의 음악생성모델 (참고한 text-to-speech는 speech 생성함)
  2. 투표된 인기댓글을 활용함으로써 free-form text 의 데이터 부족을 해소.
  3. 두 가지 conditional model 비교를 통해 end-to-end의 성능을 증명
  4. 관련성이 높고, 고품질의 음악을 생성할 수 있음을 보여줌.

Dataset

  • 인기댓글 : 수준이 높고, 악기, 장르 및 감정에 대한 음악 정보가 많았음. 그래서 (인기댓글 - 음악) 병렬데이터 수집

Model

U-Net for diffusion.

14개 convolutional block layers 로 down - up

노이즈를 추가하는 diffusion에 self attention을 넣었음.

Text encoder로 free-form text를 분석해서 잔차로 연결시킴

Evaluation

text-music relevance & music quality. subjective evaluation.

객관적 지표 (e.g FAD, SC, PE)는 실제 퀄리티와 달라 10명 고용..

각 음악에 대한 전체 평균을 구하고, 각 음악에 대한 점수를 구함.

그 뒤에 같은 모델끼리 test samples전체에 관한 점수를 구함.

기존의 모델 3개 TSM, Mubert, Musika와 비교하였음.

5점 만점.

Top rate : the probability that the music obtains the highest score

Bottom rate : the probability that the music obtains the lowest score.

end-to-end text conditioning과 music tag conditioning models 두 개를 훈련시켜서 different formats of input text를 비교할 예정.

end-to-end : (y,x) = (free-form text , music)

tags : (y,x) = (TD-IDF하여 mining한것, music)

Results

end-to-end가 더 좋았음. tag는 사람이 만든거라 중간 정보 소실이 있었을 것으로 예상.

Limitation

데이터셋이 너무 적었음..

중국어 데이어셋을 taging 한 것. 언어 특성상 태깅이 잘될 듯.

최종 평가를 객관적 지표가 아니라 주관적 지표로 하였는데,,

고용된 10명의 rating 중간과정이 얼마나 clean 했을지는?

 

Reference

https://arxiv.org/pdf/2304.00830.pdf

https://arxiv.org/pdf/1811.00223.pdf

https://arxiv.org/pdf/2302.04456.pdf

 

728x90

댓글