본문 바로가기
728x90

Study (Data Science)/CV6

Diffusion 2 (Stable diffusion) 참고강의 https://www.youtube.com/watch?v=Z8WWriIh1PU 강의노트 기존 Diffusion 과 Stable Diffusion의 차이 1. 노이즈 추가방법이 다름 Diffusion : 픽셀 단위로 가우시안 노이즈 추가 Stable D : 레이어 단위로 가우시안 노이즈 추가 ; 기존 D보다 더 복잡한 이미지 생성 가능, 안정적, diversity향상 2. 다른 모델과의 연동 Stable D는 다른 모델과 콜라보가 가능 (e.g. AE, CLIP 등) S.D + AE : 안정적이고 고화질의 이미지 생성 목표 S.D + CLIP : image, text를 결합하여 생성 목표콜라보할 두 가지 대표모델 학습순서 AE 학습하고 >> CLIP 학습하고 >> U-net 학습하고 >> Fine.. 2023. 4. 12.
AE, DAE, VAE AE (AutoEncoder) 비지도 학습 유형, 인코더와 디코더로 이루어져 있고, 인코더는 차원축소를, 디코더는 생성모델의 역할을 한다. 특징 Unsupervised learning : 학습시 라벨이 없는 unsupervised 방식으로 수행됨. Representation learning : 학습시 Loss는 Negative Maximum Likelihood(nml)로 해석. Dimensionality reduction :학습된 오토인코더의 인코더는 차원 축소의 역할을 하고 Generative model learning : 학습된 오토인코더의 디코더는 생성 역할을 함. 차원 축소를 해야 하는 이유는, 차원이 복잡하면 파라미터가 많아져서 오버피팅이 나게 되고, 복잡도가 떨어지기 때문이다. 차원 축소를 통.. 2023. 3. 31.
cGAN / Pix2pix GAN의 목적 1. Pg -> Pdata (만들어낸 이미지의 분포가 실제 이미지의 분포로 수렴하면 성공) 2. D(G(z)) -> 1/2 (Generator가 만들어낸 결과(G(z))를 Discriminator가 판별했을 때, 1이 진짜, 0이 가까이지만 잘 모르겠어서 1/2로 판별해내면 성공. 첨에는 0으로 잘 가려내겠지만 나중에는 1인가? 하다가 결국 그 평균인 1/2에 수렴해야함) D(x) : x는 진짜에서 뽑아온 분포니, D가 판별했을 때 진짜이도록, 즉 1이 되도록 D(G(z)) : G(z) output 자체가 가짜니 D입장에서는 ; D가 판별했을 때 가짜이도록, 즉 0이 되도록 G입장에서는 ; D가 판별했을 때 진짜이도록, 즉 1이 되도록 결국, log 1 + log 0.5 가 될 것임. lo.. 2023. 2. 18.
OCR (광학문자인식)과 딥러닝 OCR(Optical Character Recognition, 광학 문자 인식) 1) Detection - 인식 2) Recognition - 해독 1. Detection Object Detection(객체 인식) 방법이 사용됨 Regression(회귀) 방식 : 기준으로 하는 박스 대비 문자의 박스가 얼마나 차이가 나는지를 학습 Segmentation(세그멘테이션) : 픽셀 단위로 해당 픽셀이 문자를 표현하는지를 분류하는 문제(pixel-wise classification) 객체 : 물체에 따라 크기가 일정하고, 물체간 거리가 충분히 확부된다. 문자 : 문자는 영역과 배치가 자유롭고, 검출하기 위한 설정이 필요, 글자간 거리가 촘촘함. (박스가 겹침) 논문근거 기술분류 Regression-based :.. 2023. 1. 31.
생성 모델들 / GAN 모델의 종류 판별 모델 (Discriminative Modeling) : 입력된 데이터셋을 특정 기준에 따라 분류하거나, 특정 값을 맞히는 모델 생성 모델 (Generative Modeling) : 학습한 데이터셋과 비슷하면서도 기존에는 없던 새로운 데이터셋을 생성하는 모델. 하기는 모드 생성모델에 해당. Pix2Pix 간단한 이미지를 입력할 경우 실제 사진처럼 보이도록 바꿔줄 때 많이 사용되는 모델 단순화된 이미지(Input Image) 와 실제 이미지(Ground Truth) 가 쌍을 이루는 데이터셋으로 학습을 진행 How to use 스케치로 그려진 그림을 실사화하기 흑백 사진을 컬러로 변환하기 위성사진을 지도 이미지로 변환하기 낮에 찍힌 사진을 밤 배경의 사진으로 변환하기 CycleGAN Pix2.. 2023. 1. 17.
Convolution Layer 심화학습 퍼실님 Question keras.layers의 Conv2D()는 필터의 크기 (가로, 세로)와 필터의 갯수를 인자로 받습니다. 그러나 각 층의 input 값으로 들어가는 feature map들은 depth가 3, 16, 32 등등 제각각인데요, 그렇다면 Conv2d()의 인자로 depth 정보는 왜 입력하지 않아도 되는걸까요? Conv2D()의 인자 중 필터의 수는 ouput(feature map)의 형태 중 어느 부분에 영향을 줄까요? 필터 수가 늘어나거나, 필터의 크기가 커지는 것은 이미지를 인식하고 해석하는 과정에서 어떤 영향을 줄까요? My Answer 1. input image의 depth (= num of channels = num of feature maps) = filter 의 num o.. 2022. 12. 29.
728x90