OCR(Optical Character Recognition, 광학 문자 인식)
1) Detection - 인식
2) Recognition - 해독
1. Detection
- Object Detection(객체 인식) 방법이 사용됨
- Regression(회귀) 방식 : 기준으로 하는 박스 대비 문자의 박스가 얼마나 차이가 나는지를 학습
- Segmentation(세그멘테이션) : 픽셀 단위로 해당 픽셀이 문자를 표현하는지를 분류하는 문제(pixel-wise classification)
- 객체 : 물체에 따라 크기가 일정하고, 물체간 거리가 충분히 확부된다.
- 문자 : 문자는 영역과 배치가 자유롭고, 검출하기 위한 설정이 필요, 글자간 거리가 촘촘함. (박스가 겹침)
- 논문근거 기술분류
- Regression-based : 이미지 >> CNN
- 객체검출 SSD(single shot detector) >> 글자검출 (Textboxes)
- 최근 추세는 급감중. 글자 표현방식은 사각형(RBOX)으로 표현하는게 가장 많았음.
- Segmentation-based : 이미지 >> CNN >> 최소단위정보 >> 간단한 규칙
- 각 화소가 글자영역에 속할 확률을 뽑고, 8개의 방향으로 이웃한 화소가 글자영역일 확률을 뽑고, 규칙적용
- 1년사이 논문 수 급증, 학습이 안정적, RBOX에서 POLY 표현법이 서서히 증가중
- End-to-end : 기존 글자 찾는 CNN과 인식하는 CNN을 한번에 같이 학습시켜 상호 도움이 되게 함.
- 최근 1년 사이에 논문이 등장함, 성능재현 어렵고 아직 안정적인 학습법 연구가 필요함
- Regression-based : 이미지 >> CNN
2. Recognition
- 사진 속에서 문자를 검출해 내는 검출 모델이 영역을 잘라주면, 그 영역에 어떤 글자가 포함되어 있는지 읽어내는 과정
- CRNN 모델 : CNN +RNN
- 이미지 내의 텍스트와 연관된 특징을 CNN을 통해 추출한 후에 스텝 단위의 문자 정보를 RNN으로 인식.
- 논문근거 기술분류
- Text Spotting : CNN 으로 받아 해당 단어를 classification 방법으로 해독함
- End-to-End에서 간혹 사용되나 글자인식문제에서는 잘 쓰이지 않음
- CTC-based : CNN 통과하여 특징이 추출되면, RNN으로 시퀀스 정보를 받고 CTC로 후처리하여 글자뽑음
- 최근 논문 수 감소, 그러나 속도가 빠르고 메모리 적게 사용됨. (대량데이터에는 오히려 적합)
- Attention : CTC와 동일하게 CNN, RNN 거치지만 Attention 기반 디코더가 추가되어 가변길이의 시퀀스 생성
- 최근 논문 대부분. CTC보다는 느리나 정확함.
- Text Spotting : CNN 으로 받아 해당 단어를 classification 방법으로 해독함
https://tv.naver.com/v/4578167
글자읽는 AI: 밑바닥부터 외국어 정복까지
NAVER Engineering | 글자읽는 AI: 밑바닥부터 외국어 정복까지
tv.naver.com
728x90
'Study (Data Science) > CV' 카테고리의 다른 글
Diffusion 2 (Stable diffusion) (0) | 2023.04.12 |
---|---|
AE, DAE, VAE (0) | 2023.03.31 |
cGAN / Pix2pix (0) | 2023.02.18 |
생성 모델들 / GAN (0) | 2023.01.17 |
Convolution Layer 심화학습 (0) | 2022.12.29 |
댓글