본문 바로가기
Study (Data Science)/CV

OCR (광학문자인식)과 딥러닝

by 콜라찡 2023. 1. 31.

OCR(Optical Character Recognition, 광학 문자 인식)

1) Detection - 인식

2) Recognition - 해독

 

 

1. Detection

  • Object Detection(객체 인식) 방법이 사용됨
  • Regression(회귀) 방식 : 기준으로 하는 박스 대비 문자의 박스가 얼마나 차이가 나는지를 학습
  • Segmentation(세그멘테이션)  : 픽셀 단위로 해당 픽셀이 문자를 표현하는지를 분류하는 문제(pixel-wise classification)
  • 객체 : 물체에 따라 크기가 일정하고, 물체간 거리가 충분히 확부된다.
  • 문자 : 문자는 영역과 배치가 자유롭고, 검출하기 위한 설정이 필요, 글자간 거리가 촘촘함. (박스가 겹침)
  • 논문근거 기술분류
    • Regression-based : 이미지 >> CNN
      • 객체검출 SSD(single shot detector) >> 글자검출 (Textboxes) 
      • 최근 추세는 급감중. 글자 표현방식은 사각형(RBOX)으로 표현하는게 가장 많았음.
    • Segmentation-based : 이미지 >> CNN >> 최소단위정보 >> 간단한 규칙
      • 각 화소가 글자영역에 속할 확률을 뽑고, 8개의 방향으로 이웃한 화소가 글자영역일 확률을 뽑고, 규칙적용
      • 1년사이 논문 수 급증, 학습이 안정적, RBOX에서 POLY 표현법이 서서히 증가중
    • End-to-end : 기존 글자 찾는 CNN과 인식하는 CNN을 한번에 같이 학습시켜 상호 도움이 되게 함.
      • 최근 1년 사이에 논문이 등장함, 성능재현 어렵고 아직 안정적인 학습법 연구가 필요함

2. Recognition

  • 사진 속에서 문자를 검출해 내는 검출 모델이 영역을 잘라주면, 그 영역에 어떤 글자가 포함되어 있는지 읽어내는 과정
  • CRNN 모델 : CNN +RNN
  • 이미지 내의 텍스트와 연관된 특징을 CNN을 통해 추출한 후에 스텝 단위의 문자 정보를 RNN으로 인식.
  • 논문근거  기술분류
    • Text Spotting : CNN 으로 받아 해당 단어를 classification 방법으로 해독함
      • End-to-End에서 간혹 사용되나 글자인식문제에서는 잘 쓰이지 않음
    • CTC-based : CNN 통과하여 특징이 추출되면, RNN으로 시퀀스 정보를 받고 CTC로 후처리하여 글자뽑음
      • 최근 논문 수 감소, 그러나 속도가 빠르고 메모리 적게 사용됨. (대량데이터에는 오히려 적합)
    • Attention : CTC와 동일하게 CNN, RNN 거치지만 Attention 기반 디코더가 추가되어 가변길이의 시퀀스 생성
      • 최근 논문 대부분. CTC보다는 느리나 정확함.

 

https://tv.naver.com/v/4578167

 

글자읽는 AI: 밑바닥부터 외국어 정복까지

NAVER Engineering | 글자읽는 AI: 밑바닥부터 외국어 정복까지

tv.naver.com

 

728x90

'Study (Data Science) > CV' 카테고리의 다른 글

Diffusion 2 (Stable diffusion)  (0) 2023.04.12
AE, DAE, VAE  (0) 2023.03.31
cGAN / Pix2pix  (0) 2023.02.18
생성 모델들 / GAN  (0) 2023.01.17
Convolution Layer 심화학습  (0) 2022.12.29

댓글