OCR (광학문자인식)과 딥러닝

OCR(Optical Character Recognition, 광학 문자 인식)

1) Detection - 인식

2) Recognition - 해독

Object Detection(객체 인식) 방법이 사용됨
Regression(회귀) 방식 : 기준으로 하는 박스 대비 문자의 박스가 얼마나 차이가 나는지를 학습
Segmentation(세그멘테이션) : 픽셀 단위로 해당 픽셀이 문자를 표현하는지를 분류하는 문제(pixel-wise classification)
객체 : 물체에 따라 크기가 일정하고, 물체간 거리가 충분히 확부된다.
문자 : 문자는 영역과 배치가 자유롭고, 검출하기 위한 설정이 필요, 글자간 거리가 촘촘함. (박스가 겹침)
논문근거 기술분류
- Regression-based : 이미지 >> CNN
  - 객체검출 SSD(single shot detector) >> 글자검출 (Textboxes)
  - 최근 추세는 급감중. 글자 표현방식은 사각형(RBOX)으로 표현하는게 가장 많았음.
- Segmentation-based : 이미지 >> CNN >> 최소단위정보 >> 간단한 규칙
  - 각 화소가 글자영역에 속할 확률을 뽑고, 8개의 방향으로 이웃한 화소가 글자영역일 확률을 뽑고, 규칙적용
  - 1년사이 논문 수 급증, 학습이 안정적, RBOX에서 POLY 표현법이 서서히 증가중
- End-to-end : 기존 글자 찾는 CNN과 인식하는 CNN을 한번에 같이 학습시켜 상호 도움이 되게 함.
  - 최근 1년 사이에 논문이 등장함, 성능재현 어렵고 아직 안정적인 학습법 연구가 필요함

글자읽는 AI: 밑바닥부터 외국어 정복까지

NAVER Engineering | 글자읽는 AI: 밑바닥부터 외국어 정복까지

tv.naver.com

728x90