Overview

OCR (Optical Character Recognition) 기술은 사람이 직접 쓰거나 이미지 속에 있는 문자를 얻은 다음 이를 컴퓨터가 인식할 수 있도록 하는 기술로, 컴퓨터 비전 분야에서 현재 널리 쓰이는 대표적인 기술 중 하나입니다.

OCR은 글자 검출 (text detection), 글자 인식 (text recognition), 정렬기 (Serializer) 등의 모듈로 이루어져 있습니다.

자세한 내용은 AI Stages에서 확인해주세요.

대회 플랫폼 AI Stages 링크: https://stages.ai/en/competitions/315/

Data-Centric AI 개요

OCR: 이미지 내 문자를 인식

Al system = Code + Data

Data-Centric AI의 중요성

DMOps: Data Management Operations & Recipes

  1. 좋은 데이터를 모으기 힘들다
  2. 라벨링 작업에 대한 명확한 정답이 없고 비용이 크다

좋은 데이터란?

"레이블 일관성"이 중요하다
data quality + balance가 있어야 한다.

OCR Tasks