광학 문자 인식(OCR: optical character recognition) 엔진 중 tesseract는 구글이 개발하였습니다. 테서랙트의 광학 문자 인식 성능을 높이기 위해 트레이닝을 진행할 수 있는데요, 이번 주제는 traineddata(tessdata) 관련 자료입니다.
테서랙트 OCR 트레인드데이터 파일을 다운로드 받을 수 있는 곳을 소개합니다.
- Two more sets of official traineddata, trained at Google, are made available in the following Github repos.
- These do not have the legacy models and only have LSTM models usable with --oem 1.
- https://github.com/tesseract-ocr/tessdata_best
- https://github.com/tesseract-ocr/tessdata_fast
- https://github.com/tesseract-ocr/tessdata
직접적인 트레이닝(언어 학습)을 원하시는 경우
https://tesseract-ocr.github.io/tessdoc/
Tesseract User Manual, Tesseract documentation, tesseract-ocr.github.io 관련 자료가 있습니다.
=> Training for Tesseract