mac bookpro m1 安装tesseract5.x 并训练新字体
mac bookpro m1 安装 tesseract5.x,遇到的问题及处理记录
需要使用 tesseract 训练字体,brew install tesseract
安装方式不带训练工具
训练工具遇到的问题
unicharset_extractor: command not found
原因 brew install tesseract 安装 ,不会安装训练工具brew install --with-training-tools tesseract
安装提示Error: invalid option: --with-training-tools
- 编译安装,参考(tesseract-ocr.github.io/tessdoc/Co... ),执行到
make -j
会卡住,无法成功
安装
cd tesseract-5.0.1
./autogen.sh
brew install cairo pango icu4c autoconf libffi libarchive libpng
export PKG_CONFIG_PATH=\
$(brew --prefix)/lib/pkgconfig:\
$(brew --prefix)/opt/libarchive/lib/pkgconfig:\
$(brew --prefix)/opt/icu4c/lib/pkgconfig:\
$(brew --prefix)/opt/libffi/lib/pkgconfig:\
$(brew --prefix)/opt/libpng/lib/pkgconfig
./configure
make # make -j m1 无法执行成功
sudo make install
make training
sudo make training-install
训练
cd /Users/zhaojunqiang/jTessBoxEditorFX/train_image
# 1.生成 tif对应的 .box 文件
tesseract t1.my.exp0.tif t1.my.exp0 -l eng --dpi 300 --psm 7 batch.nochop makebox
# 2.jTessBoxEditor 标注
# 3. 生成 box
tesseract t1.my.exp0.tif t1.my.exp0 --dpi 300 --psm 7 nobatch box.train
# 4.字体文件
touch font_properties
#<fontname> <italic> <bold> <fixed> <serif> <fraktur> 如: t1 0 0 0 0 0
echo 'font 0 0 0 0 0' > font_properties
# 5.生成字符集
unicharset_extractor t1.my.exp0.box
# 6. 形状分类器
shapeclustering -F font_properties -U unicharset t1.my.exp0.tr
# 7.生成字体特征文件
mftraining -F font_properties -U unicharset -O unicharset t1.my.exp0.tr
# 8. 聚集 tesseract 识别训练文件
cntraining t1.my.exp0.tr
# 9. 给 unicharset, inttemp, normproto,pfftable,shapetable文件加上字体名前缀(如 t1.my.exp0.)
# 10.合并生成字典
combine_tessdata t1.my.exp0.
# 11.将生成的 traineddata 复制到 tesseract tessdata 目录中
sudo cp t1.my.exp0.traineddata /usr/local/share/tessdata/t1.my.exp0.traineddata
# 12.修改名称
sudo mv t1.my.exp0.traineddata t1.traineddata
# 13.测试
tesseract img_2.jpg stdout
注意(否则可能不会成功):
1、严格按照 t1.my.exp0.
2 、训练图片要保持工整
本作品采用《CC 协议》,转载必须注明作者和本文链接