mac bookpro m1 安装tesseract5.x 并训练新字体

mac bookpro m1 安装 tesseract5.x,遇到的问题及处理记录

需要使用 tesseract 训练字体,brew install tesseract安装方式不带训练工具

训练工具遇到的问题

  1. unicharset_extractor: command not found 原因 brew install tesseract 安装 ,不会安装训练工具
  2. brew install --with-training-tools tesseract 安装提示
    Error: invalid option: --with-training-tools
  3. 编译安装,参考(tesseract-ocr.github.io/tessdoc/Co... ),执行到 make -j 会卡住,无法成功

安装

cd tesseract-5.0.1
./autogen.sh

brew install cairo pango icu4c autoconf libffi libarchive libpng
export PKG_CONFIG_PATH=\
$(brew --prefix)/lib/pkgconfig:\
$(brew --prefix)/opt/libarchive/lib/pkgconfig:\
$(brew --prefix)/opt/icu4c/lib/pkgconfig:\
$(brew --prefix)/opt/libffi/lib/pkgconfig:\
$(brew --prefix)/opt/libpng/lib/pkgconfig
./configure

make  # make -j m1 无法执行成功
sudo make install
make training
sudo make training-install

训练

cd /Users/zhaojunqiang/jTessBoxEditorFX/train_image

# 1.生成 tif对应的 .box 文件
tesseract t1.my.exp0.tif t1.my.exp0 -l eng --dpi 300 --psm 7 batch.nochop makebox

# 2.jTessBoxEditor 标注
# 3. 生成 box
tesseract t1.my.exp0.tif t1.my.exp0 --dpi 300 --psm 7 nobatch box.train
# 4.字体文件
touch font_properties
#<fontname> <italic> <bold> <fixed> <serif> <fraktur>  如: t1 0 0 0 0 0
echo 'font 0 0 0 0 0' > font_properties
# 5.生成字符集
unicharset_extractor t1.my.exp0.box
# 6. 形状分类器
shapeclustering -F font_properties -U unicharset t1.my.exp0.tr
# 7.生成字体特征文件
mftraining -F font_properties -U unicharset -O unicharset t1.my.exp0.tr
# 8. 聚集 tesseract 识别训练文件
cntraining t1.my.exp0.tr
# 9. 给 unicharset, inttemp, normproto,pfftable,shapetable文件加上字体名前缀(如 t1.my.exp0.)
# 10.合并生成字典
combine_tessdata t1.my.exp0.

# 11.将生成的 traineddata 复制到 tesseract tessdata 目录中
sudo cp t1.my.exp0.traineddata /usr/local/share/tessdata/t1.my.exp0.traineddata
# 12.修改名称
sudo mv t1.my.exp0.traineddata t1.traineddata
# 13.测试
tesseract img_2.jpg stdout

注意(否则可能不会成功):
1、严格按照 t1.my.exp0.
2 、训练图片要保持工整

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!