当前位置:主页 > 资源下载 > 50 > Tesseract-OCR的文字识别训练数据文件是tessdata目录下的eng.traineddata，用于OCR识别

Tesseract-OCR的文字识别训练数据文件是tessdata目录下的eng.traineddata，用于OCR识别

更新：2024-07-26 23:57:56
大小：31.4MB
推荐：★★★★★
来源：网友上传分享
类别：机器学习 - 人工智能
格式：ZIP

反馈 / 投诉

资源介绍

1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

上一篇: osd/chi_sim/eng.traineddata
下一篇: 采用tesseract3.02+mfc+opencv提取中文、英文、数字字符

相关推荐

Tesseract-OCR的文字识别训练数据文件是tessdata目录下的eng.traineddata，用于OCR识别

资源介绍

热门标签

资源声明