OCR 从入门到放弃

教程 / 14 / 9 / 创建于 9年前

最近在爬某网站，老是蹦出来验证码，就想着找个OCR破了这个验证码，然后就开始了OCR探索之旅。

首先简单说一下什么是OCR

OCR是（Optical Character Recognition，光学字符识别）的简称，主要用途：

办公用途，用来识别图片里面的文字，可以高效率的录入图片类型文件。
识别网站验证码
详见维基百科或者百度百科

OCR识别的验证码原理

采集一批验证码，根据图片特点进行初步处理（二值化/灰度化/滤波/降噪等处理）
然后分割图片，旋转图片，模板选取，训练算法，让它更准确。
有兴趣的可以看一个Python实现的OCR识别验证码详细demo,实际操作过程挺有意思的，大家有兴趣了可以试试
OCR识别验证码的具体操作
首先我测试了一个百度开源的Node.js实现的OCR包
gitHub地址 https://github.com/netpi/baidu-ocr-api
安装也很简单直接按照官方的文档安装即可
发现百度的这个OCR包识别效果不太理想
然后经过一番Google和小伙伴们的推荐选择一个Google开源的tesseract这个是C++写的，直接融合到爬虫里不太方便，有外国朋友基于tesseract封装了一个Python的包pytesseract,直接开箱即用，融入爬虫程序中。
百闻不如一run
ps(这里使用的操作系统是Ubuntu16.04；Python版本是2.7)
直接 pip install pytesseract 然后Python图片处理要用到PIL(Python Imaging Library) pip install PIL
原图片

写个简单的测试demo

看下识别结果

报错了，根据报错信息来看，是确实了什么文件，或者依赖lib
我跟踪了pytesseract的代码，发现是少了C++提供的OCR服务，因为pytesseract是调用的tesseract(C++写的)
然后安装tesseract sudo apt install tesseract
再run一下代码

整体结果还可以（倒数第四位识别错了），再训练一下准确率就更高了。
预知后事如何，且听下回分解

我的GitHub

本帖已被设为精华帖！

本帖由 Summer 于 9年前加精

课程读者 231 声望

搬砖 @ OpenSource

talk is cheap show me the code

《L05 电商实战》

从零开发一个电商项目，功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等

《L03 构架 API 服务器》

你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程，JWT 概念及使用和 API 开发相关的进阶知识。

推荐文章：

更多推荐...

记一次 Laravel5 升级到 Laravel10 经过 + 使用 octane 进行容器化 10 / 29 |

从零开始部署在 Kubernetes 中部署 Laravel应用（0） 14 / 2 |

它来了它来了。Laravel Reverb 到来了 15 / 24 |

vim 入门级需要了解的一些快捷键 10 / 7 |

部署 Laravel 到 BT 宝塔面板，并集成阿里云 Codeup 自动部署 13 / 12 |

通联支付对接小技巧——汇入金接入介绍及流程设计 13 / 7 |

讨论数量: 9

zhuzhichao

L5.3 译者 500 声望

期待如何放弃 :laughing:

9年前评论

CryptoPanda

课程读者 231 声望 / 搬砖 @ OpenSource

@zhuzhichao 不言弃不放弃

9年前评论

suhanyujie

Laravel 8.x 译者 82 声望 / Go 开发工程师 @ 斗浪信息有限公司

好像知道结局，lz赶紧更新下一集啊~~~~

9年前评论

后端时光

57 声望

在线等更新

9年前评论

zhangwei900808

27 声望

python阿，可是这是php社区阿

9年前评论

CryptoPanda

课程读者 231 声望 / 搬砖 @ OpenSource

@zhangwei900808 lz是php程序员 php信徒 python打杂 :laughing:

9年前评论

lijinma

LaraDinner 03 483 声望 / 吹牛大王 @ 币圈金马奖

等故事的下集。。。

9年前评论

远客

48 声望

同样期待如何放弃

9年前评论

mingyun

27 声望

楼主赶紧更新了

9年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助