用Python写了一个图像文字识别OCR工具

内容分享4个月前发布

6 17 0

人生苦短，快学Python！

在之前的文章里，我们多次尝试用Python实现文本OCR识别！

今天我们要搞一个升级版：直接写一个 图像文字识别OCR工具 ！

引言

最近在技术交流群里聊到一个关于图像文字识别的需求，在工作、生活中常常会用到，列如 票据、漫画、扫描件、照片的文本提取 。

博主基于 PyQt + labelme + PaddleOCR 写了一个桌面端的OCR工具，用于快速实现图片中 文本区域自动检测+文本自动识别 。

识别效果如下图所示：

干货主要有：

① 200 多本 Python 电子书（和经典的书籍）应该有

② Python标准库资料（最全中文版）

③ 项目源码（四五十个有趣且可靠的练手项目及源码）

④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）
私信小编01即可获取大量Python学习资源

用Python写了一个图像文字识别OCR工具

▲OCR工具识别效果

所有框选区域为OCR算法自动检测，右侧列表有每个框对应的文字内容；点击右侧“识别结果”中的文本记录，然后点击“复制到剪贴板”即可复制该文本内容。

功能列表

文本区域检测+文字识别
文本区域可视化
文字内容列表
图像、文件夹加载
图像滚轮缩放查看
绘制区域、编辑区域
复制所选文本识别结果

OCR部分

图像文字检测+文字识别算法，主要借助 paddleocr 实现。

创建或者选择一个虚拟环境，安装需要用到的第三方库。

conda create -n ocr
conda activate ocr

安装框架

如果你没有NVIDIA GPU，或GPU不支持CUDA，可以安装CPU版本：

# CPU版本
pip install paddlepaddle==2.1.0 -i https://mirror.baidu.com/pypi/simple

如果你的GPU安装过CUDA9或CUDA10，cuDNN 7.6+，可以选择下面这个GPU版本：

# GPU版本
python3 -m pip install paddlepaddle-gpu==2.1.0 -i https://mirror.baidu.com/pypi/simple

安装 PaddleOCR

安装paddleocr：

pip install "paddleocr>=2.0.1" # 推荐使用2.0.1+版本

版面分析，需要安装 Layout-Parser：

pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

测试安装是否成功

安装完成后，测试一张图片 –image_dir ./imgs/11.jpg ，采用中英文检测+方向分类器+识别全流程：

paddleocr --image_dir ./imgs/11.jpg --use_angle_cls true --use_gpu false

输出一个list：

用Python写了一个图像文字识别OCR工具

在python中调用

from paddleocr import PaddleOCR, draw_ocr

# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
img_path = './imgs/11.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

输出结果是一个list，每个item包含了文本框，文字和识别置信度：

[[[24.0, 36.0], [304.0, 34.0], [304.0, 72.0], [24.0, 74.0]], ['纯臻营养护发素', 0.964739]] [[[24.0, 80.0], [172.0, 80.0], [172.0, 104.0], [24.0, 104.0]], ['产品信息/参数', 0.98069626]] [[[24.0, 109.0], [333.0, 109.0], [333.0, 136.0], [24.0, 136.0]], ['（45元/每公斤，100公斤起订）', 0.9676722]] ……

界面部分

界面部分基于pyqt5实现，其中pyqt GUI程序开发入门和环境配置，详见一篇博客(具体见文末)。

主要步骤：

界面布局设计

在QtDesigner中拖拽控件，完成程序界面布局，并保存 *.ui 文件。

用Python写了一个图像文字识别OCR工具

利用 pyuic 自动生成界面代码

在 pycharm 的项目文件结构中找到 *.ui 文件，右键——External Tools——pyuic，会在ui文件同级目录下自动生成界面 ui 的 Python 代码。

用Python写了一个图像文字识别OCR工具

编写界面业务类

业务类 MainWindow 实现程序逻辑和算法功能，与前面第2步生成的ui实现解耦，避免每次修改ui文件会影响业务代码。ui界面上的控件可以通过 self._ui.xxxObjectName 访问。

class MainWindow(QMainWindow):
 FIT_WINDOW, FIT_WIDTH, MANUAL_ZOOM = 0, 1, 2

 def __init__(self):
  super().__init__()  # 调用父类构造函数，创建QWidget窗体
  self._ui = Ui_MainWindow()  # 创建ui对象
  self._ui.setupUi(self)  # 构造ui
  self.setWindowTitle(__appname__)

  # 加载默认配置
  config = get_config()
  self._config = config    
  
  # 单选按钮组
        self.checkBtnGroup = QButtonGroup(self)
        self.checkBtnGroup.addButton(self._ui.checkBox_ocr)
        self.checkBtnGroup.addButton(self._ui.checkBox_det)
        self.checkBtnGroup.addButton(self._ui.checkBox_recog)
        self.checkBtnGroup.addButton(self._ui.checkBox_layoutparser)
        self.checkBtnGroup.setExclusive(True)

实现界面业务逻辑

对主界面上的按钮、列表、绘图控件进行 信号槽连接 。自定义的槽函数不用专门声明，如果是自定义的信号，需要在类__init__()前加上 yourSignal= pyqtSignal(args) 。

这里以按钮响应函数、列表响应函数为例。按钮点击的信号是 clicked ，listWidget列表切换选择的信号是 itemSelectionChanged 。

# 按钮响应函数
self._ui.btnOpenImg.clicked.connect(self.openFile)
self._ui.btnOpenDir.clicked.connect(self.openDirDialog)
self._ui.btnNext.clicked.connect(self.openNextImg)
self._ui.btnPrev.clicked.connect(self.openPrevImg)
self._ui.btnStartProcess.clicked.connect(self.startProcess)
self._ui.btnCopyAll.clicked.connect(self.copyToClipboard)
self._ui.btnSaveAll.clicked.connect(self.saveToFile)
self._ui.listWidgetResults.itemSelectionChanged.connect(self.onItemResultClicked)

5. 运行看看效果

运行 python main.py 即可启动GUI程序。

打开图片→选择语言模型ch（中文）→选择文本检测+识别→点击开始，检测完的文本区域会自动画框，并在右侧识别结果——文本Tab页的列表中显示。

用Python写了一个图像文字识别OCR工具

所有检测出文本的区域列表，在识别结果——区域Tab页：

用Python写了一个图像文字识别OCR工具

软件代码

由于时间有限，软件细节功能还需进一步完善。代码已开源到 gitee 上，欢迎感兴趣的朋友提pull request，共同修改完善。

代码开源地址：
https://gitee.com/signal926/ocr-gui-demo

内容分享

文章版权归作者所有，未经允许请勿转载。

物联网协议解析: MQTT与CoAP技术应用

内容分享

3个月前

030

仅需5步，汉化Kali Linux系统（详细版）

内容分享

4个月前

310

RabbitMQ-进阶

内容分享

3个月前

030

要不是高考时脑子里循环放歌，说不定我早考上清华北大了

内容分享

2周前

610

17 条评论

mozrly 读者

识别库是免费的吗？

4个月前无记录

回复
小邦读者

识别效果咋样？

4个月前无记录

回复
啵啵虎崽mx 投稿者

1、语音转文字，并且给出时间线，这个用python，应该也不难实现吧，2、反向控制，用文字，自动配音，用python也是可以的吧，

4个月前无记录

回复
恋兔萌猫投稿者

调用百度腾讯api就可以了

4个月前无记录

回复
恐龙读者

现在这个正在学习ai，请问现在图片识别技术，用的最多的是哪个框架啊？免费的、流行的第三方框架

4个月前无记录

回复
三级片丶推荐读者

真棒

4个月前无记录

回复
不改名读者

求软件

4个月前无记录

回复
Siiihx 投稿者

谢谢分享，收藏

4个月前无记录

回复
木子君读者

用chineseocr

4个月前无记录

回复
泣負读者

《写一个》

4个月前无记录

回复
浅浅地微笑淡淡的温柔读者

转发

4个月前无记录

回复
女王爱时尚读者

能不能识别用哪个字体，大小呢

4个月前无记录

回复
创创草草比个大鲨碑读者

是免费的，最近用看门狗，加上ocr实时识别图片文本

4个月前无记录

回复
-小熊不知道读者

学习了

4个月前无记录

回复
北方的青鸟读者

我看刑

4个月前无记录

回复
清如水读者

免费的离线识别?

4个月前无记录

回复
跑跑跑跑笑面虎读者

收藏了，感谢分享

4个月前无记录

回复

用Python写了一个图像文字识别OCR工具

引言

干货主要有：

功能列表

OCR部分

安装框架

安装 PaddleOCR

测试安装是否成功

在python中调用

界面部分

界面布局设计

利用 pyuic 自动生成界面代码

编写界面业务类

实现界面业务逻辑

5. 运行看看效果

软件代码

Win11系统蓝屏出现critical process died代码怎么办？解决办法来啦

浅谈Go语言的并发控制

相关文章

物联网协议解析: MQTT与CoAP技术应用

仅需5步，汉化Kali Linux系统（详细版）

RabbitMQ-进阶

要不是高考时脑子里循环放歌，说不定我早考上清华北大了

17 条评论

热门网站

3699小游戏

3699小游戏

小苹果网页助手

最新电影大片_电视剧全集免费在线观看-星辰电影网永久在线观看大片

微信网页版

多多进宝

热门文章

Kiro卡密使用登录指南

WinForms & WPF应用报表界面开发新风尚，这个工具你知道吗？

书生大模型InternLM2：从2.6T数据到200K上下文的开源模型王者

AI应用架构师实战：用自动化编程助手搭建高并发AI接口服务，附压测数据！

DeepSeek分析

ESP32-S3-WROOM-1-N16R8 对接 PS2 游戏手柄：从硬件到软件的全流程技术指南

用Python写了一个图像文字识别OCR工具

引言

干货主要有：

功能列表

OCR部分

安装框架

安装 PaddleOCR

测试安装是否成功

在python中调用

界面部分

界面布局设计

利用 pyuic 自动生成界面代码

编写界面业务类

实现界面业务逻辑

5. 运行看看效果

软件代码

Win11系统蓝屏 出现critical process died代码怎么办？解决办法来啦

浅谈Go语言的并发控制

相关文章

热门网站

3699小游戏

3699小游戏

小苹果网页助手

最新电影大片_电视剧全集免费在线观看-星辰电影网永久在线观看大片

微信网页版

多多进宝

热门文章

标签云

Win11系统蓝屏出现critical process died代码怎么办？解决办法来啦