百度飞桨(PaddlePaddle) – 使用PP-OCRv3文字检测识别系统

简介

PP-OCRv3是在PP-OCRv2基础上的进一步升级和优化,在识别的速度和精度上均有大幅提升。

如何使用

安装PaddlePaddle

如果您没有基础的Python运行环境,请参考运行环境准备
您的机器安装的是CUDA9或CUDA10,请运行以下命令安装:

python3 -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

您的机器是CPU,请运行以下命令安装:

python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

更多的版本需求,请参照飞桨官网安装文档中的说明进行操作。

安装PaddleOCR whl包

pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple --user

安装报错

安装过程中如果提示:

WARNING: The script paddleocr is installed in '/root/.local/bin' which is not on PATH.
Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.

大意是没有将环境变量添加到路径,只需将/root/.local/bin加入环境变量即可:

echo 'export PATH=/root/.local/bin:$PATH' >>~/.bashrc
source ~/.bashrc

快速体验

# 命令行使用
wget https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/dygraph/doc/imgs/11.jpg
paddleocr --image_dir 11.jpg --use_angle_cls true

运行完成后,会在终端输出如下结果:

[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], ('纯臻营养护发素', 0.96588134765625)]
[[[26.0, 81.0], [172.0, 83.0], [172.0, 104.0], [25.0, 101.0]], ('产品信息/参数', 0.9113278985023499)]
[[[28.0, 115.0], [330.0, 115.0], [330.0, 132.0], [28.0, 132.0]], ('(45元/每公斤,100公斤起订)', 0.8843421936035156)]
......

命令行使用

PaddleOCR提供了一系列测试图片,点击这里下载并解压,然后在终端中切换到相应目录

cd /path/to/ppocr_img

如果不使用提供的测试图片,可以将下方--image_dir参数替换为相应的测试图片路径。

中英文模型

检测+方向分类器+识别全流程

paddleocr --image_dir ./imgs/11.jpg --use_angle_cls true --use_gpu false

--use_angle_cls true设置使用方向分类器识别180度旋转文字,--use_gpu false设置不使用GPU
结果是一个list,每个item包含了文本框,文字和识别置信度:

[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], ('纯臻营养护发素', 0.9658738374710083)]
......

识别pdf文件
此外,paddleocr也支持输入pdf文件,并且可以通过指定参数page_num来控制推理前面几页,默认为0,表示推理所有页。

paddleocr --image_dir ./xxx.pdf --use_angle_cls true --use_gpu false --page_num 2

执行命令时如果提示如下错误:

AttributeError: 'Document' object has no attribute 'pageCount'

则可能是由于PyMuPDF库更新导致的,里面的一些函数名发生了变化,可以直接安装老版本的这个库:

pip install PyMuPDF==1.19.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

单独使用检测

paddleocr --image_dir ./imgs/11.jpg --rec false

设置--recfalse
结果是一个list,每个item只包含文本框:

[[27.0, 459.0], [136.0, 459.0], [136.0, 479.0], [27.0, 479.0]]
[[28.0, 429.0], [372.0, 429.0], [372.0, 445.0], [28.0, 445.0]]
......

单独使用识别

paddleocr --image_dir ./imgs/11.jpg --det false

设置--detfalse
结果是一个list,每个item只包含识别结果和识别置信度:

['韩国小馆', 0.994467]

更多whl包使用可参考whl包文档

多语言模型

PaddleOCR目前支持80个语种,可以通过修改--lang参数进行切换,对于英文模型,指定--lang=en

paddleocr --image_dir ./imgs/11.jpg --lang=en

全部语种及其对应的缩写列表可查看多语言模型教程

Python脚本使用

通过Python脚本使用PaddleOCR whl包,whl包会自动下载ppocr轻量级模型作为默认模型。

检测+方向分类器+识别全流程

from paddleocr import PaddleOCR, draw_ocr

# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
img_path = './imgs/11.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        print(line)

# 显示结果
# 如果本地没有simfang.ttf,可以在doc/fonts目录下下载
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

小结

通过本节内容,相信您已经熟练掌握PaddleOCR whl包的使用方法并获得了初步效果。

PaddleOCR是一套丰富领先实用的OCR工具库,打通数据、模型训练、压缩和推理部署全流程,您可以参考官方文档教程,正式开启PaddleOCR的应用之旅。

参考:https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/quickstart.md

发表评论

邮箱地址不会被公开。 必填项已用*标注