简介
PP-OCRv3是在PP-OCRv2基础上的进一步升级和优化,在识别的速度和精度上均有大幅提升。
如何使用
安装PaddlePaddle
如果您没有基础的Python运行环境,请参考运行环境准备。
您的机器安装的是CUDA9或CUDA10,请运行以下命令安装:
python3 -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple
您的机器是CPU,请运行以下命令安装:
python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
更多的版本需求,请参照飞桨官网安装文档中的说明进行操作。
安装PaddleOCR whl包
pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple --user
安装报错
安装过程中如果提示:
WARNING: The script paddleocr is installed in '/root/.local/bin' which is not on PATH.
Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
大意是没有将环境变量添加到路径,只需将/root/.local/bin
加入环境变量即可:
echo 'export PATH=/root/.local/bin:$PATH' >>~/.bashrc
source ~/.bashrc
快速体验
# 命令行使用
wget https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/dygraph/doc/imgs/11.jpg
paddleocr --image_dir 11.jpg --use_angle_cls true
运行完成后,会在终端输出如下结果:
[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], ('纯臻营养护发素', 0.96588134765625)]
[[[26.0, 81.0], [172.0, 83.0], [172.0, 104.0], [25.0, 101.0]], ('产品信息/参数', 0.9113278985023499)]
[[[28.0, 115.0], [330.0, 115.0], [330.0, 132.0], [28.0, 132.0]], ('(45元/每公斤,100公斤起订)', 0.8843421936035156)]
......
命令行使用
PaddleOCR提供了一系列测试图片,点击这里下载并解压,然后在终端中切换到相应目录
cd /path/to/ppocr_img
如果不使用提供的测试图片,可以将下方--image_dir
参数替换为相应的测试图片路径。
中英文模型
检测+方向分类器+识别全流程
paddleocr --image_dir ./imgs/11.jpg --use_angle_cls true --use_gpu false
--use_angle_cls true
设置使用方向分类器识别180度旋转文字,--use_gpu false
设置不使用GPU
结果是一个list,每个item包含了文本框,文字和识别置信度:
[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], ('纯臻营养护发素', 0.9658738374710083)]
......
识别pdf文件
此外,paddleocr也支持输入pdf文件,并且可以通过指定参数page_num来控制推理前面几页,默认为0,表示推理所有页。
paddleocr --image_dir ./xxx.pdf --use_angle_cls true --use_gpu false --page_num 2
执行命令时如果提示如下错误:
AttributeError: 'Document' object has no attribute 'pageCount'
则可能是由于PyMuPDF库更新导致的,里面的一些函数名发生了变化,可以直接安装老版本的这个库:
pip install PyMuPDF==1.19.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
单独使用检测
paddleocr --image_dir ./imgs/11.jpg --rec false
设置--rec
为false
结果是一个list,每个item只包含文本框:
[[27.0, 459.0], [136.0, 459.0], [136.0, 479.0], [27.0, 479.0]]
[[28.0, 429.0], [372.0, 429.0], [372.0, 445.0], [28.0, 445.0]]
......
单独使用识别
paddleocr --image_dir ./imgs/11.jpg --det false
设置--det
为false
结果是一个list,每个item只包含识别结果和识别置信度:
['韩国小馆', 0.994467]
更多whl包使用可参考whl包文档
多语言模型
PaddleOCR目前支持80个语种,可以通过修改--lang
参数进行切换,对于英文模型,指定--lang=en
。
paddleocr --image_dir ./imgs/11.jpg --lang=en
全部语种及其对应的缩写列表可查看多语言模型教程
Python脚本使用
通过Python脚本使用PaddleOCR whl包,whl包会自动下载ppocr轻量级模型作为默认模型。
检测+方向分类器+识别全流程
from paddleocr import PaddleOCR, draw_ocr
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch") # need to run only once to download and load model into memory
img_path = './imgs/11.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):
res = result[idx]
for line in res:
print(line)
# 显示结果
# 如果本地没有simfang.ttf,可以在doc/fonts目录下下载
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')
小结
通过本节内容,相信您已经熟练掌握PaddleOCR whl包的使用方法并获得了初步效果。
PaddleOCR是一套丰富领先实用的OCR工具库,打通数据、模型训练、压缩和推理部署全流程,您可以参考官方文档教程,正式开启PaddleOCR的应用之旅。
参考:https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/quickstart.md