视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
Python代码实现图片文字的识别
2020-11-27 14:13:11 责编:小采
文档


本篇文章给大家分享的是Python代码实现图片文字识别,内容挺不错的,希望可以帮助到有需要的朋友

我们以识别诗词为例
下面是我们要识别的图片

先看下效果图


我们运行代码后识别的结果,有几个字没有正确识别,但是大多数字都能识别出来。

风急天高猿啸哀 渚芸胄芳少白鸟飞凤
无边落木萧萧下, 不尽长量工盲衮宕衮来
万里悲秋常1乍窨, 百年多病独登氤
艰难苦恨擎霜量 漂倒新停澍酉帆

一行代码就能识别图片,我们背后要做些准备工作的

  • 这里我们需要用到两个库:pytesseract和PIL

  • 同时我们还需要安装识别引擎tesseract-ocr

  • 下面就来讲讲这几个库的安装,因为只有这几个库安装好以后Python才能实现一行代码实现图片文字识别

    一,pytesseract和PIL的安装

    安装这两个包可以借助pip
    - 1,命令行安装
    pip install PIL
    pip install pytesseract
    - 2,如果你用的pycharm编辑器,就可以直接借助pycharm实现快速安装。
    在pycharm的Settings设置页按照下面步骤操作

    这样就能成功安装pytesseract,安装PIL只需要在上面第三步里搜索PIL并点击安装即可

    这时我们安转好了库,运行下面代码

    from PIL import Image
    import pytesseract
    text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')
    print(text)

    会报下面错误,错误原因是:没有安装识别引擎tesseract-ocr

    二,安装识别引擎tesseract-ocr

  • 1.下载下面的安装包,然后直接点击安装即可
    tesseract-ocr安装包和中文语言包

  • 解压安装tesseract-ocr后做如下操作,就可以支持中文识别了。因为tesseract-ocr默认不支持中文识别。

  • 2,安装完成tesseract-ocr后,我们还需要做一下配置
    在C:UsershuxiuAppDataLocalProgramsPythonPython35Libsite-packagespytesseract找到pytesseract.py打开后做如下操作

  • # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
    #tesseract_cmd = 'tesseract'
    tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

    也可以通过pycharm快速打开pytesseract.py

    至此我们所有的配置就完成了,运行下面代码就可以把杜甫的登高这首图片诗解析成文字了

    下载本文
    显示全文
    专题