• 发文
  • 评论
  • 微博
  • 空间
  • 微信

百度ai系列研究:开放能力——文字识别

智先声 2021-08-25 09:30 发文

每周一篇原创,关注5G、物联网、人工智能,跟着我的【头号观点】坚持利用碎片时间学习

本期继续研究百度ai能力,在人工智能应用中,文字识别是最广泛也最有实用价值之一。

通俗的讲,文字识别就是将图片中的文字提取出来,让计算机能够存储,当然加上自然语言处理,让计算机能够理解也是泛文字识别领域。

百度文字识别能力

百度在文字识别的开放能力做得非常细,因为文字识别要进场景才更有价值,包括以下几个方面:

通用文字识别

卡证文字识别

票据文字识别

教育场景文字识别

汽车场景文字识别

其它类文字识别(不断扩充中)

接下来我们就详细介绍一下这几类文字识别:

通用文字识别

分类:

通用文字识别:对图片中的文字进行检测和识别,支持中、英、法、俄、西、葡、德、意、日、韩、中英混合等10种语言识别,同时支持中、英、日、韩四语种的类型检测

高精度版:在通用文字识别的基础上,提供更高精度的识别服务,支持更多语种识别(丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语),并将字库从1w+扩展到2w+,能识别所有常用字和大部分生僻字

含位置信息版:在通用文字识别的基础上,返回文字在图片中的位置信息,方便用户进行版式的二次处理

高精度含位置版:在通用文字识别(高精度版)的基础上,返回文字在图片中的位置信息,方便用户进行版式的二次处理

应用场景:

拍照、截图识别:使用通用文字识别技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验

内容审核与监管:使用通用文字识别技术,实现对图像中文字内容的提取,结合文本审核技术识别违规内容,提示相应风险,协助进行违规处理,可应用于电商广告审核、舆情监管等场景,帮助用户有效规避业务风险

视频内容分析:使用通用文字识别技术,实现对视频中的字幕、标题、弹幕等文字内容的检测和识别,并根据文字位置判断文字类型,可应用于视频分类和标签提取、视频内容审核、营销分析等场景,有效降低人力成本,控制业务风险

纸质文档电子化:使用通用文字识别技术,实现对各类医疗单据、金融财税票据、法律卷宗等纸质文档的识别,并返回文字在图片中的位置信息以便于进行比对、结构化等处理,可满足医疗、金融、政务、法务、教育等行业文档快速录入、存档和检索的需求,有效降低企业人力成本,提高信息录入效率

票据文字识别

混贴票据识别:切分并识别原始票据粘贴单上的多种票据

银行回单识别:识别收/付款人信息、金额、日期等关键信息

增值税发票识别:识别增值税普票或专票所有30个字段

定额发票识别:识别各类定额发票的代码、号码、金额字段

通用机打发票识别:识别国家/地方税务局发行的机打发票信息

火车票识别:识别红、蓝火车票的8个关键字段

出租车票识别:识别全国各大城市出租车票的6个关键字段

行程单识别:识别飞机行程单的姓名、日期、票价等字段

通用票据识别:针对票据场景专项算法优化,按行识别各类票据

银行汇票识别:出票金额、承兑人信息等21个关键字段

银行支票识别:识别收款/付款人信息、金额等7个关键字段

保险单识别:识别人身保险保单的投保人/被保人/受益人信息

彩票识别:识别大乐透、双色球彩票票面内容,按行返回

教育场景文字识别

手写文字识别:支持对图片中的手写中文、手写数字进行检测和识别

公式识别:支持对试卷中的数学公式及题目内容进行识别

在教育场景识别中有一个知识点“Latex”,我们详细解释一下:由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天、甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。这个系统同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。

汽车场景文字识别

行驶证识别:识别机动车行驶证主页及副页所有21个字段

驾驶证识别:识别机动车驾驶证正本所有9个字段

车牌识别:识别蓝牌、绿牌、单/双行黄牌等类型车牌

VIN码识别:识别车辆挡风玻璃处的车辆识别号码

机动车销售发票识别:识别发票号码、发动机号、VIN码、价格等字段

车辆合格证识别:识别合格证编号、车架号、排放标准等字段

其它文字识别

网络图片文字识别:识别艺术字体或背景复杂的文字内容

表格文字识别:识别表头、表尾及每个单元格的文字内容

数字识别:对图片中的数字进行提取和识别

二维码识别:对图片中的二维码、条形码进行检测和识别

印章检测:支持对合同文件或常用票据中的印章进行检测

文档版面分析与识别:识别文档中图、表、标题、文本的位置及文字内容

仪器等表盘识别:识别各类血糖仪、血压仪、燃气表、电表等表盘读数

文字识别的难点

传统OCR基于数字图像处理和传统机器学习等方法对图像进行处理和特征提取。常用的二值化处理有利于增强简单场景的文本信息,但对于复杂背景二值化的收效甚微

传统方法上采用HoG对图像进行特征提取,然而HoG对于图像模糊、扭曲等问题鲁棒性很差,对于复杂场景泛化能力不佳

传统OCR技术只进行图像内容的识别,导致在有遮挡、变形、阴影等环节下,错误率较高

结语

文字识别本身不难,第一难的是前端的图像质量,对图像的处理是核心 ,破损、模糊、折痕等都是问题;第二难的是识别后的纠错能力,0和O的区别?1和i的区别等。文字识别是重要的应用场景,因为我们的纸质文档太多了。

免责声明:

本公众号为个人研究专题学习分享,非商业公众号无任何商业目的,如果文章内容有侵权或者非法信息,请立即与本号联系删除谢谢

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    智先声

    新科技观察者与实践者...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码