(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210447307.0
(22)申请日 2022.04.25
(71)申请人 北京百度网讯科技有限公司
地址 100089 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 安容巧
(74)专利代理 机构 北京乐知新创知识产权代理
事务所(普通 合伙) 11734
专利代理师 王曌寅
(51)Int.Cl.
G06V 30/148(2022.01)
G06F 40/194(2020.01)
G06K 9/62(2022.01)
G06V 10/74(2022.01)
G06V 30/19(2022.01)
(54)发明名称
文本识别方法、 装置、 电子设备及存 储介质
(57)摘要
本公开提供了一种文本识别方法、 装置、 电
子设备及存储介质, 涉及人工智 能技术领域, 具
体涉及深度学习、 图像处理、 计算机视觉技术领
域, 可应用于OCR(光学字符识别)等场景, 包括:
对获取的待识别图片进行包含第一对象的第一
区域识别, 得到多个第一区域和第一区域对应的
第一对象置信度, 并从第一区域中提取特征, 得
到第一区域对应的第一特征数据; 从样本库中获
取第一文本对应的第二特征数据; 根据第一特征
数据和第二特征数据, 分别计算第一区域与多个
第一文本之间的相似度; 基于相似度从多个第一
区域中确定目标第一区域; 基于目标第一区域和
相似度确定待识别图片的目标文本 。
权利要求书4页 说明书15页 附图7页
CN 114782956 A
2022.07.22
CN 114782956 A
1.一种文本识别方法, 包括:
对获取的待识别图片进行包含第 一对象的第 一区域识别, 得到多个第 一区域和所述第
一区域对应的第一对 象置信度, 并从所述第一区域中提取特征, 得到所述第一区域对应的
第一特征数据;
从样本库中获取第 一文本对应的第 二特征数据, 所述第 二特征数据为对所述第 一文本
在所属图片中对应的第一区域进行 特征提取得到的, 所述样本库中包括多个第一文本;
根据所述第 一特征数据和第 二特征数据, 分别计算所述第 一区域与多个所述第 一文本
之间的相似度;
基于所述相似度从所述多个第一区域中确定目标第一区域;
基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本 。
2.根据权利要求1所述的方法, 所述获取待识别图片, 包括:
采集原始图片;
对所述原 始图片进行旋转角度识别, 得到 旋转角度;
根据所述旋转角度对所述原 始图片进行倾 斜矫正, 得到待识别图片。
3.根据权利要求1所述的方法, 所述基于所述相似度从所述多个第一区域中确定目标
第一区域, 包括:
从所述第一区域对应的多个相似度中选取最大相似度;
确定所述多个第一区域中存在至少一个第一区域的所述最大相似度大于等于第一预
设值, 将所述至少一个第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
4.根据权利要求1所述的方法, 所述基于所述目标第一区域和所述相似度确定所述待
识别图片的目标文本, 包括:
从所述目标第一区域对应的多个相似度中选取最大相似度;
将所述最大相似度对应的第一文本确定为所述待识别图片的目标文本 。
5.根据权利要求3所述的方法, 确定所述多个第一区域中不存在任意一个第一区域的
所述最大相似度大于等于第一预设值, 还 包括:
对于所述第一区域的所述多个相似度, 按照从高到低排序, 选取所述第一区域对应预
设数量的相似度;
确定满足第一设定条件的第一区域, 所述第一设定条件包括: 第一区域对应的预设数
量的相似度所对应的多个第一文本相同, 且所述预设数量的相似度均大于等于第二预设
值, 所述第二预设值小于第一预设值;
将所述满足第一设定条件的第一区域中第一对象置信度最高的第一区域确定为目标
第一区域。
6.根据权利要求5所述的方法, 确定不存在满足第一设定条件的第一区域, 还 包括:
对所述待识别图片进行包含第 二对象的第 二区域识别, 得到多个第 二区域以及每个第
二区域对应的第二对象置信度;
对所述待识别图片进行文本识别, 得到多个文本区域和每个文本区域对应的第二文
本;
对所述第二文本进行语义识别, 得到所述第二文本对应的文本信息标签和文本置信
度;权 利 要 求 书 1/4 页
2
CN 114782956 A
2从所述待识别图片对应的所有第 二文本中删除满足第 二设定条件的第 二文本, 所述第
二设定条件包括: 第二文本的文本信息标签指示该第二文本为第一特定文本; 或, 第二文本
的文本置信度小于第三预设值; 或, 第二文本对应的文本区域的面积小于第四预设值;
对剩余的第二文本去重, 并将去重后的第二文本确定为第三文本;
根据第三文本的文本 内容确定存在至少一个第 三文本为第 二特定文本, 从所述至少一
个第三文本中选取文本 置信度最高的第三文本作为所述待识别图片的目标文本 。
7.根据权利要求6所述的方法, 所述得到多个文本区域和每个文本区域对应的第二文
本之后, 还 包括:
对所述第二文本进行文本纠错, 得到所述第 二文本的纠错置信度和与 所述第二文本对
应的多个第四文本以及每 个第四文本的纠错置信度;
确定纠错置信度最高的所述第四文本的纠错置信度 大于所述第 二文本的纠错置信度,
将该第二文本更新 为该第四文本 。
8.根据权利要求6所述的方法, 从所述待识别图片对应的所有第二文本中删除满足第
二设定条件的第二文本之前, 该 方法还包括:
将所述第二文本的文本区域与所述多个第 二区域进行匹配, 确定存在至少一个第 二区
域与该文本区域的重叠面积大于第一预设百分比, 将该文本区域的文本置信度更新为第五
预设值。
9.根据权利要求6所述的方法, 确定不存在任意一个第三文本为第二特定文本, 还包
括:
确定满足如下条件的第 三文本: 所述多个第 二区域中存在至少一个第 二区域与第 三文
本对应的文本区域重 叠面积大于第一预设百分比;
从满足条件的所述第三文本对应的所述至少一个第二区域中选取第二区域宽度最大
的第二区域作为所述第三文本的匹配第二区域;
将第二区域宽度最大的匹配第二区域对应的第三文本作为所述待识别图片的目标文
本。
10.一种文本识别装置, 包括:
识别模块, 用于对获取的待识别图片进行包含第一对象的第一区域识别, 得到多个第
一区域和所述第一区域对应的第一对 象置信度, 并从所述第一区域中提取特征, 得到所述
第一区域对应的第一特 征数据;
处理模块, 用于从样本库中获取第一文本对应的第二特征数据, 所述第二特征数据为
对所述第一文本在所属图片中对应的第一区域进 行特征提取得到的, 所述样本库中包括多
个第一文本;
计算模块, 用于根据所述第一特征数据和第二特征数据, 分别计算所述第一区域与多
个所述第一文本之间的相似度;
所述处理模块, 还用于基于所述相似度从所述多个第一区域中确定目标第一区域;
所述处理模块, 还用于基于所述目标第 一区域和所述相似度确定所述待识别图片的目
标文本。
11.根据权利要求10所述的装置, 还 包括:
采集模块, 还用于采集原 始图片;权 利 要 求 书 2/4 页
3
CN 114782956 A
3
专利 文本识别方法、装置、电子设备及存储介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:59:48上传分享