专利 文本识别方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210447307.0 (22)申请日 2022.04.25 (71)申请人北京百度网讯科技有限公司地址 100089 北京市海淀区上地十街10号百度大厦2层 (72)发明人安容巧　 (74)专利代理机构北京乐知新创知识产权代理事务所(普通合伙) 11734 专利代理师王曌寅 (51)Int.Cl. G06V 30/148(2022.01) G06F 40/194(2020.01) G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 30/19(2022.01) (54)发明名称文本识别方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种文本识别方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR(光学字符识别)等场景，包括：对获取的待识别图片进行包含第一对象的第一区域识别，得到多个第一区域和第一区域对应的第一对象置信度，并从第一区域中提取特征，得到第一区域对应的第一特征数据；从样本库中获取第一文本对应的第二特征数据；根据第一特征数据和第二特征数据，分别计算第一区域与多个第一文本之间的相似度；基于相似度从多个第一区域中确定目标第一区域；基于目标第一区域和相似度确定待识别图片的目标文本。权利要求书4页说明书15页附图7页 CN 114782956 A 2022.07.22 CN 114782956 A 1.一种文本识别方法，包括：对获取的待识别图片进行包含第一对象的第一区域识别，得到多个第一区域和所述第一区域对应的第一对象置信度，并从所述第一区域中提取特征，得到所述第一区域对应的第一特征数据；从样本库中获取第一文本对应的第二特征数据，所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的，所述样本库中包括多个第一文本；根据所述第一特征数据和第二特征数据，分别计算所述第一区域与多个所述第一文本之间的相似度；基于所述相似度从所述多个第一区域中确定目标第一区域；基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本。 2.根据权利要求1所述的方法，所述获取待识别图片，包括：采集原始图片；对所述原始图片进行旋转角度识别，得到旋转角度；根据所述旋转角度对所述原始图片进行倾斜矫正，得到待识别图片。 3.根据权利要求1所述的方法，所述基于所述相似度从所述多个第一区域中确定目标第一区域，包括：从所述第一区域对应的多个相似度中选取最大相似度；确定所述多个第一区域中存在至少一个第一区域的所述最大相似度大于等于第一预设值，将所述至少一个第一区域中第一对象置信度最高的第一区域确定为目标第一区域。 4.根据权利要求1所述的方法，所述基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本，包括：从所述目标第一区域对应的多个相似度中选取最大相似度；将所述最大相似度对应的第一文本确定为所述待识别图片的目标文本。 5.根据权利要求3所述的方法，确定所述多个第一区域中不存在任意一个第一区域的所述最大相似度大于等于第一预设值，还包括：对于所述第一区域的所述多个相似度，按照从高到低排序，选取所述第一区域对应预设数量的相似度；确定满足第一设定条件的第一区域，所述第一设定条件包括：第一区域对应的预设数量的相似度所对应的多个第一文本相同，且所述预设数量的相似度均大于等于第二预设值，所述第二预设值小于第一预设值；将所述满足第一设定条件的第一区域中第一对象置信度最高的第一区域确定为目标第一区域。 6.根据权利要求5所述的方法，确定不存在满足第一设定条件的第一区域，还包括：对所述待识别图片进行包含第二对象的第二区域识别，得到多个第二区域以及每个第二区域对应的第二对象置信度；对所述待识别图片进行文本识别，得到多个文本区域和每个文本区域对应的第二文本；对所述第二文本进行语义识别，得到所述第二文本对应的文本信息标签和文本置信度；权　利　要　求　书 1/4 页 2 CN 114782956 A 2从所述待识别图片对应的所有第二文本中删除满足第二设定条件的第二文本，所述第二设定条件包括：第二文本的文本信息标签指示该第二文本为第一特定文本；或，第二文本的文本置信度小于第三预设值；或，第二文本对应的文本区域的面积小于第四预设值；对剩余的第二文本去重，并将去重后的第二文本确定为第三文本；根据第三文本的文本内容确定存在至少一个第三文本为第二特定文本，从所述至少一个第三文本中选取文本置信度最高的第三文本作为所述待识别图片的目标文本。 7.根据权利要求6所述的方法，所述得到多个文本区域和每个文本区域对应的第二文本之后，还包括：对所述第二文本进行文本纠错，得到所述第二文本的纠错置信度和与所述第二文本对应的多个第四文本以及每个第四文本的纠错置信度；确定纠错置信度最高的所述第四文本的纠错置信度大于所述第二文本的纠错置信度，将该第二文本更新为该第四文本。 8.根据权利要求6所述的方法，从所述待识别图片对应的所有第二文本中删除满足第二设定条件的第二文本之前，该方法还包括：将所述第二文本的文本区域与所述多个第二区域进行匹配，确定存在至少一个第二区域与该文本区域的重叠面积大于第一预设百分比，将该文本区域的文本置信度更新为第五预设值。 9.根据权利要求6所述的方法，确定不存在任意一个第三文本为第二特定文本，还包括：确定满足如下条件的第三文本：所述多个第二区域中存在至少一个第二区域与第三文本对应的文本区域重叠面积大于第一预设百分比；从满足条件的所述第三文本对应的所述至少一个第二区域中选取第二区域宽度最大的第二区域作为所述第三文本的匹配第二区域；将第二区域宽度最大的匹配第二区域对应的第三文本作为所述待识别图片的目标文本。 10.一种文本识别装置，包括：识别模块，用于对获取的待识别图片进行包含第一对象的第一区域识别，得到多个第一区域和所述第一区域对应的第一对象置信度，并从所述第一区域中提取特征，得到所述第一区域对应的第一特征数据；处理模块，用于从样本库中获取第一文本对应的第二特征数据，所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的，所述样本库中包括多个第一文本；计算模块，用于根据所述第一特征数据和第二特征数据，分别计算所述第一区域与多个所述第一文本之间的相似度；所述处理模块，还用于基于所述相似度从所述多个第一区域中确定目标第一区域；所述处理模块，还用于基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本。 11.根据权利要求10所述的装置，还包括：采集模块，还用于采集原始图片；权　利　要　求　书 2/4 页 3 CN 114782956 A 3

专利 文本识别方法、装置、电子设备及存储介质

专利文本识别方法、装置、电子设备及存储介质