专利 基于多模态的短视频搜索方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210523888.1 (22)申请日 2022.05.14 (71)申请人云知声智能科技股份有限公司地址 100096 北京市海淀区西三旗建材城内1幢一层101号 (72)发明人刘高成　刘青松　梁家恩　 (51)Int.Cl. G06F 16/783(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/74(2022.01) G06V 10/82(2022.01) (54)发明名称基于多模态的短视频搜索方法、装置及存储介质 (57)摘要基于多模态的短视频搜索方法、装置及存储介质，该方法将短视频对象输送到多模态特征提取模型进行多模态信息特征提取；对短视频对象进行关键信息提取，获得短视频对象的关键视频片段和关键视频片段对应的关键音频信息；将关键视频片段输送至第一卷积神经网络进行视频特征的提取，获得关键视频片段的图像内容特征；对关键视频片段的字幕位置提取字幕文字信息，将字幕文字信息进行第一编码，得到关键视频片段的文字内容特征；将关键视频片段的语音信息输送至第二卷积神经网络进行第二编码，得到关键视频片段的语音内容特征；将达到预设相似度阈值的短视频作为短视频对象的搜索结果，返回给用户。本发明提高了短视频搜索的准确率。权利要求书2页说明书8页附图2页 CN 114840713 A 2022.08.02 CN 114840713 A 1.基于多模态的短视频搜索方法，其特征在于，包括以下步骤： (1)获取待搜索的短视频对象，将所述短视频对象输送到多模态特征提取模型，通过所述多模态特征提取模型对所述短视频对象进行多模态信息特征提取； (2)所述短视频对象的多模态信息特征提取包括： (21)对所述短视频对象进行关键信息提取，获得所述短视频对象的关键视频片段和所述关键视频片段对应的关键音频信息； (22)将所述关键视频片段输送至第一卷积神经网络进行视频特征的提取，获得所述关键视频片段的图像内容特征； (23)对所述关键视频片段的字幕位置提取字幕文字信息，将所述字幕文字信息进行第一编码，得到所述关键视频片段的文字内容特征； (24)将所述关键视频片段的语音信息输送至第二卷积神经网络进行第二编码，得到所述关键视频片段的语音内容特征； (25)将所述图像内容特征、所述文字内容特征和所述语音内容特征作为所述关键视频片段的多模态信息特征； (3)将所述关键视频片段的多模态信息特征和短视频数据库中的多模态信息特征进行相似度计算，得到所述短视频对象与短视频数据库中每个短视频的相似度； (4)将达到预设相似度阈值的短视频作为所述短视频对象的搜索结果，返回给用户。 2.根据权利要求1所述的基于多模态的短视频搜索方法，其特征在于，步骤(21)进行所述关键视频片段的获取过程中，根据获得的关键帧的数量及预设的分组数对所述关键视频片段进行序列划分；步骤(22)中，所述第一卷积神经网络根据所述关键视频片段的序列划分结果及权重系数进行图像内容特征提取。 3.根据权利要求2所述的基于多模态的短视频搜索方法，其特征在于，步骤(23)中，将所述字幕文字信息通过Tr ansformer模型进行第一编码，利用查询向量、价值向量、权重矩阵经过自注意机制得到最终向量，根据最终向量和隐藏层向量进行所述字幕文字信息的第一编码。 4.根据权利要求3所述的基于多模态的短视频搜索方法，其特征在于，步骤(24)中，所述第二卷积神经网络根据所述关键视频片段的序列划分结果及权重系数进行语音内容特征提取。 5.根据权利要求4所述的基于多模态的短视频搜索方法，其特征在于，步骤(3)中，对所述短视频对象的多模态信息特征和短视频数据库中的给定短视频的多模态信息特征进行向量点积，然后根据多模态信息特征的模态数获得所述短视频对象和短视频数据库中的给定短视频的相似度。 6.根据权利要求1所述的基于多模态的短视频搜索方法，其特征在于，对已有短视频根据步骤(2)，预先提取已有短视频的多模态信息特征存储到所述短视频数据库中。 7.基于多模态的短视频搜索装置，其特征在于，包括：短视频获取模块，用于获取待搜索的短视频对象，将所述短视频对象输送到多模态特征提取模型；多模态特征提取模块，用于通过所述多模态特征提取模型对所述短视频对象进行多模权　利　要　求　书 1/2 页 2 CN 114840713 A 2态信息特征提取；所述多模态特征提取模块包括：关键信息提取子模块，用于对所述短视频对象进行关键信息提取，获得所述短视频对象的关键视频片段和所述关键视频片段对应的关键音频信息；图像内容特征提取子模块，用于将所述关键视频片段输送至第一卷积神经网络进行视频特征的提取，获得所述关键视频片段的图像内容特征；文字内容特征提取子模块，用于对所述关键视频片段的字幕位置提取字幕文字信息，将所述字幕文字信息进行第一编码，得到所述关键视频片段的文字内容特征；语音内容特征提取子模块，用于将所述关键视频片段的语音信息输送至第二卷积神经网络进行第二编码，得到所述关键视频片段的语音内容特征；多模态信息特征组合子模块，用于将所述图像内容特征、所述文字内容特征和所述语音内容特征作为所述关键视频片段的多模态信息特征；相似度统计模块，用于将所述关键视频片段的多模态信息特征和短视频数据库中的多模态信息特征进行相似度计算，得到所述短视频对象与短视频数据库中每个短视频的相似度；搜索结果返回模块，用于将达到预设相似度阈值的短视频作为所述短视频对象的搜索结果，返回给用户。 8.根据权利7所述的基于多模态的短视频搜索装置，其特征在于，所述关键信息提取子模块进行所述关键视频片段的获取过程中，根据获得的关键帧的数量及预设的分组数对所述关键视频片段进行序列划分；所述图像内容特征提取子模块中，所述第一卷积神经网络根据所述关键视频片段的序列划分结果及权重系数进行图像内容特征提取；所述文字内容特征提取子模块中，将所述字幕文字信息通过Transformer模型进行第一编码，利用查询向量、价值向量、权重矩阵经过自注意机制得到最终向量，根据最终向量和隐藏层向量进行所述字幕文字信息的第一编码；所述语音内容特征提取子模块中，所述第二卷积神经网络根据所述关键视频片段的序列划分结果及权重系数进行语音内容特征提取。 9.根据权利8所述的基于多模态的短视频搜索装置，其特征在于，所述相似度统计模块中，对所述短视频对象的多模态信息特征和短视频数据库中的给定短视频的多模态信息特征进行向量点积，然后根据多模态信息特征的模态数获得所述短视频对象和短视频数据库中的给定短视频的相似度；对已有短视频根据所述多模态特征提取模块中的关键信息提取子模块、图像内容特征提取子模块、文字内容特征提取子模块、语音内容特征提取子模块和多模态信息特征组合子模块，预先提取已有短视频的多模态信息特征存储到所述短视频数据库中。 10.一种存储介质，其特征在于，所述储介质中存储有基于多模态的短视频搜索方法的程序代码，所述程序代码包括用于执行权利要求 1至6任一项所述的基于多模态的短视频搜索方法的指令。权　利　要　求　书 2/2 页 3 CN 114840713 A 3

专利 基于多模态的短视频搜索方法、装置及存储介质

专利基于多模态的短视频搜索方法、装置及存储介质