(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210523888.1
(22)申请日 2022.05.14
(71)申请人 云知声智能科技股份有限公司
地址 100096 北京市海淀区西三 旗建材城
内1幢一层101号
(72)发明人 刘高成 刘青松 梁家恩
(51)Int.Cl.
G06F 16/783(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于多模态的短视频搜索方法、 装置及存储
介质
(57)摘要
基于多模态的短视频搜索方法、 装置及存储
介质, 该方法将短视频对象输送到多模态特征提
取模型进行多模态信息特征提取; 对短视频对象
进行关键信息提取, 获得短视频对象的关键视频
片段和关键视频片段对应的关键音频信息; 将关
键视频片段输送至第一卷积神经网络进行视频
特征的提取, 获得关键视频片段的图像内容特
征; 对关键视频片段的字幕位置提取字幕文字信
息, 将字幕文字信息进行第一编码, 得到关键视
频片段的文字内容特征; 将关键视频片段的语音
信息输送至第二卷积神经网络进行第二编码, 得
到关键视频片段的语音内容特征; 将达到预设相
似度阈值的短视频作为短视频对象的搜索结果,
返回给用户。 本发明提高了短视频搜索的准确
率。
权利要求书2页 说明书8页 附图2页
CN 114840713 A
2022.08.02
CN 114840713 A
1.基于多模态的短视频搜索方法, 其特 征在于, 包括以下步骤:
(1)获取待搜索的短视频对象, 将所述短视频对象输送到多模态特征提取模型, 通过所
述多模态特 征提取模型对所述短视频对象进行多模态信息特 征提取;
(2)所述短视频对象的多模态信息特 征提取包括:
(21)对所述短视频对象进行关键信 息提取, 获得所述短视频对象的关键视频片段和所
述关键视频片段对应的关键音频信息;
(22)将所述关键视频片段输送至第一卷积神经网络进行视频特征的提取, 获得所述关
键视频片段的图像内容特 征;
(23)对所述关键视频片段的字幕位置提取字幕文字信 息, 将所述字幕文字信息进行第
一编码, 得到所述关键 视频片段的文字内容特 征;
(24)将所述关键视频片段的语音信 息输送至第 二卷积神经网络进行第 二编码, 得到所
述关键视频片段的语音内容特 征;
(25)将所述图像内容特征、 所述文字内容特征和所述语音内容特征作为所述关键视频
片段的多模态信息特 征;
(3)将所述关键视频片段的多模态信 息特征和短视频数据库中的多模态信息特征进行
相似度计算, 得到所述短视频对象与短视频 数据库中每 个短视频的相似度;
(4)将达到预设相似度阈值的短视频作为所述短视频对象的搜索结果, 返回给用户。
2.根据权利要求1所述的基于多模态的短视频搜索方法, 其特征在于, 步骤(21)进行所
述关键视频片段的获取过程中, 根据获得的关键帧的数量及预设的分组数对所述关键视频
片段进行序列划分;
步骤(22)中, 所述第一卷积神经网络根据所述关键视频片段的序列划分结果及权重系
数进行图像内容特 征提取。
3.根据权利要求2所述的基于多模态的短视频搜索方法, 其特征在于, 步骤(23)中, 将
所述字幕文字信息通过Tr ansformer模型进行第一编码, 利用查询向量、 价值向量、 权重矩
阵经过自注意机制得到最 终向量, 根据最终向量和隐藏层向量进 行所述字幕文字信息的第
一编码。
4.根据权利要求3所述的基于多模态的短视频搜索方法, 其特征在于, 步骤(24)中, 所
述第二卷积神经网络根据所述关键视频片段 的序列划分结果及权重系数进行语音内容特
征提取。
5.根据权利要求4所述的基于多模态的短视频搜索方法, 其特征在于, 步骤(3)中, 对所
述短视频对象的多模态信息特征和短视频数据库中的给定短视频 的多模态信息特征进行
向量点积, 然后根据多模态信息特征的模态数获得所述短视频对象和短视频数据库中的给
定短视频的相似度。
6.根据权利要求1所述的基于多模态的短视频搜索方法, 其特征在于, 对已有短视频根
据步骤(2), 预 先提取已有短视频的多模态信息特 征存储到所述短视频 数据库中。
7.基于多模态的短视频搜索装置, 其特 征在于, 包括:
短视频获取模块, 用于获取待搜索的短视频对象, 将所述短视频对象输送到多模态特
征提取模型;
多模态特征提取模块, 用于通过所述多模态特征提取模型对所述短视频对象进行多模权 利 要 求 书 1/2 页
2
CN 114840713 A
2态信息特 征提取;
所述多模态特 征提取模块包括:
关键信息提取子模块, 用于对所述短视频对象进行关键信息提取, 获得所述短视频对
象的关键 视频片段和所述关键 视频片段对应的关键音频信息;
图像内容特征提取子模块, 用于将所述关键视频片段输送至第 一卷积神经网络进行视
频特征的提取, 获得 所述关键 视频片段的图像内容特 征;
文字内容特征提取子模块, 用于对所述关键视频片段的字幕位置提取字幕文字信息,
将所述字幕文字信息进行第一编码, 得到所述关键 视频片段的文字内容特 征;
语音内容特征提取子模块, 用于将所述关键视频片段的语音信 息输送至第 二卷积神经
网络进行第二编码, 得到所述关键 视频片段的语音内容特 征;
多模态信息特征组合子模块, 用于将所述图像内容特征、 所述文字内容特征和所述语
音内容特 征作为所述关键 视频片段的多模态信息特 征;
相似度统计模块, 用于将所述关键视频片段的多模态信 息特征和短视频数据库中的多
模态信息特征进 行相似度计算, 得到所述短视频对象与短视频数据库中每个短视频的相似
度;
搜索结果返回模块, 用于将达到预设相似度阈值的短视频作为所述短视频对象的搜索
结果, 返回给用户。
8.根据权利7所述的基于多模态的短视频搜索装置, 其特征在于, 所述关键信 息提取子
模块进行所述关键视频片段的获取过程中, 根据获得的关键帧的数量及预设的分组数对所
述关键视频片段进行序列划分;
所述图像 内容特征提取子模块中, 所述第 一卷积神经网络根据 所述关键视频片段的序
列划分结果及权 重系数进行图像内容特 征提取;
所述文字内容特征提取子模块中, 将所述字幕文字信息通过Transformer模型进行第
一编码, 利用查询向量、 价值向量、 权重矩阵经过自注意机制得到最终向量, 根据最终向量
和隐藏层向量进行 所述字幕文字信息的第一编码;
所述语音内容特征提取子模块中, 所述第 二卷积神经网络根据 所述关键视频片段的序
列划分结果及权 重系数进行语音内容特 征提取。
9.根据权利8所述的基于多模态的短视频搜索装置, 其特征在于, 所述相似度统计模块
中, 对所述短视频对象的多模态信息特征和短视频数据库中的给定 短视频的多模态信息特
征进行向量点积, 然后根据多模态信息特征的模态数获得所述短视频对象和短视频数据库
中的给定短视频的相似度;
对已有短视频根据所述多模态特征提取模块中的关键信 息提取子模块、 图像 内容特征
提取子模块、 文字内容特征提取子模块、 语音内容特征提取子模块和多模态信息特征组合
子模块, 预 先提取已有短视频的多模态信息特 征存储到所述短视频 数据库中。
10.一种存储介质, 其特征在于, 所述储介质中存储有基于多模态的短视频搜索方法的
程序代码, 所述程序 代码包括用于执行权利要求 1至6任一项 所述的基于多模态的短视频搜
索方法的指令 。权 利 要 求 书 2/2 页
3
CN 114840713 A
3
专利 基于多模态的短视频搜索方法、装置及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:59:50上传分享