专利 基于人工智能网络的机器视觉目标定位方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210534291.7 (22)申请日 2022.05.15 (71)申请人哈尔滨工程大学地址 150001 黑龙江省哈尔滨市南岗区南通大街145 -1号 (72)发明人不公告发明人　 (74)专利代理机构北京创智合源知识产权代理事务所(普通合伙) 16092 专利代理师马金华 (51)Int.Cl. G06T 7/246(2017.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称基于人工智能网络的机器视觉目标定位方法 (57)摘要本发明属于机器视觉目标定位领域，具体涉及一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。包括(1)检测待定位目标，采集目标图像，将采集出的目标图像为样板图像，设样板图像帧作为视频序列的第一帧； (2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取； (3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归等。本发明根据目标前几帧视频图像轨迹变化，来预测下一帧目标定位范围的预测策略，以有效地缩小复杂情况下目标定位的范围，减少图像精度、对比度对目标定位造成的错误定位、丢失目标和定位漂移等影响，保证目标定位的鲁棒性。权利要求书3页说明书9页附图3页 CN 114862913 A 2022.08.05 CN 114862913 A 1.基于人工智能网络的机器视觉目标定位方法，其特征在于，包括如下步骤： (1)检测待定位目标，采集目标图像，将采集出的目标图像为样板图像，将样板图像帧作为视频序列的第一帧； (2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取； (3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归； (4)计算每帧视频序列的定位边界框相似度，根据定位边界框相似度进行排名，通过非极大值抑制得到每帧视频序列最后的定位边界框，如果每一帧视频序列最后的定位边界框的值都大于边界框阈值参数，则判定为定位成功，继续执行步骤(5)；如果每一帧视频序列最后的定位边界框的值中至少有一个小于等于定位边界框阈值，则判定为定位不成功，重新执行步骤(3)； (5)检测视频序列的编号第G ‑a帧、第G‑a+1帧、…、第G帧的视频序列中相邻两帧的定位边界框，判断定位边界框的几何中心点在xy坐标系下的平均位移变化，预测第G+1帧视频序列相对于第G帧视频序列的移动方向，以第G帧视频序列定位边界框的几何中心点坐标为中心进行放大，形成放大到视频序列的图像尺寸的图，第G帧视频序列图像和大后的图的重叠部分，判定为第G+1帧视频序列的图像的目标定位范围。 2.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述的孪生网络分为样板支路和检测支路，两个支路的权重参数相同；其中样板支路接收样板图像，输入标记为m；检测支路接收检测序列当前帧的图像，输入标记为k；样板图像和检测序列经过孪生网络后得到孪生网络特征输出为样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出 ι(k)。 3.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述的步骤(3)具体包括如下步骤： (3.1)采用FAST ‑RCNN的损失函数对候选网络进行训练，分类支路的损失函数采用交叉熵损失函数，回归支路的损失函数采用回归损失函数s mooth L1 loss； (3.2)通过训练后的候选网络的两个卷积层将 ι(m)扩展为样板图像孪生网络特征输出分类分支 ι(m)cls和样板图像孪生网络特征输出回归分支 ι(m)reg； (3.3)通过训练后的候选网络的两个卷积层将 ι(k)扩展为检测序列孪生网络特征输出分类分支 ι(k)cls和检测序列孪生网络特征输出回归分支 ι(k)reg； (3.4)确认分类支路的通道向量个数为2X，确认回归支路的通道向量个数为 4X； (3.5)对分类支路进行卷积运算，运算结果为： (3.6)对回归支路进行卷积运算，运算结果为： 4.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述的步骤(3.1)具体包括如下步骤： (3.1.1)确认候选网络中锚箱的中心点坐标(Nx,Ny)、宽Nw和高Nh； (3.1.2)确认实际定位边界框的中心点坐标(Gx,Gy)、高Gh和宽Gw； (3.1.3)计算锚箱与定位边界框的标准化距离：权　利　要　求　书 1/3 页 2 CN 114862913 A 2(3.1.4)构建 smooth L1 loss函数： ζ 为边界框阈值； (3.1.5)回归支路的损失函数为： 5.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述步骤(4)具体包括： (4.1)计算当前视频序列最后的定位边界框的高宽比e，以及上一帧视频序列最后的定位边界框的高宽比e"，确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f"； f2＝(Gh+c)(Gw+c)； (4.2)计算惩罚函数： (4.3)计算分类支路评价值： (4.4)计算定位边界框相似度pscore： pscore＝penalty ×score。 6.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述的步骤(5)包括：权　利　要　求　书 2/3 页 3 CN 114862913 A 3

专利 基于人工智能网络的机器视觉目标定位方法

专利基于人工智能网络的机器视觉目标定位方法