深度学习算法第五课——Yolo v1

导读:本篇文章讲解 深度学习算法第五课——Yolo v1,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

1.计算机视觉能够解决那些问题?

1.1分类、监测、分割

深度学习算法第五课——Yolo v1

 1.2语义分割和实例分割

        图像分割分为两种。语义分割就是对每一个像素块分类,不管像素是处于哪几个物体,只管它是处于哪个类别的,只把每一个像素的类别输出出来,但是并不区分不同物体的像素。实例分割就是把同一类别的不同实例分别出来,区分同一类别不同物体的像素。

深度学习算法第五课——Yolo v1

 深度学习算法第五课——Yolo v1

 2.YOLOV1目标检测算法

 2.1预测阶段(前向推断)

​        预测阶段就是在模型训练成功之后,输入位置图片来对位置图片进行预测或测试,这个时候就不需要训练,不需要反向传播,而是只需要前向推断,运行这个模型。模型训练出来之后是一个深度卷积神经网络,上面是基准的yolo模型,下面是YOLO tiny比较小的YOLO模型,小的话速度就比较快,其实本质上都一样。

深度学习算法第五课——Yolo v1

        基准的YOLO模型输入是448×448×3像素的正方形图片,3表示的是3通道RGB,先过若干个卷积层,过池化层,过1×1卷积层,3×3卷积层,最后变成一个7×7×1024维的feature map,把这个数据拉平,喂到一个4096个神经元的全连接层中,输出4096维的向量,再把这个4096维的向量喂到1470个神经元的全连接层中,输出1470维的向量,相当于1470个数字,然后把这1470个数字reshape成7×7×30的feature map,这样就形成了一个大黑箱子,这个黑箱子一头是输入448×448×3的彩色图像,另外一头输出7×7×30维的张量,即30个7×7的矩阵。在预测阶段这个YOLO模型就是个黑箱子,在这个7×7×30维的张量tensor中就包含了所有预测框的坐标、置信度、类别结果,只需要解析这个张量就可以获得最终的验算结果,这是一个单阶段的模型,一步到位,统一的架构。

深度学习算法第五课——Yolo v1

        先把图片分成7×7的grid网格,每一个网格有生成两个预测框,这两个预测框的中心点都落在网格里面,预测框就包含了x,y,w,h四个定位坐标,即可确定框的位置,以及包含是否是一个物体的置信度(图中用框的粗细来代表置信度,图2),每一个Bounding Box都包含4个未知参数和1个置信度参数,每一个网格还能够生成所有类别的条件概率(假设在已经包含某一个类别的情况下,是某一个类别的概率,图3),Bounding Box的置信度乘以每一组类别的条件概率就能够获得每一个Bounding Box的各类别的概率。

深度学习算法第五课——Yolo v1

 深度学习算法第五课——Yolo v1

        每个网格都有2个预测框,每个预测框有5个参数(x,y,w,h,置信度),Pascal VOC中包含20个类别。

2.2预测阶段后处理-NMS非极大值抑制

        后处理就是把纷繁复杂的、预测出来的98个预测框进行筛选、过滤,把重复的预测框只保留一个,最终获得目标检测的结果,它包含把低置信度的框过滤掉,以及把重复的预测框去掉,只保留一个,这个过程即为NMS非极大值抑制。

深度学习算法第五课——Yolo v1

 深度学习算法第五课——Yolo v1

 2.3训练阶段(反向传播)

深度学习算法第五课——Yolo v1

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/99502.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!