架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

搜索
查看: 140|回复: 0

【转】深度学习 DBNet 的基本原理

[复制链接]
发表于 2025-1-19 12:26:21 | 显示全部楼层 |阅读模式
原文链接:https://arxiv.org/pdf/1911.08947.pdf
原文代码链接:https://github.com/MhLiao/DB
复现比较好的:https://github.com/WenmuZhou/DBNet.pytorch

目前文字检测大致可以分为两类:基于回归的方法和基于分割的方法。一般基于分割的方法流程是下图蓝色箭头所示:先通过网络输出图片的文本分割结果(概率图,每个像素是否是正样本的概率),使用预设的阈值将分割结果图转换为二值图,最后使用一些聚合的操作例如连通域将像素级的结果转换为检测结果。

b37a39fc105349aa94357f4ad0ea3093.png

从上述描述可知,因为有一个使用阈值来判定前景和背景的操作,这个操作是不可微的,所以无法使用网络将该部分流程放入到网络中训练,本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。流程如上图中的红色箭头所示。

1.网络结构

本文网络结构如下图所示,训练过程中,将图片输入网络后,经过特征提取和上采样融合并concat操作后得到上图中蓝色的特征图称为F,然后使用F预测出概率图(probability map)称为P和使用F预测出阈值图( threshold map)称为T,最后通过P和T计算出近似二值图 B ^ 。推断过程文本框可以通过近似二值图或者概率图来获取。

5a3dc62e3be729a46401a3ef920b07e8.png

2.二值化


2.1 标准的二值化

6098c53ad602c4f5dd9f37ae8325dd08.png

2.2 可微的二值化


上述的二值化方法不可微,所以没法放入网络学习中优化。为了解决这个问题,本文提出一个近似的阶跃函数:

ea52b4dc31f00d6e30f8fc01d8a31b75.png

上式输出的 B ^ 表示近似的二值图,T是网络学习的阈值图,k是一个因子,本文设为50。该函数的图与上述的阶跃函数很近似,如下图中的a图所示。

f764d50c220462b8969333a6093eb88a.png f3926b4d34096bd6b3dcacb28ee122ae.png

3.自适应阈值

上面讲述了怎么在得到概率图P和阈值图T后,将P二值化为近似二值图 B ^。这节讲述了怎么得到概率图P、阈值图T、二值图 B ^ 的标签。

3.1 形变卷积

因为考虑到可能需要大的感受野,文章将形变卷积应用到ResNet-18或ResNet-50的网络中。

ca4dee16491a241b031fa8ad6447a698.png

loss函数

文本采用的loss函数公式如下:

606b5bfeac1f6ce413d4d23adee6b393.png

推断


ea344cfe0316deb5ed3a62263de2863e.png

原文:https://blog.csdn.net/zhonglongshen/article/details/115702635




上一篇:Angular 18 系列(三十)创建工作区域
下一篇:将 paddle 模型转换成 onnx 模型格式
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2025-2-18 18:51

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表