火星链 火星链
Ctrl+D收藏火星链

ETR:完全基于Transformer的目标检测器,ICLR匿名论文视觉、检测统一

作者:

时间:1900/1/1 0:00:00

机器之心报道

编辑:陈萍

一种新的集成视觉和检测Transformer的目标检测器ViDT。

Transformer在NLP任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer正在改变计算机视觉的格局,尤其是在识别任务方面。例如Detectiontransformer是第一个用于目标检测的、端到端的学习系统,而visiontransformer是第一个完全基于transformer的图像分类架构。在本文中,一篇被ICLR2022接收的匿名论文集成了视觉和检测Transformer(VisionandDetectionTransformer,ViDT)来构建有效且高效的目标检测器。

ViDT引入了一个重新配置的注意力模块,将SwinTransformer扩展为一个独立的目标检测器,之后是一个计算高效的Transformer解码器,该解码器利用多尺度特征和辅助技术,在不增加计算负载的情况下提高检测性能。

美联储利率掉期显示6月降息概率为三分之一,完全定价到7月会降息:金色财经报道,美联储利率掉期显示6月降息概率为三分之一,完全定价到7月会降息。[2023/5/5 14:43:29]

在MicrosoftCOCO基准数据集上的评估表明,ViDT在现有的完全基于transformer的目标检测器中获得了最佳的AP和延迟权衡,其对大型模型的高可扩展性,可达49.2AP。

论文地址:https://openreview.net/pdf?id=w4cXZDDib1H

ViDT:视觉与检测Transformer

ViDT架构如下图2(c)所示:

首先,ViDT引入了一种改进的注意力机制,名为ReconfiguredAttentionModule(RAM),该模块有助于ViT变体处理附加的和token以进行目标检测。因此,ViDT可以将最新的带有RAM的SwinTransformer主干修改为目标检测器,并利用其具有线性复杂度的局部注意力机制获得高可扩展性;

孙宇晨回应外媒称“支持以太坊硬分叉是为赚快钱”:Poloniex不对ETH交易收取费用,完全是为公共利益:8月8日消息,针对外媒Crypto Slate报道称,Vitalik Buterin在韩国区块链周期间的一次非公开新闻发布会上表示,人们推动以太坊硬分叉以保留PoW“只是想快速赚钱”。Vitalik表示,他只看到社区内部对权益证明的支持,并指出大多数想要保留工作量证明的人都是以太坊生态系统的“局外人”。Crypto Slate称,孙宇晨最近宣布通过在他的Poloniex交易所上架两个新代币来支持以太坊合并后的硬分叉,代币将被命名为ETHS和ETHW,分别与PoS和PoW相关,GPU矿工在合并后继续挖矿以太坊。

据报道,一些中国矿工已与孙宇晨签约成为这条新链的一部分。此外,孙宇晨正在寻求激励分叉以太坊的举措,以在PoW链中保留当前网络的一个版本。如果该链成为现实,他将提供高达100万个ETHW来建立一个开发者社区。Crypto Slate强调称,Tron区块链的创始人孙宇晨在许多方面无疑是以太坊生态系统的局外人。Vitalik还提到硬分叉的支持者“拥有交易所,只是想快速赚钱”。

孙宇晨回应称,不确定Vitalik Buterin是否真的这么说。但他澄清,Poloniex支持ETH硬分叉完全是为了公共利益,而不是为了盈利。Poloniex目前不对ETHS/ETHW交易收取任何费用。如果硬分叉成功,以太坊上的每个人都将获得ETHW代币,无需任何预挖。Vitalik将获得与我和所有人完全相同的ETHW比例。他只支持PoW应该作为合并后以太坊的共识机制存在。[2022/8/8 12:09:27]

其次,ViDT采用轻量级的无编码器neck架构来减少计算开销,同时仍然在neck模块上启用额外的优化技术。请注意,neck编码器是不必要的,因为RAM直接提取用于目标检测的细粒度表示,即token。结果,ViDT获得了比neck-free对应物更好的性能;

江卓尔:币价对昨天许多利空完全没有反应,看来市场已经完全去中国化:江卓尔在微博表示,昨天今天发了这么多利空,币价完全没有反应,灰度继续买入5000 BTC,这是2017年完全不能想象的。看来市场已经完全去中国化,去韭菜化了,珍惜你手上的币吧 。[2020/11/3 11:32:53]

最后,该研究引入了用于知识蒸馏的token匹配新概念,它可以在不影响检测效率的情况下从大型模型到小型模型带来额外的性能提升。

RAM模块

该研究引入了RAM模块,它将与和token相关的单个全局注意力分解为三个不同的注意力,即×、×和×注意力。如图3所示,通过共享和token的投影层,全部复用SwinTransformer的所有参数,并执行三种不同的注意力操作:

ENCODER-FREEneck结构

分析师:以太坊2.0或无法完全解决网络拥塞和高gas费用问题:加密货币分析师Alex Krüger在推特上表示,单一DeFi地址的数量正在迅速增加,自今年年初以来已经增加了35万个地址。虽然像Uniswap这样的DeFi平台在交易量上超过了Coinbase,但与Coinbase的3200万用户相比,它的用户群仍然很小。假设以太坊网络gas费用已经达到峰值,现在是一个很好的时间点来实际评估以太坊2.0在gas费用上会有多大的不同。

根据其分析,以太坊2.0最初设置为从64个分片开始,每个分片都可能作为一个独立的链来运行,具有自己的交易历史。在这种情况下,网络的交易能力将增加64倍。基于每个DeFi用户有四个地址的假设,这相当于大约有11.4万个单一用户。在每个DeFi用户只使用两个地址的乐观假设下,这个数字接近220000个用户。有64个分片,这相当于1400万用户——仍然没有达到Coinbase的处理能力。更糟糕的是,Coinbase只是几个大型交易所之一。遵循这位分析师的逻辑,以太坊2.0上的分片并不能完全解决其拥塞问题。(Crypto Briefing)[2020/9/20]

为了利用多尺度特征图,ViDT结合了多层可变形transformer解码器。在DETR家族中,其neck部分需要一个transformer编码器,用于将从骨干中提取的用于图像分类的特征转换为适合目标检测的特征;编码器通常在计算上很昂贵,因为它涉及×注意力。然而,ViDT只保留了一个Transformer解码器作为其neck,因为带有RAM的SwinTransformer直接提取适合目标检测的细粒度特征作为独立的目标检测器。因此,ViDT的neck结构在计算上是高效的。

Telegram近日宣布,来自英国的一家名为Telegram Open Network有限公司与Telegram完全无关:根据ccn报道,Telegram近日宣布,来自英国的一家名为Telegram Open Network有限公司与Telegram完全无关,很有可能是一个局,创始人Pavel Durov从未创立过这样的公司。2月28日,Telegram Open Network有限公司在英国注册,注册人名为Pavel Durov,目的是为了误导投资者以取经济利益。[2018/4/9]

解码器从带有RAM的SwinTransformer接收两个输入:从每个阶段生成的token从最后阶段生成的token,如图2(c)的Neck所示。在每个可变形的transformer层中,首先执行×注意力。对于每个token,应用多尺度可变形注意力以生成一个新的token,聚合从多尺度特征图

中采样的一小组关键内容:

用于目标检测的token匹配知识蒸馏

虽然大型模型具有实现高性能的高容量,但在实际使用中它的计算成本可能很高。因此,该研究还提出了一种简单的知识蒸馏方法,可以通过token匹配从大型ViDT模型中迁移知识。

匹配每一层的所有token在训练中非常低效,因此,该研究只匹配对预测贡献最大的token。两组token直接相关:P:用作多尺度特征图的token集合,由body中的每个阶段生成,D:token的集合,它们是从neck的每个解码层生成的。因此,基于token匹配的蒸馏损失公式为:

评估

表2将ViDT与DETR(ViT)和YOLOS的AP、FPS等进行了比较,其中DETR(ViT)有两个变体:DETR和DeformableDETR。

实验结果表明:ViDT实现了AP和FPS之间的最佳权衡。凭借其高可扩展性,其性能优于1亿个参数的Swin-base,在相似的AP的下,FPS比DeformableDETR快2倍。此外,ViDT参数为16M,得到40.4AP,比DETR(swin-nano)和DETR(swin-tiny)高分别高6.3AP、12.6AP。

表3对比了不同空间位置编码与ViDT的结果。结果表明:pre-addition比post-addition带来的性能提升更高,即sinusoidalencoding优于learnable编码;因此,正弦空间编码的2D归纳偏置在目标检测中更有帮助。特别是,与不使用任何编码相比,使用正弦编码的预加法将AP增加了5.0。

表4总结了使用不同选择策略进行交叉注意力时的AP和FPS,其中SwinTransformer总共包含四个阶段。有趣的是,只要在最后阶段激活交叉注意力,所有策略都表现出相似的AP。由于在各个阶段中以自下而上的方式提取特征,因此在低级别阶段很难直接获得有关目标对象的有用信息。因此,研究者想要获得较高的AP和FPS,只使用最后阶段是最好的设计选择,因为token的数量最少。

为了彻底验证辅助解码损失和迭代框细化的有效性,该研究甚至对YOLOS等neck-free检测器进行了扩展。表5显示了两种neck-free检测器YOLOS和ViDT(w.o.Neck)性能。实验结果证明在ViDT中使用Neck解码器来提高目标检测性能是合理的。

下图表明:教师模型的规模越大,学生模型的收益越大。从系数来看,系数值越大,性能越好。模型蒸馏将AP提高了1.0-1.7,而不会影响学生模型的推理速度。

研究者将所有提议的组件结合起来,以实现目标检测的高精度和速度。如表8所示,有四个组件:(1)RAM将SwinTransformer扩展为独立的目标检测器,(2)neck解码器利用多尺度特征和两种辅助技术,(3)从大模型中获益知识蒸馏,(4)解码层drop进一步加快推理速度。结果表明:当使用Swin-nano作为其主干时,它仅使用13M参数就达到了41.7AP和合理的FPS。此外,当使用Swin-tiny时,它仅损失了2.7FPS而表现出46.4AP。

标签:DETETRRAMDET币是什么币ETR价格ETR币RAM币RAM价格

莱特币价格热门资讯
数字人:各国官方数字货币竞速 数字人民币走在前列

来源:媒体滚动   国际商报     自2014年以来,中国一直致力于数字人民币的研发和测试工作。  除数字人民币外,瑞典央行的电子克朗,乌拉圭央行的电子比索等也正在开发之中.

1900/1/1 0:00:00
比特币:号称全球最快三轮电动车!最高速度破200km/h还能在车上挖比特币

关于电动车,不只传统车厂关注,其他车厂也想借这新时代产物里分到一杯羹,原本在做沙滩车的加拿大车厂,近期就推出最新的电动车,采三轮配置,号称是全球最快三轮车,极速可达时速209公里.

1900/1/1 0:00:00
TER:经常被“打call”的学生可以免一次作业!南京这所小学的课堂超有趣

“同学们,你们平常上学都是选择哪些交通方式呀?”“大家家里的水槽是圆的还是方的?”“你们知道哪些关于梅花的诗句,大家来比赛!”……在南京市古平岗小学的课堂上,经常充满了欢声笑语.

1900/1/1 0:00:00
伊甸园:「西非漫谈」西非国家名称溯源

本文转自:环球网 2022年第一期,总第五十期。翻译:张海琳,整理:孟雅琪,供稿:赵蜀蓉)你有没有想过非洲国家的名字是怎么来的,它们又有哪些含义呢?从小岛国家塞舌尔、科摩罗到非洲最大的国家,非洲.

1900/1/1 0:00:00
元宇宙:区块链游戏蹭元宇宙热点,号称玩游戏就能赚钱,收益超万倍!律师:涉嫌违法

本文来源:时代周报作者:郭子硕元宇宙概念大火,区块链游戏也搭上顺风车。“携手v神,马斯克实现火星梦”.

1900/1/1 0:00:00
数字钱包:「国考面试」面试热点:是时候考虑入手一个数字货币钱包了

     从去年开始,我国就在深圳等地率先开启了数字人民币试点工作。截至今年10月22日,我国数字人民币试点场景已超过350万个,累计开立试点场景1.4亿个,交易金额约560亿元.

1900/1/1 0:00:00