中文字幕色av一区二区三区使得参数随任务数目呈线性减少
栏目分类

热点资讯

中文字幕色av一区二区三区使得参数随任务数目呈线性减少

发布日期:2022-09-23 07:15    点击次数:152

小野寺中文无码作品中文字幕色av一区二区三区

  

Transformer 简直很万能。

Transformers 是一个纯简直神经端到端模子族(family),最动手是为当然谈话处理任务想象的。近来,Transformers 仍是在图像分类、视频和音频等一系列感知任务上得到应用。固然近来在不同范畴和任务上获得了进展,但现时 SOTA 设施只可为手头的每个任务磨练具有不同参数的单一模子。

近日,谷歌连系院、剑桥大学和阿兰 · 图灵连系所的几位连系者在其论文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提议了一种简便高效的磨练单个长入模子的设施,他们将该模子定名为 PolyViT,它终清亮有竞争力或 SOTA 的图像、视频和音频分类效果。

在想象上,连系者不仅为不同的模态使用一个通用架构,还在不同的任务和模态中分享模子参数,从而终清亮潜在协同作用。从技能上来讲,他们的设施受到了「transformer 是大致在职何可以 tokenized 的模态上运行的通用架构」这一事实的启发;从直观上来讲,是由于人类感知在实质上是多模态的,并由单个大脑推论。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

论文地址:https://arxiv.org/abs/2111.12993

下图 1 为 PolyViT 的结构概览。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

连系者主要使用的设施是协同磨练(co-training),即同期在多个分类任务(可能跨多个模态)上磨练单个模子。他们接洽了不同的拓荒,同期处分多达 9 个不同的图像、视频和音频分类任务。如上图 1 所示,PolyViT 模子大致推论多个任务,但关于给定的输入一次只可推论一个任务。固然料想机视觉和当然谈话范畴探索过通常的设施,但连系者不清亮以往的使命是否接洽了多种模态以及是否使用这种设施终清亮 SOTA 效果。

咱们的协同磨练拓荒简便实用。它不需要对协同磨练数据集的每个组合进行超参数治愈,因为咱们可以很容易地治愈表率单任务磨练的拓荒。此外,协同磨练也不会增多举座磨练资本,因为磨练设施的总和失当先每个单任务基线的总和。

图像、音频和视频上的 Co-training ViT PolyViT 架构

PolyViT 是一个大致处理来自多种模态的输入的单一架构。如上图 1 所示,连系者在不同的任务和模态中分享一个 transformer 编码器,使得参数随任务数目呈线性减少。难得,在处理图像时,具有 L 个层的 PolyViT 进展得像 L 层的 ViT,处理音频时进展得像 L 层的 AST,处理视频时进展得像 L 层的未因式明白(unfactorized)的 ViViT。固然 PolyViT 大致处理多种模态,但在给定前向传递时只可基于一种模态推论一个任务。

PolyViT 部署模态特定的类 token, 国产专区_爽死777

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

输入镶嵌算子

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

和位置镶嵌

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

这使得麇集可以编码模态特定的信息,这些信息又可以被随后的、分享 transformer 骨干所专揽。

为了终了无数任务和模态协同磨练的同期增多模子容量,连系者可以遴荐性地纳入 L_adapt ≥ 0 模态特定 transformer 层(他们示意为模态 - 适配器层),这些 transformer 层在 tokenization 之后径直应用。在这种情况下,悉数模态和任务中会分享 L_=shared = L − L_adapt 层。

协同磨练经过

在使用赶紧梯度下跌(SGD)协同磨练的悉数任务中,连系者同期优化悉数的 PolyViT 模子参数 θ。因此,在决定奈何构建磨练 batch、料想梯度以更新模子参数以及使用哪些磨练超参数时有好多想象上的遴荐。

在悉数情况下,连系者使用来自单个任务中的示例来构建我方的磨练 minibatch。这一想象遴荐使得他们在使用换取的磨练超参数(如学习率、batch 大小和动量)四肢传统单一任务基线时,可以评估梯度和更新参数。这么一来,与单一任务基线比拟,连系者无需任何额外的超参数就可以推论多个任务上的协同磨练,从而使得协同磨练在试验中易于推论,头老太牲交HD并减少推论大限制超参数扫描(sweep)的需求以终了具有竞争力的准确性。

在协同磨练过程中,关于每个 SGD 步,连系者采样一个任务(或数据集),然后采样来自这个任务中的 minibatch,评估梯度并随后推论参数更新。需要谨慎接洽的是采样任务的轨则以及是否在不同的 minibatch 和任务上鸠合梯度。连系者鄙人图 2 中描述了几个任务采样打算,包括如下:

任务 1:逐任务(Task-by-task) 任务 2:轮流(Alternating) 任务 3:长入任务采样(Uniform task sampling) 任务 4:加权任务采样(Weighted task sampling) 任务 5:鸠合梯度(Accumulating gradients) 单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA 实验

连系者在图像、音频和视频三种模态的 9 个不同分类任务上同期磨练了 PolyViT。在图像分类协同磨练时,他们使用了 ImageNet-1K、 CIFAR-10/100、Oxford-IIIT Pets 和 RESISC45 数据集;关于视频任务,他们使用了 Kinetics 400 和 Moments in Time 数据集;关于音频任务,他们使用了 AudioSet 和 VGGSound 数据集。

下表 6 为具体实验拓荒:

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

下表 1 展示了不同任务采样打算在不同模态和任务上对协同磨练性能的影响,粗体示意最高准确率,下划线示意次最高准确率。其中,「Task-by-task」采样打算进展恶运,仅在一项任务上终清亮可以的性能,这是灾荒性淡忘(catastrophic forgetting)变成的。

「Accumulated」采样打算需要在悉数任务上使用单一的学习率,这是由于悉数任务上的鸠合梯度被用于推论参数更新。因此,该打算仅在图像数据集上进展追究。

「Alternating」、「Uniform」和「Weighted」采样打算进展最佳,标明任务特定的学习率以及不同任务的梯度更新之间的改变关于准确率至关进犯。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA 使用 PolyViT 的协同磨练

下表 2 展示了用于处分跨图像、音频和视频三种模态的 9 个不同任务的模子磨练设施,包括 ViT-Im21K Linear probe、Single-task baseline 和本文的 PolyViT 及变体(差异是 PolyViT L_adapt = 0 和 PolyViT Ladapt = L/2)。

效果清晰,在单模态上磨练的 PolyViT 在 9 个数据集的 7 个上终清亮 SOTA 性能,其余 2 个数据集上的准确率互异可以忽略不计,失当先 0.3%。此外,参数的总和量比单个任务基线少了 2/3。同期,在使用参数大大减少的情况下,多模态 PolyViT 也终清亮有竞争力的性能。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA 使用 linear probe 评估学习到的示意

通过为一个新任务只是添加和磨练一个新的线性头(linear head),连系者对 PolyViT 学习到的特征示意进行评估。下表 3 展示了多种模态上磨练的 PolyViT 奈何学习「在跨图像、音频和视频三种模态的 11 个线性评估任务上均进展追究的」跨模态特征示意。同期,表 3 还展示了多种模态上的协同磨练奈何成心于学习强大、可迁徙且可用于多个下贱任务的特征示意。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA 使用单模态协同磨练终了 SOTA 性能

受到上表 2 中单模态协同磨练性能的启发,连系者使用这种设施在音频和视频分类任务上推论了大限制协同磨练实验。下表 4 和表 5 清晰,在使用的参数昭着更少的同期,他们终清亮 SOTA 效果。

如下表 4 所示,关于音频分类,连系者将 PolyViT 与现时 SOTA 设施 MBT(audio-only) 及联系变体 MBT: AS-500k→VGGSound 和 MBT: VGGSound→AS-500k。效果标明,PolyViT 在两个数据集上高出了 SOTA 设施,同期使用的参数大要是 MBT(audio-only) 的一半。此外,PolyViT 在更小的数据集 VGGSound 上终清亮 2.8% 的 Top 1 准确率擢升。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

关于视频分类,连系者在 Kinetics-400、Kinetics-600 和 Moments in Time 数据集上协同磨练了具有较小 tubelet size 的 PolyViT-Large 模子,并与现时 SOTA 模子 ViViT(使用换取的开动化、骨干和 token 数目)进行了比较。效果如下表 5 所示,标明 PolyViT 在三个数据集上均高出了 ViViT。

单一ViT模子推论多模态多任务,谷歌用协同磨练计策终了多个SOTA

 



友情链接:
  • 成人免费高清A级毛片_成人亚洲中文字幕无码_中文字幕夫妇交换乱叫_性欧美高清极品XXX_超碰成人人人做人人爽_两姐妹一起和一个老公_gogo人体高清艺术
  • 性饥渴富婆水真多视频_欧美老妇激情XXXX_成人爱做爽视频免费看_亚洲伊人成无码综合网_日韩一级无码激情毛片_两人运动时奶一抖一抖_产妇在家艰辛分娩视频
  • 日本又黄又免費的A片_欧美极度丰满熟妇HD_97免费人妻无码视频_AV熟女五十路息与子_喜爱夜蒲2大尺度吸乳_女人双腿搬开让男人桶_欧美高清XX孕交另类
  • 俄罗斯老熟妇乱子伦视频_国产乱子伦真实精品视频_亲嘴摸屁股抓胸的视频_飘花电影网午夜福利片_国产美女视频免费网站_麻豆一区二区三区在线_亚洲人成无码播放无码
  • 亚洲国产大片在线观看_女人能抗住26厘米吗_秋霞成人午夜电影免费_熟女高清一区二区视频_女同桌熟睡摸她胸好软_无码中文字幕波多野吉_校花被体育老师强爽了
  • 亚洲日韩欧美人成黄瓜_好嗨呦直播app下载_大胆西西人体gogo_美女下面直流白水视频_人妻中出无码一区二区_最新婬乱小说午夜视频_无码艳妇乳肉豪妇荡乳
  • 精品人妻无码中文字幕_欧美乱色伦图片区小说_少妇特殊按摩高潮不断_人妻无码一区二区视频_青青热久久综合网伊人_日本亚欧乱色视频小说_亚洲欧美中文日韩GV
  • A级A片少妇高潮喷水_女人的一级一片在线看_人妻被老板下药办公室_少妇屈辱强奷系列视频_玩弄调教车上老熟妇岳_原创国产AV剧情麻豆_狠狠色丁香久久婷婷综
  • 自慰流水露白浆免费看_抽搐一进一出一级A片_妇女馒头高清泬20P_日韩Av免费无码永久_国产成人影片在线播放_国产成人A片免费视频_大狼拘与少妇牲交毛片
  • 欧美丰满裸体一级A片_两根巨物一起三P白洁_车内挺进尤物少妇紧窄_成人无码视频免费播放_一本久久精品久久综合_欧美人与动牲交a精品_韩国三级大全久久电影
  • 女同学下面好紧好多水_边吃奶边扎下很爽护士_日本三级人妻电影全部_春药玩奶头喷奶水小说_国内激情在线观看视频_AV无码最新无码专区_女人下面黑是什么原因
  • 无码成人午夜在线观看_又黄又湿又爽吸乳视频_日本熟妇人妻上司侵犯_撕开她的衣服强摸双乳_免费一级毛片激情高潮_一本正道无码视频在线_国产喷潮视频手机在线
  • 熟女高潮喷水正在播放_亚洲国产成人最新精品_真实处破女流血_强扒衣服蹂躏双乳_少妇爽性午夜剧场_亚洲素人Av在线无码_攻陷办公室新婚少妇_女人自慰免费观看高清
  • 欧美成人影院在线看_国产成人AV一区二区三区无码_国产高潮国产高潮久久久_天堂亚洲AⅤ在线观看不卡_40岁大乳的熟妇在线观看_丝袜专区_久久亚洲精品无码网站


  • Powered by 无码国产AV西瓜影音_女生的胸怎样变大变软_人妻换着玩又刺激又爽_日本喷潮白浆直喷视频_强奷伦小说公交车视频_男男无码作爱在线播放_yy私人影院无码专区 @2013-2022 RSS地图 HTML地图

    Copyright 365站群 © 2013-2022 baidu.com 版权所有