新网Logo
首页>互联网热点>

聚焦迁移学习反向传播缺陷,百度资深工程师带来全新 ICML 工作分享

登录 注册

聚焦迁移学习反向传播缺陷,百度资深工程师带来全新 ICML 工作分享

  • 来源:网络
  • 更新日期:2020-07-23

摘要:CV 在前,NLP 在后,迁移学习技术的应用为这两个领域所带来的进展和突破,不可谓不瞩目。其中,预训练模型作为当下迁移学习的一种主流方法,让 " 从零开始训练一个新模型 " 的时代一

CV 在前,NLP 在后,迁移学习技术的应用为这两个领域所带来的进展和突破,不可谓不瞩目。

其中,预训练模型作为当下迁移学习的一种主流方法,让 从零开始训练一个新模型 的时代一去不复返。这类在大型数据集上训练好的模型进行微调后,便能够较好地适配类似的新目标任务,可以极大地节约时间和成本。

不过,天下没有免费的午餐,这种方法看似 一劳永逸 ,也需要付出一定的代价,其中的一大问题便是,由于反向传播带给深层卷积层的更新较小,微调得到的模型往往被 吸引 在预训练模型附近,无法得到充分更新。

对此,百度的一篇 ICML 2020 工作《RIFLE: Backpropagation in Depth for Deep Transfer Learning through Re-Initializing the Fully-connected LayEr》,提出了一种简单有效的策略 RIFLE,通过周期性的重新初始化全连接层,给深层的特征提取网络带来有意义的更新,提升低层次特征的学习,从而显著提升迁移学习的效果。

论文地址:https://proceedings.icml.cc/static/paper_files/icml/2020/3745-Paper.pdf

开源地址:https://github.com/haozhe-an/RIFLE-Paddle-Implementation

基于 PaddlePaddle 的实现:https://github.com/haozhe-an/RIFLE-Paddle-Implementation

据悉,该方法已超过已有同类方法如 Dropout、Dropconnect、Stochastic Depth、 Disturb Label 以及 Cyclic Learning Rate 等,在多个数据集上的效果提升 0.5%-2%。

为了深度解析这项工作背后的算法原理以及应用效果,AI 科技评论特别邀请到了论文一作、百度大数据实验室资深工程师李兴建,来做论文直播分享!

时间就定在 7 月 24 日 20:00 整,各位同学记得准时收看 ~

分享主题:RIFLE 算法:通过重新初始化全连接层加深迁移学习中的梯度反向传播

分享嘉宾:李兴建,百度大数据实验室资深工程师,多年自然语言处理、深度学习、迁移学习等领域工作经验

分享时间:7 月 24 日(周五晚) 20:00 整

分享背景:

基于一个预训练的深度学习模型进行微调,成为一种主流的迁移学习方式。该方法虽然简单有效,但微调得到的模型经常被『吸引』在预训练模型附近,无法得到充分更新。我们的工作提出一种简单有效的策略 RIFLE,通过周期性的重新初始化全连接层,给深层的特征提取网络带来有意义的更新,提升低层次特征的学习。

分享提纲:

深度迁移学习简介和 RIFLE 算法提出的动机

算法流程

算法效果及讨论

二层网络模拟实验

如何加入?

扫码关注 [ AI 研习社顶会小助手 ] 微信号,发送关键字 ICML 2020+ 直播 ,即可进群观看直播和获取课程资料。