ICLR 2021最佳论文放榜! 清华宋飏等3位一作华人学生获最佳论文奖!

刚刚，ICLR2021 公布了最佳论文奖！

今年，共有8篇最佳论文胜出，其中3篇是华人学生一作，2篇是来自Deepmind，还有谷歌、斯坦福大学等机构的研究人员都取得了佳绩。

ICLR 是深度学习领域的顶级会议，今年的 ICLR 2021大会从5月4日到5月8日在奥地利维也纳举行。

其中860篇论文被接收，接受率为28.7%，这些论文有53篇Oral，114篇Spotlight以及693 Poster。

8篇论文获最佳论文！华人一作占3席

最佳论文1：超复数乘法的参数量只需要1/n

标题：Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters

《比全连接更强：超复数乘法的参数量只需要1/n》

作者机构：谷歌研究院，苏黎世联邦理工大学，南洋理工大学，Mila

表示学习在超复数空间的表示学习的有效性已经得到了验证。基于四元数（quaternions）的全连接层（四元数就是四维空间的超复数）的汉密尔顿乘积已经取代了传统的实数矩阵乘法，并且在性能不变的情况下，可学习的参数量降低为原来的1/4，在多种应用场景得到了验证。

但是一个限制就是只有几个固定的维度可以使用，如四维、八维或十六维，为了使用超复数乘法，智能牺牲模型的灵活性。

基于这个目的，这篇文章提出了一种参数化超复数乘法，使模型能够与数据无关地学习乘法规则。这个模型不仅包括汉密尔顿乘积，通过设置任意1/n的可学习参数，也使模型更灵活。

使用LSTM和Transformer模型对自然语言推理、机器翻译、文本风格迁移的实验上，证明了所提出方法的架构灵活性和有效性。

本文的第一作者是Aston Zhang，是亚马逊Web Services的高级科学家，伊利诺伊大学香槟分校获得计算机科学博士学位。

出版《动手学深度学习》，面向中文读者的「能运行、可讨论」的深度学习教科书，被全球 40 个国家 175 所大学用于教学，由四位主要作者和GitHub贡献者共同编著。

最佳论文2：重新思考可微分NAS方法中的架构选择

标题：Rethinking Architecture Selection in Differentiable NAS

作者机构：加州伯克利大学

论文地址：https://openreview.net/forum?id=PKubaeJkw3

自谷歌2016年提出了基于强化学习神经网络架构搜索（NAS）一来，一些关于NAS方法泉涌而出，其中最有影响力的工作就是DARTS。

NAS以其搜索效率高、搜索过程简单等优点成为当前最流行的神经网络结构搜索方法之一。

它借鉴了早期谷歌提出的weight sharing的搜索思想，将搜索架构建模为矩阵α使用可微分的策略对矩阵α与网络参数进行交替优化，在分类和其他任务上都取得了很好的效果。

来自加州大学洛杉矶分校的研究人员发现DARTS有一些显而易见的缺点，他们重新审视了DARTS方法中的Architecture Selection，发现很多论文中都在重点讨论搜索中超图网络的优化问题，很少有学者去关注架构问题。

论文中作者重新评估了几个可微分的 NAS 方法与所提出的架构选择，发现架构参数α中的权重参数在很多情况下并不能衡量对应候选操作对于supernet的重要性。

在预训练DARTS supernet中随机选择了三条边，作者分别计算了其中不同候选操作对应的α值与离散化精度。

作者按照对搜索网络的贡献度来进行候选操作的选择，并进一步提出了一种alternative perturbation-based的架构选择方法，这一方法在DARTS、SDARTS、SDAS等一些NAS模型上取得了性能的提升。

论文一作Ruochen Wang来自洛杉矶加州大学（UCLA），他目前是UCLA亨利·萨穆埃利工程与应用科学学院研究生研究助理。

Ruochen Wang在2015年获得密歇根大学计算机科学、统计学学士学位，2020年获得密歇根大学和洛杉矶加州大学的计算机科学硕士学位。

最佳论文3：基于随机微分方程的分数生成式建模

标题：Score-Based Generative Modeling through Stochastic Differential Equations

作者机构：斯坦福大学，谷歌

从数据中生成噪声是很简单的，从噪声中找到数据则需要生成式的模型。这篇文章提出随机查分方程(SDE)，通过逐渐注入噪声，把一个复杂的数据分布转换到一个已知的先验分布。另外一个对称的逆时SDE通过把噪声逐渐去处，把先验分布转换回数据分布。

至关重要的是，逆时SDE仅依赖于扰动数据分布的时间相关梯度场（场也叫做分数）。

由于利用了基于分数的生成式模型的优势，这篇论文提出的模型能够准确地使用神经网络来估计分数，并且使用几个SDE求解器来生成样例。

论文中提出的框架封装了之前基于分数的生成式模型，扩散概率模型，兼容新的采样过程，并且具有不同的建模能力。

除此之外，一个预测校正器框架被用来纠正离散化的逆时SDE在演化过程中的误差。

一个等价的神经ODE能够从与SDE相同的分布中采样数据，额外计算精确的概率，提升采样效率。

本文提供了一个新的途径使用基于分数的模型解决时序反向问题，在基于类别的生成、图像修复、着色实验中得到了验证。

由于多种架构上的改进，本文在CIFA-10数据集上的非条件图像生成实验上达到SOTA，评分9.89，FID 2.20，2.99bits/dim的概率，在1024*1024图像生成上，首次阐述了如何基于分数生成模型高保真地生成图像。

论文一作宋飏本科毕业于清华大学物理系，现为斯坦福大学计算机系博士生，他的导师是斯坦福大学计算机科学学院Stefano Ermon教授。

目前致力于研究具有灵活的模型结构，稳定的训练方式，优异的样本质量，以及能够自由控制的新型生成式模型。

他表示自己对生成模型的各种应用很感兴趣，比如解决逆问题，以及减少机器学习系统的安全漏洞。

还有5篇论文获得最佳论文奖，它们分别是：

论文4

标题：Complex Query Answering with Neural Link Predictors

作者机构：UCL 人工智能中心、阿姆斯特丹大学、Discovery Lab

ICLR 2021最佳论文放榜! 清华宋飏等3位一作华人学生获最佳论文奖!

中煤集团总部公开招聘，岗位种类众多，五险一金待遇超好

东南大学校长“虚位以待”, 北大黄如院士有可能回归母校接任吗?

大厂校招的笔试题, 已成作弊者的舞台。

公务员年度考核优秀或立三等功, 在晋升职务职级中能起哪些作用?

网传一老师转卖学生的平板, 门店回应: 不是转卖, 是打算贴膜自用

高三家长误拆档案袋, 委屈哭诉: 只想看看孩子在校表现, 有错吗?

2024“改名”最成功的5所大学, 录取分数直线飙升, 各位学子理性避让!

教育部规定: 这3类学生没资格高考, 做父母的务必知道, 一切为了孩子

ISEF回应造假事件公开信需要5天。(数学竞赛需要几天? )

为什么那么多人愿意进体制内当临聘人员? 这是很不错的过渡性工作

微信扫一扫：分享

高中数学: 导数各题型方法总结|考点都在这, 解决你三年的难题

这6所大学将被“撤销”, 已不再招生, 今年的考生要知晓

相关推荐