当前位置:首页 > 教育资讯

ICLR 2021最佳论文放榜! 清华宋飏等3位一作华人学生获最佳论文奖!

刚刚,ICLR2021 公布了最佳论文奖!

今年,共有8篇最佳论文胜出,其中3篇是华人学生一作,2篇是来自Deepmind,还有谷歌、斯坦福大学等机构的研究人员都取得了佳绩。

ICLR 是深度学习领域的顶级会议,今年的 ICLR 2021大会从5月4日到5月8日在奥地利维也纳举行。

其中860篇论文被接收,接受率为28.7%,这些论文有53篇Oral,114篇Spotlight以及693 Poster。

8篇论文获最佳论文!华人一作占3席

最佳论文1:超复数乘法的参数量只需要1/n

标题:Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters

《比全连接更强:超复数乘法的参数量只需要1/n》

作者机构:谷歌研究院,苏黎世联邦理工大学,南洋理工大学,Mila

表示学习在超复数空间的表示学习的有效性已经得到了验证。基于四元数(quaternions)的全连接层(四元数就是四维空间的超复数)的汉密尔顿乘积已经取代了传统的实数矩阵乘法,并且在性能不变的情况下,可学习的参数量降低为原来的1/4,在多种应用场景得到了验证。

但是一个限制就是只有几个固定的维度可以使用,如四维、八维或十六维,为了使用超复数乘法,智能牺牲模型的灵活性。

基于这个目的,这篇文章提出了一种参数化超复数乘法,使模型能够与数据无关地学习乘法规则。这个模型不仅包括汉密尔顿乘积,通过设置任意1/n的可学习参数,也使模型更灵活。

使用LSTM和Transformer模型对自然语言推理、机器翻译、文本风格迁移的实验上,证明了所提出方法的架构灵活性和有效性。

本文的第一作者是Aston Zhang,是亚马逊Web Services的高级科学家,伊利诺伊大学香槟分校获得计算机科学博士学位。

出版《动手学深度学习》,面向中文读者的「能运行、可讨论」的深度学习教科书,被全球 40 个国家 175 所大学用于教学,由四位主要作者和GitHub贡献者共同编著。

最佳论文2:重新思考可微分NAS方法中的架构选择

标题:Rethinking Architecture Selection in Differentiable NAS

作者机构:加州伯克利大学

论文地址:https://openreview.net/forum?id=PKubaeJkw3

自谷歌2016年提出了基于强化学习神经网络架构搜索(NAS)一来,一些关于NAS方法泉涌而出,其中最有影响力的工作就是DARTS。

NAS以其搜索效率高、搜索过程简单等优点成为当前最流行的神经网络结构搜索方法之一。

它借鉴了早期谷歌提出的weight sharing的搜索思想,将搜索架构建模为矩阵α使用可微分的策略对矩阵α与网络参数进行交替优化,在分类和其他任务上都取得了很好的效果。

来自加州大学洛杉矶分校的研究人员发现DARTS有一些显而易见的缺点,他们重新审视了DARTS方法中的Architecture Selection,发现很多论文中都在重点讨论搜索中超图网络的优化问题,很少有学者去关注架构问题。

论文中作者重新评估了几个可微分的 NAS 方法与所提出的架构选择,发现架构参数α中的权重参数在很多情况下并不能衡量对应候选操作对于supernet的重要性。

在预训练DARTS supernet中随机选择了三条边,作者分别计算了其中不同候选操作对应的α值与离散化精度。

作者按照对搜索网络的贡献度来进行候选操作的选择,并进一步提出了一种alternative perturbation-based的架构选择方法,这一方法在DARTS、SDARTS、SDAS等一些NAS模型上取得了性能的提升。

论文一作Ruochen Wang来自洛杉矶加州大学(UCLA),他目前是UCLA亨利·萨穆埃利工程与应用科学学院研究生研究助理。

Ruochen Wang在2015年获得密歇根大学计算机科学、统计学学士学位,2020年获得密歇根大学和洛杉矶加州大学的计算机科学硕士学位。

最佳论文3:基于随机微分方程的分数生成式建模

标题:Score-Based Generative Modeling through Stochastic Differential Equations

作者机构:斯坦福大学,谷歌

从数据中生成噪声是很简单的,从噪声中找到数据则需要生成式的模型。这篇文章提出随机查分方程(SDE),通过逐渐注入噪声,把一个复杂的数据分布转换到一个已知的先验分布。另外一个对称的逆时SDE通过把噪声逐渐去处,把先验分布转换回数据分布。

至关重要的是,逆时SDE仅依赖于扰动数据分布的时间相关梯度场(场也叫做分数)。

由于利用了基于分数的生成式模型的优势,这篇论文提出的模型能够准确地使用神经网络来估计分数,并且使用几个SDE求解器来生成样例。

论文中提出的框架封装了之前基于分数的生成式模型,扩散概率模型,兼容新的采样过程,并且具有不同的建模能力。

除此之外,一个预测校正器框架被用来纠正离散化的逆时SDE在演化过程中的误差。

一个等价的神经ODE能够从与SDE相同的分布中采样数据,额外计算精确的概率,提升采样效率。

本文提供了一个新的途径使用基于分数的模型解决时序反向问题,在基于类别的生成、图像修复、着色实验中得到了验证。

由于多种架构上的改进,本文在CIFA-10数据集上的非条件图像生成实验上达到SOTA,评分9.89,FID 2.20,2.99bits/dim的概率,在1024*1024图像生成上,首次阐述了如何基于分数生成模型高保真地生成图像。

论文一作宋飏本科毕业于清华大学物理系,现为斯坦福大学计算机系博士生,他的导师是斯坦福大学计算机科学学院Stefano Ermon教授。

目前致力于研究具有灵活的模型结构,稳定的训练方式,优异的样本质量,以及能够自由控制的新型生成式模型。

他表示自己对生成模型的各种应用很感兴趣,比如解决逆问题,以及减少机器学习系统的安全漏洞。

还有5篇论文获得最佳论文奖,它们分别是:

论文4

标题:Complex Query Answering with Neural Link Predictors

作者机构:UCL 人工智能中心、阿姆斯特丹大学、Discovery Lab

本文来自网络,不代表教育资讯立场,转载请注明出处。