下载客户端

引入鲁棒性作为连续参数，这种新的损失函数实现了自适应、随时变换

2020-10-23 20:31

来源：澎湃新闻·澎湃号·湃客

选自towardsdatascience

作者：Saptashwa Bhattacharyya

机器之心编译

编辑：陈萍

损失函数是机器学习里最基础也是最为关键的一个要素，其用来评价模型的预测值和真实值不一样的程度。最为常见的损失函数包括平方损失、指数损失、log 对数损失等损失函数。这里回顾了一种新的损失函数，通过引入鲁棒性作为连续参数，该损失函数可以使围绕最小化损失的算法得以推广，其中损失的鲁棒性在训练过程中自动自我适应，从而提高了基于学习任务的性能。

这篇文章对 CVPR 2019 的一篇论文《A General and Adaptive Robust Loss Function》进行了回顾性综述，主要讲述了为机器学习问题开发鲁棒以及自适应的损失函数。论文作者为谷歌研究院的研究科学家 Jon Barron。

论文地址：https://arxiv.org/pdf/1701.03077.pdf

异常值（Outlier）与鲁棒损失

考虑到机器学习问题中最常用的误差之一——均方误差（Mean Squared Error, MSE），其形式为：(y-x)⊃2;。该损失函数的主要特征之一是：与小误差相比，对大误差的敏感性较高。并且，使用 MSE 训练出的模型将偏向于减少最大误差。例如，3 个单位的单一误差与 1 个单位的 9 个误差同等重要。

下图为使用 Scikit-Learn 创建的示例，演示了在有 / 无异常值影响的情况下，拟合是如何在一个简单数据集中变化的。

MSE 以及异常值的影响。

如上图所示，包含异常值的拟合线（fit line）受到异常值的较大影响，但是优化问题应要求模型受内点（inlier）的影响更大。在这一点上，你可能认为平均绝对误差（Mean Absolute Error, MAE）会优于 MSE，因为 MAE 对大误差的敏感性较低。也不尽然。目前有各种类型的鲁棒损失（如 MAE），对于特定问题，可能需要测试各种损失。

所以，这篇论文引入一个泛化的损失函数，其鲁棒性可以改变，并且可以在训练网络的同时训练这个超参数，以提升网络性能。与网格搜索（grid-search）交叉验证寻找最优损失函数相比，这种损失函数花费的时间更少。让我们从下面的几个定义开始讲解：

鲁棒性与自适应损失函数的一般形式：

公式 1：鲁棒性损失，其中α为超参数，用来控制鲁棒性。

α控制损失函数的鲁棒性。c 可以看作是一个尺度参数，在 x=0 邻域控制弯曲的尺度。由于α作为超参数，我们可以看到，对于不同的α值，损失函数有着相似的形式。

公式 2：不同α值对应不同的自适应性损失。

在α=0 和α=2 时，损失函数是未定义的，但利用极限可以实现近似。从α=2 到α=1，损失函数平稳地从 L2 损失过渡到 L1 损失。对于不同的α值，我们可以绘制不同的损失函数，如下图 2 所示。

导数对于优化损失函数非常重要。下面研究一下这个损失函数的一阶导数，我们知道，梯度优化涉及到导数。对于不同的α值，x 的导数如下所示。下图 2 还绘制了不同α的导数和损失函数。

公式 3：鲁棒损失（表达式 1）对于不同的α的值相对于 x 的导数

自适应损失及其导数

下图对于理解此损失函数及其导数非常重要。在下图 2 中，尺度参数 c 固定为 1.1。当 x = 6.6 时，可以将其视为 x = 6×c。可以得出以下有关损失及其导数的推论：

1. 当 x、α和 c>0 时，损失函数是光滑的，因此适合于基于梯度的优化；

2. 损失函数总是在原点为零，并且在 | x |>0 时单调增加。损失的单调性也可以与损失的对数进行比较；

3. 损失也随着α的增加而单调增加。此属性对于损失函数的鲁棒性很重要，因为可以从较高的α值开始，然后在优化过程中逐渐减小（平滑）以实现鲁棒的估计，从而避免局部最小值；

4. 当 | x |

5. 对于α= 2，导数始终与残差的大小成正比。通常，这是 MSE（L2）损失的特性；

6. 对于α=1（L1 损失），我们看到导数的幅度在 | x |>c 之外饱和至一个常数值（正好是 1/c）。这意味着残差的影响永远不会超过一个固定的量；

7. 对于α<1，导数的大小随着 | x |>c 而减小。这意味着当残差增加时，它对梯度的影响较小，因此异常值在梯度下降过程中的影响较小。

图 2：损失函数及其导数与α的关系。

图 3：自适应损失函数（左）及其导数（右）的曲面图。

鲁棒损失的实现：Pytorch 和 Google Colab

关于鲁棒损失的理论掌握了，怎么实现呢？使用的代码在 Jon Barron 的 GitHub 项目「robust_loss_pytorch」中稍加修改。此外还创建了一个动画来描述随着迭代次数的增加，自适应损失如何找到最佳拟合线。

GitHub 地址：https://github.com/jonbarron/arom_loss_pytorch

不需要克隆存储库，我们可以使用 Colab 中的 pip 在本地安装它。

!pip install git+https://github.com/jonbarron/robust_loss_pytorchimport robust_loss_pytorch

此外还创建了一个简单的线性数据集，包括正态分布的噪声和异常值。

首先，由于使用了 Pythorch 库，利用 torch 将 x, y 的 numpy 数组转换为张量。

import numpy as npimport torch scale_true = 0.7shift_true = 0.15x = np.random.uniform(size=n)y = scale_true * x + shift_truey = y + np.random.normal(scale=0.025, size=n) # add noise flip_mask = np.random.uniform(size=n) > 0.9 y = np.where(flip_mask, 0.05 + 0.4 * (1. — np.sign(y — 0.5)), y) # include outliersx = torch.Tensor(x)y = torch.Tensor(y)

其次，使用 pytorch 模块定义线性回归类，如下所示：

class RegressionModel(torch.nn.Module):def __init__(self):super(RegressionModel, self).__init__()self.linear = torch.nn.Linear(1, 1) ## applies the linear transformation.def forward(self, x):return self.linear(x[:,None])[:,0] # returns the forward pass

接下来，用线性回归模型拟合自创建的线性数据集，首先使用损失函数的一般形式。这里使用一个固定值α（α=2.0），它在整个优化过程中保持不变。正如在α=2.0 时看到的，损失函数等效 L2 损失，这对于包括异常值在内的问题不是最优的。对于优化，使用学习率为 0.01 的 Adam 优化器。

regression = RegressionModel()params = regression.parameters()optimizer = torch.optim.Adam(params, lr = 0.01)for epoch in range(2000):y_i = regression(x) # Use general loss to compute MSE, fixed alpha, fixed scale.loss = torch.mean(robust_loss_pytorch.general.lossfun(y_i — y, alpha=torch.Tensor([2.]), scale=torch.Tensor([0.1])))optimizer.zero_grad()loss.backward()optimizer.step()

利用鲁棒损失函数的一般形式和固定α值，可以得到拟合线。原始数据、真直线（生成数据点时使用的具有相同斜率和偏差的线，排除异常值）和拟合线如下图 4 所示：

图 4：一般损失函数

损失函数的一般形式不允许α发生变化，因此必须手动微调α参数或执行网格搜索进行微调。

此外，正如上图所示，由于使用了 L2 损失，拟合受到异常值的影响。这是一般的情况，但如果使用损失函数的自适应版本，会发生什么呢？调用自适应损失模块，并初始化α，让α在每个迭代步骤中自适应。

regression = RegressionModel()adaptive = robust_loss_pytorch.adaptive.AdaptiveLossFunction( num_dims = 1, float_dtype=np.float32)params = list(regression.parameters()) + list(adaptive.parameters())optimizer = torch.optim.Adam(params, lr = 0.01)for epoch in range(2000): y_i = regression(x) loss = torch.mean(adaptive.lossfun((y_i — y)[:,None]))# (y_i - y)[:, None] # numpy array or tensor optimizer.zero_grad() loss.backward() optimizer.step()

此外，还有一些额外的代码使用 celluloid 模块，见下图 5。在这里，可以清楚地看到，随着迭代次数的增加，自适应损失如何找到最佳拟合线。这个结果接近真实的线，对于异常值的影响可以忽略不计。

图 5：自适应损失函数如何达到最佳拟合的动画。

原文地址：

https://towardsdatascience.com/the-most-awesome-loss-function-172ffc106c99

Amazon SageMaker实战教程（视频回顾）

Amazon SageMaker 是一项完全托管的服务，可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作，让开发高质量模型变得更加轻松。

10月15日-10月22日，机器之心联合AWS举办3次线上分享，全程回顾如下：

第一讲：Amazon SageMaker Studio详解

黄德滨（AWS资深解决方案架构师）主要介绍了Amazon SageMaker的相关组件，如studio、autopilot等，并通过在线演示展示这些核心组件对AI模型开发效率的提升。

视频回顾地址：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715443e4b005221d8ea8e3

第二讲：使用Amazon SageMaker 构建一个情感分析「机器人」

刘俊逸（AWS应用科学家）主要介绍了情感分析任务背景、使用Amazon SageMaker进行基于Bert的情感分析模型训练、利用AWS数字资产盘活解决方案进行基于容器的模型部署。

视频回顾地址：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d38e4b0e95a89c1713f

第三讲：DGL图神经网络及其在Amazon SageMaker上的实践

张建（AWS上海人工智能研究院资深数据科学家）主要介绍了图神经网络、DGL在图神经网络中的作用、图神经网络和DGL在欺诈检测中的应用和使用Amazon SageMaker部署和管理图神经网络模型的实时推断。

视频回顾地址：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d6fe4b005221d8eac5d

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com喜欢此内容的人还喜欢

原标题：《引入鲁棒性作为连续参数，这种新的损失函数实现了自适应、随时变换》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈