DRO怎么解

2020-08-27  本文已影响0人  顾劝劝
  1. 通过求内层对偶把minimax转换成min
    1.1 gurobi的内点法
    1.2 梯度下降,对梯度用二分法计算
  2. Mirror Descent轮换优化,每次只更新一个p_i

随机梯度

原文:Stochastic Gradient Methods for Distributionally Robust Optimization with f-divergences,NIPS 2016
作者:Hongseok Namkoong, John C. Duchi

用非参不确定集的最坏情况构建新的分布,让更多的权重放在损失大的点上。
每轮迭代的计算成本是\mathcal{O}(\log n),所以可以证明,本文的方法只比SGD和ERM多一点点额外的计算成本。

DRO有三好:

损失函数要

这个minimax的优化问题的内层max是『经验目标函数加一个类似根号方差加小o(1)』的凸近似[1]

不过在大规模数据中,这个minimax的计算量也是很大的。
内层max写成对偶后进行随机梯度下降时,当\lambda趋近于0时方差会爆炸。


  1. Duchi, John, Peter Glynn, and Hongseok Namkoong. "Statistics of robust optimization: A generalized empirical likelihood approach." arXiv preprint arXiv:1610.03425 (2016).

上一篇 下一篇

猜你喜欢

热点阅读