Primal-dual fast gradient method with a model

Alexander Tyurin

arXiv:1906.10107·math.OC·June 25, 2019

Primal-dual fast gradient method with a model

Alexander Tyurin

PDF

TL;DR

This paper introduces primal-dual adaptive gradient and fast gradient methods utilizing a $(, L)$-model for optimization, enabling solution recovery of dual problems across various classes with proven optimal convergence rates.

Contribution

The paper develops a unified primal-dual optimization framework using $(, L)$-models, applicable to multiple problem classes, with convergence guarantees and optimal rates.

Findings

01

Proposed primal-dual methods with convergence rates.

02

Methods applicable to different classes of optimization problems.

03

Achieved optimal convergence rates for some problem classes.

Abstract

In this work we consider a possibility to use the conception of $(δ, L)$ -model of a function for optimization tasks, whereby solving a primal problem there is a necessity to recover a solution of a dual problem. The conception of $(δ, L)$ -model is based on the conception of $(δ, L)$ -oracle which was proposed by Devolder-Glineur-Nesterov, herewith the authors proposed approximate a function with an upper bound using a convex quadratic function with some additive noise $δ$ . They managed to get convex quadratic upper bounds with noise even for nonsmooth functions. The conception of $(δ, L)$ -model continues this idea by using instead of a convex quadratic function a more complex convex function in an upper bound. Possibility to recover the solution of a dual problem gives great benefits in different problems, for instance, in some cases, it is faster to find a…

Equations54

f (x) \to x \in Q min .

f (x) \to x \in Q min .

f (x) : Q \to R, Q \subset R^{n} .

f (x) : Q \to R, Q \subset R^{n} .

Q = {x \leavevmode ∣ \leavevmode x \in Q, \leavevmode f_{i} (x) \leq 0 \leavevmode \forall i \in [1, m]},

Q = {x \leavevmode ∣ \leavevmode x \in Q, \leavevmode f_{i} (x) \leq 0 \leavevmode \forall i \in [1, m]},

F (x) = [f_{1} (x), \dots, f_{m} (x)]^{T},

F (x) = [f_{1} (x), \dots, f_{m} (x)]^{T},

f (x) \to x \in Q, \leavevmode F (x) \leq 0 min .

f (x) \to x \in Q, \leavevmode F (x) \leq 0 min .

V (x, y) = d (x) - d (y) - ⟨ \nabla d (y), x - y ⟩

V (x, y) = d (x) - d (y) - ⟨ \nabla d (y), x - y ⟩

V (x, y) \geq \frac{1}{2} ∥ x - y ∥^{2} .

V (x, y) \geq \frac{1}{2} ∥ x - y ∥^{2} .

0 \leq f (x) - (f_{δ} (y) + ψ_{δ} (x, y)) \leq \frac{L}{2} ∥ x - y ∥^{2} + δ

0 \leq f (x) - (f_{δ} (y) + ψ_{δ} (x, y)) \leq \frac{L}{2} ∥ x - y ∥^{2} + δ

x \in Q, \leavevmode F (x) \leq 0 min f (x) = x \in Q min z \in R_{+}^{m} max [f (x) + ⟨ z, F (x)⟩],

x \in Q, \leavevmode F (x) \leq 0 min f (x) = x \in Q min z \in R_{+}^{m} max [f (x) + ⟨ z, F (x)⟩],

x \in Q, \leavevmode F (x) \leq 0 min f (x) \geq z \in R_{+}^{m} max x \in Q min [f (x) + ⟨ z, F (x)⟩],

x \in Q, \leavevmode F (x) \leq 0 min f (x) \geq z \in R_{+}^{m} max x \in Q min [f (x) + ⟨ z, F (x)⟩],

g (z) = x \in Q max [- f (x) - ⟨ z, F (x)⟩],

g (z) = x \in Q max [- f (x) - ⟨ z, F (x)⟩],

x \in Q, \leavevmode F (x) \leq 0 min f (x) \geq - z \in R_{+}^{m} min g (z) .

x \in Q, \leavevmode F (x) \leq 0 min f (x) \geq - z \in R_{+}^{m} min g (z) .

g (z) \to z \in R_{+}^{m} min .

g (z) \to z \in R_{+}^{m} min .

p (x) \to x \in Q, \leavevmode G (x) \leq 0 min .

p (x) \to x \in Q, \leavevmode G (x) \leq 0 min .

h (z) \to z \in R_{+}^{m} min,

h (z) \to z \in R_{+}^{m} min,

(x_{*}, z_{*}) := argdual_{x \in Q} (p (x), G (x)) .

(x_{*}, z_{*}) := argdual_{x \in Q} (p (x), G (x)) .

(x_{*}, z_{*}) := argdual_{x \in Q} (f (x), F (x)) .

(x_{*}, z_{*}) := argdual_{x \in Q} (f (x), F (x)) .

f_{δ_{k}} (x_{k + 1}) \leq f_{δ_{k}} (x_{k}) + ψ_{δ_{k}} (x_{k + 1}, x_{k}) + \frac{L _{k + 1}}{2} ∥ x_{k + 1} - x_{k} ∥^{2} + δ_{k},

f_{δ_{k}} (x_{k + 1}) \leq f_{δ_{k}} (x_{k}) + ψ_{δ_{k}} (x_{k + 1}, x_{k}) + \frac{L _{k + 1}}{2} ∥ x_{k + 1} - x_{k} ∥^{2} + δ_{k},

ϕ_{k + 1} (x) := ψ_{δ_{k}} (x, x_{k}) + L_{k + 1} V (x, x_{k}), (x_{k + 1}, z_{k + 1}) := argdual_{x \in Q} (ϕ_{k + 1} (x), F (x)) .

ϕ_{k + 1} (x) := ψ_{δ_{k}} (x, x_{k}) + L_{k + 1} V (x, x_{k}), (x_{k + 1}, z_{k + 1}) := argdual_{x \in Q} (ϕ_{k + 1} (x), F (x)) .

y = argmin_{x \in Q} {ψ (x) + V (x, u)} .

y = argmin_{x \in Q} {ψ (x) + V (x, u)} .

ψ (x) + V (x, u) \geq ψ (y) + V (y, u) + V (x, y) \forall x \in Q .

ψ (x) + V (x, u) \geq ψ (y) + V (y, u) + V (x, y) \forall x \in Q .

(y, z) := argdual_{x \in Q} (ψ (x) + V (x, u), F (x)) .

(y, z) := argdual_{x \in Q} (ψ (x) + V (x, u), F (x)) .

ψ (x) + ⟨ z, F (x)⟩ + V (x, u) \geq ψ (y) + V (y, u) + V (x, y) \forall x \in Q .

ψ (x) + ⟨ z, F (x)⟩ + V (x, u) \geq ψ (y) + V (y, u) + V (x, y) \forall x \in Q .

y = argmin_{x \in Q} {ψ (x) + ⟨ z, F (x)⟩ + V (x, u)} .

y = argmin_{x \in Q} {ψ (x) + ⟨ z, F (x)⟩ + V (x, u)} .

ψ (x) + ⟨ z, F (x)⟩ + V (x, u) \geq ψ (y) + ⟨ z, F (y)⟩ + V (y, u) + V (x, y) \forall x \in Q .

ψ (x) + ⟨ z, F (x)⟩ + V (x, u) \geq ψ (y) + ⟨ z, F (y)⟩ + V (y, u) + V (x, y) \forall x \in Q .

f (\overset{x}{ˉ}_{N}) \leq x \in Q min [\frac{1}{A _{N}} k = 0 \sum N - 1 \frac{1}{L _{k + 1}} (f_{δ_{k}} (x_{k}) + ψ_{δ_{k}} (x, x_{k})) + ⟨ \overset{z}{ˉ}_{N}, F (x)⟩ + \frac{V ( x , x _{0} )}{A _{N}}] + \frac{1}{A _{N}} k = 0 \sum N - 1 \frac{2 δ _{k}}{L _{k + 1}}

f (\overset{x}{ˉ}_{N}) \leq x \in Q min [\frac{1}{A _{N}} k = 0 \sum N - 1 \frac{1}{L _{k + 1}} (f_{δ_{k}} (x_{k}) + ψ_{δ_{k}} (x, x_{k})) + ⟨ \overset{z}{ˉ}_{N}, F (x)⟩ + \frac{V ( x , x _{0} )}{A _{N}}] + \frac{1}{A _{N}} k = 0 \sum N - 1 \frac{2 δ _{k}}{L _{k + 1}}

f (\overset{x}{ˉ}_{N}) + g (\overset{z}{ˉ}_{N}) \leq \frac{R ^{2}}{A _{N}} + \frac{1}{A _{N}} k = 0 \sum N - 1 \frac{2 δ _{k}}{L _{k + 1}} .

f (\overset{x}{ˉ}_{N}) + g (\overset{z}{ˉ}_{N}) \leq \frac{R ^{2}}{A _{N}} + \frac{1}{A _{N}} k = 0 \sum N - 1 \frac{2 δ _{k}}{L _{k + 1}} .

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Full text

\journalVol

10

\journalNo

1

\journalSection

Математические основы и численные методы моделирования \journalSectionEnMathematical modeling and numerical simulation

\journalReceived

01.06.2016.

\journalAccepted

01.06.2016.

\UDC

519.85

\titleengPrimal-dual fast gradient method with a model ††thanks: Работа была поддержана грантом РФФИ 18-31-20005 мол-а-вед в первой части и грантом РНФ 17-11-01027 во второй.\thanksengThis work was supported by RFFI 18-31-20005 mol_a_ved in the first part of the work and by RSCF grant No. 17-11-01027 in the second part of the work.

\authorfull

Александр Игоревич Тюрин \authoreng\firstnameA. I. \surnameTyurin \authorfullengAlexander I. Tyurin

\affiliationengNational Research University Higher School of Economics,

20 Myasnitskaya ulitsa, Moscow, 101000, Russia

Прямо-двойственный быстрый градиентный метод с моделью

\firstnameА. И. \surnameТюрин

[email protected]

Национальный исследовательский университет «Высшая школа экономики»,

Россия, 101000, г. Москва, ул. Мясницкая, д. 20

Abstract

В данной работе рассматривается возможность применения концепции $(\delta,L)$ –модели функции для оптимизационных задач, в которых посредством решения прямой задачи имеется необходимость восстанавливать решение двойственной задачи. Концепция $(\delta,L)$ –модели основана на концепции $(\delta,L)$ –оракула, предложенная Деволдерор–Глинером–Нестеровов, при этом данные авторы предложили фукнционалы в оптимизационных задачах аппроксимировать сверху выпуклой параболой с некоторым аддитивным шумом $\delta$ , таким образом, им удалось получить квадратичные верхние оценки с шумом даже для негладких функционалов. Концепция $(\delta,L)$ –модели продолжает эту идею за счет того, что аппроксимация сверху делается не выпуклой параболой, а некоторым более сложным выпуклым функционалом. Возможность восстанавливать решение двойственной задачи хорошо себя зарекомендовала себя, так как во многих случаях в прямой задаче можно значительно быстрее находить решение, чем в двойственной. Отметим, что прямо–двойственные методы хорошо изучены, но при этом, как правило, каждый метод предлагается под конкретный класс задач. Нашей же целью является предложить метод, который бы включал в себя сразу различные методы. Это реализуется за счет использования концепции $(\delta,L)$ –модели и адаптивной структуры наших методов. Таким образом, нам удалось получить прямой–двойственный адаптивный градиентный метод и быстрый градиентный метод с $(\delta,L)$ –моделью и доказать оценки сходимости для них, причем для некоторых классов задач данные оценки являются оптимальными. Основная идея заключается в том, что нахождение двойственных решений происходит относительно оптимизационной задачи, которая аппроксимируют прямую с помощью концепции $(\delta,L)$ –модели и имеет более простую структуру, поэтому находить двойственное решение у нее проще. Стоит отметить, что это происходит на каждом шаге работы оптимизационного метода, таким образом, реализуется принцип "разделяй и властвуй".

keywords:

быстрый градиентный метод

keywords:

модель функции

keywords:

прямо–двойственный метод

{abstracteng}

In this work we consider a possibility to use the conception of $(\delta,L)$ –model of a function for optimization tasks, whereby solving a primal problem there is a necessity to recover a solution of a dual problem. The conception of $(\delta,L)$ –model is based on the conception of $(\delta,L)$ –oracle which was proposed by Devolder–Glineur–Nesterov, herewith the authors proposed approximate a function with an upper bound using a convex quadratic function with some additive noise $\delta$ . They managed to get convex quadratic upper bounds with noise even for nonsmooth functions. The conception of $(\delta,L)$ –model continues this idea by using instead of a convex quadratic function a more complex convex function in an upper bound. Possibility to recover the solution of a dual problem gives great benefits in different problems, for instance, in some cases, it is faster to find a solution in a primal problem than in a dual problem. Note that primal–dual methods are well studied, but usually each class of optimization problems has its own primal–dual method. Our goal is to develop a method which can find solutions in different classes of optimization problems. This is realized through the use of the conception of $(\delta,L)$ –model and adaptive structure of our methods. Thereby, we developed primal–dual adaptive gradient method and fast gradient method with $(\delta,L)$ –model and proved convergence rates of the methods, moreover, for some classes of optimization problems the rates are optimal. The main idea is the following: we find a dual solution to an approximation of a primal problem using the conception of $(\delta,L)$ –model. It is much easier to find a solution to an approximated problem, however, we have to do it in each step of our method, thereby the principle of "divide and conquer" is realized.

\keywordeng

fast gradient method \keywordengmodel of the function \keywordengprimal–dual method

Введение

Методы оптимизации играют большую роль в решении различных задач. Важным свойством некоторых оптимизационных методов является их прямо–двойственность [anikin2017dual, boyd2004convex, nesterov2015complexity, nesterov2009primal], — это возможность восстанавливать достаточно эффективно решение двойственной задачи по прямой (или наоборот). Данный подход хорошо себя зарекомендовал в транспортных задачах [baymurzina2019universal, gasnikov2018dualtransport, gasnikoveffectivnie], задаче машинного обучения SVM и многих других [gasnikov2017universal]. В данной работе мы предлагаем прямой–двойственный адаптивный градиентный и быстрый градиентный метод, использующий концепцию $(\delta,L)$ –модели функции [gasnikov2017universal, tyurin2017fast], которая, в свою очередь, основана на концепции $(\delta,L)$ –оракула [devolder2014first, devolder2013first, devolder2013intermediate, devolder2013exactness]. Как и в ранних работах по $(\delta,L)$ –модели методы из текущей работы включают в себя классический градиентный метод [nesterov2010introductory], универсальный метод [nesterov2015universal], метод Франк–Вульфа [ben-tal2015lectures], композитная оптизация [nesterov2013gradient]. Более того, концепция $(\delta,L)$ –модели позволяет решать эффективно достаточно нетривиальные постановки задач [stonyakin2019gradient, tyurin2017fast, gasnikov2017universal]. Для многих из них предложенные нами методы являются оптимальными [nemirovskiy1979slognost, tyurin2017fast].

Прямо–двойственный метод

Рассмотрим общую задачу оптимизации [nesterov2010introductory, vasiliev2017methods]:

[TABLE]

Функция $f(x)$ определена на некотором множестве $Q$ , которое принадлежит линейному пространству $\mathbb{R}^{n}$ :

[TABLE]

Далее и везде будем считать, что функции $f(x)$ выпуклая и на множестве $Q$ имеет хотя бы одну точку минимума, принадлежащую множество $Q$ . Более того, будем предполагать, что множество $Q$ имеет следующий вид:

[TABLE]

где для любого $i$ функция $f_{i}(x):\widetilde{Q}\rightarrow\mathbb{R}$ выпуклая функция, и множество $\widetilde{Q}$ является выпуклым. Введем следующее обозначение:

[TABLE]

таким образом, получаем следующую задачу оптимизации:

[TABLE]

Далее нам понадобится понятие прокс–функции и дивергенции Брэгмана [ben-tal2015lectures]: {fed} Функция $d(x):Q\rightarrow\mathbb{R}$ называется прокс–функцией, если $d(x)$ непрерывно дифференцируемая на $\textnormal{int }Q$ и $d(x)$ является 1–сильно выпуклой относительно нормы $\left\lVert\cdot\right\rVert$ на множестве $\textnormal{int }Q$ .

{fed} Функция

[TABLE]

называется дивергенцией Брэгмана, где $d(x)$ — произвольная прокс–функция.

Из 1–сильной выпуклости прокс–функции моментально следует [ben-tal2015lectures], что

[TABLE]

Введем понятие $(\delta,L)$ –модели функции: {fed} Пусть функция $\psi_{\delta}(x,y)$ выпуклая на множестве $Q$ и выполняется условие $\psi_{\delta}(x,x)=0$ для всех $x\in Q$ . Будем говорить, что $\psi_{\delta}(x,y)$ есть $(\delta,L)$ –модель функции $f$ в точке $y$ относительно нормы $\left\lVert\cdot\right\rVert$ , если для любого $x\in Q$ неравенство

[TABLE]

выполнено для некоторых $L,\delta>0$ .

Данное определение было введено и ранее в работах [gasnikov2017universal, tyurin2017fast, stonyakin2019gradient] и базируется на концепции $(\delta,L)$ –оракула [devolder2013first, devolder2014first, devolder2013exactness].

Найдем двойственную задачу [boyd2004convex] для задачи (2), для этого выпишем следующее равенство:

[TABLE]

где $\mathbb{R}^{m}_{+}=\{x\leavevmode\nobreak\ |\leavevmode\nobreak\ x\in\mathbb{R}^{n},\leavevmode\nobreak\ x_{i}\geq 0\leavevmode\nobreak\ \forall i\in[1,m]\}$ . В силу слабой двойственности [boyd2004convex] будет верно неравенство:

[TABLE]

Пусть

[TABLE]

тогда

[TABLE]

Выражение слева называется прямой задачей, а справа - двойственной задачей, определим ее отдельно:

[TABLE]

Далее будем предполагать, что выполнены условия сильной двойственности [boyd2004convex], одним следствием этого является то, что неравенство в (7) переходит в равенство. Для решений прямых и двойственных задач введем следующее обозначение. {fed} Пусть $x_{*}$ произвольное решение прямой задачи

[TABLE]

Точка $z_{*}$ произвольное решение двойственной задачи

[TABLE]

для (9), где $z$ — это двойственные переменные соответствующие ограничениям $G(x)\leq 0$ . Введем оператор $\mathop{\mathrm{argdual}}$ , зависящий от функции $p(x)$ и $G(x)$ , и возвращающий $x_{*}$ и $z_{*}$ :

[TABLE]

Пусть $x_{*}$ и $z_{*}$ произвольные решения прямой и двойственной задачи из (7), таким образом:

[TABLE]

Прежде чем доказывать теорему рассмотрим алгоритм 1. Этот алгоритм является комбинацией градиентого спуска в модельной общности из работы [gasnikov2017universal] c прямо-двойственным субградиентным методом из работы [nesterov2009primal]. На вход алгоритму подается начальная точка $x_{0}$ , произвольная константа $L_{0}>0$ и последовательность $\{\delta_{k}\}_{k\geq 0}$ . Будем предполагать далее, что для $\delta_{k}$ и точки $x_{k}$ всегда найдется некоторая константа $L_{k+1}>0$ такая, что существует $(\delta_{k},L_{k+1})$ –модель в точке $x_{k}$ . Будем также считать, что данное требование выполнено и для алгоритма LABEL:Alg2. Отметим еще, что $i_{k}$ в шаге 3 алгоритма 1 находится обычным перебором от [math] до бесконечности, но из условия о существовании $(\delta_{k},L_{k+1})$ –модели в точке $x_{k}$ следует, что это этот процесс конечен, более того, несложно показать, что в среднем минимальное целое число $i_{k}$ для которого выполнено (10) равно $1$ [nesterov2015universal].

Lemma 1.

Пусть $\psi(x)$ выпуклая функция и

[TABLE]

Тогда выполнено неравенство

[TABLE]

Доказательство представлено в работе [tyurin2017fast], лемме 1.

Corollary 2.

Пусть $\psi(x)$ выпуклая функция и

[TABLE]

Тогда выполнено неравенство

[TABLE]

Proof 0.1.

Из (12) и сильной двойственности следует, что

[TABLE]

Используя лемму 1 для (13) получаем неравенство

[TABLE]

Из условия дополняющей нежёсткости [boyd2004convex] верно, что $\langle z,F(y)\rangle=0$ . Следствие доказано. ∎

Докажем теорему, которая дает оценки сходимости алгоритма 1.

{teo}

Пусть $x_{0}$ — начальная точка, ( $\bar{x}_{N}$ , $\bar{z}_{N}$ ) — точки, полученные в результате работы алгоритма 1, $x(\bar{z}_{N})$ — точка, в которой достигается максимум в (6) при $z=\bar{z}_{N}$ и $V(x(\bar{z}_{N})),x_{0})\leq R^{2},$ тогда будет верно неравенство

[TABLE]

и

[TABLE]

TL;DR

Contribution

Findings

Abstract

Peer Reviews

Videos

Прямо-двойственный быстрый градиентный метод с моделью

Abstract

keywords:

keywords:

keywords:

Введение

Прямо–двойственный метод

Lemma 1**.**

Corollary 2**.**

Proof 0.1**.**

Lemma 1.

Corollary 2.

Proof 0.1.