On Some Adaptive Mirror Descent Algorithms for Convex and Strongly   Convex Optimization Problems with Functional Constraints

F. S. Stonyakin; M . S. Alkousa; A. A. Titov

arXiv:1812.07639·math.OC·December 20, 2018

On Some Adaptive Mirror Descent Algorithms for Convex and Strongly Convex Optimization Problems with Functional Constraints

F. S. Stonyakin, M . S. Alkousa, A. A. Titov

PDF

Open Access

TL;DR

This paper introduces adaptive mirror descent algorithms for convex optimization problems with multiple convex constraints, capable of handling various levels of smoothness, and proposes restart techniques for strongly convex cases, with convergence analysis and numerical validation.

Contribution

The paper develops adaptive mirror descent algorithms applicable to non-smooth and smooth convex problems with constraints, including restart methods for strongly convex cases, and provides convergence estimates.

Findings

01

Algorithms effectively handle diverse smoothness levels.

02

Proposed methods demonstrate improved convergence rates.

03

Numerical experiments confirm practical advantages.

Abstract

In this paper some adaptive mirror descent algorithms for problems of minimization convex objective functional with several convex Lipschitz (generally, non-smooth) functional constraints are considered. It is shown that the methods are applicable to the objective functionals of various level of smoothness: the Lipschitz condition is valid either for the objective functional itself or for its gradient or Hessian (and the functional may not satisfy the Lipschitz condition). By using the restart technique methods for strongly convex minimization problems are proposed. Estimates of the rate of convergence of the considered algorithms are obtained depending on the level of smoothness of the objective functional. Numerical experiments illustrating the advantages of the proposed methods for some examples are presented.

Tables3

Table 1. Таблица 1: Сравнение алгоритмов 1, 5 и 6

$ε$	Итерации	Время, с	Итерации	Время, с	Итерации	Время, с
$ε$	Алгоритм 5		Алгоритм 1		Алгоритм 6
$1 / 2$	1659	97	283	15	231	6
$1 / 4$	5951	336	899	49	774	22
$1 / 8$	22356	1491	3159	180	2850	100

Table 2. Таблица 2: Сравнение алгоритмов 1, 5 и 6

$ε$	Итерации	Время, с	Итерации	Время, с	Итерации	Время, с
$ε$	Алгоритм 5		Алгоритм 1		Алгоритм 6
$1 / 2$	3709	279	671	29	437	21
$1 / 4$	14212	833	2418	103	1970	95
$1 / 8$	54655	2980	8979	455	8329	344

Table 3. Таблица 3: Сравнение результатов работы алгоритмов 1 и 3 .

	Итерации	Время	Итерации	Время
	Алгоритм 1		Алгоритм 3
Пример 1	115 973	09:16	95 447	07:37
Пример 2	57 798	07:01	45 455	05:14
Пример 3	56 874	05:02	50 747	04:18
Пример 4	13 720	01:15	6 764	00:38
Пример 5	64 324	06:04	55 073	04:52

Equations279

f (x) = i = \overline{1, m} max f_{i} (x),

f (x) = i = \overline{1, m} max f_{i} (x),

f_{i} (x) = \frac{1}{2} ⟨ A_{i} x, x ⟩ - ⟨ b_{i}, x ⟩ + c_{i}, i = \overline{1, m} .

f_{i} (x) = \frac{1}{2} ⟨ A_{i} x, x ⟩ - ⟨ b_{i}, x ⟩ + c_{i}, i = \overline{1, m} .

∣∣ y ∣ ∣_{*} = x max {⟨ y, x ⟩, ∣∣ x ∣∣ \leq 1},

∣∣ y ∣ ∣_{*} = x max {⟨ y, x ⟩, ∣∣ x ∣∣ \leq 1},

∣ g (x) - g (y) ∣ \leq M_{g} ∥ x - y ∥

∣ g (x) - g (y) ∣ \leq M_{g} ∥ x - y ∥

f (x) \to x \in X min,

f (x) \to x \in X min,

g (x) \leq 0.

g (x) \leq 0.

f (y) \geq f (x) + ⟨ \nabla f (x), y - x ⟩ + \frac{μ}{2} ∥ y - x ∥^{2},

f (y) \geq f (x) + ⟨ \nabla f (x), y - x ⟩ + \frac{μ}{2} ∥ y - x ∥^{2},

x_{*} \in X_{*} min d (x_{*}) \leq Θ_{0}^{2} .

x_{*} \in X_{*} min d (x_{*}) \leq Θ_{0}^{2} .

V (x, y) = d (y) - d (x) - ⟨ \nabla d (x), y - x ⟩ .

V (x, y) = d (y) - d (x) - ⟨ \nabla d (x), y - x ⟩ .

\mathrm{Mirr}_{x}(p)=\arg\min\limits_{u\in X}\big{\{}\langle p,u\rangle+V(x,u)\big{\}}\;\text{ для каждого }x\in X\text{ и }p\in E^{*}.

\mathrm{Mirr}_{x}(p)=\arg\min\limits_{u\in X}\big{\{}\langle p,u\rangle+V(x,u)\big{\}}\;\text{ для каждого }x\in X\text{ и }p\in E^{*}.

h ⟨ \nabla f (y), y - x ⟩ \leq \frac{h ^{2}}{2} ∣∣\nabla f (y) ∣ ∣_{*}^{2} + V (y, x) - V (z, x) .

h ⟨ \nabla f (y), y - x ⟩ \leq \frac{h ^{2}}{2} ∣∣\nabla f (y) ∣ ∣_{*}^{2} + V (y, x) - V (z, x) .

v_{f} (x, y) = ⎩ ⎨ ⎧ ⟨ \frac{\nabla f ( x )}{∥\nabla f ( x ) ∥ _{*}}, x - y ⟩, 0 \nabla f (x) \neq = 0 \nabla f (x) = 0, x \in X .

v_{f} (x, y) = ⎩ ⎨ ⎧ ⟨ \frac{\nabla f ( x )}{∥\nabla f ( x ) ∥ _{*}}, x - y ⟩, 0 \nabla f (x) \neq = 0 \nabla f (x) = 0, x \in X .

N = ⌈ \frac{2 max { 1 , M _{g}^{2} } Θ _{0}^{2}}{ε ^{2}} ⌉

N = ⌈ \frac{2 max { 1 , M _{g}^{2} } Θ _{0}^{2}}{ε ^{2}} ⌉

k \in I min v_{f} (x^{k}, x_{*}) < ε .

k \in I min v_{f} (x^{k}, x_{*}) < ε .

h_{k} = \frac{ε}{M _{g} ∣∣\nabla f ( x ^{k} ) ∣ ∣ _{*}},

h_{k} = \frac{ε}{M _{g} ∣∣\nabla f ( x ^{k} ) ∣ ∣ _{*}},

h_{k} = \frac{ε}{M _{g}^{2}},

h_{k} = \frac{ε}{M _{g}^{2}},

∣ I ∣ + ∣ J ∣ = N .

∣ I ∣ + ∣ J ∣ = N .

N = ⌈ \frac{2 M _{g}^{2} Θ _{0}^{2}}{ε ^{2}} ⌉

N = ⌈ \frac{2 M _{g}^{2} Θ _{0}^{2}}{ε ^{2}} ⌉

k \in I min v_{f} (x^{k}, x_{*}) < \frac{ε}{M _{g}} .

k \in I min v_{f} (x^{k}, x_{*}) < \frac{ε}{M _{g}} .

h_{k} ⟨ \nabla f (x^{k}), x^{k} - x ⟩ \leq \frac{h _{k}^{2}}{2} ∣∣\nabla f (x^{k}) ∣ ∣_{*}^{2} + V (x^{k}, x) - V (x^{k + 1}, x) .

h_{k} ⟨ \nabla f (x^{k}), x^{k} - x ⟩ \leq \frac{h _{k}^{2}}{2} ∣∣\nabla f (x^{k}) ∣ ∣_{*}^{2} + V (x^{k}, x) - V (x^{k + 1}, x) .

h_{k} ⟨ \nabla f (x^{k}), x^{k} - x ⟩ = \frac{ε}{M _{g}} ⟨ \frac{\nabla f ( x ^{k} )}{∣∣\nabla f ( x ^{k} ) ∣ ∣ _{*}}, x^{k} - x ⟩ = \frac{ε}{M _{g}} v_{f} (x^{k}, x) .

h_{k} ⟨ \nabla f (x^{k}), x^{k} - x ⟩ = \frac{ε}{M _{g}} ⟨ \frac{\nabla f ( x ^{k} )}{∣∣\nabla f ( x ^{k} ) ∣ ∣ _{*}}, x^{k} - x ⟩ = \frac{ε}{M _{g}} v_{f} (x^{k}, x) .

h_{k} (g (x^{k}) - g (x)) \leq \frac{h _{k}^{2}}{2} ∣∣\nabla g (x^{k}) ∣ ∣_{*}^{2} + V (x^{k}, x) - V (x^{k + 1}, x) .

h_{k} (g (x^{k}) - g (x)) \leq \frac{h _{k}^{2}}{2} ∣∣\nabla g (x^{k}) ∣ ∣_{*}^{2} + V (x^{k}, x) - V (x^{k + 1}, x) .

h_{k} (g (x^{k}) - g (x)) \leq \frac{ε ^{2}}{2 M _{g}^{2}} + V (x^{k}, x) - (x^{k + 1}, x) .

h_{k} (g (x^{k}) - g (x)) \leq \frac{ε ^{2}}{2 M _{g}^{2}} + V (x^{k}, x) - (x^{k + 1}, x) .

\frac{ε}{M _{g}} k \in I \sum v_{f} (x^{k}, x_{*}) + k \in J \sum \frac{ε}{M _{g}^{2}} (g (x^{k}) - g (x_{*})) \leq

\frac{ε}{M _{g}} k \in I \sum v_{f} (x^{k}, x_{*}) + k \in J \sum \frac{ε}{M _{g}^{2}} (g (x^{k}) - g (x_{*})) \leq

\leq N \frac{ε ^{2}}{2 M _{g}^{2}} + k = 0 \sum N - 1 (V (x^{k}, x_{*}) - V (x^{k + 1}, x_{*})) .

\leq N \frac{ε ^{2}}{2 M _{g}^{2}} + k = 0 \sum N - 1 (V (x^{k}, x_{*}) - V (x^{k + 1}, x_{*})) .

g (x^{k}) - g (x_{*}) \geq g (x^{k}) > ε

g (x^{k}) - g (x_{*}) \geq g (x^{k}) > ε

k = 1 \sum N (V (x^{k}, x_{*}) - V (x^{k + 1}, x_{*})) \leq Θ_{0}^{2}

k = 1 \sum N (V (x^{k}, x_{*}) - V (x^{k + 1}, x_{*})) \leq Θ_{0}^{2}

\frac{ε}{M _{g}} k \in I \sum v_{f} (x^{k}, x_{*}) \leq N \frac{ε ^{2}}{2 M _{g}^{2}} + Θ_{0}^{2} - \frac{ε ^{2}}{M _{g}^{2}} ∣ J ∣.

\frac{ε}{M _{g}} k \in I \sum v_{f} (x^{k}, x_{*}) \leq N \frac{ε ^{2}}{2 M _{g}^{2}} + Θ_{0}^{2} - \frac{ε ^{2}}{M _{g}^{2}} ∣ J ∣.

k \in I \sum v_{f} (x^{k}, x_{*}) \geq ∣ I ∣ k \in I min v_{f} (x^{k}, x_{*}) .

k \in I \sum v_{f} (x^{k}, x_{*}) \geq ∣ I ∣ k \in I min v_{f} (x^{k}, x_{*}) .

\frac{ε ^{2}}{2 M _{g}^{2}} N \geq Θ_{0}^{2}, или N \geq \frac{2 M _{g} Θ _{0}^{2}}{ε ^{2}} .

\frac{ε ^{2}}{2 M _{g}^{2}} N \geq Θ_{0}^{2}, или N \geq \frac{2 M _{g} Θ _{0}^{2}}{ε ^{2}} .

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSparse and Compressive Sensing Techniques · Optimization and Variational Analysis · Advanced Optimization Algorithms Research

Full text

\captiondelim

.

О НЕКОТОРЫХ АДАПТИВНЫХ АЛГОРИТМАХ ЗЕРКАЛЬНОГО СПУСКА ДЛЯ ЗАДАЧ ВЫПУКЛОЙ И СИЛЬНО ВЫПУКЛОЙ ОПТИМИЗАЦИИ С ФУНКЦИОНАЛЬНЫМИ ОГРАНИЧЕНИЯМИ

Ф. С. Стонякин, М. С. Алкуса, А. А. Титов

1 Введение

Задачи минимизации выпуклых гладких и негладких функционалов c ограничениями возникают во многих задачах современной large-scale оптимизации и её приложений [5, 19]. Для таких задач имеется множество методов, среди которых можно выделить метод уровней [6], метод штрафных функций [13, 20], метод множителей Лагранжа [11]. Метод зеркального спуска (МЗС) [10, 15] восходит к обычному градиентному спуску и вполне может считаться достаточно простым методом для задач негладкой выпуклой оптимизации. Предлагаемая работа посвящена некоторым адаптивным методам зеркального спуска для задач выпуклого программирования с липшицевыми функциональными ограничениями.

Отметим, что функциональные ограничения, вообще, могут быть негладким (недифференцируемыми) и поэтому мы рассматриваем субградиентные методы. Методы с использованием субградиентов негладких выпуклых функций разрабатываются уже несколько десятилетий и восходят к известным пионерским работам, одна из которых посвящена градиентному методу для безусловных задач при евклидовом расстоянии [18], а другая — его обобщению для задач с ограничениями [17]. В работе [17] предложена идея переключения шагов между направлением субградиента целевого функционала и направлением субградиента ограничения. Обобщение метода градиентного спуска на постановку задачи с неевклидовым расстоянием называют методом зеркального спуска. Этот метод был предложен в [14, 15] (см. также [10]). Зеркальный спуск для задач с функциональными ограничениями был предложен в [15] (см. также [9]). При этом, как правило, для нахождения величины шага и критерия остановки для зеркального спуска необходимо знать величину константы Липшица целевого функционала, а также ограничения. Известны также и методы с адаптивным выбором шага, рассмотрены в [4] для задач без ограничений, а в [9] — для задач с ограничениями. Недавно в [1] были предложены оптимальные алгоритмы зеркального спуска для задач выпуклого программирования с липшицевыми функциональными ограничениями с адаптивным выбором шага, а также адаптивными критериями остановки. Также модификации этих методов для задач в случае нескольких выпуклых функциональных ограничений были проанализированы в [3].

В настоящей статье мы рассматриваем некоторые алгоритмы зеркального спуска для задач минимизации выпуклого функционала $f$ с неположительным, выпуклым и липшицевым негладким функциональным ограничением $g$ . Важно, что целевой функционал может иметь разный уровень гладкости. В частности, целевой функционал $f$ может не удовлетворять свойству Липшица, но иметь липшицев градиент. Например, квадратичные функционалы не удовлетворяют обычному свойству Липшица (или константа Липшица достаточно большая), но имеют липшицев градиент. Можно рассматривать и негладкие выпуклые функции, равные максимуму конечного набора дифференцируемых функционалов с липшицевым градиентом. Например, пусть $A_{i}(i\in\overline{1,m})$ — положительно полуопределённые матрицы ( $x^{T}A_{i}x\geq 0$ для всякого $x\in X$ ) и целевой функционал имеет вид

[TABLE]

где

[TABLE]

для некоторых фиксированных $b_{i}\in\mathbb{R}^{n}$ и $c_{i}\in\mathbb{R}$ , для всех $i=\overline{1,m}$ . Отметим, что функционалы вида (1.1) – (1.2) возникают в задачах проектирования механических конструкций Truss Topology Design со взвешенными балками [7]. Для задач минимизации функционалов такого типа при наличии выпуклых липшицевых ограничений в [1, 2, 3] на базе методики работ Ю.Е. Нестерова [6, 7] были предложены некоторые новые адаптивные алгоритмы зеркального спуска, а также обоснована их оптимальность. Часть этих результатов (про частично адаптивный метод) была заявлена в качестве доклада на VII Международную конференцию <<Проблемы оптимизации и их приложения>> (OPTA-2018) [2]. Настоящая статья посвящена изложению основных результатов доклада [2], а также развитию результатов [1, 2, 3] в следующих направлениях.

Во-первых, доказывается оптимальность с точки зрения оракульных оценок предложенных методов в [1, 2, 3] для задач с выпуклым липшицевым целевым функционалом, а также для задач с липшицевым гессианом при наличии выпуклых липшицевых ограничений.

Во-вторых, на базе техники рестартов (перезапусков) методов из [1, 2] (для выпуклых задач) предложены новые алгоритмы зеркального спуска аналогично для задач минимизации $\mu$ -сильно выпуклых функционалов $f$ с неположительным, $\mu$ -сильно выпуклым и липшицевым негладким функциональным ограничением $g$ . Заметим, что техника рестартов метода для выпуклых задач с целью ускорения сходимости для сильно выпуклых задач восходит к 1980-м годам, см. [15, 16]. Техника такого типа была использована в [12] для обоснования более высокой скорости сходимости метода зеркального спуска для сильно выпуклого целевого функционала в задачах без ограничений.

В-третьих, мы приводим ряд численных экспериментов, иллюстрирующих преимущества предложенных нами методов перед их аналогами. В частности, показано, что для задачи Ферма-Торричелли-Штейнера (целевой функционал удовлетворяет условию Липшица с константой 1) при наличии квадратичных ограничений предлагаемый нами метод может работать существенно быстрее, чем аналогичный адаптивный и также оптимальный для класса задач с липшицевым целевым функционалом с точки зрения оракульных оценок метод ([1], п. 3.1). Также приведены расчёты, иллюстрирующие некоторые преимущества предлагаемых нами методов для сильно выпуклых задач.

Статья состоит из введения и 5 основных разделов. В разделе 2 мы приводим некоторые вспомогательных сведения, а также основные понятия для метода зеркального спуска. В разделе 3 мы описываем адаптивный алгоритм зеркального спуска (алгоритм 1) из ([1], п. 3.3) и частично адаптивный алгоритм 2 [2]. В разделе 4 мы доказываем оценки скорости сходимости данных методов и обосновываем их оптимальность на рассматриваемых классах задач при различных допущениях на уровень гладкости целевого функционала. Раздел 5 посвящён методам для задач минимизации сильно выпуклых функций с рестартами алгоритмов 1 (алгоритм 3) и 2 (алгоритм 4), а также соответствующим теоретическим оценкам скорости сходимости. В последнем разделе мы приводим некоторые численные эксперименты, иллюстрирующие некоторые преимущества предлагаемых нами методов.

2 Постановка задачи и основные понятия

Пусть $(E,||\cdot||)$ — конечномерное нормированное векторное пространство и $E^{*}$ — сопряженное пространство к $E$ со стандартной нормой:

[TABLE]

где $\langle y,x\rangle$ — значение линейного непрерывного функционала $y$ в точке $x\in E$ .

Пусть $X\subset E$ — замкнутое выпуклое множество. Рассмотрим два выпуклых субдифференцируемых функционала $f$ и $g:X\rightarrow\mathbb{R}$ . Также предположим, что функционал $g$ удовлетворяет условию Липшица относительно нормы $\|\cdot\|$ , т. е. существует $M_{g}>0$ , такое, что

[TABLE]

для всяких $x,y\in X$ . Это означает, что в каждой точке $x\in X$ можно вычислить субградиент $\nabla g(x)$ , причём $\|\nabla g(x)\|_{*}\leq M_{g}$ . Напомним, что для дифференцируемого функционала $g$ субградиент $\nabla g(x)$ есть обычный градиент.

В настоящей работе будем рассматривать следующий тип задач оптимизации:

[TABLE]

если $f$ и $g$ удовлетворяют упомянутым предыдущим условиям. Сделаем предположение о разрешимости задачи (2.2) – (2.3).

Отметим, что часть результатов работы относятся к постановке задачи для $\mu$ -сильно выпуклых субдифференцируемых функционалов $f$ и $g:X\rightarrow\mathbb{R}$ , т.е. для произвольных $x,y\in X$ имеет место неравенство

[TABLE]

и такое же неравенство верно для $g$ (с тем же параметром сильной выпуклости $\mu$ ).

Для дальнейших рассуждений нам также потребуются вспомогательные понятия (см., например, [4]). Введём так называемую прокс-функцию $d:X\rightarrow\mathbb{R}$ , обладающую свойством непрерывной дифференцируемости и $1$ -сильной выпуклости относительно нормы $\lVert\cdot\rVert$ , и предположим, что $\min\limits_{x\in X}d(x)=d(0).$ Будем полагать, что существует такая константа $\Theta_{0}>0$ , что $d(x_{*})\leq\Theta_{0}^{2},$ где $x_{*}$ — точное решение задачи (2.2)–(2.3). Отметим, что если имеется множество решений $X_{*}$ , то мы предполагаем, что для константы $\Theta_{0}$

[TABLE]

Для произвольных $x,y\in X$ рассмотрим соответствующую дивергенцию Брэгмана

[TABLE]

В зависимости от постановки конкретной задачи возможны различные подходы к определению прокс-структуры задачи и соответствующей дивергенции Брэгмана: евклидова, энтропийная и многие другие (см., например, [4]). Стандартно определим оператор проектирования

[TABLE]

Сделаем предположение о том, что оператор $\mathrm{Mirr}_{x}(p)$ легко вычислим.

Напомним одно известное утверждение (см., например [4]).

Лемма 1.

Пусть $f:X\rightarrow\mathbb{R}$ — выпуклый субдифференцируемый функционал на выпуклом множестве $X$ и $z=Mirr_{y}(h\nabla f(y))$ для некоторого $y\in X$ . Тогда для произвольных $x\in X$ и $h>0$ справедливо неравенство

[TABLE]

3 Адаптивный и частично адаптивный алгоритм зеркального спуска задач с выпуклыми функционалами

Перейдём к описанию рассматриваемых методов [1, 2] для задач (2.2) – (2.3).

Напомним следующий алгоритм адаптивного зеркального спуска для задач (2.2) – (2.3) из ([1], п. 3.3).

Нам потребуется ввести для целевого функционала $f$ по аналогии с [6], определим для некоторого субградиента $\nabla f(x)$ (мы допускаем, что в ходе работы метода можно использовать произвольный субградиент) в точке $y\in X$ следующую вспомогательную величину:

[TABLE]

Для оценки скорости сходимости алгоритма 1 в [1] получен следующий результат.

Теорема 1.

Пусть верно неравенство (2.1) и известна константа $\Theta_{0}>0$ такова, что $d(x_{*})\leq\Theta_{0}^{2}$ . Если $\varepsilon>0$ — фиксированное число, то алгоритм 1 работает не более

[TABLE]

итераций, причём после его остановки справедливо неравенство

[TABLE]

Возможно [2] предложить также и частично адаптивный метод для задачи (2.2) – (2.3). Его отличие от алгоритма 1 в том, что адаптивно выбирается шаг лишь на продуктивных итерациях и критерий остановки неадаптивен.

Пусть $[N]=\{k\in\overline{0,N-1}\},\;J=[N]/I$ , где $I$ набор индексов продуктивных шагов

[TABLE]

и $|I|$ — количество "продуктивных шагов". Аналогично, для "непродуктивных шагов"из множества $J$ аналогичная переменная определяется следующим образом:

[TABLE]

и $|J|$ — количество "непродуктивных шагов". Очевидно,

[TABLE]

Cправедлив следующий аналог теоремы 3.3 (см. также [2]).

Теорема 2.

Пусть $\varepsilon>0$ — фиксированное число и алгоритм 2 работает

[TABLE]

итераций. Тогда

[TABLE]

Доказательство.

Для продуктивных шагов из (2.5), (3.4) можно получить, что

[TABLE]

Принимая во внимание $\frac{h_{k}^{2}}{2}||\nabla f(x^{k})||_{*}^{2}=\frac{\varepsilon^{2}}{2M_{g}^{2}}$ , мы имеем

[TABLE]

Аналогично, для непродуктивных шагов $k\in J$ :

[TABLE]

Используя (2.1) и $||\nabla g(x)||\leq M_{g}$ , получаем

[TABLE]

Из (3.9) и (3.10) для $x=x_{*}$ , мы имеем

[TABLE]

Отметим, что для любого $k\in J$

[TABLE]

и с учетом

[TABLE]

неравенство (3.11) можно преобразовать следующим образом:

[TABLE]

С другой стороны,

[TABLE]

Предположим, что

[TABLE]

Таким образом

[TABLE]

откуда

[TABLE]

Чтобы закончить доказательство, мы должны показывать что $|I|\neq 0$ . Предположим наоборот, что $|I|=0\Rightarrow|J|=N$ , т. е. все шаги непродуктивны, поэтому после использования

[TABLE]

мы можем видеть, что

[TABLE]

Итак,

[TABLE]

и

[TABLE]

Итак, мы получили противоречие и поэтому множество $I$ непусто. ∎

Замечание 1.

Поясним ситуацию, когда частично адаптивная версия алгоритма может оказаться более выгодной, чем адаптивная. Например, пусть имеется ситуация, когда нет возможности точного нахождения нормы (суб)градиента ограничения $\|\nabla g(x^{k})\|_{*}$ для одного или нескольких непродуктивных шагов ( $k\in J$ ), а известно лишь его некоторое приближение по норме: т.е. $\|\nabla g(x^{k})\|_{*}=\alpha_{k}\pm\delta_{k}$ , где $\delta_{k}$ — точность приближения. По лемме 1 на всяком непродуктивном шаге $x^{k}$ верно неравенство

[TABLE]

Если $\alpha_{k}=0$ или $\alpha_{k}\rightarrow 0$ , то мы не можем использовать неравенство (3.14), поскольку это может привести к большой погрешности его правой части. В таком случае неадаптивный выбор шага

[TABLE]

в алгоритме 2 — более подходящий вариант для решения задачи (2.2) – (2.3).

4 Оценки скорости сходимости рассмотренных методов и их оптимальность

В данном разделе работы мы рассмотрим конкретные оценки скорости сходимости рассмотренных методов, которые обоснуют их оптимальность с точки зрения оракульных оценок (с точки зрения теории А.С. Немировского и Д.Б. Юдина). Точнее говоря ввиду липшицевости и, вообще говоря, негладкости функциональных ограничений для оптимальности метода с точки зрения нижних оракульных оценок этого достаточно показать [4], что для достижения требуемой точности $\varepsilon$ решения задачи (2.2)–(2.3) для каждого из рассмортренных в данном разделе статьи класса целевых функционалов достаточно

[TABLE]

итераций метода, предполагающих вычисление (суб)градиента целевого функционала или ограничения. Будем использовать следующее вспомогательное утверждение (см. например [6, 7]). Пусть $x_{*}$ — решение задачи (2.2) — (2.3).

Лемма 2.

Введём следующую функцию:

[TABLE]

где $\tau$ положительное число. Тогда для всякого $y\in X$

[TABLE]

Теперь мы можем показать (см. также доклад [2]), как с использованием предыдущего утверждения и теоремы 2, можно оценить скорость сходимости алгоритма 2, если целевой функционал $f$ дифференцируем и его градиент удовлетворяет условию Липшица:

[TABLE]

Используя следующий известный факт

[TABLE]

мы можем получить

[TABLE]

Итак

[TABLE]

Поэтому имеет место следующий результат [2].

Следствие 1.

Пусть $f$ дифференцируем на $X$ и верно (4.3). Тогда после

[TABLE]

шагов работы алгоритма 2 выполнена следующая оценка:

[TABLE]

Мы можем применить наш метод к некоторому классу задач с негладкими целевыми функционалами специального типа [2].

Следствие 2.

Предположим, что $f(x)=\max\limits_{i=\overline{1,m}}f_{i}(x)$ , где $f_{i}$ дифференцируемы на каждой $x\in X$ и

[TABLE]

Тогда после

[TABLE]

шагов работы Алгоритма 2 выполнена следующая оценка:

[TABLE]

где $L=\max\limits_{i=\overline{1,m}}L_{i}$ .

Замечание 2.

Вообще $||\nabla f(x_{*})||_{*}\neq 0$ , поскольку мы рассматриваем некоторый класс условных задач.

Замечание 3.

Пусть целевой функционал $f:X\rightarrow\mathbb{R}$ удовлетворяет условию Липшица:

[TABLE]

Итак

[TABLE]

мы можем получить

[TABLE]

Итак, комбинируя утверждения теоремы 3.3 и леммы 2, мы можем гарантировать после остановки алгоритма 1 выполнение неравенства

[TABLE]

и аналогично из теоремы 2 для алгоритма 2:

[TABLE]

Поэтому имеет место следующий результат.

Следствие 3.

Если $f$ удовлетворяет условию Липшица (4.4) на $X$ . Тогда

•

после

[TABLE]

шагов работы алгоритма 1, выполнена следующая оценка:

[TABLE]

•

после

[TABLE]

шагов работы алгоритма 2, выполнена следующая оценка:

[TABLE]

Замечание 4.

Пусть целевой функционал $f:X\rightarrow\mathbb{R}$ дважды дифференцируем на $X$ и имеет липшицев гессиан, т.е. справедливо следующее неравенство

[TABLE]

Используя следующее неравенство (см. [6], лемма 1.2.4 )

[TABLE]

мы можем видеть, что

[TABLE]

Итак

[TABLE]

где $||A||_{Fro}=tr(A^{T}A)$ норма Фробениуса матрицы $A\in\mathbb{R}^{m\times n}$ . Тогда

[TABLE]

Итак, комбинируя утверждение теоремы 3.3 и леммы 2, возможно получить

[TABLE]

а также аналогично из теоремы 2

[TABLE]

Поэтому имеет место следующий результат.

Следствие 4.

Пусть $f$ дважды дифференцируем на $X$ и имеет липшицев гессиан, т.е. верно (4.5). Тогда

•

после

[TABLE]

шагов работы алгоритма 1 выполнена следующая оценка:

[TABLE]

•

после

[TABLE]

шагов работы алгоритма 2 выполнена следующая оценка:

[TABLE]

Мы можем применить наши методы к некоторому классу задач с негладкими целевыми функционалами.

Следствие 5.

Предположим, что $f(x)=\max\limits_{i=\overline{1,m}}f_{i}(x)$ , где $f_{i}$ дважды дифференцируемы в каждой точке $x\in X$ и

[TABLE]

Тогда

•

после

[TABLE]

шагов работы алгоритма 1 выполнена следующая оценка:

[TABLE]

где $L=\max\limits_{i=\overline{1,m}}L_{i}$ ;

•

после

[TABLE]

шагов работы алгоритма 2 выполнена следующая оценка:

[TABLE]

где $L=\max\limits_{i=\overline{1,m}}L_{i}$ .

5 Об ускорении рассматриваемых методов зеркального спуска для сильно выпуклых задач

В этом разделе работы мы рассмотрим задачу

[TABLE]

с предположениями (2.1), а также сильной выпуклости $f$ и $g$ с одинаковым параметром $\mu>0$ . Мы также слегка модифицируем предположения на прокс-функцию $d(x)$ . А именно, предположим, что $0=\arg\min\limits_{x\in X}d(x)$ и что $d$ ограничено на единичном шаре в выбранной норме $\|\cdot\|$ , т. е.

[TABLE]

Наконец, мы допускаем, что нам дана начальная точка $x^{0}\in X$ и число $R_{0}>0$ такое, что $\|x_{0}-x_{*}\|^{2}\leq R_{0}^{2}$ . Для построения метода решения задачи (5.1) при заданных предположениях мы используем идею рестартов (перезапусков) алгоритма 1 и алгоритма 2. Рассмотрим вспомогательное утверждение (см., например [8]).

Лемма 3.

Если $f$ и $g$ — $\mu$ -сильно выпуклые функционалы относительно нормы $\|\cdot\|$ на $X$ , $x_{\ast}=arg\min\limits_{x\in X}f(x)$ , $g(x)\leq 0$ ( $\forall x\in X$ ) и для некоторых $\varepsilon_{f}>0$ , а также $\varepsilon_{g}>0$ верно:

[TABLE]

Тогда

[TABLE]

Предположим, что $f(x)=\max\limits_{i=\overline{1,m}}f_{i}(x)$ , где $f_{i}$ дифференцируемы во всякой точке $x\in X$ и имеют с липшицев градиент, т. е. существуют $L_{i}>0$ такие, что

[TABLE]

Рассмотрим функцию $\tau:\mathbb{R}^{+}\rightarrow\mathbb{R}^{+}$ :

[TABLE]

где

[TABLE]

Ясно, что функция $\tau$ возрастает и поэтому для всякого $\varepsilon>0$ существует

[TABLE]

Рассмотрим следующий адаптивный aлгоритм 3 для задачи (5.1).

Теорема 3.

Пусть $f$ имеет липшицев градиент, удовлетворяющий (5.5). Если $f$ и $g$ — $\mu$ -сильно выпуклые функционалы на $X\subset\mathbb{R}^{n}$ и $d(x)\leq\Theta^{2}_{0}$ для всех $x\in X,$ таких, что $\|x\|\leq 1$ . Пусть начальное приближение $x^{0}\in X$ и число $R_{0}>0$ заданы так, что

[TABLE]

Тогда для $\displaystyle{\widehat{p}=\left\lceil\log_{2}\frac{\mu R_{0}^{2}}{2\varepsilon}\right\rceil}$ выход $x_{\widehat{p}}$ есть $\varepsilon$ -решение задачи (5.1) (т. е. $f(x^{\widehat{p}})-f(x_{*})<\varepsilon$ и $g(x^{\widehat{p}})<\varepsilon$ ), где

[TABLE]

При этом, количество итераций алгоритма 1 не более

[TABLE]

итераций.

Доказательство.

Функция $d_{p}(x)=d\left(\dfrac{x-x^{p}}{R_{p}}\right)$ , которая определена в алгоритме 3, является $1$ -сильно выпуклой функцией относительно нормы $\dfrac{\|.\|}{R_{p}}$ , для всех $p\geq 0$ . Математической индукцией мы покажем, что

[TABLE]

Для $p=0$ это утверждение очевидно из-за выбора $x^{0}$ и $R_{0}$ . Предположим, что для некоторого $p$ , у нас $\|x^{p}-x_{*}\|^{2}\leq R_{p}^{2}$ , и давайте докажем, что $\|x^{p+1}-x_{*}\|^{2}\leq R_{p+1}^{2}$ . Имеем $\|x^{p}-x_{*}\|^{2}\leq R_{p}^{2}$ . Докажем, что $\|x^{p+1}-x_{*}\|^{2}\leq R_{p+1}^{2}$ . У нас $d_{p}(x_{*})\leq\Theta_{0}^{2}$ , таким образом, по теореме 3.3, на $(p+1)$ -м рестарте после не более чем

[TABLE]

итераций алгоритма 1, следующие неравенства верны для $x^{p+1}=\bar{x}^{N_{p+1}}$ :

[TABLE]

Тогда, согласно лемме 3

[TABLE]

Итак, для всех $p\geq 0$ мы доказали, что

[TABLE]

и так, для $p=\displaystyle{\widehat{p}=\left\lceil\log_{2}\frac{\mu R_{0}^{2}}{2\varepsilon}\right\rceil}$ , $x_{p}$ это $\varepsilon$ -решение задачи (5.1) и справедливо следующее соотношение

[TABLE]

Итак, пусть $K$ обозначим общее число итераций алгоритма 1, и $N_{p}$ к общему числу итераций алгоритма 1 на $p$ -м рестарте. Поскольку функция $\tau:\mathbb{R}^{+}\rightarrow\mathbb{R}^{+}$ , возрастает и для каждого $\varepsilon>0$ существует $\hat{\varphi}(\varepsilon)>0:\;\tau(\hat{\varphi}(\varepsilon))=\varepsilon$ . Поэтому мы имеем

[TABLE]

∎

Замечание 5.

Предыдущую оценку количества итераций работы алгоритма 1 можно несколько конкретизировать в случае $\varepsilon<1$ . В этом случае при всяком $\delta<1$ имеем $\tau(\delta)\leq C\delta$ для некоторой константы $C$ . Поэтому можно считать, что $\hat{\varphi}(\varepsilon)=\widehat{C}\cdot\varepsilon$ для соответствующей константы $\widehat{C}>0$ . Это означает, что на $p+1$ -м рестарте алгоритма 1 после не более, чем

[TABLE]

итераций работы алгоритма 1, выход $x_{p+1}$ гарантированно удовлетворяет неравенству

[TABLE]

где $\varepsilon_{p+1}=\frac{\mu R_{p+1}^{2}}{2}$ . Тогда по лемме 3,

[TABLE]

Таким образом, всех $p\geq 0$ ,

[TABLE]

В то же время мы имеем для всяких $p\geq 1$ имеют место неравенства:

[TABLE]

Таким образом, если $p>\log_{2}\frac{\mu R_{0}^{2}}{2\varepsilon}$ , то $x_{p}$ будет $\max\{1,\widehat{C}\}\cdot\varepsilon$ -решением для поставленной задачи, причём:

[TABLE]

Оценим теперь общее число $N$ итераций алгоритма 1. Пусть $\hat{p}=\left\lceil\log_{2}\frac{\mu R_{0}^{2}}{2\varepsilon}\right\rceil$ . Тогда согласно (5.7), мы имеем с точностью до умножения на константу:

[TABLE]

Замечание 6.

Вообще говоря, $\varphi(\varepsilon)$ зависит от $\|\nabla f(x_{\ast})\|_{\ast}$ и константа Липшица $L$ для $\nabla f$ . Если $\|\nabla f(x_{\ast})\|_{\ast}<M_{g}$ , тогда $\varphi(\varepsilon)=\varepsilon$ для небольших достаточно $\varepsilon$ :

[TABLE]

Для другого случая ( $\|\nabla f(x_{\ast})\|_{\ast}>M_{g}$ ) у нас $\forall\varepsilon>0$ :

[TABLE]

Рассмотрим также следующую частично адаптивную версию алгоритма 4 для задачи (5.1) [2].

В условиях следствия 2 после остановки алгоритма 4 будут верными неравенства (5.3) для

[TABLE]

и $\varepsilon_{g}=\varepsilon$ . Рассмотрим функцию $\tau:\mathbb{R}^{+}\rightarrow\mathbb{R}^{+}$ :

[TABLE]

Ясно, что функция $\tau$ возрастает и поэтому для каждого $\varepsilon>0$ существует

[TABLE]

Справедлива следующая

Теорема 4.

Пусть $f$ и $g$ удовлетворяют условиям следствия 2. Если $f$ и $g$ — $\mu$ -сильно выпуклые функционалы на $X\subset\mathbb{R}^{n}$ и $d(x)\leq\Theta^{2}_{0}\;\;\forall\,x\in X,\;\|x\|\leq 1$ . Пусть начальное приближение $x^{0}\in X$ и число $R_{0}>0$ заданы так, что $\|x^{0}-x_{\ast}\|^{2}\leq R^{2}_{0}$ . Тогда для $\displaystyle{\widehat{p}=\left\lceil\log_{2}\frac{\mu R_{0}^{2}}{2\varepsilon}\right\rceil}$ выход $x^{\widehat{p}}$ есть $\varepsilon$ -решение задачи (5.1), где

[TABLE]

При этом общее количество итераций алгоритма 2 не превышает

[TABLE]

Доказательство.

Функция $d_{p}(x)$ ( $p=0,1,2,\ldots$ ) $1$ -сильно выпукла относительно нормы $\displaystyle\frac{\|\cdot\|}{R_{p}}$ , для всех $p\geq 0$ . Методом математической индукции покажем, что

[TABLE]

Для $p=0$ это утверждение очевидно в силу выбора $x_{0}$ и $R_{0}$ . Предположим, что для некоторого $p$ : $\|x^{p}-x_{\ast}\|^{2}\leq R_{p}^{2}$ . Докажем, что $\|x^{p+1}-x_{\ast}\|^{2}\leq R_{p+1}^{2}$ . У нас $d_{p}(x_{\ast})\leq\Theta^{2}_{0}$ , и на $(p+1)$ -м рестарте после не более чем

[TABLE]

итераций алгоритма 2 будут выполняться следующие неравенства:

[TABLE]

Тогда, согласно лемме 3

[TABLE]

Итак, для произвольного $p\geq 0$

[TABLE]

Для $\displaystyle{p=\widehat{p}=\left\lceil\log_{2}\frac{\mu R_{0}^{2}}{2\varepsilon}\right\rceil}$ верное следующее соотношение:

[TABLE]

Остается лишь заметить, что количество итераций работы алгоритма 2 не превосходит

[TABLE]

∎

Замечание 7.

По аналогии с рассуждениями замечания 5, при $\varepsilon<1$ с точностью до умножения на константу можно уточнить верхнюю оценку количества итераций 2:

[TABLE]

Замечание 8.

Обратив внимание на следствия 3 и 5, нетрудно понять, что при условии $\varepsilon<1$ утверждения замечаний 5 и 7 нетрудно перенести и на случаи, когда целевой функционал $f$ удовлетворяет условию Липшица или условию Липшица для гессиана $f$ .

6 Численные эксперименты

6.1 Сравнение скорости работы методов для задачи Ферма-Торричелли-Штейнера с ограничениями.

Отметим, что в ([1], п. 3.1) предложен также следующий адаптивный метод, оптимальный с точки зрения нижних оракульных оценок в случае задач с липшицевым целевым функционалом.

В настоящей работе мы рассматриваем альтернативный метод (алгоритм 1), оптимальность которого уже удаётся установить для условных задач с более широким классом целевых функционалов (имеющих липшицев градиент или липшицев гессиан). Но оказывается, что и в случае липшицевого целевого функционала, когда применим алгоритм 5, алгоритм 1 может работать быстрее. В качестве примера приведём расчёты для известной задачи Ферма-Торричелли-Штейнера с ограничениями.

Задача. Для заданных точек $A_{k}=(a_{1k},a_{2k},\ldots,a_{nk},)$ в n-мерном евклидовом пространстве $\mathbb{R}^{n}$ необходимо найти такую точку $X=(x_{1},x_{2},\ldots,x_{n})$ , чтобы целевая функция

[TABLE]

принимала наименьшее значение на множестве $X$ , которое задаётся несколькими ограничениями:

[TABLE]

Мы приведём пример для $n=10$ , начального приближения $x^{0}=(1,1,...,1)$ с параметром $\Theta=3$ при выборе стандартной евклидовой прокс-структуры. Координаты точек $A_{k}=(a_{1k},a_{2k},\ldots,a_{10k})$ при $k=1,2,\ldots,10$ мы выбираем как строки следующей матрицы $A$ :

[TABLE]

Отметим также, что возможно некоторое ускорение метода в случае нескольких ограничений за счёт возможности выбора подходящего ограничения на непродуктивных итерациях (см. алгоритм 6 ниже [3]), что видно из таблицы 1 ниже.

Приведём также сравнение скорости работы методов при тех же параметрах, но уже с негладкими функциональными ограничениями:

[TABLE]

6.2 О преимуществах использования метода с рестартами в сильно выпуклом случае.

Для демонстрации преимуществ алгоритма 3 по сравнению с алгоритмом 1, был проведен ряд численных экспериментов. Рассмотрим различные $1$ -сильно выпуклые целевые функционалы $f$ , которые имеют липшицев градиент.

•

Пример 1.

[TABLE]

где $\mu=1,L=10\,000$ и $n=10$ .

•

Пример 2.

[TABLE]

•

Пример 3, задача регрессии [21].

[TABLE]

при $b=(1,2,3)^{T}$ , $\mu=1$ .

•

Пример 4. Рассмотрим функцию следующего вида [21]:

[TABLE]

•

Пример 5. Следующий тест выполнен для сглаженной сильно выпуклой версии задачи подавления шумов [21]

[TABLE]

и $\|.\|_{l_{1},\tau}$ задается следующим образом:

[TABLE]

если $x$ — скаляр и $\|x\|_{l_{1},\tau}=\sum_{i=1}^{n}\|x_{i}\|_{l_{1},\tau}$ если $x=(x_{1},x_{2},...,x_{n})$ — вектор в $\mathbb{R}^{n}$ . Отметим, что квадратичное слагаемое $\dfrac{\mu}{2}\|x\|^{2}$ гарантирует сильную выпуклость целевой функции.

Рассмотрим функциональные ограничения вида $g(x)=G(x)+S(x)$ , где $S(x)=\dfrac{1}{2}\|x\|^{2}$ и $G(x)=\max\limits_{i\in\overline{1,m}}g_{i}(x)$ , так, что $g_{i}(x)=\langle\alpha_{i},x\rangle+\beta_{i}$ , где $\alpha_{i}^{T}$ — строки матрицы

[TABLE]

и константы $\beta_{i}$ есть нули.

Считаем, что имеется стандартное евклидово расстояние и соответствующая прокс-структура, и

[TABLE]

начальное приближение $x^{0}=\frac{(1,1,...,1)}{\|(1,1,...,1)\|}$ , $\Theta_{0}=3$ , $R_{0}=2$ , и точность $\varepsilon=0.05$ .

Результаты выполнения алгоритмов 1 и 3 представлены в таблице 3. Приводится количество итераций и время (указано в минутах и в секундах) работы каждого алгоритма 1 и 3.

Все вычисления были произведены с помощью программного обеспечения Python 3.4, на компьютере оснащенном Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz, 1992 Mhz, 4 Core(s), 8 Logical Processor(s). ОЗУ компьютера составляла 8 ГБ.

Из таблицы 3 видно, что алгоритм 3 работает быстрее алгоритма 1.

Благодарности. Авторы выражают огромную признательность Юрию Евгеньевичу Нестерову, Александру Владимировичу Гасникову и Павлу Евгеньевичу Двуреченскому за плодотворные обсуждения и комментарии.

Список литературы

[1]

A. Bayandina, P. Dvurechensky, A. Gasnikov, F. Stonyakin, A. Titov (2017). Mirror Descent and Convex Optimization Problems With Non-Smooth Inequality Constraints. In LCCC Focus Period on Large-Scale and Distributed Optimization, June 14-16, 2017. Lund, Sweden: Lund Center for Control of Complex Engineering Systems, Lund University.

[2] Fedor S. Stonyakin and Alexander A. Titov. One Mirror Descent Algorithm for Convex Constrained Optimization Problems with Non-Standard Growth Properties. In Proceedings of the School-Seminar on Optimization Problems and their Applications (OPTA-SCL 2018) Omsk, Russia, July 8-14, 2018. CEUR Workshop Proceedings, vol. 2098, pp. 372-384 (2018).
[3]

F.S. Stonyakin, M. S. Alkousa, A. N. Stepanov, M. A. Barinov.: Adaptive mirror descent algorithms in convex programming problems with Lipschitz constraints. Trudy Instituta Matematiki i Mekhaniki URO RAN, vol. 24, no. 2, pp. 266 – 279 (2018).

[4]

A. Ben-Tal and A. Nemirovski, Lectures on Modern Convex Optimization. Philadelphia: SIAM, 2001.

[5]

A. Ben-Tal and A. Nemirovski, Robust Truss Topology Design via Semidefinite Programming, SIAM J. Optim., vol. 7, no. 4, pp. 991–1016, Nov., 1997.

[6]

Y. Nesterov. Introductory Lectures on Convex Optimization: a basic course. Kluwer Academic Publishers, Massachusetts, 2004.

[7]

Y. Nesterov. Subgradient methods for convex functions with nonstandard growth properties, 2016.

[8]

Bayandina, A., Gasnikov, A., Gasnikova, E., Matsievsky, S.: Primal-dual mirror descent for the stochastic programming problems with functional constraints. Computational Mathematics and Mathematical Physics. (Accepted) (2018) https://arxiv.org/pdf/1604.08194.pdf (in Russian)

[9]

A. Beck, A. Ben-Tal, N. Guttmann-Beck, and L. Tetruashvili.The comirror algorithm for solving nonsmooth constrained convex problems. Operations Research Letters, 38(6): 493–498, 2010. ISSN: 0167-6377.

[10]

A. Beck and M. Teboulle. Mirror descent and nonlinear projected subgradient methods for convex optimization. Oper. Res. Lett., 31(3): 167 – 175, May 2003. ISSN: 0167–6377.

[11]

S. Boyd and L. Vandenberghe,Convex Optimization. New York, NY: Cambridge University Press, 2004.

[12]

A. Juditsky and A. Nemirovski, First Order Methods for Non-smooth Convex Large-scale Optimization, I: General purpose methods, in Optimization for Machine Learning, S. Sra et al, Eds., Cambridge, MA: MIT Press, 2012, pp. 121–184.

[13]

G. Lan, Gradient Sliding for Composite Optimization, Math. Program., vol. 159, no. 1-2, pp. 201–235, 2016.

[14]

A.Nemirovskii. Efficient methods for large-scale convex optimization problems. Ekonomika i Matematicheskie Metody, 15, 1979. In Russian.

[15]

A. Nemirovsky and D. Yudin. Problem Complexity and Method Efficiency in Optimization. J. Wiley $\&$ Sons, New York, 1983.

[16]

Y. Nesterov. A method of solving a convex programming problem with convergence rate $O(1/k^{2})$ . Soviet Mathematics Doklady, 27(2): 372–376, 1983.

[17]

B. Polyak. A general method of solving extremum problems. Soviet Mathematics Doklady, 8(3): 593–597, 1967.

[18]

N. Z. Shor. Generalized gradient descent with application to block programming. Kibernetika, 3(3): 53–55, 1967.

[19]

S. Shpirko and Yu. Nesterov,Primal-dual Subgradient Methods for Huge-scale Linear Conic Problem, SIAM Journal on Optimization, no. 24, pp. 1444–1457, 2014.

[20]

F. Vasilyev, Optimization Methods. Moscow, Russia: FP, 2002.

[21]

Xiangrui Meng and Hao Chen. Accelerating Nesterov’s Method for Strongly Convex Functions with Lipschitz Gradient. https://arxiv.org/pdf/1109.6058.pdf

Bibliography21

The reference list from the paper itself. Each links out to its DOI / PubMed record.

1[1] A. Bayandina, P. Dvurechensky, A. Gasnikov, F. Stonyakin, A. Titov (2017). Mirror Descent and Convex Optimization Problems With Non-Smooth Inequality Constraints. In LCCC Focus Period on Large-Scale and Distributed Optimization, June 14-16, 2017. Lund, Sweden: Lund Center for Control of Complex Engineering Systems, Lund University.
2[2] Fedor S. Stonyakin and Alexander A. Titov. One Mirror Descent Algorithm for Convex Constrained Optimization Problems with Non-Standard Growth Properties. In Proceedings of the School-Seminar on Optimization Problems and their Applications (OPTA-SCL 2018) Omsk, Russia, July 8-14, 2018. CEUR Workshop Proceedings, vol. 2098, pp. 372-384 (2018).
3[3] F.S. Stonyakin, M. S. Alkousa, A. N. Stepanov, M. A. Barinov.: Adaptive mirror descent algorithms in convex programming problems with Lipschitz constraints. Trudy Instituta Matematiki i Mekhaniki URO RAN, vol. 24, no. 2, pp. 266 – 279 (2018).
4[4] A. Ben-Tal and A. Nemirovski, Lectures on Modern Convex Optimization. Philadelphia: SIAM, 2001.
5[5] A. Ben-Tal and A. Nemirovski, Robust Truss Topology Design via Semidefinite Programming, SIAM J. Optim., vol. 7, no. 4, pp. 991–1016, Nov., 1997.
6[6] Y. Nesterov. Introductory Lectures on Convex Optimization: a basic course. Kluwer Academic Publishers, Massachusetts, 2004.
7[7] Y. Nesterov. Subgradient methods for convex functions with nonstandard growth properties, 2016.
8[8] Bayandina, A., Gasnikov, A., Gasnikova, E., Matsievsky, S.: Primal-dual mirror descent for the stochastic programming problems with functional constraints. Computational Mathematics and Mathematical Physics. (Accepted) (2018) https://arxiv.org/pdf/1604.08194.pdf (in Russian)

TL;DR

Contribution

Findings

Abstract

Peer Reviews

Videos

Taxonomy

1 Введение

2 Постановка задачи и основные понятия

Лемма 1**.**

3 Адаптивный и частично адаптивный алгоритм зеркального спуска задач с выпуклыми функционалами

Теорема 1**.**

Теорема 2**.**

Доказательство.

Замечание 1**.**

4 Оценки скорости сходимости рассмотренных методов и их оптимальность

Лемма 2**.**

Следствие 1**.**

Следствие 2**.**

Замечание 2**.**

Замечание 3**.**

Следствие 3**.**

Замечание 4**.**

Следствие 4**.**

Следствие 5**.**

5 Об ускорении рассматриваемых методов зеркального спуска для сильно выпуклых задач

Лемма 3**.**

Теорема 3**.**

Доказательство.

Замечание 5**.**

Замечание 6**.**

Теорема 4**.**

Доказательство.

Замечание 7**.**

Замечание 8**.**

6 Численные эксперименты

6.1 Сравнение скорости работы методов для задачи Ферма-Торричелли-Штейнера с ограничениями.

6.2 О преимуществах использования метода с рестартами в сильно выпуклом случае.

Список литературы

Лемма 1.

Теорема 1.

Теорема 2.

Замечание 1.

Лемма 2.

Следствие 1.

Следствие 2.

Замечание 2.

Замечание 3.

Следствие 3.

Замечание 4.

Следствие 4.

Следствие 5.

Лемма 3.

Теорема 3.

Замечание 5.

Замечание 6.

Теорема 4.

Замечание 7.

Замечание 8.