Some Analogue of Quadratic Interpolation for a Special Class of   Non-Smooth Functionals and One Application to Adaptive Mirror Descent for   Constrained Optimization Problems

Fedor S. Stonyakin

arXiv:1812.04517·math.OC·December 18, 2018

Some Analogue of Quadratic Interpolation for a Special Class of Non-Smooth Functionals and One Application to Adaptive Mirror Descent for Constrained Optimization Problems

Fedor S. Stonyakin

PDF

Open Access

TL;DR

This paper develops a new interpolation technique for a class of non-smooth quasi-convex functionals and applies it to analyze the convergence of an adaptive mirror descent method for constrained optimization.

Contribution

It introduces an analogue of quadratic interpolation for non-smooth quasi-convex functionals with specific non-smoothness conditions.

Findings

01

Derived convergence rate estimates for the adaptive mirror descent method.

02

Extended interpolation techniques to locally Lipschitz quasi-convex functionals.

03

Provided theoretical foundations for optimization methods under weaker smoothness assumptions.

Abstract

Theoretical estimates of the convergence rate of many well-known gradient-type optimization methods are based on quadratic interpolation, provided that the Lipschitz condition for the gradient is satisfied. In this article we obtain a possibility of constructing an analogue of such interpolation in the class of locally Lipschitz quasi-convex functionals with the special conditions of non-smoothness (Lipshitz-continuous subgradient) introduced in this paper. As an application, estimates are obtained for the rate of convergence of the previously proposed adaptive mirror descent method for the problems of minimizing a quasi-convex locally Lipschitz functional with several convex functional constraints.

Equations138

∥\nabla f (x) - \nabla f (y) ∥_{*} ⩽ L ∥ x - y ∥ \forall x, y \in Q

∥\nabla f (x) - \nabla f (y) ∥_{*} ⩽ L ∥ x - y ∥ \forall x, y \in Q

∣ f (y) - f (x) - ⟨ \nabla f (x), y - x ⟩ ∣ ⩽ \frac{L ∥ y - x ∥ ^{2}}{2}

∣ f (y) - f (x) - ⟨ \nabla f (x), y - x ⟩ ∣ ⩽ \frac{L ∥ y - x ∥ ^{2}}{2}

φ_{2} (x, y) ⩽ f (y) ⩽ φ_{1} (x, y) \forall x, y \in Q,

φ_{2} (x, y) ⩽ f (y) ⩽ φ_{1} (x, y) \forall x, y \in Q,

φ_{1} (x, y) = f (x) + ⟨ \nabla f (x), y - x ⟩ + \frac{L ∥ y - x ∥ ^{2}}{2}, \T 2A \cyra

φ_{1} (x, y) = f (x) + ⟨ \nabla f (x), y - x ⟩ + \frac{L ∥ y - x ∥ ^{2}}{2}, \T 2A \cyra

φ_{2} (x, y) = f (x) + ⟨ \nabla f (x), y - x ⟩ + \frac{L ∥ y - x ∥ ^{2}}{2} .

φ_{2} (x, y) = f (x) + ⟨ \nabla f (x), y - x ⟩ + \frac{L ∥ y - x ∥ ^{2}}{2} .

∣∣ y ∣ ∣_{*} = x max {⟨ y, x ⟩, ∣∣ x ∣∣ \leq 1},

∣∣ y ∣ ∣_{*} = x max {⟨ y, x ⟩, ∣∣ x ∣∣ \leq 1},

f ((1 - t) x + t y) ⩽ max {f (x), f (y)} \forall t \in [0; 1] \forall x, y \in Q,

f ((1 - t) x + t y) ⩽ max {f (x), f (y)} \forall t \in [0; 1] \forall x, y \in Q,

f_{C l}^{↑} (x_{0}; h) = x^{'} \to x_{0}, \leavevmode α ↓ 0 lim sup \frac{1}{α} [f (x^{'} + α h) - f (x^{'})] \leavevmode .

f_{C l}^{↑} (x_{0}; h) = x^{'} \to x_{0}, \leavevmode α ↓ 0 lim sup \frac{1}{α} [f (x^{'} + α h) - f (x^{'})] \leavevmode .

\partial_{C l} f (x_{0}) := {v \in R ∣ f_{C l}^{↑} (x_{0}; g) ⩾ v g \forall g \in R} \leavevmode,

\partial_{C l} f (x_{0}) := {v \in R ∣ f_{C l}^{↑} (x_{0}; g) ⩾ v g \forall g \in R} \leavevmode,

f_{C l}^{↑} (x_{0}; h) = v \in \partial_{C l} f (x_{0}) max ⟨ v, h ⟩ \leavevmode .

f_{C l}^{↑} (x_{0}; h) = v \in \partial_{C l} f (x_{0}) max ⟨ v, h ⟩ \leavevmode .

{y_{t_{k}}}_{k = 1}^{\infty} : t_{1} < t_{2} < t_{3} < \dots \T 2A \cyri k \to \infty lim t_{k} = 1;

{y_{t_{k}}}_{k = 1}^{\infty} : t_{1} < t_{2} < t_{3} < \dots \T 2A \cyri k \to \infty lim t_{k} = 1;

d iam \partial_{C l} f (y_{t_{k}}) =: δ_{k} > 0, \T 2A \cyrg \T 2A \cyrd \T 2A \cyre k = 1 \sum + \infty δ_{k} =: δ < + \infty.

d iam \partial_{C l} f (y_{t_{k}}) =: δ_{k} > 0, \T 2A \cyrg \T 2A \cyrd \T 2A \cyre k = 1 \sum + \infty δ_{k} =: δ < + \infty.

(d iam \partial_{C l} f (x) = max {∥ y - z ∥_{*} ∣ y, z \in \partial_{C l} f (x)});

(d iam \partial_{C l} f (x) = max {∥ y - z ∥_{*} ∣ y, z \in \partial_{C l} f (x)});

\hat{\partial} f (x) \in \partial_{C l} f (x), \hat{\partial} f (y) \in \partial_{C l} f (y) min ∥ \hat{\partial} f (x) - \hat{\partial} f (y) ∥_{*} ⩽ L ∥ x - y ∥.

\hat{\partial} f (x) \in \partial_{C l} f (x), \hat{\partial} f (y) \in \partial_{C l} f (y) min ∥ \hat{\partial} f (x) - \hat{\partial} f (y) ∥_{*} ⩽ L ∥ x - y ∥.

f (x) := k x \T 2A \cyrp \T 2A \cyrr \T 2A \cyri 0 ⩽ x ⩽ \frac{1}{2},

f (x) := k x \T 2A \cyrp \T 2A \cyrr \T 2A \cyri 0 ⩽ x ⩽ \frac{1}{2},

f (x) := (k + i = 1 \sum n \frac{δ}{2 ^{i}}) x - i = 1 \sum n \frac{δ}{2 ^{i}} (1 - \frac{1}{2 ^{i}}) \T 2A \cyrp \T 2A \cyrr \T 2A \cyri 1 - \frac{1}{2 ^{n}} < x ⩽ 1 - \frac{1}{2 ^{n + 1}},

f (x) := (k + i = 1 \sum n \frac{δ}{2 ^{i}}) x - i = 1 \sum n \frac{δ}{2 ^{i}} (1 - \frac{1}{2 ^{i}}) \T 2A \cyrp \T 2A \cyrr \T 2A \cyri 1 - \frac{1}{2 ^{n}} < x ⩽ 1 - \frac{1}{2 ^{n + 1}},

f (1) := x \to + 1 lim f (x) .

f (1) := x \to + 1 lim f (x) .

Q_{0} = {1 - \frac{1}{2 ^{n}}}_{n = 1}^{\infty},

Q_{0} = {1 - \frac{1}{2 ^{n}}}_{n = 1}^{\infty},

\partial f (q_{n}) = [k + i = 1 \sum n - 1 \frac{δ}{2 ^{i}}; \leavevmode k + i = 1 \sum n \frac{δ}{2 ^{i}}]

\partial f (q_{n}) = [k + i = 1 \sum n - 1 \frac{δ}{2 ^{i}}; \leavevmode k + i = 1 \sum n \frac{δ}{2 ^{i}}]

\partial f (q_{1}) = [k; k + \frac{δ}{2}]

\partial f (q_{1}) = [k; k + \frac{δ}{2}]

∣ f (y) - f (x) - ⟨ \hat{\partial} f (x), y - x ⟩ ∣ ⩽ \frac{L}{2} ∥ y - x ∥^{2} + δ ∥ y - x ∥

∣ f (y) - f (x) - ⟨ \hat{\partial} f (x), y - x ⟩ ∣ ⩽ \frac{L}{2} ∥ y - x ∥^{2} + δ ∥ y - x ∥

φ (t) = f (y_{t}) = f ((1 - t) x + t y)

φ (t) = f (y_{t}) = f ((1 - t) x + t y)

φ_{-}^{'} (t) = Δ t \to - 0 lim \frac{φ ( t + Δ t ) - φ ( t )}{Δ t}, φ_{+}^{'} (t) = Δ t \to + 0 lim \frac{φ ( t + Δ t ) - φ ( t )}{Δ t}

φ_{-}^{'} (t) = Δ t \to - 0 lim \frac{φ ( t + Δ t ) - φ ( t )}{Δ t}, φ_{+}^{'} (t) = Δ t \to + 0 lim \frac{φ ( t + Δ t ) - φ ( t )}{Δ t}

φ_{+}^{'} (t) = \hat{\partial} f (y_{t}) \in \partial_{C l} f (y_{t}) max ⟨ \hat{\partial_{C l}} f (y_{t}), y - x ⟩ \leavevmode \nobreak —

φ_{+}^{'} (t) = \hat{\partial} f (y_{t}) \in \partial_{C l} f (y_{t}) max ⟨ \hat{\partial_{C l}} f (y_{t}), y - x ⟩ \leavevmode \nobreak —

φ_{-}^{'} (t) = φ_{+}^{'} (t) = ⟨ \nabla f (y_{t}), y - x ⟩ .

φ_{-}^{'} (t) = φ_{+}^{'} (t) = ⟨ \nabla f (y_{t}), y - x ⟩ .

f (y) = f (x) + \int_{[0; 1] ∖ Q_{0}} ⟨ \nabla f (y_{t}), y - x ⟩ d t = φ (0) + \int_{0}^{1} φ_{+}^{'} (t) d t,

f (y) = f (x) + \int_{[0; 1] ∖ Q_{0}} ⟨ \nabla f (y_{t}), y - x ⟩ d t = φ (0) + \int_{0}^{1} φ_{+}^{'} (t) d t,

f (y) = f (x) + ⟨ \hat{\partial} f (x), y - x ⟩ + \int_{0}^{1} [\hat{\partial} f (y_{t}) \in \partial_{C l} f (y_{t}) max ⟨ \hat{\partial} f (y_{t}), y - x ⟩ - ⟨ \hat{\partial} f (x), y - x ⟩] d t =

f (y) = f (x) + ⟨ \hat{\partial} f (x), y - x ⟩ + \int_{0}^{1} [\hat{\partial} f (y_{t}) \in \partial_{C l} f (y_{t}) max ⟨ \hat{\partial} f (y_{t}), y - x ⟩ - ⟨ \hat{\partial} f (x), y - x ⟩] d t =

= f (x) + ⟨ \hat{\partial} f (x), y - x ⟩ + \int_{0}^{1} ⟨ \hat{\partial} f (y_{t}) - \hat{\partial} f (x), y - x ⟩ d t

= f (x) + ⟨ \hat{\partial} f (x), y - x ⟩ + \int_{0}^{1} ⟨ \hat{\partial} f (y_{t}) - \hat{\partial} f (x), y - x ⟩ d t

φ_{+}^{'} (t) - φ_{-}^{'} (t) = ⟨ \hat{\partial}_{1} f (y_{t}) - \hat{\partial}_{2} f (y_{t}), y - x ⟩ = = ⟨ \hat{\partial}_{1} f (q_{k}) - \hat{\partial}_{2} f (q_{k}), y - x ⟩ ⩽ ⩽ ∥ \hat{\partial}_{1} f (q_{k}) - \hat{\partial}_{2} f (q_{k}) ∥_{*} \cdot ∥ y - x ∥ ⩽ \eqref e q 4 δ_{k} ∥ y - x ∥

φ_{+}^{'} (t) - φ_{-}^{'} (t) = ⟨ \hat{\partial}_{1} f (y_{t}) - \hat{\partial}_{2} f (y_{t}), y - x ⟩ = = ⟨ \hat{\partial}_{1} f (q_{k}) - \hat{\partial}_{2} f (q_{k}), y - x ⟩ ⩽ ⩽ ∥ \hat{\partial}_{1} f (q_{k}) - \hat{\partial}_{2} f (q_{k}) ∥_{*} \cdot ∥ y - x ∥ ⩽ \eqref e q 4 δ_{k} ∥ y - x ∥

x, y \in Q_{0} \subset {y_{t}}_{t \in [0; 1]}

x, y \in Q_{0} \subset {y_{t}}_{t \in [0; 1]}

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSparse and Compressive Sensing Techniques · Numerical methods in inverse problems · Stochastic Gradient Optimization Techniques

Full text

**АНАЛОГ КВАДРАТИЧНОЙ ИНТЕРПОЛЯЦИИ ДЛЯ СПЕЦИАЛЬНОГО КЛАССА НЕГЛАДКИХ ФУНКЦИОНАЛОВ И ОДНО ЕГО ПРИЛОЖЕНИЯ К ОЦЕНКАМ СКОРОСТИ СХОДИМОСТИ АДАПТИВНОГО ЗЕРКАЛЬНОГО СПУСКА ДЛЯ УСЛОВНЫХ ЗАДАЧ ОПТИМИЗАЦИИ

Ф. С. Стонякин

**

MSC: 90C25, 90С06, 49J52

1 Введение

Многие численные методы оптимизации основаны на идее удачной аппроксимации оптимизируемого функционала некоторым функционалом стандартного типа. Например, для гладкого целевого функционала $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$ с липшицевым градиентом

[TABLE]

на области определения $Q\subset\mathbb{R}^{n}$ хорошо известно неравенство

[TABLE]

для всяких $x$ и $y$ из $Q$ , то есть

[TABLE]

где

[TABLE]

Как известно [9], указанные неравенства (2) – (3) позволяют обосновать не только глобальную сходимость методов градиентного типа, но и оценивать скорость такой сходимости. Отметим также [9], что похожие на (2) – (3) неравенства можно выписать для негладкого функционала, равного максимуму конечного числа гладких функционалов c липшицевым градиентом.

Неравенства (2) – (3) широко используются для обоснования скорости сходимости самых разных методов для задач как условной, так и безусловной оптимизации. Например, недавно в [2] были предложены алгоритмы зеркального спуска как с адаптивным выбором шага, так и с адаптивным критерием остановки. При этом помимо случая липшицевых целевого функционала и функционального ограничения в ([2], п. 3.3) на базе идеологии [9, 10] был предложен оптимальный с точки зрения нижних оракульных оценок [8] метод для условных задач выпуклой минимизации с целевыми функционалами, обладающими свойством липшицевости градиента. В частности, в задачах с квадратичными функционалами мы сталкиваемся с ситуацией, когда функционал не удовлетворяет обычному свойству Липшица (или константа Липшица достаточно большая), но градиент удовлетворяет условию Липшица. Для задач такого типа в ([2], п. 3.3) был предложен адаптивный алгоритм зеркального спуска. Модификация метода ([2], п. 3.3) в случае нескольких ограничений рассмотрена в [14].

Основной результат настоящей статьи (теорема 1) — обоснование возможности построения аналога неравенств стандратной квадратичной интерполяции (2) – (3) для специального класса негладких квазивыпуклых функционалов с липшицевым субградиентом (определение 1). Идея предлагаемой концепции свойства липшицевости субградиента заключается в том, чтобы описать изменение аппроксимации функционала при условии наличия некоторого (не более, чем счётного) набора точек с особенностями. Основной результат работы (теорема 1) показывает, как эти особенности могут приводить к изменению модели функционала, пригодной для построения методов оптимизации. Поскольку локально липшицевы квазивыпуклые функционалы могут не иметь субдифференциала в смысле выпуклого анализа, то для описания дифференциальных свойств мы используем наиболее известное обобщение понятия субдифференциала на невыпуклые функционалы — субдифференциал Кларка [1], а под субградиентами всюду далее понимаем элементы (векторы) субдифференциала Кларка как множества. Отметим, что для выпуклых функционалов субдифференциал Кларка совпадает с обычным субдифференциалом в смысле выпуклого анализа. Построен пример негладкого выпуклого функционала из указанного класса, который может иметь сколь угодно большую константу Липшица при нулевой константе Липшица субградиента (пример 1). Как приложение, обоснована оптимальность метода ([14], п. 4) для условных задач с локально липшицевым целевым функционалом и несколькими выпуклыми липшицевыми функциональными ограничениями. Для оценки скорости алгоритма 1 доказан аналог известного утверждения ([9], лемма 3.2.1) в классе непрерывных квазивыпуклых локально липшицевых функционалов с использованием субдифференицала Кларка для описания их дифференциальных свойств (теорема 3).

Всюду далее будем считать, что $(E,||\cdot||)$ — конечномерное нормированное векторное пространство и $E^{*}$ — сопряженное пространство к $E$ со стандартной нормой:

[TABLE]

где $\langle y,x\rangle$ — значение линейного непрерывного функционала $y$ в точке $x\in E$ , $Q\subset E$ — замкнутое выпуклое множество.

2 Об аналоге условия Липшица градиента для специального класса негладких функционалов

В данном разделе мы покажем, как можно обобщить свойство (1) и оценки (2)–(3) на некоторый класс квазивыпуклых локально липшицевых функционалов $f:Q\rightarrow\mathbb{R}\;(Q\subset\mathbb{R}^{n})$ , не дифференцируемых на некотором счетном подмножестве $Q_{0}\subset Q$ . Напомним, что функционал $f:Q\rightarrow\mathbb{R}$ квазивыпуклый, если:

[TABLE]

Введем класс негладких квазивыпуклых функционалов, допускающих аналоги оценок (2)–(3). Будем считать $f$ дифференцируемой во всех точках $Q\setminus Q_{0}$ и полагать, что для произвольного $x\in Q_{0}$ существует компактный субдифференциал Кларка $\partial_{Cl}f(x)$ . Напомним это понятие ([1], $\S$ 2.2). Пусть $x_{0}\in\mathbb{R}^{n}$ — фиксированная точка, и $h\in\mathbb{R}^{n}$ — фиксированное направление. Положим

[TABLE]

Величинf $f_{Cl}^{\uparrow}(x_{0};h)$ называется верхней производной Кларка функционала $f$ в точке $x_{0}$ по направлению $h$ . Как известно, функция $f_{Cl}^{\uparrow}(x_{0};h)$ субаддитивна и положительно однородна по $h$ ([1], с. 17 – 18). Это обстоятельство позволяет определить субдифференциал функционала $f$ в точке $x_{0}$ как следующее множество:

[TABLE]

то есть как субдифференциал выпуклого по $h$ функционала $f_{Cl}^{\uparrow}(x_{0};h)$ в точке $h=0$ в смысле выпуклого анализа. Таким образом, по определению

[TABLE]

Будем говорить, что функционал $f$ субдифференцируем по Кларку в точке $x_{0}$ , если множество $\partial_{Cl}f(x_{0})$ непусто и компактно. В частности, если функция $f$ локально липшицева, то она является субдифференцируемой по Кларку в любой точке области определения. Отметим, что для выпуклых функций субдифференциал Кларка совпадает с обычным субдифференциалом в смысле выпуклого анализа [1]. В дальнейших рассуждениях для фиксированных $x,y\in Q$ при $t\in[0;1]$ будем обозначать $y_{t}:=(1-t)x+ty$ .

Определение 1.

Будем говорить, что квазивыпуклый локально липшицевый функционал $f:Q\rightarrow\mathbb{R}\;(Q\subset\mathbb{R}^{n})$ имеет $(\delta,L)$ -липшицев субградиент ( $f\in C_{L,\delta}^{1,1}(Q)$ ), если:

(i)

для произвольных $x,y\in Q$ $f$ дифференцируем во всех точках множества $\{y_{t}\}_{0\leqslant t\leqslant 1}$ , за исключением последовательности (возможно, конечной)

[TABLE]

(ii)

для последовательности точек из (7) существуют конечные субдифференциалы Кларка $\{\partial f(y_{t_{k}})\}_{k=1}^{\infty}$ и

[TABLE]

(iii)

для произвольных $x,y\in Q$ при условии, что $y_{t}\in Q\setminus Q_{0}$ при всяком $t\in(0,1)$ (то есть существует градиент $\nabla f(y_{k})$ ) для некоторой фиксированной константы $L>0$ , не зависящей от выбора $x$ и $y$ , выполняется неравенство:

[TABLE]

Ясно, что всякий локально липшицев квазивыпуклый функционал, удовлетворяющий (1), будет входить в класс $C_{L,\delta}^{1,1}(Q)$ при $\delta=0$ . Приведем пример негладкой вещественной выпуклой функции $f\in C_{L,\delta}^{1,1}(Q)$ при $\delta>0$ .

Пример 1.

Зафиксируем некоторое $k>0$ , величину $\delta>0$ и рассмотрим кусочно-линейную функцию $f:[0;1]\rightarrow\mathbb{R}$ (здесь $Q=[0;1]\subset\mathbb{R}$ ):

[TABLE]

В этом случае

[TABLE]

при $n>1$ (здесь $\partial f(\cdot)$ — субдифференциал в смысле выпуклого анализа),

[TABLE]

(здесь $q_{n}=1-\frac{1}{2^{n}}$ при $n=1,2,3,\ldots$ ). Ясно, что $\partial f(q_{n})=\frac{\delta}{2^{n}}$ , то есть верно (8) для введенной величины $\delta>0$ . При этом на отрезках $(q_{n};q_{n+1})$ и $(0;q_{1})$ функция $f$ имеет липшицев градиент с константой $L=0$ . Поэтому для функции $f$ из (10) верно $f\in C_{0,\delta}^{1,1}(Q)$ .

Замечание 1.

Ясно, что функцию $f$ из (10) нельзя представить в виде максимума конечного набора линейных функций, поскольку $f$ имеет бесконечное число точек недифференцируемости $f$ .

Сформулируем для введенного класса функционалов $C_{L,\delta}^{1,1}(Q)$ аналог леммы 1.2.3 из [9].

Теорема 1.

Пусть локально липшицев квазивыпуклый функционал $f\in C_{L,\delta}^{1,1}(Q)$ . Тогда для произвольных $x,y\in Q$ верно неравенство

[TABLE]

для некоторого субградиента $\hat{\partial}f(x)\in\partial_{Cl}f(x)$ .

Доказательство.

Для произвольных фиксированных $x,y\in Q$ через $y_{t}$ будем обозначать элемент $ty+(1-t)x$ . Тогда при фиксированных $x$ и $y$ одномерная функция $\varphi:[0;1]\rightarrow\mathbb{R}$ ( $\varphi(0)=f(x)$ и $\varphi(1)=f(y)$ )

[TABLE]

будет квазивыпуклой и для некоторого $\hat{t}\in[0;1]$ отрезки $[0;\hat{t}]$ и $[\hat{t};1]$ будут промежутками (вообще говоря, нестрогой) монотонности функции $\varphi$ .

Поскольку для всякой точки $y_{t}\;(t\in[0;1])$ существует конечный субдифференциал Кларка $\partial_{Cl}f(y_{t})$ , а также функционал $f$ локально липшицев и квазивыпуклый, то для всех $t\in(0;1)$ существуют конечные левосторонняя и правосторонняя производные:

[TABLE]

и

[TABLE]

производная $f$ по направлению $y-x$ в точке $y_{t}$ . Ясно, что при $y_{t}\not\in Q_{0}$ (то есть существует градиент $\nabla f(y_{t})$ )

[TABLE]

Ввиду квазивыпуклости $f$ (и $\varphi$ ) можно полагать, что функция $\varphi$ абсолютно непрерывна и почти всюду дифференцируема в смысле классической меры Лебега, т.е. имеем равенства:

[TABLE]

откуда для произвольного субградиента $\hat{\partial}f(x)\in\partial f(x)$ имеем:

[TABLE]

для набора субградиентов $\{\hat{\partial_{Cl}}f(y_{t})\}_{t\in(0;1]}$ , на которых достигаются соответствующие максимумы. Если $y_{t}\in Q_{0}$ , то $y_{t}=q_{k}\;(k\geqslant 1)$ из определения 1 (ii) и тогда

[TABLE]

для соответствующих субградиентов (векторов-элементов субдифференциалов Кларка)

$\hat{\partial}_{1,2}f(q_{k})\in\partial_{Cl}f(q_{k})$ . Не уменьшая общности рассуждений, будем считать, что

[TABLE]

и всякому $q_{n}$ поставим в соответствие $t_{n}\in[0;1]:q_{n}=(1-t_{n})x+t_{n}y$ .

Пусть существует последовательность

[TABLE]

Тогда $\forall\tau_{1},\tau_{2}\in(t_{k};t_{k+1})$ при $k\geqslant 1$ верны неравенства:

[TABLE]

Поэтому при выборе в (16) подходящего субградиента $\hat{\partial}f(x)$ будут выполняться соотношения:

[TABLE]

причем $\forall\tau_{1},\tau_{2}\in[0;1]$

[TABLE]

откуда

[TABLE]

то есть

[TABLE]

что и требовалось. ∎

Следствие 1.

Если $f\in C_{L,\delta}^{1,1}(Q)$ , то для произвольных $x,y\in Q$ верны неравенства:

[TABLE]

3 Пример приложения: адаптивный зеркальный спуск для задач минимизации квазивыпуклого целевого функционала рассматриваемого класса гладкости

В качестве приложения покажем возможность получения оценок скорости сходимости для метода ([14], алгоритм 4) в более широком классе целевых функционалов. Напомним, что метод ([14], алгоритм 4) мы рассматривали условных задач выпуклой минимизации с условием липшицевости градиента целевого функционала. Например, квадратичный целевой функционал может не удовлетворять обычному свойству Липшица (или константа Липшица может быть довольно большой), но его градиент удовлетворяет условию Липшица. Метод ([14], алгоритм 4) применим и для более широкого класса уже негладких выпуклых целевых функционалов

[TABLE]

где

[TABLE]

в случае, когда $A_{i}$ ( $i=1,\ldots,m$ ) — положительно определённые матрицы: $x^{T}A_{i}x\geqslant 0\ \forall x\in Q$ .

Начнём с постановки рассматриваемых задач условной оптимизации, а также необходимых вспомогательные понятий. Рассмотрим набор выпуклых субдифференцируемых функционалов $g_{m}:X\rightarrow\mathbb{R}$ для $m=\overline{1,M}$ . Также предположим, что все функционалы $g_{m}$ удовлетворяют условию Липшица с некоторой константой $M_{g}$ :

[TABLE]

Мы рассматриваем следующий тип задач оптимизации квазивыпуклого локально липшицева целевого функционала $f$ с выпуклыми липшицевыми функциональными ограничениями.

[TABLE]

где

[TABLE]

Сделаем предположение о разрешимости задачи (26)–(27). Задачи минимизации негладкого функционала c ограничениями возникают в широком классе проблем современной large-scale оптимизации и её приложений [6, 13]. Для таких задач имеется множество методов, среди которых можно отметить метод зеркального спуска [4, 8]. Отметим, что в случае негладкого целевого функционала или функциональных ограничений естественно использовать субградиентные методы, восходящие к хорошо известным работам [11, 12]. Метод зеркального спуска возник для безусловных задач в [7, 8] как аналог стандартного субградиентного метода с неевклидовым проектированием. Для условных задач аналог этого метода был предложен в [8] (см. также [3]). Проблема адаптивного выбора шага без использования констант Липшица рассмотрена в [5] для задач без ограничений, а также в [3] для задач с функциональными ограничениями.

Отметим, что всюду далее будем под субградинетом квазивыпуклого (локально липшицева) функционала $f$ понимать любой элемент (вектор) субдифференциала Кларка. Для выпуклых функционалов $g_{m}$ понятие субградиента мы понимаем стандартно.

Для дальнейших рассуждений нам потребуются следующие вспомогательные понятия (см., например, [5]), позволяющие оценить качество найденного решения. Для оценки расстояния от текущей точки до решения введём так называемую прокс-функцию $d:X\rightarrow\mathbb{R}$ , обладающую свойством непрерывной дифференцируемости и $1$ -сильной выпуклости относительно нормы $\lVert\cdot\rVert$ , т.е.

[TABLE]

и предположим, что $\min\limits_{x\in X}d(x)=d(0).$ Будем полагать, что имеется некоторая оценка расстояния от точки старта до искомого решения задачи $x_{*}$ , т.е. существует такая константа $\Theta_{0}>0$ , что $d(x_{*})\leqslant\Theta_{0}^{2},$ где $x_{*}$ — точное решение (26)–(27). Если имеется множество решений $X_{*}$ , то мы предполагаем, что для константы $\Theta_{0}$

[TABLE]

Для всех $x,y\in X$ рассмотрим соответствующую дивергенцию Брэгмана

[TABLE]

В зависимости от постановки конкретной задачи возможны различные подходы к определению прокс-структуры задачи и соответствующей дивергенции Бргэмана: евклидова, энтропийная и многие другие (см., например, [5]). Стандартно определим оператор проектирования

[TABLE]

Сделаем предположение о том, что оператор $\mathrm{Mirr}_{x}(p)$ легко вычислим.

Напомним одно известное утверждение, которое вытекает из обычного неравенства Коши-Буняковского, а также $2ab\leqslant a^{2}+b^{2}$ . Поскольку функциональные ограничения у нас по-прежнему выпуклы, мы рассмотрим также отдельно оценку в выпуклом случае [5].

Лемма 1.

Пусть $f:X\rightarrow\mathbb{R}$ — некоторый функционал. Для произвольного $y\in X$ , вектора $p_{y}\in E^{*}$ и некоторого $h>0$ положим $z=Mirr_{y}(h\cdot p_{y})$ . Тогда для произвольного $x\in Q$

[TABLE]

Для выпуклого субдифференцируемого в точке $y$ функционала $f$ предыдущее неравенство для произвольного субградиента $p_{y}=\nabla f(y)$ примет вид

[TABLE]

Аналогично ([14], алгоритм 4) рассмотрим следующий алгоритм адаптивного зеркального спуска для задач (26)–(27). Отметим, что ввиду предположения локальной липшицевости квазивыпуклого целевого функционала все его субградиенты конечны. Сделаем дополнительное предположение об отсутствии точек перегиба, т.е. градиент $f$ может быть нулевым только в точке $x_{*}$ .

Для оценки скорости сходимости этого метода подобно ([9], п. 3.2.2), для всякого ненулевого конечного субградиента (элемента субдифференциала Кларка) $\nabla f(x)$ целевого квазивыпуклого функционала $f$ введём следующую вспомогательную величину

[TABLE]

Аналогично ([14], теорема 2) с использованием леммы 1 проверяется следующая

Теорема 2.

Пусть $\varepsilon>0$ — фиксированное число и выполнен критерий остановки алгоритма 1. Тогда

[TABLE]

Отметим, что алгоритм 1 работает не более

[TABLE]

итераций.

Теперь покажем, как можно оценить скорость сходимости предлагаемого метода. Для этого полезно следующее вспомогательное утверждение, которое есть аналог ([9], лемма 3.2.1). Напомним, что под $x_{*}$ мы понимаем точное решение задачи (26)–(27). Отличительной особенностью данного утверждения является то, что мы рассматриваем не выпуклый, а квазивыпуклый целевой функционал $f$ . Предположение о его локальной липшицевости позволяет в качестве аппарата для исследования дифференциальных свойств использовать субдифференциал Кларка.

Теорема 3.

Пусть $f:Q\rightarrow\mathbb{R}^{n}$ — локально липшицев квазивыпуклый функционал. Введем следующую функцию:

[TABLE]

где $\tau$ - положительное число. Тогда для всякого $x\in Q$

[TABLE]

Доказательство.

Мы отправляемся от схемы рассуждений ([9], лемма 3.2.1) с тем отличием, что вместо обычного субдифференциала выпуклой функции будет использоваться субдифференциал Кларка. Можно проверить, что

[TABLE]

Действительно, пусть $v_{f}(x,x_{*})=||y_{*}-x_{*}||$ для некоторого $y_{*}$ : $\langle\nabla f(x),y_{*}-x\rangle=0$ . Тогда $\nabla f(x)=\lambda s$ , где $\langle s,y_{*}-x_{*}\rangle=||y_{*}-x_{*}||$ для некоторого $s$ такого, что $||s||_{*}=1$ . Поэтому

[TABLE]

откуда

[TABLE]

Остаётся лишь учесть существование конечной производной по направлению $h\in Q$ у всякого локально липшицева квазивыпуклого функционала $f$

[TABLE]

Далее, с использованием свойства квазивыпуклости и (5) для локально липшицева квазивыпуклого функционала получаем:

[TABLE]

Для всякого направления $h$ такого, что $\langle\nabla f(x),h\rangle>0$ получаем $f^{\prime}(x,h)>0$ . Поэтому имеет место $f(x+\lambda h)\geqslant f(x)$ для произвольного направления $h$ такого, что $\langle\nabla f(x),h\rangle>0$ . Неравенство $f(y)-f(x)\geqslant 0$ следует из теперь непрерывности функционала $f$ для всякого $y$ такого, что $\langle\nabla f(x),y-x\rangle=0$ . Итак,

[TABLE]

∎

На базе теорем 2 и 3 можно оценить скорость сходимости алгоритма для квазивыпуклого локально липшицева целевого функционала $f$ с липшицевым субградиентом. Используя доказанное в теореме 1 неравенство

[TABLE]

мы можем получить, что

[TABLE]

Далее, по теореме 3 верно неравенство:

[TABLE]

Поэтому справедливо

Следствие 2.

Пусть локально липшицев квазивыпуклый функционал $f$ имеет липшицев субградиент. Тогда после остановки алгоритма верна оценка:

[TABLE]

причём для всякого $k$

[TABLE]

Таким образом, остановка алгоритма 1 гарантирует достижение приемлемого качества найденного решения (35) — (36), а оценка (32) указывает на его оптимальность с точки зрения нижних оракульных оценок [8] даже в классе выпуклых (а тем более и квазивыпуклых) целевых функционалов.

Полученные результаты, в частности, позволяют сделать такие выводы. Во-первых, алгоритм 1 применим для задач минимизации не только выпуклых, но и квазивыпуклых целевых функционалов. Во-вторых, особенности поведения целевого функционала в окрестности некоторых отдельных точек могут не сильно усложнять интерполяцию (модель) оптимизируемой функции, что может позволить сохранять при наличии таких особенностей оценки скорости сходимости метода.

Благодарности

Автор выражает огромную признательность Александру Владимировичу Гасникову и Юрию Евгеньевичу Нестерову за полезные обсуждения и рекомендации.

Список литературы

[1]

Кларк Ф. Оптимизация и негладкий анализ. М.: Наука, 1988 — 280 с.

[2]

Bayandina A., Dvurechensky P., Gasnikov A., Stonyakin F., Titov A. Mirror descent and convex optimization problems with non-smooth inequality constraints. Lecture Notes in Mathematics 2227. Large-scale and Distributed Optimization, 2018, pp. 181 – 231. https://arxiv.org/abs/1710.06612.

[3]

Beck A., Ben-Tal A., Guttmann-Beck N., Tetruashvili L. The comirror algorithm for solving nonsmooth constrained convex problems. Operations Research Letters, 38(6): 493–498, 2010.

[4]

Beck A. and Teboulle M. Mirror descent and nonlinear projected subgradient methods for convex optimization. Operations Research Letters, 31(3): 167–175, 2003.

[5]

Ben-Tal A. and Nemirovski A. Lectures on Modern Convex Optimization. Philadelphia: Society for Industrial and Applied Mathematics, 2001.

[6]

Ben-Tal A. and Nemirovski A. Robust Truss Topology Design via Semidefinite Programming. SIAM Journal on Optimization, 7(4): 991–1016, 1997.

[7]

Nemirovskii A. and Yudin D. Efficient methods for large-scale convex optimization problems. Ekonomika i Matematicheskie Metody, 1979(2): 135 – 152. (In Russian).

[8]

Nemirovsky A. and Yudin D. Problem Complexity and Method Efficiency in Optimization. J. Wiley & Sons, New York, 1983.

[9]

Nesterov Y. Introductory Lectures on Convex Optimization: a basic course. Kluwer Academic Publishers, Massachusetts, 2004.

[10]

Nesterov Y. Subgradient methods for convex functions with nonstandard growth properties: https://www.mathnet.ru:8080/PresentFiles/16179/growthbm_nesterov.pdf, [Online; accessed 15-April-2018]

[11]

Polyak B. A general method of solving extremum problems. Soviet Mathematics Doklady, 8(3): 593–597, 1967 (in Russian).

[12]

Shor N. Z. Generalized gradient descent with application to block programming. Kibernetika, 3(3): 53–55, 1967 (in Russian).

[13]

Shpirko S., Nesterov Yu. Primal-dual Subgradient Methods for Huge-scale Linear Conic Problem, SIAM Journal on Optimization, 24(3): 1444–1457, 2014.

[14]

F.S. Stonyakin, M. S. Alkousa, A. N. Stepanov, M. A. Barinov. Adaptive mirror descent algorithms in convex programming problems with Lipschitz constraints. Trudy Instituta Matematiki i Mekhaniki URO RAN, vol. 24, no. 2, pp. 266 – 279 (2018).

Статья направлена в журнал "Труды Института математики и механики Уральского отделения РАН"10.12.2018

Bibliography14

The reference list from the paper itself. Each links out to its DOI / PubMed record.

1[1] Кларк Ф. Оптимизация и негладкий анализ. М.: Наука, 1988 — 280 с.
2[2] Bayandina A., Dvurechensky P., Gasnikov A., Stonyakin F., Titov A. Mirror descent and convex optimization problems with non-smooth inequality constraints. Lecture Notes in Mathematics 2227. Large-scale and Distributed Optimization, 2018, pp. 181 – 231. https://arxiv.org/abs/1710.06612 .
3[3] Beck A., Ben-Tal A., Guttmann-Beck N., Tetruashvili L. The comirror algorithm for solving nonsmooth constrained convex problems. Operations Research Letters, 38(6): 493–498, 2010.
4[4] Beck A. and Teboulle M. Mirror descent and nonlinear projected subgradient methods for convex optimization. Operations Research Letters, 31(3): 167–175, 2003.
5[5] Ben-Tal A. and Nemirovski A. Lectures on Modern Convex Optimization. Philadelphia: Society for Industrial and Applied Mathematics, 2001.
6[6] Ben-Tal A. and Nemirovski A. Robust Truss Topology Design via Semidefinite Programming. SIAM Journal on Optimization, 7(4): 991–1016, 1997.
7[7] Nemirovskii A. and Yudin D. Efficient methods for large-scale convex optimization problems . Ekonomika i Matematicheskie Metody, 1979(2): 135 – 152. (In Russian).
8[8] Nemirovsky A. and Yudin D. Problem Complexity and Method Efficiency in Optimization. J. Wiley & Sons, New York, 1983.

TL;DR

Contribution

Findings

Abstract

Peer Reviews

Videos

Taxonomy

1 Введение

2 Об аналоге условия Липшица градиента для специального класса негладких функционалов

Определение 1**.**

Пример 1**.**

Замечание 1**.**

Теорема 1**.**

Доказательство.

Следствие 1**.**

3 Пример приложения: адаптивный зеркальный спуск для задач минимизации квазивыпуклого целевого функционала рассматриваемого класса гладкости

Лемма 1**.**

Теорема 2**.**

Теорема 3**.**

Доказательство.

Следствие 2**.**

Благодарности

Список литературы

Определение 1.

Пример 1.

Замечание 1.

Теорема 1.

Следствие 1.

Лемма 1.

Теорема 2.

Теорема 3.

Следствие 2.