Метод коллинеарных градиентов: различия между версиями

[непроверенная версия]

Содержимое удалено Содержимое добавлено

Линейный

Версия от 15:11, 27 декабря 2024

Метод коллинеарных градиентов (МКГ)^[1] — итерационный метод направленного поиска локального экстремума гладкой функции многих переменных $J(u)\colon \mathbb {R} ^{n}\to \mathbb {R}$ с движением к экстремуму вдоль вектора $d\in \mathbb {R} ^{n}$ такого, где градиенты $\nabla J(u)$ и $\nabla J(u+d)$ коллинеарные. Это метод перового порядка (использует только первые производные $\nabla J$ ) с квадратичной скоростью сходимости. Может применяться к функциям высокой размерности $n$ с несколькими локальными экстремумами. МКГ можно отнести к семейству методов Truncated Newton method

Коллинеарные векторы $\nabla J(u^{k})$ и $\nabla J(u^{k_{\ast }})$ с направлением минимизации $d^{k}$ для выпуклой функции, $n=2$

Идея метода

Для гладкой функции $J(u)$ в относительно большой окрестности точки $u^{k}$ найдётся точка $u^{k_{\ast }}$ , где градиенты $\nabla J^{k}\,{\overset {\textrm {def}}{=}}\,\nabla J(u^{k})$ и $\nabla J^{k_{\ast }}\,{\overset {\textrm {def}}{=}}\,\nabla J(u^{k_{\ast }})$ коллинеарные. Направлением на экстремум $u_{\ast }$ из точки $u^{k}$ будет направление $d^{k}={(u^{k_{\ast }}-u}^{k})$ . Вектор $d^{k}$ указывает на максимум или на минимум в зависимости от положения точки $u^{k_{\ast }}$ . Она может быть спереди или сзади от $u^{k}$ относительно направления на $u_{\ast }$ (см. рисунок). Далее будем рассматривать минимизацию.

Очередная итерация МКГ:

(1)  $\quad u^{k+1}=u^{k}+b^{k}d^{k},\quad k\in \left\{0,1\dots \right\},$

где оптимальное $b^{k}\in \mathbb {R}$ находится аналитически из предположения квадратичности одномерной функции $J(u^{k}+bd^{k})$ :

(2)

\quad b^{k}=\left(1-{\frac {\langle \nabla J(u^{k_{\ast }},d^{k}\rangle }{\langle \nabla J(u^{k}),d^{k}\rangle }}\right)^{-1},\quad \forall u^{k_{\ast }}.

Угловые скобки — это скалярное произведение в евклидовом пространстве $\mathbb {R} ^{n}$ . Если $J(u)$ выпуклая функция в окрестности $u^{k}$ , то для передней точки $u^{k_{\ast }}$ получаем число $b^{k}>0$ , для задней $b^{k}<0$ . Делаем шаг (1).

Для строго выпуклой квадратичной функции $J(u)$ шаг МКГ

  $b^{k}d^{k}=-H^{-1}\nabla J^{k},$

т.е. это шаг метода Ньютона (метод второго порядка с квадратичной скоростью сходимости), где $H$ — матрица Гессе. Такие шаги обеспечивают МКГ квадратичную скорость сходимости.

В общем случае, если $J(u)$ имеет переменную выпуклость и возможны седловые точки, то следует контролировать направление минимизации по углу $\gamma$ между векторами $\nabla J^{k}$ и $d^{k}$ . Если $\cos(\gamma )={\frac {\langle \nabla J^{k},d^{k}\rangle }{||\nabla J(u^{k})||\;||d^{k}||}}\geq 0$ , то $d^{k}$ — это направление максимизации и в (1) следует брать $b^{k}$ с обратным знаком.

Поиск коллинеарных градиентов

Коллинеарность градиентов оценивается невязкой их ортов, которая имеет вид системы $n$ уравнений для поиска корня $u=u^{k_{\ast }}$ :

(3)  $\quad r^{k}(u)={\frac {\nabla J(u)}{||\nabla J(u)||}}s-{\frac {\nabla J(u^{k})}{||\nabla J(u^{k})||}}=0\in \mathbb {R} ^{n},$

где знак $s=\operatorname {sgn} \langle \nabla J(u),\nabla J(u^{k})\rangle$ позволяет одинаково оценивать коллинеарность градиентов по одну или разные стороны от минимума $u_{\ast }$ , $||r^{k}(u)||\leq {\sqrt {2}}$ .

Система (3) решается итерационно (подитерации $l\,$ ) методом сопряжённых градиентов в предположении, что она линейна в окрестности $u^{k}$ :

(4)

\quad u^{k_{l+1}}=u^{k_{l}}+\tau ^{l}p^{l},\quad l=1,2\ldots ,

где вектор $\;p^{l}\;{\overset {\textrm {def}}{=}}\,p(u^{k_{l}})=-r^{l}+{\beta ^{l}p}^{l-1}$ , $\;r^{l}\,{\overset {\textrm {def}}{=}}\,r(u^{k_{l}})$ , $\;\beta ^{l}=||r^{l}||^{2}/||r^{l-1}||^{2},\ \beta ^{1,n,2n...}=0$ , $\;\tau ^{l}=||r^{l}||^{2}/\langle p^{l},H^{l}p^{l}\rangle$ , произведение матрицы Гессе $H^{l}$ на $p^{l}$ находится численным дифференцированием:

(5)

\quad H^{l}p^{l}\approx {\frac {r(u^{k_{h}})-r(u^{k_{l}})}{h/||p^{l}||}},

где $u^{k_{h}}=u^{k_{l}}+hp^{l}/||p^{l}||$ , $h$ — малое положительное число такое, что $\langle p^{l},H^{l}p^{l}\rangle \neq 0$ .

Начальное приближение задаётся под 45° ко всем осям координат длинной $\delta ^{k}$ :

(6)

\quad u_{i}^{k_{1}}=u_{i}^{k}+{\frac {\delta ^{k}}{\sqrt {n}}}\operatorname {sgn} {\ \nabla _{i}J}^{k},\quad i=1\ldots n.

Начальный радиус $\delta ^{k}$ -окрестности точки $u^{k}$ корректируется:

(7)

\quad \delta ^{k}=\max \left[\min \left(\delta ^{k-1}{\frac {||\nabla J(u^{k})||}{||\nabla J(u^{k-1})||}},\delta ^{0}\right),\delta _{m}\right],\quad k>0.

Необходимо $||u^{k_{l}}-u^{k}||\geq \delta ^{m},\quad l\geq 1$ . Здесь малое положительное число $\delta _{m}$ заметно больше машинного эпсилон.

Подитерации $l$ завершаются при выполнении хотя бы одного из условий:

$||r^{l}||\leq c_{1}{\sqrt {2}},\quad 0\leq c_{1}<1$ — достигнута точность;
$\left|{\frac {||r^{l}||-||r^{l-1}||}{||r^{l}||}}\right|\leq c_{1},\quad l>1$ — прекратилась сходимость;
$l\leq l_{max}=\operatorname {integer} \left|c_{2}\ln c_{1}\ln n\right|,\quad c_{2}\geq 1$ — избыточность подитераций.

Алгоритм выбора направления минимизации

Параметры: $c_{1},c_{2},\delta ^{0},\delta _{m}=10^{-15}\delta ^{0},h=10^{-5}$ .
Входные данные: $n,k=0,u^{k},J(u^{k}),\nabla J(u^{k}),\nabla J^{k}$ .

$l=1$ . Если $k>0$ задаём $\delta ^{k}$ из (7).
Находим $u^{k_{l}}$ из (6).
Вычисляем $\nabla J^{l},||\nabla J^{l}||$ и находим $r^{l}$ из (3) при $u=u^{k_{l}}$ .
Если $||r^{l}||\leq c_{1}{\sqrt {2}}\,$ или $l\geq l_{max}$ , или $||u^{k_{l}}-u^{k}||<\delta _{m}$ , или { $\,l>1$ и $\left|{\frac {||r^{l}||-||r^{l-1}||}{||r^{l}||}}\right|\leq c_{1}$ }, то принимаем $u^{k_{\ast }}=u^{k_{l}}$ , возвращаем $\nabla J\left(u^{k_{\ast }}\right)$ , $d^{k}={(u^{k_{\ast }}-u}^{k})$ , стоп.
Если $l\neq 1,n,2n,3n\ldots$ , задаём $\beta ^{l}=||r^{l}||^{2}/||r^{l-1}||^{2}$ , иначе $\beta ^{l}=0$ .
Вычисляем $p^{l}=-r^{l}+\beta ^{l}p^{l-1}$ .
Находим шаговый множитель $\tau ^{l}$ для подитераций:
1. запоминаем $u^{k_{l}}$ , $\nabla J^{l}$ , $||\nabla J^{l}||$ , $r^{l}$ , $||r^{l}||$ ;
2. задаём $u^{k_{h}}=u^{k_{l}}+hp^{l}/||p^{l}||$ , вычисляем $\nabla J(u^{k_{h}})$ , $r\left(u^{k_{h}}\right)$ и находим $H^{l}p^{l}$ из (5), присваиваем $w\leftarrow \langle p^{l},H^{l}p^{l}\rangle$ ;
3. если $w=0$ , тогда $h\leftarrow 10h$ , возвращаемся к шагу 7.2;
4. восстанавливаем $u^{k_{l}}$ , $\nabla J^{l}$ , $||\nabla J^{l}||$ , $r^{l}$ , $||r^{l}||$ ;
5. находим $\tau ^{l}=||r^{l}||^{2}/w$ .
Делаем подитерацию $u^{k_{l+1}}$ из (4).
$l\leftarrow l+1$ , переходим к шагу 3.

Параметр $c_{2}=3\div 5$ . Для функций без седловых точек рекомендуется $c_{1}\approx 10^{-8}$ , $\delta \approx {10}^{-5}$ . Для «обхода» седловых точек рекомендуется $c_{1}\approx 0.1$ , $\delta \approx 0.1$ .

Описанный алгоритм позволяет приблизительно найти коллинеарные градиенты из системы уравнений (3). Полученное направление $b^{k}d^{k}$ для алгоритма МКГ (1) будет приблизительным направлением Ньютона (truncated Newton method).

Демонстрации^[2]

Во всех демонстрациях МКГ показывает сходимость не хуже, а иногда и лучше (для функций переменной выпуклости), чем метод Ньютона.

Тестовая функция «повёрнутый эллипсоид»

Строго выпуклая квадратичная функция:

J(u)=\sum _{i=1}^{n}\left(\sum _{j=1}^{i}u_{j}\right)^{2},\quad u_{\ast }=(0...0).

На рисунке для ${\color {red}n=2}$ заданы три чёрные стартовые точки $u^{0}$ . Серые точки — подитерации $u^{0_{l}}$ с $\delta ^{0}=0.5$ (показано пунктиром, завышено для демонстрации). Параметры $c_{1}=10^{-8}$ , $c_{2}=4$ . Для всех $u^{0}$ потребовалась одна итерация и подитераций $l$ не более двух.

При ${\color {red}n=1000}$ (параметр $\delta ^{0}={10}^{-5}$ ) с начальной точкой $u^{0}=(-1...1)$ МКГ достиг $u_{\ast }$ с точностью 1 % за 3 итерации и 754 вычисления $J$ и $\nabla J$ . Другие методы первого порядка: Квазиньютоновский BFGS (работа с матрицами) потребовал 66 итераций и 788 вычислений; сопряжённых градиентов (Fletcher-Reeves) — 274 итерации и 2236 вычислений; конечно-разностный метод Ньютона — 1 итерация и 1001 вычислений. Метод Ньютона второго порядка — 1 итерация.

С ростом размерности $\color {red}n$ , вычислительные погрешности при реализации условия коллинеарности (3), могут заметно возрастать. Поэтому МКГ, по сравнению с методом Ньютона, в рассматриваемом примере потребовал более одной итерации.

Минимизация МКГ: 3 итерации и 16 вычислений $J$ и $\nabla J$

Тестовая функция Розенброка

J(u)=100(u_{1}^{2}-u_{2})^{2}+(u_{1}-1)^{2},\quad u_{\ast }=(1,1).

Параметры те же, кроме $\delta ^{0}={10}^{-5}$ . Траектория спуска МКГ полностью совпадает с методом Ньютона. На рисунке синяя начальная точка $u^{0}=\left(-0.8;-1.2\right)$ , красная — $u_{\ast }$ . В каждой точке нарисованы орты градиентов.

Тестовая функция Химмельблау

J(u)=(u_{1}^{2}+u_{2}-11)^{2}+(u_{1}+u_{2}^{2}-7)^{2}.

Параметры $c_{1}=0.1$ , $\delta =0.05$ .

Минимизация МКГ: 7 итераций и 22 вычисления $J$ и $\nabla J$ . Красные линии — $\cos {\gamma }\geq 0$ .	Минимизация методом Ньютона: 9 итераций ( $b^{k}=1$ )
Метод сопряжённых градиентов (Fletcher-Reeves): 9 итерации и 62 вычисления $J$ и $\nabla J$	Квазиньютоновский BFGS: 6 итераций и 55 вычислений $J$ и $\nabla J$ . Красная линия (нарушение условия кривизны) — метод наискорейшего спуска.

МКГ является очень экономичным по количеству вычислений $J$ и $\nabla J$ . Благодаря формуле (2), он не требует затратных вычислений шагового множителя $b^{k}$ посредством линейного поиска (например, методом золотого сечения и т.п.).

Примечания

↑ Tolstykh V.K. Collinear Gradients Method for Minimizing Smooth Functions // Oper. Res. Forum. — 2023. — Vol. 4. — No. 20. — doi: s43069-023-00193-9
↑ Tolstykh V.K. Демонстрационное Windows-приложение Optimization

[1] Tolstykh V.K. Collinear Gradients Method for Minimizing Smooth Functions // Oper. Res. Forum. — 2023. — Vol. 4. — No. 20. — doi: s43069-023-00193-9

[2] Tolstykh V.K. Демонстрационное Windows-приложение Optimization

[1]

[2]

@@ Строка 1: / Строка 1: @@
-'''Метод коллинеарных градиентов'''<ref>''Tolstykh V.K.'' Collinear Gradients Method for Minimizing Smooth Functions // Oper. Res. Forum. — 2023. — Vol. 4. — No. 20. — doi: [https://doi.org/10.1007/s43069-023-00193-9 s43069-023-00193-9]</ref> — [[Итерация (математика)|итерационный метод]] направленного поиска [[Локальный экстремум|локального экстремума]] функции <math>J(u)</math>, <math>u\in E^n</math> с движением к экстремуму вдоль вектора <math>d\in E^n</math> такого, где [[градиент]]ы <math>\nabla J(u)</math> и <math>\nabla J(u+d)</math> [[Коллинеарность|коллинеарные]]. Это метод перового порядка (использует только первые производные <math>\nabla J</math>) с квадратичной [[скорость сходимости|скоростью сходимости]]. Может применяться к функциям высокой размерности с несколькими локальными экстремумами. МКГ можно отнести к семейству методов [https://en.wikipedia.org/wiki/Truncated_Newton_method Truncated Newton method]
+'''Метод коллинеарных градиентов (МКГ)'''<ref>''Tolstykh V.K.'' Collinear Gradients Method for Minimizing Smooth Functions // Oper. Res. Forum. — 2023. — Vol. 4. — No. 20. — doi: [https://doi.org/10.1007/s43069-023-00193-9 s43069-023-00193-9]</ref> — [[Итерация (математика)|итерационный метод]] направленного поиска [[Локальный экстремум|локального экстремума]] [[Гладкая функция|гладкой]] [[функция многих переменных|функции многих переменных]] <math>J(u)\colon\R^n\to\R</math>  с движением к экстремуму вдоль вектора <math>d\in \mathbb R^n</math> такого, где [[градиент]]ы <math>\nabla J(u)</math> и <math>\nabla J(u+d)</math> [[Коллинеарность|коллинеарные]]. Это метод перового порядка (использует только первые производные <math>\nabla J</math>) с квадратичной [[скорость сходимости|скоростью сходимости]]. Может применяться к функциям высокой размерности <math>n</math> с несколькими локальными экстремумами. МКГ можно отнести к семейству методов [https://en.wikipedia.org/wiki/Truncated_Newton_method Truncated Newton method]
 [[Файл:Collinearity.png|thumb|Коллинеарные векторы <math>\nabla J(u^k)</math> и <math>\nabla J(u^{k_\ast})</math> с направлением минимизации <math>d^k</math> для выпуклой функции, <math>n=2</math>]]
 === Идея метода ===
-На каждой итерации <math>k=0,1\dots</math> в относительно большой окрестности <math>u^k</math> существует точка <math>u^{k_\ast}</math>, где градиенты <math>\nabla J\left(u^k\right)\equiv\nabla J^k</math> и <math>\nabla J(u^{k_\ast})\equiv\nabla J^{k_\ast}</math> коллинеарные. Направлением на экстремум <math>u_\ast</math> из точки <math>u^k</math> будет направление <math>d^k={(u^{k_\ast}-u}^k)</math>. Вектор <math>d^k</math> указывает на максимум или на минимум в зависимости от положения точки <math>u^{k_\ast}</math>. Она может быть спереди или сзади от <math>u^k</math> относительно направления на <math>u_\ast</math> (см.рисунок). Далее будем рассматривать минимизацию.
+Для гладкой функции <math>J(u)</math> в относительно большой окрестности точки <math>u^k</math> найдётся точка <math>u^{k_\ast}</math>, где градиенты <math>\nabla J^k\,\overset{\textrm{def}}{=}\,\nabla J(u^k)</math> и <math>\nabla J^{k_\ast}\,\overset{\textrm{def}}{=}\,\nabla J(u^{k_\ast})</math> коллинеарные. Направлением на экстремум <math>u_\ast</math> из точки <math>u^k</math> будет направление <math>d^k={(u^{k_\ast}-u}^k)</math>. Вектор <math>d^k</math> указывает на максимум или на минимум в зависимости от положения точки <math>u^{k_\ast}</math>. Она может быть спереди или сзади от <math>u^k</math> относительно направления на <math>u_\ast</math> (см. рисунок). Далее будем рассматривать минимизацию.
-Очередная итерация МКГ:
+Очередная {{font color|pink||итерация МКГ}}:
+ (1) <math>\quad u^{k+1}=u^k+b^kd^k, \quad k\in \left\{ 0,1\dots\right\},</math>
+где оптимальное <math>b^k\in \mathbb R</math> находится аналитически из предположения [[Квадратичная функция одной переменной|квадратичности одномерной функции]] <math>J(u^k+bd^k)</math>:
-: (1) <math>\quad u^{k+1}=u^k+b^kd^k,</math>
-где оптимальное <math>b^k\in E</math> находится аналитически из предположения [[Квадратичная функция одной переменной|квадратичности одномерной функции]] <math>J(u^k+bd^k)</math>:
 : (2) <math>\quad b^{k}=\left (1- \frac{\langle \nabla J(u^{k_\ast},d^k \rangle}{\langle\nabla J(u^k),d^k\rangle}\right )^{-1},\quad\forall u^{k_\ast}.</math>
-Угловые скобки — это [[скалярное произведение]] в <math>E^n</math>. Если <math>J(u)</math> [[выпуклая функция]] в окрестности <math>u^k</math>, то для передней точки <math>u^{k_\ast}</math> получаем число <math>b^k>0</math>, для задней <math>b^k<0</math>. Делаем шаг (1). Для строго выпуклой квадратичной функции <math>J(u)</math> шаг МКГ
+Угловые скобки — это [[скалярное произведение]] в [[Евклидово пространство|евклидовом пространстве]] <math>\mathbb R^n</math>. Если <math>J(u)</math> [[выпуклая функция]] в окрестности <math>u^k</math>, то для передней точки <math>u^{k_\ast}</math> получаем число <math>b^k>0</math>, для задней <math>b^k<0</math>. Делаем шаг (1).
-: <math>b^kd^k=-H^{-1}\nabla J^k,</math>
-т.е. это шаг [[метод Ньютона|метода Ньютона]] (метод второго порядка с квадратичной скоростью сходимости), где <math>H</math> — [[матрица Гессе]].
+Для строго выпуклой квадратичной функции <math>J(u)</math> {{font color|pink||шаг МКГ}}
-В общем случае, если <math>J(u)</math> имеет переменную выпуклость и возможны седловые точки, то следует контролировать направление минимизации по углу <math>\gamma</math> между векторами <math>\nabla J^k</math> и <math>d^k</math>. Если <math>\cos(\gamma)=\frac{\langle \nabla J^k,d^k\rangle}{||\nabla J(u^k)||\; ||d^k||}\geq 0</math>, то <math>d^k</math> — это направление максимизации и в (1) следует брать <math>b^k</math> с обратным знаком.
+  <math>b^kd^k=-H^{-1}\nabla J^k,</math>
+т.е. {{font color|pink||это шаг [[метод Ньютона|метода Ньютона]]}} (метод второго порядка с квадратичной скоростью сходимости), где <math>H</math> — [[матрица Гессе]]. Такие шаги обеспечивают МКГ квадратичную скорость сходимости.
-=== Поиск коллинеарных градиентов ===
-Из [[невязка|невязки]] [[орт вектора|ортов]] градиентов можно найти <math>u^{k_\ast}</math> как корень системы <math>n</math> уравнений:
+В общем случае, если <math>J(u)</math> имеет переменную выпуклость и возможны [[Седловая точка|седловые точки]], то следует контролировать направление минимизации по углу <math>\gamma</math> между векторами <math>\nabla J^k</math> и <math>d^k</math>. Если <math>\cos(\gamma)=\frac{\langle \nabla J^k,d^k\rangle}{||\nabla J(u^k)||\; ||d^k||}\geq 0</math>, то <math>d^k</math> — это направление максимизации и в (1) следует брать <math>b^k</math> с обратным знаком.
-: (3) <math>\quad r^k(u)=\frac{\nabla J(u)}{||\nabla J(u)||}s-\frac{\nabla J(u^k)}{||\nabla J(u^k)||}=0 \in E^n,</math>
+== Поиск коллинеарных градиентов ==
+{{font color|pink||Коллинеарность градиентов}} оценивается [[невязка|невязкой]] их [[орт вектора|ортов]], которая имеет вид системы <math>n</math> уравнений для поиска корня  <math>u=u^{k_\ast}</math>:
+ (3) <math>\quad r^k(u)=\frac{\nabla J(u)}{||\nabla J(u)||}s-\frac{\nabla J(u^k)}{||\nabla J(u^k)||}=0 \in \mathbb R^n,</math>
 где [[sgn|знак]] <math>s=\sgn\langle\nabla J(u),\nabla J(u^k)\rangle</math> позволяет одинаково оценивать коллинеарность градиентов по одну или разные стороны от минимума <math>u_\ast</math>, <math>||r^k(u)||\le \sqrt{2}</math>.
-Система (3) решается итерационно (подитерации <math>l</math>) [[Метод сопряжённых градиентов (СЛАУ)|методом сопряжённых градиентов]] в предположении, что она линейна в окрестности <math>u^k</math>:
+Система (3) решается итерационно ('''''подитерации''''' <math>l\,</math>) [[Метод сопряжённых градиентов (СЛАУ)|методом сопряжённых градиентов]] в предположении, что она линейна в окрестности <math>u^k</math>:
 : (4) <math>\quad u^{k_{l+1}}=u^{k_l}+\tau^lp^l, \quad l=1,2\ldots,</math>
-где вектор <math>p^l\equiv p(u^{k_l})=-r^l+{\beta^lp}^{l-1}</math>, <math>r^l\equiv r(u^{k_l})</math>, <math>\beta^l=||r^l||^2/||r^{l-1}||^2, \beta^{1,n,2n...}=0</math>, <math>\tau^l=||r^l||^2/\langle p^l,H^lp^l\rangle</math>, произведение матрицы Гессе <math>H^l</math> на <math>p^l</math> находится численным дифференцированием:
+где вектор <math>\;p^l\;\overset{\textrm{def}}{=}\,p(u^{k_l})=-r^l+{\beta^lp}^{l-1}</math>, <math>\;r^l\,\overset{\textrm{def}}{=}\,r(u^{k_l})</math>, <math>\;\beta^l=||r^l||^2/||r^{l-1}||^2, \ \beta^{1,n,2n...}=0</math>, <math>\;\tau^l=||r^l||^2/\langle p^l,H^lp^l\rangle</math>, произведение матрицы Гессе <math>H^l</math> на <math>p^l</math> находится численным дифференцированием:
 : (5) <math>\quad H^lp^l\approx \frac{r(u^{k_h})-r(u^{k_l})}{h/||p^l||},</math>
@@ Строка 59: / Строка 55: @@
 # <math>\left| \frac{||r^l||-||r^{l-1}||}{||r^l||}\right| \leq c_1,\quad l>1 </math> — прекратилась сходимость;
 # <math>l \leq l_{max}=\operatorname{integer} \left| c_2 \ln c_1 \ln n \right|,\quad c_2 \geq 1 </math> — избыточность подитераций.
 == Алгоритм выбора направления минимизации ==
-* Параметры: <math>c_1, c_2, \delta^0, \delta_m = 10^{-15}\delta^0, h=10^{-5}</math>.
-* Входные данные: <math>n, k=0, u^k, J(u^k), \nabla J(u^k), \nabla J^k </math>.
+* <code>Параметры: <math>c_1, c_2, \delta^0, \delta_m = 10^{-15}\delta^0, h=10^{-5}</math>.</code>
-# <math>l=1</math>. Если <math>k>0</math> задаём <math>\delta^k</math> из (7).
+* <code>Входные данные: <math>n, k=0, u^k, J(u^k), \nabla J(u^k), \nabla J^k </math>.</code>
-# Находим <math>u^{k_l}</math> из (6).
+# <code><math>l=1</math>. Если <math>k>0</math> задаём <math>\delta^k</math> из (7).</code>
-# Вычисляем <math>\nabla J^l, ||\nabla J^l||</math> и находим <math>r^l</math> из (3) при <math>u=u^{k_l}</math>.
+# <code>Находим <math>u^{k_l}</math> из (6).</code>
+# <code>Вычисляем <math>\nabla J^l, ||\nabla J^l||</math> и находим <math>r^l</math> из (3) при <math>u=u^{k_l}</math>.</code>
-# Если <math>||r^l||\leq c_1\sqrt{2}\,</math> или <math> l \geq l_{max}</math>, или <math>||u^{k_l}-u^k|| < \delta_m </math>, или {<math>\,l>1</math> и <math>\left| \frac{||r^l||-||r^{l-1}||}{||r^l||}\right| \leq c_1 </math>}, то принимаем <math>u^{k_\ast}=u^{k_l}</math>, возвращаем <math>\nabla J\left(u^{k_\ast}\right)</math>, <math>d^k={(u^{k_\ast}-u}^k)</math>, '''<big>стоп</big>''' <math>\color{red}\blacksquare</math>.
+# <code>Если <math>||r^l||\leq c_1\sqrt{2}\,</math> или <math> l \geq l_{max}</math>, или <math>||u^{k_l}-u^k|| < \delta_m </math>, или {<math>\,l>1</math> и <math>\left| \frac{||r^l||-||r^{l-1}||}{||r^l||}\right| \leq c_1 </math>}, то принимаем <math>u^{k_\ast}=u^{k_l}</math>, возвращаем <math>\nabla J\left(u^{k_\ast}\right)</math>, <math>d^k={(u^{k_\ast}-u}^k)</math>, {{font color||red|'''<big>стоп</big>'''}}.</code>
-# Если <math>l\neq 1,n,2n,3n\ldots</math>, задаём <math>\beta^l=||r^l||^2/||r^{l-1}||^2</math>, иначе <math>\beta^l=0</math>.
+# <code>Если <math>l\neq 1,n,2n,3n\ldots</math>, задаём <math>\beta^l=||r^l||^2/||r^{l-1}||^2</math>, иначе <math>\beta^l=0</math>.</code>
-# Вычисляем <math>p^l=-r^l+\beta^l p^{l-1}</math>.
+# <code>Вычисляем <math>p^l=-r^l+\beta^l p^{l-1}</math>.</code>
-# Находим шаговый множитель <math>\tau^l</math> для подитераций:
+# <code>Находим шаговый множитель <math>\tau^l</math> для подитераций:</code>
-## запоминаем <math>u^{k_l}</math>, <math>\nabla J^l</math>, <math>||\nabla J^l||</math>, <math>r^l</math>, <math>||r^l||</math>;
+## <code>запоминаем <math>u^{k_l}</math>, <math>\nabla J^l</math>, <math>||\nabla J^l||</math>, <math>r^l</math>, <math>||r^l||</math>;</code>
-## задаём <math>u^{k_h}=u^{k_l}+hp^l/||p^l||</math>, вычисляем <math>\nabla J(u^{k_h})</math>, <math>r\left(u^{k_h}\right)</math> и находим <math>H^lp^l</math> из (5), присваиваем <math>w\leftarrow\langle p^l,H^lp^l\rangle</math>;
+## <code>задаём <math>u^{k_h}=u^{k_l}+hp^l/||p^l||</math>, вычисляем <math>\nabla J(u^{k_h})</math>, <math>r\left(u^{k_h}\right)</math> и находим <math>H^lp^l</math> из (5), присваиваем <math>w\leftarrow\langle p^l,H^lp^l\rangle</math>;</code>
-## если <math>w=0</math>, тогда <math>h\leftarrow 10h</math>, возвращаемся к шагу 7.2;
+## <code>если <math>w=0</math>, тогда <math>h\leftarrow 10h</math>, возвращаемся к шагу 7.2;</code>
-## восстанавливаем <math>u^{k_l}</math>, <math>\nabla J^l</math>, <math>||\nabla J^l||</math>, <math>r^l</math>, <math>||r^l||</math>;
+## <code>восстанавливаем <math>u^{k_l}</math>, <math>\nabla J^l</math>, <math>||\nabla J^l||</math>, <math>r^l</math>, <math>||r^l||</math>;</code>
-## находим <math>\tau^l=||r^l||^2/w </math>.
+## <code>находим <math>\tau^l=||r^l||^2/w </math>.</code>
-# Делаем подитерацию <math>u^{k_{l+1}}</math> из (4).
+# <code>Делаем подитерацию <math>u^{k_{l+1}}</math> из (4).</code>
-# <math>l\leftarrow l+1</math>, переходим к шагу 3.
+# <code><math>l\leftarrow l+1</math>, переходим к шагу 3.</code>
 Параметр <math>c_2=3\div 5</math>. Для функций без седловых точек рекомендуется <math>c_1\approx 10^{-8}</math>, <math>\delta\approx{10}^{-5}</math>. Для «обхода» седловых точек рекомендуется <math>c_1\approx 0.1</math>, <math>\delta\approx 0.1</math>.
+Описанный алгоритм позволяет приблизительно найти коллинеарные градиенты из системы уравнений (3). Полученное направление <math>b^kd^k</math> для алгоритма МКГ (1) будет {{font color|pink||приблизительным направлением Ньютона}} (truncated Newton method).
 == Демонстрации<ref>''Tolstykh V.K.'' Демонстрационное Windows-приложение [https://tolstykh.com/docs/Оптимизация/optimization.rar Optimization ]</ref> ==
-Во всех демонстрациях МКГ показывает сходимость не хуже, а иногда и лучше, чем метод Ньютона для функций переменной выпуклости.
+Во всех демонстрациях МКГ показывает сходимость не хуже, а иногда и лучше (для функций переменной выпуклости), чем метод Ньютона.
 === Тестовая функция «повёрнутый эллипсоид» ===
@@ Строка 96: / Строка 93: @@
-При <math>{\color{red}n=1000}</math> (параметр <math>\delta^0={10}^{-5}</math>) с начальной точкой <math>u^0=(-1...1)</math> МКГ достиг <math>u_\ast</math> с точностью 1 % за 3 итерации и 754 вычисления <math>J</math> и <math>\nabla J</math>. Другие методы первого порядка: [[Квазиньютоновские методы|Квазиньютоновский BFGS]] (работа с матрицами) потребовал 66 итерации и 788 вычислений; [[метод сопряжённых градиентов|сопряжённых градиентов]] (Fletcher-Reeves) — 274 итерации и 2236 вычислений; конечно-разностный метод Ньютона — 1 итерация и 1001 вычислений. [[Метод Ньютона]] второго порядка — 1 итерация.
+При <math>{\color{red}n=1000}</math> (параметр <math>\delta^0={10}^{-5}</math>) с начальной точкой <math>u^0=(-1...1)</math> МКГ достиг <math>u_\ast</math> с точностью 1 % за 3 итерации и 754 вычисления <math>J</math> и <math>\nabla J</math>. Другие методы первого порядка: [[Квазиньютоновские методы|Квазиньютоновский BFGS]] (работа с матрицами) потребовал 66 итераций и 788 вычислений; [[метод сопряжённых градиентов|сопряжённых градиентов]] (Fletcher-Reeves) — 274 итерации и 2236 вычислений; конечно-разностный метод Ньютона — 1 итерация и 1001 вычислений. [[Метод Ньютона]] второго порядка — 1 итерация.
-При высокой размерности <math>n</math> МКГ, по сравнению с методом Ньютона, потребовал более одной итерации из-за приблизительной (truncated Newton method) реализации условия коллинеарности (3).
+С ростом размерности <math>\color{red}n</math>, вычислительные погрешности при реализации условия коллинеарности (3), могут заметно возрастать. Поэтому МКГ, по сравнению с методом Ньютона, в рассматриваемом примере потребовал более одной итерации.
 [[Файл:ColGM-Rosenbrock.png|thumb|Минимизация МКГ: 3 итерации и 16 вычислений <math>J</math> и <math>\nabla J</math>]]
@@ Строка 124: / Строка 121: @@
-МКГ является очень экономичным по количеству вычислений <math>J</math> и <math>\nabla J</math>. Благодаря формуле (2), он не требует затратных вычислений шагового множителя <math>b^k</math> посредством линейного поиска ([[метод золотого сечения]] и т. п.).
+{{font color|pink||МКГ является очень экономичным}} по количеству вычислений <math>J</math> и <math>\nabla J</math>. Благодаря формуле (2), он не требует затратных вычислений шагового множителя <math>b^k</math> посредством линейного поиска (например,  [[метод золотого сечения|методом золотого сечения]] и т.п.).
 == Примечания ==
 {{примечания}}
-[[Категория:Итеративные методы]]
+[[Категория:Численные методы]]
+[[Категория:Алгоритмы и методы оптимизации]]
+[[Категория:Алгоритмы оптимизации]]

Метод коллинеарных градиентов: различия между версиями

Версия от 15:11, 27 декабря 2024

Содержание

Идея метода

Поиск коллинеарных градиентов

Алгоритм выбора направления минимизации

Демонстрации^[2]

Тестовая функция «повёрнутый эллипсоид»

Тестовая функция Розенброка

Тестовая функция Химмельблау

Примечания

Навигация

Метод коллинеарных градиентов: различия между версиями

Версия от 15:11, 27 декабря 2024

Идея метода

Поиск коллинеарных градиентов

Алгоритм выбора направления минимизации

Демонстрации[2]

Тестовая функция «повёрнутый эллипсоид»

Тестовая функция Розенброка

Тестовая функция Химмельблау

Примечания

Навигация

Поиск

Демонстрации^[2]