The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by BHV.RU Publishing House, 2022-08-06 14:55:37

Обучение с подкреплением для реальных задач

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.

Keywords: RL,Reinforcement Learning

Для чего нужно обучение с подкреплением? | 51

[18] LA P., Bhatnagar S. Reinforcement learning with function approximation for traffic signal
control // IEEE Transactions on Intelligent Transportation Systems. — 2011. — Vol. 12,
№ 2. — P. 412–421. — URL: https://oreil.ly/1tBej.

[19] Rezaee K., Abdulhai B., Abdelgawad H. Application of reinforcement learning with
continuous state space to ramp metering in real-world conditions // In 2012 15th International
IEEE Conference on Intelligent Transportation Systems. — 2012. — P. 1590–1595. — URL:
https://oreil.ly/G60Wu.

[20] Mohammadi M., Al-Fuqaha A., Guizani M., Oh J. Semisupervised deep reinforcement
learning in support of IoT and smart city services // IEEE Internet of Things Journal. —
208. — Vol. 5, № 2. — P. 624–635. — URL: https://oreil.ly/orzkT.

[21] Shah P. Reinforcement learning with action-derived rewards for chemotherapy and clinical
trial dosing regimen selection // MIT Media Lab. — Accessed 4 July 2019. — URL:
https://oreil.ly/p3sBr.

[22] Liu Y. et al. Deep reinforcement learning for dynamic treatment regimes on medical registry
data // Healthcare Informatics: The Business Magazine for Information and Communication
Systems (August). — 2017. — P. 380–85. — URL: https://oreil.ly/BftR5.

[23] Mohammedalamen M. et al. Transfer learning for prosthetics using imitation learning //
ArXiv:1901.04772. — 2019. — January. — URL: https://oreil.ly/hTpsA.

[24] Chi M. et al. Empirically evaluating the application of reinforcement learning to the induction
of effective and adaptive pedagogical strategies // User Modeling and User-Adapted
Interaction. — 2011. — Vol. 21, № 1. — P. 137–80. — URL: https://oreil.ly/XyKdy.

[25] Pwnagotchi: Deep reinforcement learning for Wifi Pwning! — URL: https://oreil.ly/olVVt.

[26] Anderson H. S. et al. Learning to evade static PE machine learning malware models via
reinforcement learning // ArXiv:1801.08917. — 2018. — January. — URL:
https://oreil.ly/X2n4W.

[27] Freedberg S. J., Jr. AI & robots crush foes in army wargame // Breaking Defense. — 2019. —
December. — URL: https://oreil.ly/4UA9Z.

[28] Silver D. et al. Mastering the game of go without human knowledge // Nature. — 2017. —
Vol. 550, № 7676. — P. 354–359. — URL: https://oreil.ly/LJROD.

[29] Zha D. et al. RLCard: a toolkit for reinforcement learning in card games //
ArXiv:1910.04376. — 2019. — October. — URL: https://oreil.ly/YbLGv.

[30] Pavlov I. P. Conditioned reflexes: an investigation of the physiological activity of the cerebral
cortex. — Oxford, England: Oxford Univ. Press, 1927.

[31] Rescorla R. A., Wagner A. R. A Theory of pavlovian conditioning: variations in the
effectiveness of reinforcement and nonreinforcement // Classical Conditioning II: Current
Research and Theory. — New York, NY: Appleton-Century-Crofts, 1972. — P. 64–99.

[32] Schultz W. et al. Reward-related signals carried by dopamine neurons // Models of
Information Processing in the Basal Ganglia. — Computational Neuroscience. Cambridge,
MA: The MIT Press, 1995. — P. 233–248.

[33] Schultz W., Dayan P., Montague P. R. A Neural substrate of prediction and reward //
Science. — 1997. — Vol. 275, № 5306. — P. 1593–1599. — URL: https://oreil.ly/6KztR.

[34] Kahneman D. Thinking, fast and slow. — Penguin UK, 2012.

52 | Глава 1

[35] Takahashi Y., Schoenbaum G., Niv Y. Silencing the critics: understanding the effects
of cocaine sensitization on dorsolateral and ventral striatum in the context of an actor/critic
model // Frontiers in Neuroscience 2. — 2008. — URL: https://oreil.ly/fXxaf.

[36] Bellman R. A Markovian decision process // Journal of Mathematics and Mechanics. —
1957. — Vol. 6, № 5. — P. 679–684.

[37] Newman E. B. Experimental psychology // Psychological Bulletin. — 1954. — Vol. 51,
№ 6. — P. 591–593. — URL: https://oreil.ly/qC3Ne.

[38] Thorndike E. L. Animal intelligence: an experimental study of the associative processes
in animals // The Psychological Review: Monograph Supplements. — 1898. — Vol. 2, № 4. —
P. i–109. — URL: https://oreil.ly/VLNEN.

[39] Turing A. M. Intelligent machinery // B. Jack. Copeland. — The Essential Turing. —
Clarendon Press, 2004. — P. 428.

[40] Grey Walter W. Presentation: Dr. Grey Walter // J.M. Tanner and B. Inhelder (eds.).
Discussions on Child Development. — London: Tavistock Publications, 1956. — Vol. 2. —
P. 21–74.

[41] Lighthill J. Artificial intelligence: a paper symposium. — London: Science Research Council,
1973.

[42] Gartner Says AI Augmentation Will Create $2.9 Trillion of Business Value in 2021 // Gartner :
[site]. — Accessed 17 August 2020. — URL: https://oreil.ly/n6kP7.

[43] Kaelbling L. P., Littman M. L., Moore A. W. Reinforcement learning: a survey //
ArXiv:Cs/9605103. — 1996. — April. — URL: https://oreil.ly/xmhsX.

ПРИЛОЖЕНИЕ 1

Градиент логистической политики
для двух действий

Уравнение 5.6 представляет собой политику для двух действий. Для того чтобы
обновить политику, мне нужно рассчитать градиент натурального логарифма поли-
тики (см. уравнение 5.4). Я представил это в уравнении П1.1. Вы можете выполнить
дифференцирование несколькими различными способами в зависимости от того,
какие алготирмы преобразований вы используете, поэтому результат может выгля-
деть по-разному, даже если он обеспечивает один и тот же результат.

Уравнение П1.1. Градиент логистической политики для двух действий

⎡ δ ln ⎛ 1 ⎞⎤
⎢ δθ0 ln ⎜⎝ 1+ e−θT0 s ⎠⎟⎥⎥
∇ ln π ( a | s, θ) = ⎢ δ ⎛ ⎞⎥ .
⎢ δθ1 ⎝⎜ 1+ 1
⎢ e−θ1T s ⎠⎟ ⎥
⎣ ⎦

Я вычисляю градиенты каждого действия независимо, и мне будет проще, если я
реорганизую логистическую функцию, как в уравнении П1.2.

Уравнение П1.2. Рефакторинг логистической функции

1 ex
1+ e−x 1+ e−x
( )π( x) = ex =

= ex ex =
+ exe−x

= ex ex =
+ ex−x

= ex =
ex + e0

= ex =
ex +1

= 1 ex .
+ ex

390 | Приложение 1

Производная от преобразованной логистической функции для действия 0 показана
в уравнении П1.3.

Уравнение П1.3. Дифференцирование действия 0

( )δ ln π0 θT0 s = δ ln ⎛ eθT0 s s ⎞ =
δθ0 ⎝⎜⎜ + eθT0 ⎟⎟⎠
δθ0 1

( )= δ ln eθT0 s − δ ln 1 + eθT0 s =
δθ0 δθ0

( )=δ δ
δθ0 θT0 s − δθ0 ln 1 + eθT0 s =

( )= s − δ ln 1+ eθT0 s =
δθ0

= s − δ ln u =
δθ0

=s−1 δ u=
u δθ0

( )= 1 δ
s − eθT0 s δθ0 1 + eθT0 s =

1 +

( )=s − 1 s δ ev δ v=
eθT0 δv δθ0
1 +

= s − 1 s eθT0 s s =
eθT0
1 +

= s − seθT0 s s =
1 + eθT0

= s − sπ(θT0 s),

где

u = 1 + eθT0 s , v = θT0 s .

Метод расчета производной политики для действия 1 показан в уравнении П1.4.
Обратите внимание, что вывод ближе к концу совпадает с уравнением П1.3.

Предметный указатель

A Diversity is all you need (DIAYN) 254
Dynamic programming (DP) 87
Action-value function 75
Actor-critic using kronecker-factored trust E

regions (ACKTR) 213 Echo state networks (ESN) 120
Actor-critic with experience replay (ACER) Explainable artificial intelligence (XAI) 344
Extensive-form game (EFG) 258
212
Advantage actor-critic (A2C) 160, 194, 331 F
Artificial intelligence (AI) 31
Artificial neural network (ANN) 118 First in, first out (FIFO) 123
Asynchronous advantage actor-critic (A3C)
G
331
Gated recurrent units (GRU) 120
B Generalized off-policy actorcritic (Geoff-PAC)

Batch-constrained deep Q-learning (BCQ) 141 214
Bootstrapped DQN (BDQN) 139 Generalized policy iteration (GPI) 81
Gorila 330
C Gradient-temporal-difference (GTD) 181

CartPole 125 H
Click-through rate (CTR) 98
Clipped double Q-learning (CDQ) 189 Hierarchical reinforcement learning (HRL)
Coach 124 251, 273
Contextual MDP (CMDP) 249
Convolutional neural network (CNN) 119 HRL with advantage-based rewards (HAAR)
255
D
I
Decentralized distributed proximal policy
optimization (DD-PPO) 333 Importance weighted actor-learner architecture
(IMPALA) 334
Dec-HDRQN 264
Deep belief networks (DBN) 119 Independent and identically distributed (IID)
Deep deterministic policy gradients (DDPG) 122

184 Inverse RL (IRL) 268
Deep learning (DL) 184
Deep Q-learning from demonstrations (DQfD)

268
Deep Q-network (DQN) 122, 330
Deterministic policy gradients (DPG) 183
Directed acyclic graph (DAG) 120, 152, 245

396 | Предметный указатель ◊ имитационное мягкое 268
◊ мягкое 233
K ◊ ограниченное двойное 189
◊ отложенное 103
Keras 121 Q-сеть
Key performance indicator (KPI) 53, 98 ◊ глубокая 122
Kronecker-factored approximation (K-FAC) 213
бутстрапированная 139
L ◊ клонирование 123
Q-функция 75
Long short-term memory (LSTM) 120
R
M
Random distillation network 312
Machine learning (ML) 21 Real-time bidding (RTB) 98
Markov decision process (MDP) 33, 47, 53, 62 Recurrent neural network (RNN) 120, 248
Markov game (MG) 258 Reinforcement learning (RL) 21, 32, 146
Mean squared error (MSE) 124 ◊ фреймворк 326
MLOps 347 Restricted Boltzmann machines (RBM) 119
Monte Carlo (MC) 78
Multi-agent reinforcement learning (MARL) S

256 SARSA 92
◊ проблемы 265 ◊ онлайн-вариант 109
Multilayer perceptrons (MLP) 119 Scalable and efficient deep RL with
MXNet 120
accelerated central inference (SEED) 335
N Soft actor-critic (SAC) 223
Soft Q imitation learning (SQIL) 268
Natural policy gradients (NPG) 197 soft Q-learning (SQL) 233
Neural fitted Q-iteration (NFQ) 129 Softmax 119
◊ политика 151
O state-value function 71
Stochastic action set (SAS) 249
Observe, orient, decide, act (OODA) 293
Off-policy actor-critic (Off-PAC) 181 T
Opposition-based RL 104
Target policy smoothing (TPS) 189
P Temporal-difference (TD) 87
TensorFlow 120
Parallel advantage actor critic (PAAC) 332 Trust region policy optimization (TRPO) 198
Partially observable Markov decision process Twin delayed deep deterministic policy

(POMDP) 246 gradients (TD3) 188
path consistency learning (PCL) 228 ◊ реализация 190
Probably approximately correct (PAC) 103
Proximal policy optimization (PPO) 201 U
PyTorch 120
Upper-confidence-bound (UCB) 61, 139
Q
V
Q-обучение 90
◊ быстрое 113 Vanilla gradient ascent 147
◊ глубокое на основе демонстраций 268 Variational information maximizing
◊ глубокое с пакетными ограничениями 141
◊ двойное 102 exploration (VIME) 310

А Предметный указатель | 397

Автоэнкодер 119 В
◊ условный вариационный 141
Агент 33, 62 Вес 42, 118
Актор 47, 160 Вознаграждение 33, 46, 62
Актор — критик 160 ◊ выбор 101
Алгоритм Воспроизведение опыта 122
◊ ε-жадный 57 Выборка по значимости 176
◊ n-шаговый 105
Г
в распределенной среде 108
◊ Q(λ) Уоткинса 112 Гибкость 348
◊ REINFORCE 181 Гиперпараметр
◊ Retrace (λ) 212 ◊ поиск 239
◊ актор — критик 160 Гистерезис с временной разницей 263
Градиент политики
вне политики 181 ◊ глубокий детерминированный 184
использующий доверительные ◊ глубокий мягкий 227
области по фактору Кронекера ◊ дважды отложенный глубокий
(ACKTR) 213
мягкий 223 детерминированный 188
с опытом воспроизведения (ACER) ◊ детерминированный 183
212 ◊ естественный 197
с преимуществом Граница пессимистическая 201
Граф
асинхронный (A3C) 331 ◊ ориентированный ациклический 120,
параллельный (PAAC) 332
с преимуществом (A2C) 160, 194 152, 245
◊ бандита 57 ◊ переходов 66
◊ безмодельный 37
◊ градиентно-временных различий 181 Д
◊ жадный-GQ 180
◊ жесткий 223 Действие 32
◊ Монте-Карло на основе политики 79 ◊ стохастическое 249
◊ на основе Децентрализованная распределенная
имитации 40
моделей 37 проксимальная оптимизация политики 333
политики 40, 93 Дивергенция Кульбака — Лейблера 196
◊ нейронной аппроксимации 129 Дискретизация возможности 303
◊ с верхним доверительным интервалом Дифференцирование автоматическое 152
(UCB) 61 Доходность 70
◊ с одним агентом 260
◊ ценностный 40 З
Архитектура "актор — ученик",
взвешенная по значимости 334 Заражение 359
Атака 359
И
Б
Игра
Библиотека глубокого обучения ◊ в развернутой форме 258
с открытым кодом 120 ◊ Маркова 258
Иерархия потребностей 348
Блок рекуррентный 120 Инжиниринг состояния 297
Бутстрэппинг 87 Интеллект искусственный 31
Буфер воспроизведения опыта 106 Информация скрытая 119

398 | Предметный указатель Н

Исследование с максимизацией Наблюдаемость частичная 246
вариационной информации 310 Наблюдение 62
Награда 53
Итерация по стратегии, обобщенная 81 Надежность 347
Нейрон 118
К ◊ искусственный 45
Непрерывная доставка 353
Карта значимости 345 Непрерывная интеграция 353
Квантиль 215
Клонирование поведения 267 О
Кодирование фиктивное 150
Количество показов 98 Обновление политики отложенное 188
Контейнер программный 96 Обоснование контрфактическое 214
Концепция предустановок 125 Обусловливание 41
Коэффициент Обучение
◊ выборки важности 201 ◊ без сброса 291
◊ дисконтирования 71 ◊ вероятно приближённо корректное 103
◊ плотности 214 ◊ генеративное состязательное
Критик 47, 160
◊ обобщенный внеполитических субъектов имитационное 268
◊ глубокое 184
214 ◊ децентрализованное 260, 263
◊ машинное 31
М ◊ методом проб и ошибок 47
◊ непрерывное 250
Максимизация энтропии 222 ◊ параллельное 290
Марковский процесс принятия решений 33, ◊ передающее 170
◊ по учебной программе 270
47, 62 ◊ представлениям 297
Масштабирование 96 ◊ с временными различиями 87
Масштабируемость 347 ◊ с подкреплением 21, 29, 32, 146
Матрица перехода 66
Машина Больцмана ограниченная 119 иерархическое 251
Машинное обучение с вознаграждением на основе
◊ парадигма 21 преимуществ 255
◊ операции 347
Мета-RL 272 обратное 268
Метаобучение 271 остаточное 271
Метод на основе противодействия 104
◊ временных различий 214 ◊ согласованности пути 228
◊ градиента политики 158 ◊ трансферное 272
◊ динамического программирования 87 ◊ централизованное 260
◊ итерации по ценности 82 ◊ эффективность 338
◊ Монте-Карло 78 Обучение с подкреплением
◊ накопления трассировок 113 ◊ иерархическое 273
◊ табличный 92 ◊ мультиагентное 256, 273
◊ черного ящика 344 ◊ общая архитектура 330
Моделирование 31 Общая архитектура обучения
Модель с подкреплением 330
◊ подписки 166 Объяснимость 344
◊ Рескорла — Вагнера 42 Объяснимый искусственный интеллект 344
Онлайн-сеть 123

Оператор ожидания 72 Предметный указатель | 399
Операции машинного обучения 347
Оптимизация политики проксимальная 201 Регулировка температуры автоматическая
Отжиг 61, 233 224
Оценка
◊ политики 81 Регуляризатор 250
◊ ценности 42 Рейтинг
Ошибка ◊ дисконтирования 71
◊ среднеквадратичная 124 ◊ кликов 98
◊ алгоритма предсказателя 339 Рефакторинг 152
Руководство экспертное 267
П
С
Память долгая краткосрочная 120
Переобучение 73 Свертка 119
Персептрон многослойный 119 Сглаживание целевой политики 189
Поведенческие программы Осбанда 343 Сеть
Подход SARSA 92 ◊ глубокая, доверия 119
Подъем градиентный упрощенный 147 ◊ дуэльная 133
Показатель эффективности ключевой 53, 98 ◊ зашумленная 133
Политика 38, 70 ◊ локальная 187
◊ softmax 151 ◊ нейронная
◊ децентрализованная распределенная
глубокая 119
проксимальная оптимизация 333 искусственная 118
◊ оптимальная 76 рекуррентная 120, 248
◊ поведенческая 178 сверточная 119
◊ стохастическая 146 ◊ случайной дистилляции 312
◊ целевая 178 ◊ целевая 123
◊ эффективность 338 ◊ эхо-состояний 120
Правило обновления весов 44 Слой 118
Приближение Совершенствование политики 81
◊ информационной матрицы Фишера 213 Состояние 62
◊ с факторизацией Кронекера 213 ◊ терминальное 70
Прирост информации 310 Спуск
Проблема предсказания 44 ◊ градиентный 124
Прогноз одношаговый 105 ◊ Штейна градиентный вариационный
Произведение скалярное 42 224
Проклятие размерности 250 Среднее по совокупности 176
Процесс марковский 63 Стратегия 38
◊ частично наблюдаемый 69, 246
Процесс принятия решений марковский Т
◊ контекстный 249
◊ регуляризованный 250 Таблица переходов 65
◊ с изменяющимися действиями 249 Температура 224
◊ частично наблюдаемый 69, 246 Торги в режиме реального времени 98
Трассировка соответствия 111
Р Трюк с репараметризацией 224

Развертывание 90, 346 У
Регрет 339
Уравнение оптимальности Беллмана 77

400 | Предметный указатель Ш

Ф Шлюз 120

Фреймворк Э
◊ MARL 257
◊ реализации глубокого обучения 120 Энтропия
Функция ◊ максимальная 222
◊ softmax 61, 119 ◊ Шеннона 221
◊ активации нелинейная 118 Эпизод 70, 95
◊ аппроксимационная 117 Эффективность
◊ значения действия 76 ◊ обучения 338
◊ значения состояния 76 ◊ политики 338
◊ логистическая 150
◊ отображения 42
◊ преимущества 133, 195
◊ сигмоидальная 150
◊ ценности действия 75
◊ ценности состояния 71


Click to View FlipBook Version