| Русский Русский | English English |
   
Главная Архив номеров
31 | 03 | 2023
10.14489/vkit.2022.08.pp.026-036

DOI: 10.14489/vkit.2022.08.pp.026-036

Сакулин С. А., Алфимцев А. Н.
СИНТЕЗ ФУНКЦИИ НАГРАДЫ В ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ СРЕДСТВАМИ КОГНИТИВНОЙ ГРАФИКИ
(с. 26-36)

Аннотация. В мультиагентном машинном обучении с подкреплением необходим синтез функции награды. При этом возникают трудности, связанные с отсутствием интуитивного видения процесса агрегирования у многих практических специалистов. В статье предложен метод синтеза функции награды на основе применения трехмерной когнитивной графики. Функция награды представлена в виде оператора агрегирования. Свойства этого оператора напрямую связаны со свойствами физического объекта, в отношении которого хорошо развито интуитивное представление. В качестве такого объекта выступает абсолютно твердая плоскость, закрепленная на линии опоры пружинами. Результату агрегирования соответствует угол отклонения плоскости от горизонта. Для проверки результативности предложенного метода поставлен эксперимент, в ходе которого реализован синтез функции награды в обучении с подкреплением агентов на основе этой функции в среде компьютерной игры StarCraft II. Обучение проводилось для существующей функции награды и для функции, построенной посредством синтеза.

Ключевые слова:  обучение с подкреплением; функция награды; мультиагентное обучение; формализация экспертных знаний; трехмерная когнитивная графика; виртуальная реальность; операторы агрегирования.

 

Sakulin S. A., Alfimtsev A. N.
SYNTHESIS OF THE REWARD FUNCTION IN REINFORCED LEARNING WITH COGNITIVE GRAPHICS
(pp. 26-36)

Abstract. In recent years, reinforcement learning methods have become increasingly important for many applied areas. Such learning assumes the presence of a reward function. The reward should be the higher, the more the agent’s behavior corresponds to the desired one. At the same time, in many cases, the reward function is built axiomatically, by expert selection of one of the most widely used functions based on a superficial analysis of the subject area. This situation is due to cognitive difficulties encountered by an expert in the process of constructing reward functions, especially for a large number of arguments. At the same time, the reward function can be represented as an aggregation operator, since the range of valid values of any criterion can be reduced to a unit interval by an appropriate linear transformation. Thus, the task of constructing a reward function can be reduced to the task of constructing an aggregation operator with given properties. To ensure the intuitive clarity of the process of constructing aggregation operators, a method for their visualization using 3D-cognitive graphics has been developed. This article proposes a method for synthesizing the reward function for reinforcement learning, which includes the mentioned visualization. The synthesis method includes two procedures, which are sequences of steps performed by an expert, each of which requires him to take specific actions. An experiment was set up to test the effectiveness of the developed method. During this experiment, the synthesis of the reward function and reinforcement learning of agents based on the synthesized function were implemented in the multiagent machine learning environment of the StarCraft II computer game. Training was conducted for the standard StarCraft II reward function and for the reward function built using the proposed procedure.

Keywords: Reinforcement learning; Reward function; Multiagent learning; Expert knowledge formalization; 3D-cognitive graphics; Virtual reality; Aggregation operators.

Рус

С. А. Сакулин, А. Н. Алфимцев (Московский государственный технический университет имени Н. Э. Баумана, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

S. A. Sakulin, A. N. Alfimtsev (Bauman Moscow State Technical University, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Дубенко Ю. В., Дышкант Е. Е., Гура Д. А. Анализ иерархического обучения с подкреплением для реализации поведенческих стратегий интеллектуальных агентов // Вестник компьютерных и информационных технологий. 2020. Т. 17, № 9. С. 35 – 45.
2. Дубенко Ю. В. Аналитический обзор проблем многоагентного обучения с подкреплением // Вестник компьютерных и информационных технологий. 2020. Т. 17, № 6. С. 48 – 56.
3. Dong Y., Tang X., Yuan Y. Principled Reward Shaping for Reinforcement Learning via Lyapunov Stability Theory // Neurocomputing. 2020. V. 393. P. 83 – 90.
4. Сакулин С. А., Алфимцев А. Н. Выбор операторов агрегирования пользовательских критериев для оценки удобства вебстраниц // Вестник Иркутского государственного технического университета. 2017. Т. 21, № 1(120). С. 90 – 102.
5. Сакулин С. А. Визуализация операторов агрегирования с применением трехмерной когнитивной графики // Вестник компьютерных и информационных технологий. 2022. Т. 19, № 3. С. 15 – 22.
6. The StarCraft Multi-Agent Challenge / M. Samvelyan, T. Rashid, K. Schroeder de Witt, et al. // Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems. 2019. P. 2186 – 2188. (AAMAS 2019), Montreal, Canada, 13 – 17 May 2019.
7. Алфимцев А. Н. Мультиагентное обучение с подкреплением. М.: МГТУ имени Н. Э. Баумана, 2021. 222 с.
8. Правовые и этические аспекты, связанные с разработкой и применением систем искусственного интеллекта и робототехники: история, современное состояние и перспективы развития / В. В. Архипов, Г. Г. Камалова, В. Б. Наумов и др. СПб.: НП-Принт, 2020. 260 с.
9. Hernandez-Leal P., Kartal B., Taylor M. E. A Survey and Critique of Multiagent Deep Reinforcement Learning // Autonomous Agents and Multi-Agent Systems. 2019. V. 33, No. 6. P. 750 – 797.
10. Marichal J. L. Tolerant or Intolerant Character of Interacting Criteria in Aggregation by the Choquet Integral // European Journal of Operational Research. 2004. Т. 155, No. 3. Р. 771 – 791.
11. Eschmann J. Reward Function Design in Reinforcement Learning // Reinforcement Learning Algorithms: Analysis and Applications. 2021. P. 25 – 33.
12. Grabisch M., Kojadinovic I., Meyer P. A Review of Methods for Capacity Identification in Choquet Integral Based Multi-Attribute Utility Theory: Applications of the Kappalab R Package // European Journal of Operational Research. 2008. Т. 186, No. 2. Р. 766 – 785.
13. Deep Reinforcement Learning: a Survey / H. Wang, et al. // Frontiers of Information Technology & Electronic Engineering. 2020. V. 21, No. 12. P. 1726 – 1744.

Eng

1. Dubenko Yu. V., Dyshkant E. E., Gura D. A. (2020). Analysis of hierarchical learning with reinforcement for the implementation of behavioral strategies of intelligent agents. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, Vol. 17, (9), pp. 35 – 45. [in Russian language] DOI: 10.14489/vkit.2020.09.pp.035-045
2. Dubenko Yu. V. (2020). Analytical review of multiagent reinforcement learning problems. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, Vol. 17, (6), pp. 48 – 56. [in Russian language] DOI: 10.14489/vkit.2020.06.pp.048-056
3. Dong Y., Tang X., Yuan Y. (2020). Principled Reward Shaping for Reinforcement Learning via Lyapunov Stability Theory. Neurocomputing, Vol. 393, pp. 83 – 90.
4. Sakulin S. A., Alfimtsev A. N. (2017). Selection of Custom Criteria Aggregation Operators to Evaluate the Usability of Web Pages. Vestnik Irkutskogo gosudarstvennogo tekhnicheskogo universiteta, Vol. 21, 120(1), pp. 90 – 102. [in Russian language]
5. Sakulin S. A. (2022). Aggregation operators visualization using 3D cognitive graphics. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, Vol. 19, (3), pp. 15 – 22. [in Russian language] DOI: 10.14489/vkit.2022.03.pp.015-022
6. Samvelyan M., Rashid T., Schroeder de Witt K. et al. (2019). The StarCraft Multi-Agent Challenge. Proceedings of the 18th International Conference on Autonomous Agents and Multi-Agent Systems, pp. 2186 – 2188. Montreal.
7. Alfimtsev A. N. (2021). Multiagent reinforcement learning. Moscow: MGTU imeni N. E. Baumana. [in Russian language]
8. Arhipov V. V., Kamalova G. G., Naumov V. B. et al. (2020). Legal and ethical aspects related to the development and application of artificial intelligence and robotics systems: history, current state and development prospects: monograph. Saint-Petersburg: NP-Print. [in Russian language]
9. Hernandez-Leal P., Kartal B., Taylor M. E. (2019). A Survey and Critique of Multiagent Deep Reinforcement Learning. Autonomous Agents and Multi-Agent Systems, Vol. 33, (6), pp. 750 – 797.
10. Marichal J. L. (2004). Tolerant or Intolerant Character of Interacting Criteria in Aggregation by the Choquet Integral. European Journal of Operational Research, Vol. 155, (3), pp. 771 – 791.
11. Eschmann J. (2021). Reward Function Design in Reinforcement Learning. Reinforcement Learning Algorithms: Analysis and Applications, pp. 25 – 33.
12. Grabisch M., Kojadinovic I., Meyer P. (2008). A Review of Methods for Capacity Identification in Choquet Integral Based Multi-Attribute Utility Theory: Applications of the Kappalab R Package. European Journal of Operational Research, Vol. 186, (2), pp. 766 – 785.
13. Wang H. et al. (2020). Deep Reinforcement Learning: a Survey. Frontiers of Information Technology & Electronic Engineering, Vol. 21, (12), pp. 1726 – 1744.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2022.08.pp.026-036

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2022.08.pp.026-036

and fill out the  form  

 

.

 

 

 
Поиск
Баннер

Журнал КОНТРОЛЬ. ДИАГНОСТИКА
Баннер
Баннер
Баннер
Rambler's Top100 Яндекс цитирования