10.14489/vkit.2023.07.рр.044-052

DOI: 10.14489/vkit.2023.07.рр.044-052

Карпенкова Д. И., Катасёв А. С.
ПОСТРОЕНИЕ НЕЙРОСЕТЕВОЙ МОДЕЛИ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ РЕЧИ
(с. 44-52)

Аннотация. Представлено исследование методов классификации аудиозаписей с применением нейросетевых архитектур. Описан подход для формирования нейросетевой модели распознавания эмоциональной окраски речи. Сформирована выборка аудиоданных, состоящая из 48 648 записей, на основе которой проводилось обучение нейросетевой модели. При формировании выборки применялась аугментация данных – зашумление аудиозаписей, изменение высоты звука, ускорение и замедление аудиозаписей, что позволило улучшить точность распознавания классов аудиозаписей. Точность распознавания обученной нейросетевой модели составила 70,53 %. Результаты работы могут применяться в центрах обработки вызовов для определения состояния звонящего и оперативного реагирования на ситуацию, а также в системах обеспечения безопасности, когда при ненормальном эмоциональном состоянии пользователя будет, например, прекращаться работа какой-то части системы.

Ключевые слова: нейросетевая модель; классификация аудиозаписей; эмоциональная окраска речи.

Karpenkova D. I., Katasev A. S.
THE CONSTRUCTION OF A NEURAL NETWORK MODEL FOR SPEECH EMOTION RECOGNITION
(рр. 44-52)

Abstract. This research presents various methods for audio recordings classification, utilizing convolutional neural network architectures. A convolutional neural network model was developed for recognizing the emotion of speech from audio recordings. To form the dataset of 48 648 recordings used for training the neural network model, RAVDESS, TESS, SAVEE and CREMA-D datasets were used and data augmentation techniques were applied. This included the addition of different types of noise to the audio recordings, varying sound pitch, as well as speeding up and slowing down the audio recordings. The purpose of these techniques was to increase the robustness of the classifier and to enable it to be able to accurately recognize the emotion of audio recordings from any source. Furthermore, the addition of these varied techniques also aimed to ensure that the model could be used in a variety of scenarios, such as call centers, security systems, voice assistants, healthcare and education, to accurately identify the emotional state of the user. After training the neural network model an accuracy of 70,53 % was achieved, demonstrating the success of the model in recognizing the emotion of the audio recordings. These findings may have a wide range of applications, allowing for a more personalized user experience, improved evaluation of user engagement, as well as more accurate and personalized treatment. Additionally, the model could be used to detect if the user is in an abnormal emotional state, thereby preventing certain functions from being accessed, providing a secure environment for the user. This research could open up opportunities for further research in the area of deep learning for audio recognition, allowing for more accurate and personalized models to be developed.

Keywords: Neural network model; Audio recordings classification; Emotional coloring of speech.

+ - Информация об авторах (About the Authors) Click to collapse

Рус

Д. И. Карпенкова, А. С. Катасёв (Казанский национальный исследовательский технический университет им. А. Н. Туполева-КАИ, Казань, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

Eng

D. I. Karpenkova, A. S. Katasev (Kazan National Research Technical University named after A. N. Tupolev-KAI, Kazan, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

+ - Библиографический список (References) Click to collapse

Рус

1. Катасёв А. С., Ахатова Ч. Ф. Гибридная нейронечеткая модель интеллектуального анализа данных для формирования баз знаний мягких экспертных диагностических систем // Наука и образование: научное издание МГТУ им. Н. Э. Баумана. 2012. № 12. С. 34.
2. Катасёв А. С., Катасёва Д. В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. 2015. № (25). С. 68 – 78.
3. Алексеев П. А. Алгоритмы классификации и идентификации аудиозаписей // Время науки. 2022. № 1. С. 4 – 10.
4. Salamon J., Bello J. Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification [Сайт]. URL: https://deepai.org/publication/deep-convolutional-neural-networks-and-data-augmentation-for-environmental-sound-classification (дата обращения: 01.11.2022).
5. Семенюк В. В, Складчиков М. В. Разработка алгоритма распознавания эмоций человека с использованием сверточной нейронной сети на основе аудиоданных // Информатика. 2022. Т. 19, № 4. С. 53 – 68.
6. Катасёв А. С., Катасёва Д. В. Интеллектуальный анализ временных рядов в системах диагностики и поддержки принятия решений // Поиск эффективных решений в процессе создания и реализации научных разработок в российской авиационной и ракетно-космической промышленности: Междунар. науч.-практ. конф. Казань: Изд-во Казан. гос. техн. ун-та, 2014. С. 481 – 483.
7. Барышев Д. А., Зубанков А. С. Распознавание эмоций человека по речи с помощью рекуррентной нейронной сети // NovaUm.Ru. 2022. № 40. С. 12 – 14.
8. Игнатенко Г. С., Ламчановский А. Г. Классификация аудиосигналов с помощью нейронных сетей // Молодой ученый. 2019. № 48(286). С. 23 – 25. URL: https://moluch.ru/archive/286/64455/ (дата обращения: 01.11.2022).
9. Shivam B. Speech Emotion Recognition / Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/code/shivamburnwal/speech-emotion-recognition (дата обращения: 08.11.2022).
10. Eu J. L. Audio Emotion / Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/code/ ejlok1/audio-emotion-part-1-explore-data (дата обращения: 08.11.2022).
11. Ritzing. Speech Emotion Recognition with CNN / RITZING / Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/code/ritzing/speech-emotion-recognition-with-cnn (дата обращения: 08.11.2022).
12. Технология построения отказоустойчивых нейросетевых моделей распознавания рукописных символов в системах биометрической аутентификации / М. В. Дагаева, М. А. Сулейманов, Д. В. Катасёва, А. С. Катасёв, А. П. Кирпичников // Вестник Технологического университета. 2018. Т. 21, № 2. С. 133 – 138.
13. Livingstone S. R. RAVDESS Emotional Speech Audio. Emotional Speech Dataset / Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/ datasets/uwrfkaggler/ravdess-emotional-speech-audio (дата обращения: 01.11.2022).
14. Eu J. L. Surrey Audio-Visual Expressed Emotion (SAVEE). Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/datasets/ejlok1/surrey-audiovisual-expressed-emotion-savee (дата обращения: 08.11.2022).
15. Eu J. L. Toronto Emotional Speech Set (TESS) / Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/datasets/ejlok1/toronto-emotional-speech-set-tess (дата обращения: 08.11.2022).
16. Eu J. L. Crowd Sourced Emotional Multimodal Actors Dataset (CREMA-D) / Kaggle [Электронный ресурс]. URL: https://www.kaggle.com/datasets/ejlok1/cremad (дата обращения: 08.11.2022).

Eng

1. Katasev A. S., Ahatova Ch. F. (2012). Hybrid neurofuzzy data mining model for the formation of knowledge bases of soft expert diagnostic systems. Nauka i obrazovanie: nauchnoe izdanie MGTU im. N. E. Baumana, (12), pp. 34. [in Russian language]
2. Katasev A. S., Kataseva D. V. (2015). Development of a neural network system for classifying electronic mail messages. Vestnik Kazanskogo gosudarstvennogo energeticheskogo universiteta, 25, pp. 68 – 78. [in Russian language]
3. Alekseev P. A. (2022). Algorithms for classifying and identifying audio recordings. Vremya nauki, (1), pp. 4 – 10. [in Russian language]
4. Salamon J., Bello J. Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification. Available at: https://deepai.org/publi-cation/deep-convolutional-neural-networks-and-data-aug-mentation-for-environmental-sound-classification (Accessed: 01.11.2022).
5. Semenyuk V. V, Skladchikov M. V. (2022). Development of an algorithm for recognizing human emotions using a convolutional neural network based on audio data. Informatika, Vol. 19 (4), pp. 53 – 68. [in Russian language]
6. Katasev A. S., Kataseva D. V. (2014). Intelligent analysis of time series in systems of diagnostics and decision support. Search for effective solutions in the process of creating and implementing scientific developments in the Russian aviation and rocket and space industry: International Scientific and Practical Conference, pp. 481 – 483. Kazan': Izdatel'stvo Kazanskogo gosudarstvennogo tekhnicheskogo universiteta. [in Russian language]
7. Baryshev D. A., Zubankov A. S. (2022). Recognition of human emotions from speech using a recurrent neural network. NovaUm.Ru, 40, pp. 12 – 14. [in Russian language]
8. Ignatenko G. S., Lamchanovskiy A. G. (2019). Classifying Audio Signals with Neural Networks. Molodoy ucheniy, 286(48), pp. 23 – 25. Available at: https://moluch.ru/archive/286/64455/ (Accessed: 01.11.2022). [in Russian language]
9. Shivam B. Speech Emotion Recognition. Kaggle. Available at: https://www.kaggle.com/code/shivamburnwal/speech-emotion-recognition (Accessed: 08.11.2022).
10. Eu J. L. Audio Emotion. Kaggle. Available at: https://www.kaggle.com/code/ejlok1/audio-emotion-part-1-explore-data (Accessed: 08.11.2022).
11. Ritzing. Speech Emotion Recognition with CNN/RITZING. Kaggle. Available at: https://www.kaggle.com/code/ritzing/speech-emotion-recognition-with-cnn (Accessed: 08.11.2022).
12. Dagaeva M. V., Suleymanov M. A., Kataseva D. V., Katasev A. S., Kirpichnikov A. P. (2018). Technology for building fault-tolerant neural network models for handwriting recognition in biometric authentication systems. Vestnik Tekhnologicheskogo universiteta, Vol. 21 (2), pp. 133 – 138. [in Russian language]
13. Livingstone S. R. RAVDESS Emotional Speech Audio. Emotional Speech Dataset. Kaggle. Available at: https://www.kaggle.com/datasets/uwrfkaggler/ravdess-emotional-speech-audio (Accessed: 01.11.2022).
14. Eu J. L. Surrey Audio-Visual Expressed Emotion (SAVEE). Kaggle. Available at: https://www.kaggle.com/datasets/ejlok1/surrey-audiovisual-expressed-emotion-savee (Accessed: 08.11.2022).
15. Eu J. L. Toronto Emotional Speech Set (TESS). Kaggle. Avaialble at: https://www.kaggle.com/datasets/ejlok1/toronto-emotional-speech-set-tess (Accessed: 08.11.2022).
16. Eu J. L. Crowd Sourced Emotional Multimodal Actors Dataset (CREMA-D). Kaggle. Available at: https://www.kaggle.com/datasets/ejlok1/cremad (Accessed: 08.11.2022).

+ - Заказать электронную версию статьи (Purchase digital version of a single article) Click to collapse

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2023.07.рр.044-052

и заполните форму

Отправляя форму вы даете согласие на обработку персональных данных.

Eng

This article is available in electronic format (PDF).

The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2023.07.рр.044-052

and fill out the form