| Русский Русский | English English |
   
Главная Текущий номер
09 | 11 | 2025
10.14489/vkit.2025.11.pp.003-014

DOI: 10.14489/vkit.2025.11.pp.003-014

Ахметзянов Д. Р., Сгибнев И. В., Агаркова Ю. А., Готовцев Т. Е., Вишняков Б. В., Визильтер Ю. В.
АРХИТЕКТУРА НЕЙРОННОЙ СЕТИ НА ОСНОВЕ HYDRANETS ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ И ПОСТРОЕНИЯ КАРТЫ ГЛУБИНЫ
(pp. 3-14)

Аннотация. Предложена архитектура нейронной сети на основе HydraNets для одновременного решения двух основных задач компьютерного зрения – семантической сегментации и оценки глубины сцены, наблюдаемой на изображении. Эта архитектура включает энкодер SE-ResNeXt-50 для извлечения пространственных признаков, два декодера на базе Feature Pyramid Network и два выходных блока для каждой задачи. При этом обеспечивается обмен признаками между задачами, снижаются вычислительные затраты и можно достичь высокой точности решения задачи семантической сегментации, сохраняя качество решения задачи оценки глубины сцены, наблюдаемой на изображении. Эксперименты на наборе данных KITTI демонстрируют превосходство предлагаемой архитектуры: значения метрик решения задачи семантической сегментации достигли 0,75 (IoU) и 0,78 (Dice), тогда как значения метрик качества решения задачи оценки глубины сцены, наблюдаемой на изображении, остались неизменными. Среднее время обработки изображения сократилось в 1,74 раза по сравнению с последовательным использованием отдельных нейронных сетей, обученных исключительно для решения каждой задачи в отдельности. Предлагаемая архитектура обладает высоким потенциалом применения в системах реального времени, включая автономное вождение, робототехнику и встроенные системы, где критически важны эффективность обработки визуальной информации и ограниченность вычислительных ресурсов.

Ключевые слова:  компьютерное зрение; многозадачное обучение; HydraNets; семантическая сегментация; оценка глубины сцены.


Akhmetzyanov D. R., Sgibnev I. V., Agarkova Ju. A., Gotovtsev T. E., Vishniakov B. V., Vizilter Yu. V.
HYDRANETS-BASED NEURAL NETWORK ARCHITECTURE FOR SOLVING SEMANTIC SEGMENTATION AND DEPTH MAPPING PROBLEMS
(с. 3-14)

Abstract. This article proposes a HydraNets-based neural network architecture for simultaneous solution of two key computer vision tasks – semantic segmentation and depth estimation of the scene observed in the image. The proposed architecture includes the SE-ResNeXt-50 encoder for spatial feature extraction, two decoders based on the Feature Pyramid Network (FPN) and two output units for each task. This solution ensures the exchange of features between tasks, reduces computational costs and allows achieving high accuracy in solving the semantic segmentation problem, while maintaining the quality of solving the problem of depth estimation of the scene observed in the image. Experiments on the KITTI dataset demonstrate the superiority of the proposed architecture: the values of the metrics for solving the semantic segmentation problem reached 0.75 (IoU) and 0.78 (Dice), while the values of the metrics for solving the problem of depth estimation of the scene observed in the image remained unchanged. The average per-image processing time was reduced by 1.74 times compared to the sequential use of separate neural networks trained exclusively to solve each problem individually. The proposed architecture has high potential for use in real-time systems, including autonomous driving, robotics and embedded systems, where the efficiency of visual information processing and limited computing resources are critically important.

Keywords: Computer vision; Multi-Task Learning; HydraNets; Semantic segmentation; Depth estimation.

Рус

Д. Р. Ахметзянов, И. В. Сгибнев, Ю. А. Агаркова, Т. Е. Готовцев, Б. В. Вишняков, Ю. В. Визильтер (Государственный научно-исследовательский институт авиационных систем, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

D. R. Akhmetzyanov, I. V. Sgibnev, Ju. A. Agarkova, T. E. Gotovtsev, B. V. Vishniakov, Yu. V. Vizilter (State Scientific Research Institute of Aviation Systems, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

Рус

1. Hu J., Shen L., Sun G. Squeeze-and-excitation networks // In Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, UT, USA. 18–23 June 2018. P. 7132–7141.
2. Feature pyramid networks for object detection / T. Y. Lin, P. Dollár, R. Girshick, et al. // Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, HI, USA. 21–26 July 2017. P. 2117–2125.
3. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // In Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA. 27–30 June 2016. P. 770–778.
4. Chen L. C., Papandreou G., Schroff F., Adam H. Rethinking atrous convolution for semantic image segmentation // arXiv preprint arXiv:1706.05587.
5. Pvt v2: Improved baselines with pyramid vision transformer / W. Wang, E. Xie, X. Li, et al. // Computational visual media. 2022. V. 8. No. 3. P. 415–424.
6. Attention is all you need / A. Vaswani, N. Shazeer, N. Parmar, et al. // on neural information processing systems. 30–31st Annual conference. Long Beach, California, USA. 4–9 December 2017.
7. Mousavian A., Pirsiavash H., & Košecká J. Joint semantic segmentation and depth estimation with deep convolutional networks // Fourth International Conference on 3D Vision (3DV). IEEE, Stanford, CA, USA. 25–28 October 2016. P. 611–619.
8. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, MA, USA. 7–12 June 2015. P. 3431–3440.
9. Geometry meets semantics for semi-supervised monocular depth estimation / P. Zama Ramirez, M. Poggi, F. Tosi et al. // 14th Asian Conference on Computer Vision. Cham: 2–6 December 2018. Springer International Publishing. Perth, Australia. P. 298–313.
10. Imagenet: A large-scale hierarchical image database / J. Deng, W. Dong, R. Socher et al. // IEEE conference on computer vision and pattern recognition. Miami, FL, USA. 20–25 June 2009. P. 248–255.
11. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. 2014.
12. Real-time joint semantic segmentation and depth estimation using asymmetric annotations / V. Nekrasov, T. Dharmasiri, A. Spek et al. // International Conference on Robotics and Automation (ICRA). IEEE. Montreal, Canada. 20–24 May 2019. P. 7101–7107.
13. Inverted residuals and linear bottlenecks: Mobile networks for classification, detection and segmentation / M. Sandler, A. Howard, A. Zhmoginov et al. // Proc. cvpr. Salt Lake City, Utah, USA. 18–22 June 2018. P. 4510–4520.
14. The cityscapes dataset for semantic urban scene understanding / M. Cordts, M. Omran, S. Ramos et al. // Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA. 27–30 June 2016. P. 3213–3223.
15. Geiger, A., Lenz, P., Stiller, C., Urtasun, R. Vision meets robotics: The kitti dataset // The international journal of robotics research. 2013. V. 32(11), P. 1231–1237.
16. Pytorch: An imperative style, high-performance deep learning library / A. Paszke, S. Gross, F. Massa et al. // 32d Advances in neural information processing systems. Vancouver, Canada. 8-14 December 2019.

Eng

1. Hu J., Shen L., Sun G. Squeeze-and-excitation networks // In Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, UT, USA. 18–23 June 2018. P. 7132–7141.
2. Feature pyramid networks for object detection / T. Y. Lin, P. Dollár, R. Girshick, et al. // Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, HI, USA. 21–26 July 2017. P. 2117–2125.
3. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // In Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA. 27–30 June 2016. P. 770–778.
4. Chen L. C., Papandreou G., Schroff F., Adam H. Rethinking atrous convolution for semantic image segmentation // arXiv preprint arXiv:1706.05587.
5. Pvt v2: Improved baselines with pyramid vision transformer / W. Wang, E. Xie, X. Li, et al. // Computational visual media. 2022. V. 8. No. 3. P. 415–424.
6. Attention is all you need / A. Vaswani, N. Shazeer, N. Parmar, et al. // on neural information processing systems. 30–31st Annual conference. Long Beach, California, USA. 4–9 December 2017.
7. Mousavian A., Pirsiavash H., & Košecká J. Joint semantic segmentation and depth estimation with deep convolutional networks // Fourth International Conference on 3D Vision (3DV). IEEE, Stanford, CA, USA. 25–28 October 2016. P. 611–619.
8. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, MA, USA. 7–12 June 2015. P. 3431–3440.
9. Geometry meets semantics for semi-supervised monocular depth estimation / P. Zama Ramirez, M. Poggi, F. Tosi et al. // 14th Asian Conference on Computer Vision. Cham: 2–6 December 2018. Springer International Publishing. Perth, Australia. P. 298–313.
10. Imagenet: A large-scale hierarchical image database / J. Deng, W. Dong, R. Socher et al. // IEEE conference on computer vision and pattern recognition. Miami, FL, USA. 20–25 June 2009. P. 248–255.
11. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. 2014.
12. Real-time joint semantic segmentation and depth estimation using asymmetric annotations / V. Nekrasov, T. Dharmasiri, A. Spek et al. // International Conference on Robotics and Automation (ICRA). IEEE. Montreal, Canada. 20–24 May 2019. P. 7101–7107.
13. Inverted residuals and linear bottlenecks: Mobile networks for classification, detection and segmentation / M. Sandler, A. Howard, A. Zhmoginov et al. // Proc. cvpr. Salt Lake City, Utah, USA. 18–22 June 2018. P. 4510–4520.
14. The cityscapes dataset for semantic urban scene understanding / M. Cordts, M. Omran, S. Ramos et al. // Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA. 27–30 June 2016. P. 3213–3223.
15. Geiger, A., Lenz, P., Stiller, C., Urtasun, R. Vision meets robotics: The kitti dataset // The international journal of robotics research. 2013. V. 32(11), P. 1231–1237.
16. Pytorch: An imperative style, high-performance deep learning library / A. Paszke, S. Gross, F. Massa et al. // 32d Advances in neural information processing systems. Vancouver, Canada. 8-14 December 2019.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2025.11.pp.003-014

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2025.11.pp.003-014

and fill out the  form  

 

.

 

 

 
Поиск
Баннер
Rambler's Top100 Яндекс цитирования