Автоматизация формирования  выборок изображений естественных сцен  для обучения и тестирования нейронных сетей

Александр Валерьевич Гусев

doi:10.52575/2687-0932-2023-50-3-624-632

Авторы

Александр Валерьевич Гусев ООО «Техинтегратор»

DOI:

https://doi.org/10.52575/2687-0932-2023-50-3-624-632

Ключевые слова:

нейронные сети, датасет, сегментирование изображений, аннотирование изображений, обучающая выборка

Аннотация

Для решения задач распознавания образов на изображениях активно применяются искусственные нейронные сети. Для их обучения необходимо подготавливать наборы размеченных данных для формирования обучающих и валидационных выборок. Формирование таких выборок «вручную» требует высокой квалификации специалистов и больших временных, а, следовательно, и материальных затрат. Данная работа посвящена формированию набора основных методов и технологий, а также созданию и апробированию архитектуры решения для автоматизированного сегментирования и аннотирования изображений естественных сцен с целью создания выборок для обучения и тестирования нейронных сетей.

Скачивания

Данные скачивания пока недоступны.

Биография автора

Александр Валерьевич Гусев, ООО «Техинтегратор»

Научный руководитель проектов. ООО «Техинтегратор», г. Москва, Россия

Библиографические ссылки

Ахметвалеев Р.Р., Шабанова К.И., Падукова А.А., Лакман И.А. 2021. Методика разметки медицинских изображений с функцией кросс-проверки и интеллектуального сегментирования. Вестник ВШОУЗ, 7, 3: 62-69.

Андриянов Н.А. 2022. Обнаружение объектов на изображении: от критериев Байеса и Неймана–Пирсона к детекторам на базе нейронных сетей EfficientDet. Компьютерная оптика. 46, 1: 139-159. DOI: 10.18287/2412-6179-CO-922.

Брехт Э.А., Коншина В.Н. 2022. Применение нейронной сети YOLO для распознавания дефектов. Intellectual Technologies on Transport, 2: 41-47. DOI: 10.24412/2413-2527-2022-230-41-47.

Вожегова М.А. 2023. Структурно-функциональная модель комплексов неразрушающего контроля с системой обработки данных на основе нейронных сетей. Экономика. Информатика. 50(2): 389–397. DOI: 10.52575/2687-0932-2023-50-2-389-397.

Сирота А.А., Митрофанова Е.Ю., Милованова А.И. 2019. Анализ алгоритмов поиска объектов на изображениях с использованием различных модификаций сверточных нейронных сетей. Вестник ВГУ, серия: системный анализ и информационные технологии, 3: 123-137.

Ханжина Н.Е. 2021. Байесовские функции потерь для моделирования гомоскедастичной алеаторной неопределенности в задаче детекции пыльцы на изображениях. Научно-технический вестник информационных технологий, механики и оптики. 21, 4: 535–544. DOI: 10.17586/2226-1494-2021-21-4-535-544.

Du X, Lin T, Jin P, Ghiasi G, Tan M, Cui Y, Le QV, Song X. 2020. SpineNet: Learning scale-permuted backbone for recognition and localization. Proc IEEE Conf on Computer Vision and Pattern Recognition (CVPR), 1: 11593-11601. DOI: 10.1109/CVPR42600.2020.01161.

Fang H, Sun J, Wang R, Gou M, Li Y, Lu C, Tong SJ. 2019. InstaBoost: Boosting instance segmentation via probability map guided copy-pasting. Proc 2019 IEEE/CVF Int Conf on Computer Vision (ICCV), 1: 682-691. DOI: 10.1109/ICCV.2019.00077.

Gao Z, Wang L, Wu G. 2019. LIP: Local importance-based pooling. Proc 2019 IEEE/CVF Int Conf on Computer Vision (ICCV), 1: 3355-3364. DOI: 10.1109/ICCV.2019.00345.

Hsu G., Chen J., Chung Y. 2013. Application-oriented license plate recognition. IEEE Trans. Veh. Technol. 62(2): 552-561.

Liu Y, Wang S, Liang T, Zhao Q, Tang Z, Ling H. CBNet: A novel composite backbone network architecture for object detection. arXiv Preprint. URL: https://ojs.aaai.org/index.php/

AAAI/article/view/6834.

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C, Berg A. 2016. SSD: Single shot multibox detector. Proc European Conf on Computer Vision (ECCV), 1: 1-17. DOI: 10.1007/978-3-319-46448-0_2.

Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Zh, Lin S, Guo B. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv Preprint. URL: https://arxiv.org/pdf/2103.14030v1.pdf.

Redmon J, Farhadi A. 2017. YOLO9000: Better, faster, stronger. Proc 2017 IEEE Conf on Computer Vision and Pattern Recognition (CVPR), 1: 7263-7271. DOI: 10.1109/CVPR.2017.690.

Shen Yi. 2005. Loss Functions For Binary Classification and Class Probability Estimation. University of Pennsylvania. URL: http://stat.wharton.upenn.edu/~buja/PAPERS/yi-shen-dissertation.pdf.

Tan M, Pang R, Le QV. EfficientDet: Scalable and efficient object detection. arXiv Preprint. URL: https://arxiv.org/abs/1911.09070.

Vu T, Jang H, Pham T, Yoo C. 2019. Cascade RPN: Delving into high-quality region proposal network with adaptive convolution. Proc 33rd Conf on Neural Information Processing Systems (NeurIPS 2019), 1: 1-11.

Wang C, Bochkovskiy A, Liao H. Scaled-YOLOv4: Scaling cross stage partial network. arXiv Preprint. URL: https://arxiv.org/pdf/2011.08036v2.pdf.

Wang J, Sun K, Cheng T, Jiang B, Deng C, Zhao Y, Liu D, Mu Y, Tan M, Wang X, Liu W, Xiao B. 2020. Deep highresolution representation learning for visual recognition. IEEE Trans Pattern Anal Mach Intell, 1: 1-23. DOI: 10.1109/tpami.2020.2983686.

Zhang R, Du L, Xiao Q, Liu J. 2020. Comparison of Backbones for Semantic Segmentation Network. J. Phys.: Conf. Ser. 1544 012196. DOI: 10.1088/1742-6596/1544/1/012196.

Zhou X, Koltun V, Krahenbuhl P. Probabilistic two-stage detection. arXiv Preprint. URL: https://arxiv.org/pdf/2103.07461v1.pdf.

Автоматизация формирования выборок изображений естественных сцен для обучения и тестирования нейронных сетей

Авторы

DOI:

Ключевые слова:

Аннотация

Скачивания

Биография автора

Александр Валерьевич Гусев, ООО «Техинтегратор»

Библиографические ссылки

Поделиться

Опубликован

Как цитировать

Выпуск

Раздел

Наиболее читаемые статьи этого автора (авторов)