A Simulation Model of the Distributed Data Collection Process
DOI:
https://doi.org/10.52575/2687-0932-2023-50-2-476-486Keywords:
distributed data collection, simulation model, data collection, distributed systems, queueing modelAbstract
In this paper, the authors consider the process of collecting and processing data from various web sources. A simple data collection model based on cyclic iteration is investigated, its main disadvantages are identified. The model of distributed data collection as a multi-channel queuing system with unlimited waiting is described. This model uses multiple nodes to access an online resource, and a message queue is used to store information about tasks and to balance them between nodes. The distributed model is also fault tolerance and horizontal scalable. The authors compare simple and distributed models using the AnyLogic simulation tool. Additionaly, various distributions of the server response time of an external web-resource are used in the modeling process. The simulation results show the effectiveness of the distributed data collection process both by the criterion of time and by the criterion of unit cost.
Downloads
References
Артамонов, Ю. С. 2016. Разработка распределенных приложений сбора и анализа данных на базе микросервисной архитектуры / Ю. С. Артамонов, С. В. Востокин // Известия Самарского научного центра Российской академии наук. – 2016. – Т. 18, № 4-4. – С. 688-693. – EDN YGSQTV.
Бочкарева Е.В. 2009. Применение имитационного моделирования для исследования процесса сбора и обработки данных микроконтроллерными устройствами / Е.В. Бочкарѐва, Л.И. Сучкова, А.Г.Якунин // Научно-технические ведомости СПбГПУ. - Санкт-Петербург: Изд-во СПбГПУ, 2009. - №3. c. 158-166.
Государев И. Б. 2020. WEB SCRAPING как программный процесс извлечения и обработки данных в вебе / И. Б. Государев, Н. Н. Жуков, П. А. Бабарицкий // Современное образование: традиции и инновации. – № 1. – С. 146-152. – EDN THLLEG.
Карпов, Ю. Г. 2005. Имитационное моделирование систем : введение в моделирование с AnyLogic 5 / Ю. Г. Карпов ; Юрий Карпов. – СПб. : БХВ-Петербург, 2005. – ISBN 5-94157-148-8. – EDN QMPBSH.
Лейман, А. В, Сучкова Л. И. 2015. Имитационная модель сбора и обработки данных в распределенной системе / А. В. Лейман, Л. И. Сучкова // Ползуновский альманах. – № 1. – С. 45-47. – EDN VLAHSH.
Лейман А.В., Бочкарева Е.В., Сучкова Л.И. 2015. Имитационная модель распределенных систем сбора и обработки данных / Лейман А.В., к.т.н. Бочкарева Е.В., д.т.н. Сучкова Л.И. // Научный журнал «БЪДЕЩИТЕ ИЗСЛЕДВАНИЯ - 2015». София: «Бял ГРАД-БГ» ООД - 96 стр.
Мащенко, Е. Н. 2012. Исследование автоматизированных процессов управления качеством ИТ-сервисов с использованием имитационного моделирования / Е. Н. Мащенко, В. И. Шевченко //. – № 125. – С. 142-147. – EDN TPHAFX.
Оболенский Д.М., Шевченко В.И. 2020. Концептуальная модель интеллектуальной образовательной экосистемы. Экономика. Информатика. 47(2): 390–401. DOI: 10.18413/2687-0932-2020-47-2-390-401.4е4е
Правила тарификации для Yandex Compute Cloud. 2023. URL:https://cloud.yandex.ru/docs/compute/pricing
Benfield, J. A., & Szlemko, W. J. 2006. Internet-based data collection: Promises and realities. Journal of Research Practice, 2(2), Article D1. Retrieved [date of access] from, http://jrp.icaap.org/index.php/jrp/article/view/30/51
Cooper, Charles & Cooper, Sharon & del Junco, Jesús & Shipp, Eva & Whitworth, Ryan & Cooper, Sara. 2006. Web-based data collection: Detailed methods of a questionnaire and data gathering tool. Epidemiologic perspectives & innovations : EP+I. 3. 1. 10.1186/1742-5573-3-1.
Eyzenakh, D. S. 2021. High performance distributed web-scraper / D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov // Proceedings of the Institute for System Programming of the RAS. – Vol. 33, No. 3. – P. 87-100. – DOI 10.15514/ISPRAS-2021-33(3)-7. – EDN SIPWXY.
Lopez C., Morato D., Magana E., Izal M. 2019. Effective analysis of secure web response time / C. Lopez, D. Morato, E. Magana, M. Izal // TMA 2019 - Proceedings of the 3rd Network Traffic Measurement and Analysis Conference : 3, Paris, 2019. – P. 145-152. – DOI 10.23919/TMA.2019.8784652. – EDN VBOMXZ.
Tkachyk, D. A. 2018. Software development for collection financial historical data using Web-scraping / D. A. Tkachyk, Yu. P. Noskovenko, O. V. Zaharchuk // 3rd International Conferenceon Innovations and development patterns in Technical and Natural Sciences, Berlin, 20 апреля 2018 года. – Berlin: Premier Publishing s.r.o. – P. 6-8. – EDN YVPGDJ.
Abstract views: 91
Share
Published
How to Cite
Issue
Section
This work is licensed under a Creative Commons Attribution 4.0 International License.