Иерархическая кластеризация на языке R для производственно-экономических показателей пенитенциарной системы
DOI:
https://doi.org/10.52575/2687-0932-2023-50-3-655-668Ключевые слова:
иерархическая кластеризация, производственно-экономические показатели, пенитенциарная система, язык R, системный анализ, разведочный анализ данных, машинное обучениеАннотация
Согласно официальным данным из открытых источников, структура производственного сектора уголовно-исполнительной системы Российской Федерации включает в себя 652 учреждения. В 2021 году общий объем производства товаров, выполненных работ и оказанных услуг составил 36,8 млрд рублей. На сегодняшний день в учреждениях пенитенциарной системы трудоустроено более 131 тысячи осужденных. Подразделениями ФСИН России ведется активная организационная работа по получению заказов на изготовление продукции. Таким образом, проведение исследований для производственного сектора с использованием современных научных методов является актуальным не только для уголовно-исполнительной системы, но и в целом для Российской Федерации. В свете трендов современной науки, одним из таких методов является машинное обучение без учителя, в частности – иерархический кластерный анализ. Его преимущества для поставленного вопроса являются очевидными: возможность вне зависимости от территориального уровня (что очень часто допускается в исследованиях) рассмотреть интересующие производственно-экономические показатели и возможность провести сегментацию объемов продукции с построением иерархий. Целью работы явилось проведение исследований в области машинного обучения без учителя (иерархической кластеризации) для сегментации производственно-экономических показателей пенитенциарной системы. Основным инструментом для реализации иерархической кластеризации явился язык программирования и статистической обработки — R (обработка данных проводилась в интегрированной среде разработки R-Studio). Новизной работы является: во-первых, исследование производственно-экономических показателей пенитенциарной системы с отрывом от территориального уровня (другими словами – производственно-экономические показатели были рассмотрены как часть глобальной системы, а не часть федеральных округов или территориальных органов уголовно-исполнительной системы), во-вторых, применение актуальных методов машинного обучения для сегментации и разделения на группы значений объема производства товаров, выполненных работ и оказанных услуг, связанный с привлечением осужденных к труду. Основными научными результатами в ходе проведенной работы явились: разработанный алгоритм для проведения иерархической кластеризации именно для пенитенциарной системы; сформированный ряд правил и норм по: выбору параметров, обработке данных, выборе гиперпараметров иерархической кластеризации. Кроме того, были выявлены новые зависимости для более глобального рассмотрения производственно-экономических показателей.
Скачивания
Библиографические ссылки
Brian S.E., Sabine Landau, Morven Leese, Daniel Stah. 2011. Cluster Analysis. Wiley, 5th Edition. 71-110.
Bruce P., Bruce A., Gedeck P. 2020. Practical statistics for Data Scientists. O’Reilly. 363 p.
Hintze J.L. 1998. Violin Plots: A Box Plot – Density Trace Synergism. The American Statistician. 2(52): 181–84.
Hyndman R.J., Yanan Fan. 1966. Sample Quantiles in Statistical Packages. American Statistician. 4(50): 361–65.
Kabacoff R.I. 2011. R in action. Manning Publications Co. 451 p.
Kaufman L., Rousseeuw P. 1990. Finding Groups in Data: An Introduction to Cluster Analysis. Wiley. 335 p.
Legendre P. 2012. Numerical ecology. 3rd English ed. - Amsterdam: Elsevier. 990 p.
Metloff N. 2019. The art of R pogramming. Starch Press. 416 p.
Murtagh F. 1983. A survey of recent advances in hierarchical clustering algorithms. The Computer Journal. №26. 354–359.
Murtagh F., Contreras P. 2017. Algorithms for hierarchical clustering: an overview. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 7(6): 1219.
Stekh Y., Kernytskyy A., Lobur M. 2006. Hierarchical clustering algorithms for large datasets. Modern Problems of Radio Engineering, Telecommunications and Computer Science Proceedings of International Conference, TCSET 2006. 388-390.
Tukey J.W. 1962. The Future of Data Analysis. The Annals of Mathematical Statistics. № 1. 1–67.
Tukey J.W. 1977. Exploratory Data Analysis. Reading, Mass.: Addison Wesley. 688 p.
Ward J.H. 1963. Hierarchical grouping to optimize an objective function. J. of the American Statistical Association. 236 p.
Wishart D. 1969. An algorithm for hierachical classifications, Biometrics 25, 165–170.
Просмотров аннотации: 78
Поделиться
Опубликован
Как цитировать
Выпуск
Раздел
Copyright (c) 2023 Экономика. Информатика
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.