Метод выбора модели машинного обучения на основе устойчивости предикторов с применением значения Шепли

Авторы

  • Александр Викторович Воробьев Курский государственный университет

DOI:

https://doi.org/10.52575/2687-0932-2021-48-2-350-359

Ключевые слова:

машинное обучение, ансамблевые алгоритмы, значение Шепли, точность модели, устойчивость к шуму данных

Аннотация

В статье рассмотрено использование вектора Шепли в регрессионном анализе как метода, снижающего дестабилизирующие воздействие мультиколлинеарности предикторов, а также его применение в интерпретации машинного обучения. Определены ограничения его применения. На основе значений Шепли предложен метод выбора стабильной модели, позволяющий стабилизировать показатели точности моделей при искажении предикторов и шумов, повышать показатели точности при снижении набора данных на классических и модернизированных ансамблевых алгоритмах. Испытания разработанного алгоритма проводились как на синтезированных, так и на общедоступных популярных DataSet для машинного обучения, с различной размерностью по количеству атрибутов и периодам наблюдений. В экспериментах наблюдался устойчивый положительный эффект, выраженный в сокращении взвешенной абсолютной процентной ошибки прогнозирования и рост данного эффекта при увеличении атрибутной размерности выборки. Предложенный алгоритм может выступать в качестве инструмента повышения эффективности ансамблевых алгоритмов машинного обучения, в том числе в высокоэффективных и высокоскоростных.

Биография автора

Александр Викторович Воробьев, Курский государственный университет

аспирант кафедры ПОАИС

Библиографические ссылки

Багутдинов Р.А., Саргсян Н.А., Красноплахтыч М.А. 2020. Аналитика, инструменты и интеллектуальный анализ больших разнородных и разномасштабных данных. Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. 47 (4): 792–802.

Конкурсная платформа по исследованию данных Kaggle Machine Learning Competition Platform (Google). 2020. [Электронный ресурс]. URL: https://www.kaggle.com/datasets (Дата обращения 04.10.2020).

Михеенко А.М., Савич Д.С. 2020. Вестник Балтийского федерального университета им. И. Канта. Сер.: Физико-математические и технические науки. № 2. 84–94.

Ресурс данных для машинного обучения Data.world. 2020. [Электронный ресурс]. URL:https://data.world/ (Дата обращения 26.11.2020).

Aas K., Jullum M., LØland A.2021. Explaining individual predictions when features are dependent: More accurate approximations to shapley values. Artificial Intelligence. 298:103502. DOI10.1016/j.artint.2021.103502.

Alvin E. Roth. 1988. The Shapley value: essays in honor of Lloyd S. Shapley. Cambridge University Press. ISBN0-521-36177-X.

Bochkarev V., Tyurin V., Savinkov A., Gizatullin B. 2018. Application of the LASSO algorithm for fitting the multiexponential data of the NMR relaxometry. Journal of Physics Conference Series. 1141(1):012148. DOI10.1088/1742-6596/1141/1/012148.

Chen T., Guestrin C. 2016. XGBoost: A Scalable Tree Boosting System. arXiv:1603.02754. DOI 10.1145/2939672.2939785.

Ghasemi J.B. Tavakoli H. 2013. Application of Random Forest Regression to Spectral Multivariate Calibration. Analytical Methods. 5 (7):1863–1871. DOI10.1039/C3AY26338J.

Hoerl R. 1987.The Application of Ridge Techniques to Mixture Data: Ridge Analysis. Technometrics. 29 (2):161–172. DOI10.1080/00401706.1987.10488207.

Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Tie-Yan Liu. 2017. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Advances in Neural Information Processing Systems 30 (NIPS).

Landinez-Lamadrid D.C., Ramirez-Ríos D.G., Neira Rodado D., Parra Negrete K. and Combita Niño J.P. 2017. Shapley Value: its algorithms and application to supply chains. INGE CUC, 13 (1): 61–69.

Mason Ch. H., Perreault Jr. W.D. 1991.Collinearity, power, and interpretation of multiple regression analysis. Journal of Marketing Research. 28: 268–280.

Merrick L. and Taly A. 2020. The Explanation Game: Explaining Machine Learning Models Using Shapley Values. Fiddler Labs, Palo Alto, USA. arXiv:1909.08128. DOI10.1007/978-3-030-57321-8_2.

Simske S. J. 2015.The rationale for ensemble and meta-algorithmic architectures in signal and information processing. APSIPA Transactions on Signal and Information Processing. 4: 1–9. DOI10.1017/ATSIP.2015.10.


Просмотров аннотации: 202

Опубликован

2021-06-30

Как цитировать

Воробьев, А. В. (2021). Метод выбора модели машинного обучения на основе устойчивости предикторов с применением значения Шепли. Экономика. Информатика, 48(2), 350-359. https://doi.org/10.52575/2687-0932-2021-48-2-350-359

Выпуск

Раздел

СИСТЕМНЫЙ АНАЛИЗ И УПРАВЛЕНИЕ